Distribuição normal

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa
NoFonti.svg
Este artigo cita fontes fiáveis e independentes, mas que não cobrem todo o conteúdo (desde agosto de 2011). Por favor, adicione mais referências e insira-as corretamente no texto ou no rodapé. Material sem fontes poderá ser removido.
Encontre fontes: Google (notícias, livros e acadêmico)
A área em azul escuro está a menos de um desvio padrão (σ) da média. Em uma distribuição normal, isto representa cerca de 68% do conjunto, enquanto dois desvios padrões desde a média (azul médio e escuro) representam cerca de 95%, e três desvios padrões (azul claro, médio e escuro) cobrem cerca de 99.7%. Este fato é conhecido como regra 68-95-99.7, ou a regra empírica, ou a regra dos 3-sigmas.

A distribuição normal é uma das mais importantes distribuições da estatística, conhecida também como Distribuição de Gauss ou Gaussiana.[1] [2] [3] [4] [5] Foi primeiramente introduzida pelo matemático Abraham de Moivre.

Além de descrever uma série de fenômenos físicos e financeiros, possui grande uso na estatística inferencial. É inteiramente descrita por seus parâmetros de média e desvio padrão, ou seja, conhecendo-se estes valores consegue-se determinar qualquer probabilidade em uma distribuição Normal.

Um interessante uso da Distribuição Normal é que ela serve de aproximação para o cálculo de outras distribuições quando o número de observações fica grande. Essa importante propriedade provém do Teorema do Limite Central que diz que "toda soma de variáveis aleatórias independentes de média finita e variância limitada é aproximadamente Normal, desde que o número de termos da soma seja suficientemente grande" (ver o teorema para um enunciado mais preciso).

História[editar | editar código-fonte]

A distribuição normal foi introduzida pela primeira vez por Abraham de Moivre em um artigo no ano 1733, que foi reproduzido na segunda edição de seu The Doctrine of Chances (1738) no contexto da aproximação de distribuições binomiais para grandes valores de n. Seu resultado foi estendido por Laplace, em seu livro Analytical Theory of Probabilities (1812), e agora é chamado o teorema de Moivre-Laplace.

Laplace usou a distribuição normal na análise de erros de experimentos. O importante método dos quadrados mínimos foi introduzido por Legendre, em 1805. Gauss, que alegou ter usado o método desde 1794, demonstrou-o rigorosamente em 1809 supondo uma distribuição normal para os erros.

O nome "curva em forma de sino" ou "curva de sino" remonta a Esprit Jouffret que primeiro utilizou o termo "superfície de sino" em 1872 para um normal bivariada com componentes independentes (atentar que nem toda curva de sino é uma gaussiana). O nome "distribuição normal", foi inventado independentemente por Charles S. Peirce, Francis Galton e Wilhelm Lexis, por volta de 1875.

Função de densidade de probabilidade[editar | editar código-fonte]

A função densidade de probabilidade da distribuição normal com média \mu e variância \sigma^2 (de forma equivalente, desvio padrão \sigma) é assim definida,


f(x,\mu,\sigma)
=
\frac{1}{\sqrt{2\pi\sigma^2}} \, e^{\left( -\frac{(x- \mu)^2}{2\sigma^2} \right)}
, -\infty <x<\infty , \sigma >0.

Se a variável aleatória X segue esta distribuição escreve-se: X ~ N(\mu, \sigma^2). Se \mu = 0 e \sigma = 1, a distribuição é chamada de distribuição normal padrão e a função de densidade de probabilidade reduz-se a,

f(x) = \frac{1}{\sqrt{2\pi}} \, e^{\left(-\frac{x^2}{2} \right)}.

Propriedades[editar | editar código-fonte]

Sejam a e b constantes conhecidas.

  • Se X segue uma distribuição normal, X ~ N(\mu, \sigma^2), então aX + b ~ N(a\mu + b, a^2 \sigma^2).
  • Se X e Y são variáveis aleatórias independentes que seguem distribuição normal, então a soma U = X + Y, a diferença V = X - Y ou qualquer combinação linear W = a X + b Y também são variáveis aleatórias com distribuição normal.
    • É fácil construir exemplos de distribuições normais X e Y dependentes (mesmo com correlação zero) cuja soma X + Y não é normal. Por exemplo, seja X uma distribuição normal padrão (média 0 e variância 1), então fixando-se um número real positivo a, seja Ya definida como X sempre que |X| < a e -X sempre que |X| ≥ a. Obviamente, Ya também é uma normal e X + Ya é uma variável aleatória que nunca pode assumir valores de módulo acima de 2 a (ou seja, não é normal). Quando a é muito pequeno, X e Y são praticamente opostas, e sua correlação é próxima de -1. Quando a é muito grande, X e Y são praticamente idênticas, e sua correlação é próxima de 1. Como a correlação entre X e Ya varia continuamente com a, existe um valor de a para o qual a correlação é zero.
  • A soma de uma grande quantidade de variáveis aleatórias (com algumas restrições) tende a uma distribuição normal - o significado mais preciso disto é o Teorema do Limite Central.
  • A distribuição normal é infinitamente divisível, no seguinte sentido: se X é uma variável aleatória que segue uma distribuição normal e n é um número natural, então existem n variáveis aletórias X_1, X_2, \ldots X_n\,, independentes e identicamente distribuídas, tal que
X = X_1 + X_2 + \ldots + X_n\,

Distribuições relacionadas[editar | editar código-fonte]

Simulação[editar | editar código-fonte]

Implementações computacionais do Método de Monte Carlo normalmente precisam simular várias variáveis aleatórias normais. Muitos programas e pacotes não conseguem simular diretamente a normal, mas têm simuladores da distribuição uniforme. Uma forma rápida e prática de gerar normais a partir da uniforme é a transformação de Box-Muller: sejam U_1 e U_2 valores independentes gerados pela distribuição uniforme entre 0 e 1. Então:

Z_1 = \sqrt{-2 \ln U_1} \cos(2 \pi U_2)\,

e

Z_2 = \sqrt{-2 \ln U_1} \sin(2 \pi U_2).\,

são normais padronizadas independentes.

Linguagens de programação[editar | editar código-fonte]

Várias linguagens de programação, planilhas e pacotes estatísticos incluem simulações da normal.

  • No Excel anterior ao Pacote Office 2007, não existe uma função que gere normais. Isto pode ser contornado:
    • Usando-se a função ALEATÓRIO() e invertendo a distribuição acumulada: INV.NORMP(ALEATÓRIO())
    • Com Ferramentas → Análise de Dados → Geração de números aleatórios, geram-se normais, que se tornam constantes na planilha
  • Em R (linguagem de programação), um vetor de n observações de uma variável aleatória com distribuição normal é gerado por rnorm(n,m,s), onde m é a média e s é o desvio padrão.
  • Em Matlab e Octave, uma matriz n x n de normais é gerada por randn(n). Uma matriz m x n é gerada por randn([m n]).

Referências

  1. A distribuição NormalUniversidade Federal do Paraná - acessado em 19 de agosto de 2011
  2. Distribuição normal Conceito de probabilidade Site UOL Educação - acessado em 19 de agosto de 2011
  3. Dstrib normnal MSPC - Informações Técnicas - acessado em 19 de agosto de 2011
  4. Distribuições de Probabilidade Depto Matemática da Univ. de Aveiro - acessado em 19 de agosto de 2011
  5. Estatística Distribuição normal Instituto Goiano de Matemática - acessado em 19 de agosto de 2011

Ligações externas[editar | editar código-fonte]


Ícone de esboço Este artigo sobre matemática é um esboço. Você pode ajudar a Wikipédia expandindo-o.