Usuária:MCarrera (NeuroMat)/Testes/Desvio padrão (fórmulas)
Em probabilidade, o desvio padrão ou desvio padrão populacional (comumente representado pela letra grega ) é uma medida de dispersão em torno da média populacional de uma variável aleatória. Em estatística, o desvio padrão ou desvio padrão amostral (comumente representado pela letra Latina ) é uma medida de dispersão dos dados em torno de média amostral. Um baixo desvio padrão indica que os pontos dos dados tendem a estar próximos da média ou do valor esperado.[1] Um alto desvio padrão indica que os pontos dos dados estão espalhados por uma ampla gama de valores. O desvio padrão populacional ou amostral é a raiz quadrada da correspondente variância populacional ou amostral, de modo a ser uma medida de dispersão que seja número não negativo e que use a mesma unidade de medida dos dados fornecidos.[2][3][4]
Em probabilidade e estatística, o desvio padrão é usado para expressar outros conceitos matemáticos importantes como o coeficiente de correlação, o coeficiente de variação ou a alocação ótima de Neyman entre outros. Há também outras medidas de desvio como o desvio médio absoluto, que fornecem propriedades matemáticas diferentes a partir do desvio padrão.[5] O desvio padrão é mais simples, porém mais robusto que o desvio médio absoluto na prática.[6][7] Além de expressar a variabilidade da população, o desvio padrão comumente é usado para medir a confiança em cálculos estatísticos e geralmente permite sintetizar os resultados de uma experiência repetida várias vezes. Por exemplo, a margem de erro de um conjunto de dados é determinada pelo cálculo do desvio padrão da média ou do desvio padrão populacional inverso da raiz quadrada do tamanho da amostra, se a mesma pesquisa for repetida várias vezes.
Essa derivação do desvio padrão geralmente é chamada de erro padrão da estimativa ou erro padrão da média (em referência à média). O erro padrão da média é calculado a partir do desvio padrão das médias, as quais poderiam ser computadas a partir de uma população se um número infinito de amostras e uma média para cada amostra fossem considerados. A margem de erro de uma pesquisa é calculada a partir do erro padrão da média (produto do desvio padrão da população e do inverso da raiz quadrada do tamanho da amostra), e cerca do dobro do erro padrão da média é a metade da largura de 95% do intervalo de confiança para média (populacional). O desvio padrão populacional e o desvio padrão populacional da média amostral da mesma população são diferentes, porém relacionados pelo inverso da raiz quadrada do número de observações.
O desvio padrão é calculado em todas as áreas que usam probabilidade e estatística, em particular biologia, finanças, físicas e pesquisas em geral. Em ciência, os pesquisadores comumente reportam o desvio padrão dos dados experimentais, em geral, apenas os efeitos mais de dois desvios padrão distantes do esperado são considerados estatisticamente significativos – por meio de erro aleatório normal ou variação nas medições pode-se distinguir os efeitos prováveis de efeitos genuínos. Quando apenas uma amostra dos dados da população está disponível, o termo desvio padrão da amostra ou desvio padrão amostral pode referir–se tanto à quantidade mencionada acima quanto à uma quantidade modificada que seja uma estimativa não viesada do desvio padrão populacional. Quando o desvio padrão populacional não é conhecido, o seu valor é aproximado por meio de desvio padrão amostral.
História
[editar | editar código-fonte]O desvio padrão é uma grandeza que remete ao século XIX, com o desenvolvimento da estatística no Reino Unido. O conceito medida de dispersão foi criado por Abraham de Moivre e usado em seu livro The Doctrine of Chances em 1718.[8] O termo desvio padrão foi usado pela primeira vez por Karl Pearson em 1894[9][10], em substituição a termos anteriores como erro médio, utilizado por Carl Friedrich Gauss.[11] O símbolo também foi utilizado pela primeira vez por Karl Pearson para representar o desvio padrão.[10]
Em 1908, Wiliam Gosset (mais conhecido sob o pseudônimo Student) definiu o desvio padrão empírico de uma amostra e mostrou que a distinção entre o desvio padrão da amostra e o desvio padrão da população é importante.[10] Somente em 1918, Ronald Fisher definiu a noção da variância no texto The Correlation between Relatives on the Supposition of Mendelian Inheritance.[12]
Em probabilidade
[editar | editar código-fonte]Definição
[editar | editar código-fonte]Seja uma variável aleatória com média e valor esperado . esperança E-maiúsculop de x-maiúsculo igual a mi-minúsculo Então, o desvio padrão de pela definição é a raiz quadrada da variância de ou a raiz quadrada do valor médio de abre aprendesse, xis-maiusculo menos alpha-minúsculo, fecha parênteses, elevado a dois.
sigma minúsculo é definido como a raiz quadrada da variância, soletrar V-A-R de xis-maiúsculo.
Igual a raiz quadrada da esperança E de abre aprendesse, xis-maiusculo menos alpha-minúsculo, fecha parênteses, elevado a dois. maiúsculo.
Igual a raiz quadrada de, esperança e-maiúsculo de xis-maiúsculo elevado a dois, mais, esperança e-maiúsculo de menos dois vezes alpha minúsculo vezes xis-maiúsculo, mais esperança e-maiúsculo de mi-minúsculo.
Igual a raiz quadrada da esperança e-maiúsculo de xis-maiúsculo ao quadrado, menos, dois vezes mi-minúsculo, vezes e-maiúsculo de xis-maiúsculo, mais, mi-minúsculo ao quadrado.
igual a raiz quadrada da esperança e-maiúsculo de xis-maiúsculo ao quadrado menos dois mi-minúsculo ao quadrado, mais mi-minúsculo ao quadrado.
igual a raiz quadrada da esperança e-maiúsculo de xis-maiúsculo ao quadrado menos mi-minúsculo ao quadrado.
Igual a raiz quadrada da esperança e-maiúsculo de xis-maiúsculo ao quadrado menos, abre parênteses da esperança e-maiúsculo de xis-maiúsculo, fecha parênteses, elevado a dois.
A fórmula foi derivada a partir das propriedades da esperança.
Desvio padrão de variável aleatória discreta
[editar | editar código-fonte]Quando é uma variável aleatória de um conjunto de dados finito , com cada valor tendo a mesma probabilidade razão de do número um por n-maiúsculo, o desvio padrão é
, sigma minúsculo. Igual a raiz quadrada de, a arzão do número um por n-maiúsculo vezes a somatória sigma-maiúsculo de i-minúsculo igual ao número um até n-maiúsculo quando, abre parêntesis, xis-minúsculo sub-escrito i-minúsculo menos mi-minúsculo, fecha parêntesis, elevado a dois,
em que é a esperança de variável , . b mi-minúsculo. igual a esperança e-maúsculo de xis-maiúsculo. Igual a razão do número um por n-maiúsculo vezes a somatória sigma maiúsculo de i-minúsculo até n-maiúsculo quando x-minúsculo sub-escrito i-minúsculo.
Se os valores tiverem probabilidades diferentes em vez de probabilidade iguais (se tiver probabilidade , se tiver probabilidade , ... , se tiver probabilidade ), o desvio padrão é
, sigma minúsculo. Igual a raiz quadrada de, somatória sigma-maiúsculo de i-minúsculo até n-maiúsculo quando p-minúsculo sub-escrito, abre parêntesis, x-minúsculo sub-escrito i-minúsculo menos mi-minúsculo, fecha parêntesis, elevado ao quadrado.
em que . mi-minúsculo igual a omatória sigma-maiúsculo de i-minúsculo até n-maiúsculo quando p-minúsculo sub-escrito i-minúsculo vezes x-minúsculo sub-escrito i-minúsculo
Desvio padrão de variável aleatória contínua
[editar | editar código-fonte]O desvio padrão de uma variável aleatória contínua com função densidade é
, sigma-minúsculo igual a raiz cuadrada de, integral nos números reais r-maiúsculo de, abre paréntesis de x-minúsculo menos mi-minúsculo, fecha paréntesis, elevado a dois, vezes a função p-minúsculo de x-minúsculo diferencial em x-minúsculo,
em que . mi-minúsculo igual a esperança e-maiúsculo de xis-maiúsculo. Igual a integral nos números reais r-maiúsculo de x-minúsculo, vezes a função p-minúsculo de x-minúsculo diferencial em x-minúsculo.
No caso de uma família paramétrica de uma distribuição, o desvio padrão pode ser expresso em termos de parâmetros. Por exemplo, no caso da distribuição log–normal com parâmetros e , com com distribuição normal com parâmetros e , o desvio padrão é . abre colchetes, função exponencial (soletrar E-X-P) de sigma-minúsculo elevado ao número dois, menos o número um, vezes a função exponencial (soletrar E-X-P) de duas vezes mi-minúsculo mais sigma-minúsculo elevado a dois, fecha colchetes. Elevado a razão do número um por dois.
Desvio padrão de distribuições de probabilidade conhecidas
[editar | editar código-fonte]Distribuição | Parâmetros | Descrição | Desvio padrão |
---|---|---|---|
Distribuição de Bernoulli[13] | Distribuição discreta de valor 0 com probabilidade e 1 com probabilidade . | sigma-minúsculo igual a raiz quadrada de p-minúsculo vezes, abre aperentesis, número um menos p-minúsculo, fecha parentesis) | |
Distribuição binomial[14] | e p-minúsculo e n-minúsculo pertencem ao conjunto dos numeros naturais exceto o número zero | Distribuição da soma de variáveis independentes de acordo com a distribuição de Bernoulli de parâmetro . | sigma-minúsculo igual a raiz quadrada de n-miúsculo vezes p-minúsculo vezes, abre aperentesis, número um menos p-minúsculo, fecha parentesis) |
Distribuição geométrica[15] | Distribuição discreta em ,conjunto dos números naturais n-maiúsculo tal que a probabilidade de se obter o número inteiro é abre aperentesis, número um menos p-minúsculo, fecha parentesis, vezes p-minúsculo elevado a n-minúsculo. | sigma-minúsculo igual a raiz quadrada da razão de o número um menos p-minúsculo por p-minúsculo elevado a dois | |
Distribuição uniforme[16] | a-minúsulo menor do que b-minúsculo | Distribuição uniforme contínua em conjunto dos números reais r-maiúsculo , cuja densidade é um múltiplo da função indicadora de intervalo fechado de a até b. | sigma-minúsculo igual a razão de b-minúsculo menos a-minúsculo por raiz quadrada de doze |
Distribuição exponencial[16] | Distribuição uniforma contínua com suporte , conjunto dos números positivos reais r-maiúsculo cuja densidade é a função. função com variável x-minúsculo definida pela lei de formação p-minúsculo vezes exponencial (soletrar E-X-P) vezes, abre parentesis menos p-minúsculo vezes x-minúsculo, fecha parentesis | sigma-minúsculo igual a razão do número um por p-minúsculo | |
Distribuição de Poisson[17] | Distribuição em , cuja densidade é a função função com variável x-minúsculo definida pela lei de formação exponencial (soletrar E-X-P) vezes, abre parentesis menos lambda-minúsculo vezes x-minúsculo, fecha parentesis vezes a razão de lambda-minúsculo elevado a x-minúsculo por fatorial de x-minúsculo, em que conjunto dos números positivos reais r-maiúsculo. | sigma-minúsculo igual a raiz quadrada de lambda-minúsculo | |
Distribuição qui-quadrado[18] | Distribuição em conjunto dos números positivos reais r-maiúsculo, cuja densidade é a função função com variável x-minúsculo definida pela lei de formação razão do número um por dois elevado a razão de n-minúsculo por dois . Vezes gama-maiúsculo vezes a razão de n-minúsculo por dois. Vezes x-minúsculo elevado n-minúsculo por dois vezes e-minúsculo elevado a menos a razão de x-minúsculo por dois para todo positivo, em que gama-maiúsculo é a função gama. | sigma-minúsculo igual a raiz quadrada de dois vezes n-minúsculo |
O desvio padrão de uma distribuição de probabilidade univariada é igual ao desvio padrão de uma variável aleatória com a mesma distribuição. Nem todas as variáveis aleatórias possuem desvio padrão, uma vez que os valores esperados podem não existir. Por exemplo, o desvio padrão de uma variável que segue uma distribuição de Cauchy é indefinido porque seu valor esperado é indefinido.[19]
Propriedades
[editar | editar código-fonte]- O desvio padrão é sempre positivo ou nulo. O desvio padrão de uma constante é nulo.
- O desvio padrão de uma variável aleatória a qual foi adicionada uma constante é igual ao desvio padrão da variável aleatória , uma propriedade chamada invariante por translação.
- O desvio padrão de uma variável multiplicada por uma constante positiva é igual a constante multiplicada pelo desvio padrão da variável, uma propriedade chamada invariante por dilatação[20], que pode ser resumida como . sigma-minúsculo sub-escrito x-minúsculo vezes x-maiúsculo mais b-minúsculo. Igual a c-minúsculo vezes sigma-minúsculo sub-escrito x-maiúsculo Propriedades como invariante de dilatação são consequências diretas do teorema de Huygens e das propriedades de valor esperado.
- O desvio padrão da soma algébrica de duas variáveis é igual a sigma-minúsculo sub-escrio x-maiúsculo mais y-maiúsculo. Igual a raiz quadrada de sigma-minúsculo elevado a dois sub-escrito x-maiúsculo, mais, sigma-minúsculo elevado a dois sub-escrito y-maiúsculo, mais, dois vezes sigma-minúsculo sub-escrito x-maiúsculo vezes sigma-minúsculo sub-escrito y-maiúsculo vezes rho-minúsculo, abre parentesis, x-maiúsculo vírgula y-maiúsculo, fecha parentesis , em que rho-minúsculo, abre parentesis, x-maiúsculo vírgula y-maiúsculo, fecha parentesis é o coeficiente de correlação entre as duas variáveis e .[21]
- O desvio padrão segue a desigualdade triangular . sigma-minúsculo sub-escrito x-maiúsculo mais y-maiúsculo, menor ou igual do que sigma-minúsculo sub-escrito x-maiúsculo mais sigma-minúsculo sub-escirto y-maiúsculo Existe igualdade se e apenas se existe uma relação linear quase certa entre as duas variáveis: . y-maiúsculo igual a c-minúsculo vezes x-maiúsculo mais b-minúsculo A desigualdade decorre da desigualdade anterior e da desigualdade . menos o número um, menor ou igual do que rho-minúsculo, abre parentesis, x-maiúsculo, vírgula, y-maiúsculo, fecha paréntesis menor ou igual do que o número um.
- A função dominio do conjunto dos números reias r-maiúsculo para contra-dominíio o conjunto positivo dos números reias r-maúsculo, ela que, a variável c-minúsculo está definida pela orden raiz quadrada de, abre barra vertical, modulo, x-maiúsculo menos c-minúsculo, fecha barra vertical, elevado a dois. admite o ponto mínimo . c-minúsculo igual a esperança e-maiúsculo de x-maiúsculo Portanto, assume no ponto o valor do desvio padrão da variável aleatória .[22]
Usos
[editar | editar código-fonte]Em probabilidade, o desvio padrão compara as variáveis ou as suas distribuições.
Variável centrada reduzida
[editar | editar código-fonte]Se é uma variável aleatória com desvio padrão não nulo, é possível faze–la corresponder a variável aleatória centrada reduzida. z-maiúsculo igual a razão de x-maiúsculo menos, barra horizontal sobre x-maiúsculo por sigma minúsculo. Duas variáveis aleatórias centradas e reduzidas e são fáceis de comparar, uma vez que e .[23] esperança e-maiúsculo do i-ésimoz-maiúsculo, igual a zero e sigma-minúsculo sub-escrito i-ésimo z-maiúsculo, igual ao número um.
O teorema central do limite é o limite de uma sequência de variáveis aleatórias centradas reduzidas,[24] os coeficientes de assimetria e a curtose de uma densidade de probabilidade e são usados para comparar diferentes distribuições.[25]
Coeficiente de correlação
[editar | editar código-fonte]O coeficiente de correlaçào é outra aplicação do desvio padrão em probabilidade. Se e são duas variáveis aleatórias, o coeficiente de correlação , rho-minúsculo, igual a covariância (soletrar C-O-V) de, abre parêntesis, x-maiíusculo, vírgula, y-maiúsculo, fecha parêntesis por sigma-minúsculo sub-escrito x-maiúsculo vezes sigma-minúsculo sub-escrito y-maiúsculo em que , covariância (soletrar C-O-V) de, abre parêntesis, x-maiusculo, vírgula, y-maiúsculo, fecha parêntesis, igual a esperança e-maiúsculo de, abre colchetes, abre parêntesis, x-maiúsculo menos esperança e-maiúsculo de x-maiúsuclo, fecha parêntesis, vezes, y-maiúsculo menos esperança e-maiúsculo de y-maiúsculo, fecha parêntesis, fecha colchetes. Igual a esperança e-maiúsculo de x-maiúsculo vezes y-maiúsculo, menos esperança e-maiúsculo de x-maiúsculo vezes a esperança e-maiúsculo de y-maiúsculo é a covariância das variáveis aleatórias
De acordo com a desigualdade de Cauchy–Schwarz , covariância (soletrar C-O-V) de, abre parêntesis, x-maiíusculo, vírgula, y-maiúsculo, fecha parêntesis, menor ou igual do que sigma-minúsculo sub-escrito x-maiúsculo vezes sigma-minúsculo sub-escrito y-maiúsculo é possível afirmar que
Desigualdade de Bienaymé–Tchebychev
[editar | editar código-fonte]É por meio da desigualdade de Bienaymé–Tchebychev que o desvio padrão aparece como uma medida de dispersão em torno da média. A desigualdade de Bienaymé–Tchebychev afirma que função de probabilidade p-maiúsculo a qual está definida por,abre parêntesis, abre barra vertical barra vertical, módulo, x-maiúsculo menos esperança e-maiúsculo de x-maiúsculo, fecha barra vertical mais do que k-minúsculo vezes sigma-minúsculo, fecha parêntesis. Menor ou igual do que a razão do número um por k-minúsculo eivado a dois. e mostra que a probabilidade de desviar–se de esperança e-maiúsculo de x-minúsculo ao longo de desvios padrão é menor que.[26] razão do número um por k-minúsculo elevado a dois.
A desigualdade de Tchebychev afirma que, para todas as distribuições para as quais o desvio padrão é definido, o volume de dados dentro de uma quantidade de desvios padrão da média é pelo menos os mesmos que os da tabela a seguir.
Distância da média | População mínima |
---|---|
raiz quadrada de duas vezes sigma-minúsculo | 50% |
duas vezes sigma-minúsculo | 75% |
tres vezes sigma-minúsculo | 89% |
quatro vezes sigma-minúsculo | 94% |
cinco vezes sigma-minúsculo | 96% |
seis vezes sigma-minúsculo | 97% |
k-minúsculo vezes sigma-minúsculo | [27] número um menos a razão do número um por k-minúsculo elevado a dois |
razão do número um pela raiz quadrada do número um menos l-minúsculo, vezes sigma-minúsculo | l-minúsculo |
Em estatística
[editar | editar código-fonte]Para uma população finita e relativamente pequena, o cálculo do desvio padrão é puramente algébrico sem referência à probabilidade. A estatístico utiliza o desvio padrão empírico definido por .[28] s-minúsculo igual a raiz quadrada de, razão do número um por n-minúsculo vezes somatória sigma-maiúsculo com inicio em i-minúsculo igual ao número um até n-minúsculo de, abre parêntesis, i-ésimo x-minúsculo menor, barra horizontal sobre x-minúsculo, fecha parêntesis, elevado a dois.
Em estatística, a população é geralmente muito importante em número (não é possível conhecer todos os valores da população). Entre os recursos utilizados em amostragem e estimativa para avaliar os valores está o desvio padrão.
Interpretação
[editar | editar código-fonte]Um grande desvio padrão indica que os pontos dos dados estão espalhados longe da média e um pequeno desvio padrão indica que os pontos dos dados estão agrupados perto da média. Por exemplo, cada uma das três populações {0, 0, 14, 14}, {0, 6, 8, 14} e {6, 6, 8, 8} possui média 7. Os desvios padrão são 7, 5 e 1, respectivamente. A terceira população tem um desvio padrão menor porque seus valores são próximos de 7.
O desvio padrão tem a mesma unidade dos dados. Se, por exemplo, o conjunto de dados {0, 6, 8, 14} representar as idades de uma população de quatro irmão em anos, a média é de 7 anos e o desvio padrão é de 5 anos. Se, por exemplo, o conjunto de dados {1000, 1006, 1008, 1014} representar as distâncias percorridas por quatro atletas em metros, a média é de 1007 metros e o desvio padrão é de 5 metros.
O desvio padrão pode servir como medida de incerteza. Em ciências físicas, a precisão de medições repetidas é dada pelo desvio padrão. O desvio padrão é crucial para analisar se as medições batem com a previsão teórica – se a média das medições estiver muito longe da previsão teórica (distância medida pelo desvio padrão), então a teoria testada provavelmente precisa ser revisada.
Enquanto o desvio padrão mede a distância dos valores típicos da média, outras medidas estão disponíveis. É o exemplo do desvio médio absoluto, que pode ser considerado uma medida mais direta da distância da média em comparação à distância da raiz quadrada média inerente ao desvio padrão.
Interpretação geométrica
[editar | editar código-fonte]Seja uma população com três valores, . Seja um ponto p-maiúsculo igual a tripla x-um-minúsculo, x-dois-minúsculo, x-tres-minúsculo,em
Derivação de
|
---|
está em. Portanto com A linha deve ser ortogonal ao vetor de para . Portanto:
|
A distância entre e (igual à distância entre e ) raiz quadrada da i-ésima somatória sigma-maiúsculo de abre parentesis de, i-ésimo x-minúsculo menos barra horizontal sobre x-minúsculo, fecha parentesis, elevado a dois é igual ao desvio padrão do vetor multiplicado pela raiz quadrada do número de dimensões do vetor (3 dimensões, no caso).
l-maiúsculo, vezes, abre parentesis, p-maiúsculo menos m-maiúsculo, fecha parentesis, igual a zero.
abre parentesis, r-minúsculo, vírgula, r-minúsculo, vírgula, r-minúsculo, vírgula, fecha parentesis, vezes, abre parentesis, x-minúsculo-um menos l-minúsculo, vírgula, x-minúsculo-dois menos l-minúsculo, vírgula, x-minúsculo-tres menos l-minúsculo, fecha parentesis. Igual a zero.
r-minúsculo vezes, abre parentesis, x-um-minúsculo menos l-minúsculo mais x-dois-minúsculo menos l-minúsculo, vírgula, x-tres-minúsculo menos l-minúsculo, fecha parentesis. Igual a zero.
r-minúsculo vezes abre parentesis, i-ésima somatória sigma-maiúsculo de i-ésima x-minúsculo menos três vezes l-minúsculo, fecha parentesis. Igual a zero.
i-ésima somatória sigma-maiúsculo de i-ésimo x-minúsculo menos três vezes l-minúsculo igual a zero.
razão do número um por três vezes i-ésima somatória do i-ésimo x-minúsculo. Igual a l-minúsculo.
barra horizontal de x-minúsculo igual a l-minúsculo.
Regras para dados distribuídos normalmente
[editar | editar código-fonte]De acordo com o teorema central do limite, a distribuição da média de muitas variáveis aleatórias distribuídas independentemente e identicamente tende à distribuição normal
com função densidade f-minúsculo, abre parentesis, x-minúsculo, ponto e vírgula, mi-minúsculo, vírgula sigma-minúsculo elevado a dois igual a razão do número um por sigma-minúsculo vezes raiz quadrada de duas vezes pi-minúsculo, vezes e-minúsculo elevado a menos a razão do número um por dois, vezes, abre parentesis , razão de de x-minúsculo menos mi-minúsculo por sigma-minúsculo, fecha parentesis, elevado a dois. em que é o valor esperado das variáveis aleatórias, é igual aos desvios padrão das distribuições dividido por n-minúsculo elevado a razão do número um por dosi e é o número de variáveis aleatórias. Portanto, o desvio padrão é simplesmente uma variável escalonada que ajusta a amplitude da curva, embora ele apareça também na constante de normalização. Se a distribuição dos dados é aproximadamente normal, então a proporção dos valores dos dados dentro do desvio padrão da média é definida por soletrar E-R-F, abre parentesis de z-minúsculo por raiz quadrada de dois, fecha parentesis, em que é a função erro. Uma proporção que seja menor ou igual a um número é dada pela função cumulativa
.[29] x-minúsculo igual a razão do número um por dois vezes, abre colchetes número um mais, (soletrar) E-R-F, abre parentesis de x-minúsculo menos mi-minúsculo por sigma-minúsculo vezes raiz-quadrada de dois, fecha colchetes. Igual a razão do número um por dois, abre colchetes, o número um mais, (soletrar) E-R-F, abre parentesis, razão de z-minúsculo por raiz quadrada de de dois, fecha parentesis, fecha colchetes.
Se a distribuição dos dados é aproximadamente normal, então cerca de 68% dos valores dos dados estão dentro de um desvio padrão da média (, em que é a média aritmética), cerca de 95% estão dentro de dois desvios padrão () e cerca de 99,7% estão dentro de três desvios padrão (). Isto é conhecido como a regra empírica 68–95–99,7. Para vários valores de , as porcentagens dos valores esperado dentro ou fora do intervalo simétrico (soletrar) I-C, igual a, abre parentesis, menos z-minúsculo vezes sigma-minúsculo, vírgula, z-minúsculo vezes sigma-minúsculo são:
Intervalo de confiança | Proporção dentro | Proporção fora | |
---|---|---|---|
Porcentagem | Porcentagem | Fração | |
% 50 | % 50 | ||
68% | 32% | ||
68.2689492% | 31.7310508% | ||
80% | 20% | ||
90% | 10% | ||
95% | 5% | ||
95.4499736% | 4.5500264% | ||
99% | 1% | ||
99.7300204% | 0.2699796% | ||
99.9% | 0.1% | ||
99.99% | 0.01% | ||
99.993666% | 0.006334% | ||
99.999% | 0.001% | ||
99.9993204653751% | 0.0006795346249% | ||
% 99.9999 | % 0.0001 | ||
99.9999426697% | 0.0000573303% | ||
99.99999% | 0.00001% | ||
99.999999% | 0.000001% | ||
99.9999998027% | 0.0000001973% | ||
99.9999999% | 0.0000001% | ||
99.99999999% | 0.00000001% | ||
99.999999999% | 0.000000001% | ||
99.9999999997440% | 0.000000000256% |
Em resumo, de acordo com a regra dos 68–95–99,7, para uma distribuição normal unimodal, gaussiana, simétrica, de afunilamento médio ( mesocúrtica):
- 68% dos valores encontram–se a uma distância da média inferior a um desvio padrão.
- 95% dos valores encontram–se a uma distância da média inferior a duas vezes o desvio padrão.
- 99,7% dos valores encontram–se a uma distância da média inferior a três vezes o desvio padrão.
Exemplos
[editar | editar código-fonte]Desvio padrão da população total
[editar | editar código-fonte]Para um conjunto de dados finito, o desvio padrão é calculado a partir da raiz quadrada da média dos desvios entre os valores e a média dos valores dos dados elevado ao quadrado.
Sejam as notas de 8 estudantes (a população é ) 2, 4, 4, 4, 5, 5, 7, 9.
A média das notas dois oito estudantes é: .
Os desvios entre as nota e a média das notas elevados ao quadrado são:
A variância ou a média de todos os valores é:
O desvio padrão ou a raiz quadrada da variância é: . Isto é, o desvio padrão é igual a 2.
Desvio padrão da amostra da população
[editar | editar código-fonte]O cálculo da raiz quadrada da média dos desvios entre os valores e a média dos valores dos dados elevado ao quadrado é válido apenas se os valores formarem a população total. Se os valores forem parte de uma amostra aleatória extraída de uma população maior (por exemplo, 8 notas extraídas de uma sala de aula de 2 milhões de estudantes), então o denominador da fórmula da variância seria 7 () em vez de 8 () e o resultado seria chamado desvio padrão da amostra.
A divisão da soma dos desvios entre as notas e a média das notas por em vez de fornece uma estimativa não viesada do desvio padrão da população maior, o que é conhecido como correção de Bessel.[30]
Seja a altura média de um homem adulto nos Estados Unidos 1,78 metros com desvio padrão de 7 centímetros. Então, a maioria dos homens adultos dos Estados Unidos (cerca de 68%) tem entre 7 centímetros acima e 7 centímetros abaixo de 1,78 metros (entre 1,71 metros e 1,85 metros) – um desvio padrão – e praticamente todos os homens adultos dos Estados Unidos (cerca de 95%) tem entre 14 centímetros acima e 14 centímetros abaixo de 1,78 metros (entre 1,64 metros e 1,92 metros) – dois desvios padrão. Se o desvio padrão fosse 0 centímetros, então todos os homens adultos dos Estados Unidos teriam 1,78 metros. Se o desvio padrão fosse 50 centímetros, então os homens adultos dos Estados Unidos teriam uma variação muito maior de altura (entre 1,21 metros e 2,21 metros). Três desvios padrão representam 99,7% da amostra da população estudada, assumindo que é uma distribuição normal (em forma de sino).
Estimadores
[editar | editar código-fonte]Um estimador é uma função que aproxima–se de um parâmetro de uma população por meio de uma amostra aleatória.[31] Dois estimadores do desvio padrão são geralmente utilizados. Os estimadores ou e ou são expressos em função dos valores da amostra por
n-ésimo s-maiúsculo igual a raiz-quadrada da razão do número um por n-minúsculo vezes somatória com inicio i-minúsculo até n-minúsculo de abre aprendeis i-ésimo x-maiúsculo menos barra horizontal sobre x-maiúsculo, fecha parentesis, elevado a dois e . um anterior do n-éssimo s-maiúsculo, igual a raiz quadrada da razão do número um por n-miníusculo menos um vezes a somatória de i-minúsculo igual ao número um até n-minúsculo de, abre parentesis, i-ésimo sx-maiúsculo menos barra-horizontal sobre x-maiúsculo, fecha parentesis, elevado a dois. Igual a raiz quadrada da razão de n-minúsculo por n-minúsculo menos o número um.
é o estimador não viesado.[32][33]
Na verdade, uma boa estimativa do desvio padrão real seria sigma-minúsculo sub-escrito x-maiúsculo. Igual a raiz quadrada da razão do número um por n-minúsculo da somatória de sigma-maiúsculo com inicio de i-minúsculo igual ao número um até n-minúsculo de, abre parêntesis, i-ésimo x-minúsculo menos mi-minúsculo, fecha parentesis, elevado a dois, em que é a média da distribuição de . Muitas vezes a média não é conhecida e precisa ser calculada a partir da amostra pela fórmula . barra horizontal sobre x-minúsculo. Igual a razão do número um por n-minúsculo vezes a somatória sigma-maiúsculo com inicio em i-minúsculo até n-minúsculo de i-ésimo x-minúsculo Então, a estimativa do desvio padrão é calculado pela fórmula
. anterior do n-éssimo s-maiúsculo, igual a raiz quadrada da razão do número um por n-miníusculo menos um vezes a somatória de i-minúsculo igual ao número um até n-minúsculo de, abre parentesis, i-ésimo sx-maiúsculo menos barra-horizontal sobre x-maiúsculo, fecha parentesis, elevado a dois.
O denominador é em vez de (correção de Bessel) porque o cálculo da média de a partir da amostra perdeu um grau de liberdade, uma vez que a fórmula barra horizontal sobre x-minúsculo. Igual a razão do número um por n-minúsculo vezes a somatória sigma-maiúsculo com inicio em i-minúsculo até n-minúsculo de i-ésimo x-minúsculo liga
Propriedades dos estimadores
[editar | editar código-fonte]Duas propriedades importantes dos estimadores são a convergência e a falta de viés.[33] Se é um estimador do parâmetro , o viés será a quantidade . esperança e-maiúsculo de, acento circunflexo em teta-minúsculo menos teta minúsculo Se o valor for diferente de zero, significa que acento circunflexo em teta-minúsculo está posicionado em torno de
que tende a quando quando n-minúsculo tende ao infinito, em que gama-maiúsculo é a função gama.
Se limite quando n-minúsculo tende ao infinito da sequência n-ésimo a-minúsculo, igual a a-minúsculo, então sequência n-ésimo a-minúsculo converge (em distribuição, em média, em probabilidade, quase certamente) para a medida que aproxima–se do infinito. Entretanto, se e n-éssimo s-maiúsculo elevado a dois e s-maiúsculo sub-escrito n-minúsculo menos o número um elevado a dois são estimadores convergentes de sigma elevado a dois, refletindo a aproximação de sigma elevado a dois para as duas séries quando torna–se cada vez maior.[34] Com o teorema da continuidade, afirmando que se é contínua limite quando n-minúsculo tende ao infinito da função f-minúsculo do n-ésimo x-maiúsculo. Igual a função f-minúsculo do limite quando n-miúsculo tende ao infinito do n-ésimo x-maiúsculo (limite em probabilidade), a função raiz quadrada é contínua, os estimadores e n-éssimo s-maiúsculo elevado a dois e s-maiúsculo sub-escrito n-minúsculo menos o número um elevado a dois são convergentes também. O teorema da continuidade afirma se é ume função contínua, então , n-ésimo x-maiúsculo converge em probabilidade p-maiúsculo para x-maiúsculo. Implica-se que a função f-minúsculo do n-ésimo x-maiúsculo converge em probabilidade p-maiúsculo para função f-minúsculo de x-maiúsculo em que p-maiúsculo sobre seta horizontal para a direita denota convergência em probabilidade. Como a função raiz quadrada é uma função contínua, e n-éssimo s-maiúsculo elevado a dois e s-maiúsculo sub-escrito n-minúsculo menos o número um elevado a dois são estimadores convergentes do desvio padrão. Isto é, e .[35] s-maiúsculo sub-escrito n-minúsculo menos o número um elevado converge em probabilidade p-maiúsculo para sigma-minúsculo e n-ésimo s-maiúsculo converge em probabilidade p-maiúsculo para sigma-minúsculo.
Desvio padrão da média
[editar | editar código-fonte]A média e o desvio padrão de um conjunto de dados são estatísticas descritivas geralmente reportadas em conjunto. De uma certa maneira, o desvio padrão é uma medida natural de dispersão estatísticas se o centro dos dados for medido em relação à média. Isto porque o desvio padrão a partir da média é menor que o desvio padrão a partir de qualquer outro ponto. Seja números reais, definimos função sigma-minúsculo de r-minúsculo igual a raiz quadrada da razão do número um por n-minúsculo menos o número um vezes a somatória sigma-maiúsculo com inicio em i-minúsuclo igual ao número um até n-minúsculo de, abre parentesis, do i-ésimo x-minúsculo menos r-minúsculo, fecha parentesis eivado a dois. Usando cálculo ou completamento de quadrado, é possível mostrar que tem um mínimo único na média
A variabilidade também pode ser medida pelo coeficiente de variação, que é a razão entre o desvio padrão e a média. É um número adimensional.
Geralmente quer–se mais informações sobre a precisão da média obtida. Podemos obte–la determinando o desvio padrão da média amostral. Assumindo a independência estatística dos valores na amostra, o desvio padrão da média está relacionado ao desvio padrão da distribuição por sigma minúsculo, sub-escrito a palavra média. Igual a sigma-minúsculo por raiz quadrada de n-minúsculo, em que é o número de observações na amostra usado para estimar a média. Isso pode ser provado com:
variância (soletrar) V-A-R, abre parentesis, palavra média, fecha parentesis. Igual a variância (soletrar) V-A-R, abre parentesis, razão do número um por n-minúsculo vezes a somatória sigma-maiúsculo com inicio em i-minúsculo igual ao número um até n-minúsculo de i-ésimo x-maiúsculo, fecha parentesis. Igual a razão do número um por n-minúsculo ao quadrado vezes a variância (soletrar) V-A-R, abre parentesis da aomtória de i-minúsculo igual ao número umaté n-minúsculo do i-ésimo x-miaúsculo, fecha parentesis.
Isto resulta em sigma minúsculo, sub-escrito a palavra média. Igual a sigma-minúsculo por raiz quadrada de n-minúsculo
É importante ressaltar que para estimar o desvio padrão da média sigma minúsculo, sub-escrito a palavra média é necessário saber o desvio padrão de toda a população
Para estimar a exatidão da estimativa da média de uma variável, o método do cálculo do desvio padrão da distribuição da amostragem das médias é utilizado. Também chamado erro padrão da média e denotado como , é o desvio padrão das médias das amostras de tamanho idêntico de uma população. Se é o tamanho das amostras tomadas a partir do desvio padrão de uma população e se é o tamanho da população, então .[36] sigma minúsculo sub-escrito, barra horizontal sobre x-minúsculo. Igual a sigma-minúsculo por raiz cuadrada de n-minúsculo vezes a raiz quadrada da razão de n-maiúsculo menos n-minúsculo por n-maiúsculo menos o número um.
Quando o desvio padrão da população é desconhecido, ele pode ser substituído pelo estimador .[36] anterior do n-éssimo s-maiúsculo Quando
Há casos em que é possível encontrar o desvio padrão de uma população inteira como Teste Z, em que cada membro da população é amostrado. Em casos em que não é possível encontrar o desvio padrão , ele é estimado analisando uma amostra padrão extraída da população e calculando uma estatística da amostra, que é usada como uma estimativa do desvio padrão da população.
Entretanto, ao contrário da estimativa da média da população, para a qual a média amostra é um estimador simples com muitas propriedades desejáveis (não viesado, eficiente, máxima verossimilhança), não há um único estimador para o desvio padrão com todas estas propriedades, além de que um estimador não viesado do desvio padrão é um problema técnico. Frequentemente o desvio padrão é estimado usando o desvio padrão corrigido da amostra e geralmente é referido como o desvio padrão da amostra, sem qualificadores. Porém, outros estimadores são melhores em outros aspectos − o estimador com a correção () produz um erro quadrático médio mais baixo, enquanto o uso de correção para distribuição normal elimina quase completamente o viés.
Desvio padrão não corrigido da amostra
[editar | editar código-fonte]Primeiramente, a fórmula para o desvio padrão populacional de uma população finita pode ser aplicada à amostra usando o tamanho da amostra como o tamanho da população (embora o tamanho verdadeiro da população da qual a amostra é extraída possa ser muito maior). O estimador denotado como é conhecido como desvio padrão não corrigido da amostra ou às vezes como desvio padrão da amostra (considerado com a população inteira) e é definido como n-ésimo s-minúsculo igual a raiz quadrada da razão do número um por n-minúsculo vezes somatória sigma-maiúsculo com inicio em i-minúsuclo igual ao número um até n-minúsculo de, abre parentesis, do i-ésimo x-minúsculo menos barra horizontal sobre x-minúsculo, fecha parentesis elevado a dois em que
É um estimador consistente (converge em probabilidade para os valores da população à medida que o número de amostras tende ao infinito) e é a estimativa por máxima verossimilhança quando a população é normalmente distribuída. Entretanto, é um estimador viesado na medida em que as estimativas são geradas muito lentamente. O viés diminui conforme o tamanho da amostra aumenta, caindo para 1 / e, portanto, é mais significativo para tamanhos pequenos ou moderados de amostras. Para , o viés é menor que 1%. Então, para tamanhos muito grandes de amostras, o desvio padrão não corrigido da amostra é geralmente aceitável. O estimador também têm erro quadrático médio uniformemente menor que o desvio padrão corrigido da amostra.
Desvio padrão corrigido da amostra
[editar | editar código-fonte]Se a variância viesada da amostra (o segundo momento central da amostra, que é uma estimativa tendenciosa da variância populacional) é usada para calcular uma estimativa do desvio padrão da população, retirando a raiz quadrada, introduz−se mais vieses tendenciosos pela desigualdade de Jensen devido à raiz quadrada ser uma função côncava. O viés na variância é facilmente corrigido, mas o viés da raiz quadrada é mais difícil de ser corrigido e depende da distribuição em questão.
Um estimador não viesado da variância é dado pela aplicação da correção de Bessel, usando em vez de para gerar a estimativa da variância não viesada da amostra denotada como
s-minúsculo elevado a dois igual a razão do número um por n-minúsculo menos o número um vezes somatória sigma-maiúsculo com inicio em i-minúsuclo igual ao número um até n-minúsculo de, abre parentesis, do i-ésimo x-minúsculo menos barra horizontal sobre x-minúsculo, fecha parentesis eivado a dois
Retirando a raiz quadrada, reintroduz−se o viés porque a raiz quadrada é uma função não linear, que não é comutativa com a expectativa. Isto gera o desvio padrão corrigido da amostra denotado como
s-minúsculo. Igual raiz quadrada da razão do número um por n-minúsculo menos o número um vezes somatória sigma-maiúsculo com inicio em i-minúsuclo igual ao número um até n-minúsculo de, abre parentesis, do i-ésimo x-minúsculo menos barra horizontal sobre x-minúsculo, fecha parentesis eivado a dois
Enquanto é uma estimativa não viesada da variância populacional, é uma estimativa viesada do desvio padrão populacional embora notadamente menos viesado que o desvio padrão não corrigido da amostra. O viés continua sendo significativo para pequenas amostras () e também cai para à medida que o tamanho da amostra aumenta. Este estimador é comumente usado e geralmente conhecido simplesmente como desvio padrão da amostra.
Desvio padrão não viesado da amostra
[editar | editar código-fonte]Para estimativas não viesadas do desvio padrão, não há fórmula que aplique−se a todas as distribuições, ao contrário da média e da variância. é usado como uma base e é escalado por um fator de correção para produzir uma estimativa não viesada. Para a distribuição normal, um estimador não viesado é dado por , em que o fator de correção que depende de é dado em termos da função gama:
c-minúsculo sub-escrito o número quatro, abre parentesis, n-minúsculo, fecha parentesis, igual a raiz quadrada da razão do número dois por n-menos um. Vezes a razão de gama-maiúsculo, abre parentesis, razão de n-minúsculo por dois, fecha parentesis, por gama-maiúsculo, abre parêntesis, razão de n-minúsculo menos op número um por dois, fecha parentesis.
Isto ocorre porque a distribuição amostral do desvio padrão da amostra segue uma distribuição qui e o fator de correção é a média da distribuição qui. Uma aproximação pode ser dada pela substituição de por :
acento circunflexo em sigma-minúsculo. Igual a raiz quadrada da razão do número um por n-minúsculo menos o número um vírgula, cinco vezes somatória sigma-maiúsculo com inicio em i-minúsuclo igual ao número um até n-minúsculo de, abre parentesis, do i-ésimo x-minúsculo menos barra horizontal sobre x-minúsculo, fecha parentesis elevado a dois
O erro na aproximação cai quadraticamente para , e é adequado para todas as amostras, com exceção daquelas menores ou de menor precisão: para = 3, o viés é igual a 1,3% e para = 9 o viés é menor que 0,1%. Para outras distribuições, a fórmula correta depende da distribução, mas uma regra de ouro é usar o refinamento da aproximação:
acento circunflexo em sigma-minúsculo. Igual a raiz quadrada da razão do número um por n-minúsculo menos o número um vírgula cinco menos a razão do número um por quatro vezes gama-minúsculo sub-escrito o número dois, vezes somatória sigma-maiúsculo com inicio em i-minúsuclo igual ao número um até n-minúsculo de, abre parentesis, do i-ésimo x-minúsculo menos barra horizontal sobre x-minúsculo, fecha parentesis elevado a dois
em que denota o excesso de curtose da população, que pode pode ser tanto conhecido antecipadamente para certas distribuições quanto estimado a partir dos dados.
Intervalo de confiança do desvio padrão de uma amostra
[editar | editar código-fonte]O desvio padrão obtido a partir da distribuição amostral não é absolutamente preciso, tanto por razões matemáticas (aqui explicadas pelo intervalo de confiança) quanto por razões práticas de medição (erro de medição). O efeito matemático pode ser descrito pelo intervalo de confiança ou IC. Para mostrar como uma amostra maior tornara o intervalo de confiança menor, consideram−se os seguintes exemplos.
Uma pequena população de tamanho = 3 tem apenas um grau de liberdade para estimar o desvio padrão. O resultado é que um intervalo de confiança de 95% tem desvio padrão entre 0,45 e 31,90.
Os fatores são (soletrar) P-r, abre chaves, q-minúsculo sub-escrito a razão alpha por dois menor do que a razão de k-minúsculo vezes s-minúsculo elevado a dois por sigma-minúsculo elevado a dois menor do que q-minúsculo sub-escrito a razão do número um menos alinha-minúsculo por dois, fecha chaves, igual ao número um menos alpha-minúsculo
em que é o −ésimo quantil da distribuição qui−quadrado com grais de liberdade e é o nível de confiança. Isto é equivalente a
(soletrar) P-r, abre chaves, razão de, abre parentesis, k-minúsculo vezes s-minúsculo elevado a dois, fecha parentesis, por q-minúsculo sub-escrito o número menos a razão de alpha-minúsculo por dois. Menor do que sigma-minúsculo. Menor do que abre parentesis, k-minúsculo vezes s-minúsculo elevado a dois, fecha parentesis, por q-minúsculo sub-escrito alpha-minúsculo por dois. Fecha chaves. Igual ao número menos alpha-minúsculo.
Com = 1, = 0,000982 e = 5,024. As recíprocas da raiz quadrada desses dois números fornecem os fatores 0,45 e 31,90 dados acima.
Uma população maior de tamanho = 10 tem 9 graus de liberdade para estimar o desvio padrão. Os mesmos cálculos acima fornecem um intervalo de confiança de 95% com desvio padrão entre 0,88 e 1,16. Para ter mais certeza que o desvio padrão da amostra será próximo do desvio padrão real, é preciso amostrar um grande número de pontos. As mesmas fórmulas podem ser usadas para obter os intervalos de confiança da variância de resíduos a partir do método dos mínimos quadrados, que se encaixa na teoria normal padrão, em que é o número de graus de liberdade do erro.
Desvio padrão de desvio padrão empírico
[editar | editar código-fonte]Em geral, é muito difícil calcular a distribuição de probabilidade de desvio padrão empírico. Porém se n-ésimo x-maiúsculo é uma sequência de variáveis aleatórias distribuídas de acordo com a distribuição normal n-maiúsculo, abre parentesis, mi-minúsculo, vírgula, sigma-minúsculo elevado a dois , então n-minúsculo vezes a razão de n-ésimo s-maiúsculo elevado a dois por sigma-minúsculo elevado a dois segue uma distribuição de x-maiúsculo elevado a dois à grais de liberdade.[37] Esta lei é o desvio padrão raiz quadrada de duas vezes n-minúsculo. Portanto, o desvio padrão da distribuição das variações das variáveis normais é expresso .[37] sigma-minúsculo sub-escrito n-ésimo s-maiúsculo elevado a dois. Igual a sigma-minúsculo elevado a dois vezes raiz quadrada da razão de dois por n-minúsculo
Interpretação de um desvio padrão elevado
[editar | editar código-fonte]O conceito de desvio padrão elevado não tem sentido isoladamente. Ele não indica uma dispersão forte que se torna o valor adimensional quando dividido pela média.[38] Um desvio padrão elevado possivelmente pode indicar a existência de um outlier. Um critério consiste em rejeitar os valores que diferem da média em mais de três vezes o desvio padrão, o qual está sob a distribuição normal de uma probabilidade de exceder de .[39]
Pesquisas de opinião
[editar | editar código-fonte]Em pesquisas de opinião, o desvio padrão avalia a incerteza das variações acidentais de inerentes à pesquisa, chamada de margem de erro devido às variações acidentais.[40]
Além disso, com o método da amostragem representativa, quando os diferentes estratos têm desvios padrão muito diferentes, o desvio padrão é utilizado para calcular a repartição ótima de Neyman, que permite medir a população nos diferentes estratos em função do desvio padrão. Em outros termos, i-éssimo n-minúsculo. Igual a n-minúsculo vezes e razão do i-ésimo n-maiúsculo vezes o i-ésimo sigma-minúsculo por somatório de j-ésimo n-miúsculo vezes j-ésimo sigma-minúsculo é o tamanho da amostragem do estrato, é o tamanho total do estrato, i-éssimo n-meiúsculo é o tamanho do estrato e i-éssimo sigma minúsculo é o desvio padrão do estrato .[40]
Em algoritmo
[editar | editar código-fonte]O cálculo do desvio padrão para um programa de computador pode resultar em dados inconsistentes quando não se utiliza um algoritmo adequado como quando se utiliza o algoritmo que opera diretamente a fórmula de grandes amostras de valores entre 0 e 1.[41][42]
Um dos melhores algoritmos é chamado B.P. Welford, descrito por Donald Knuth em seu livro The Art of Computer Programming Vol. 2.[43][44] Uma aproximação do desvio padrão da direção do vento é dada pelo algoritmo de Yamartino, que é usado em anemômetros modernos.[45][46]
Métodos de cálculos rápidos
[editar | editar código-fonte]As duas fórmulas seguintes podem representar um desvio padrão repetidamente atualizado. Um conjunto de duas somas de potências e são calculadas sobre um conjunto de valores de denotados como .
j-ésimo s-minúsculo. Igual a somatória com inicio de k-minúsculo igual ao número um até n-minúsculo do k-ésimo x-minúsculo elevado a j-minúsculo
Dados os resultados das duas somas, os valores , e podem ser usados a qualquer hora para calcular o valor atual do desvio padrão.
, sigma-minúsculo. Igual a razão da raiz quadrada de n-minúsculo vezes s-minúsculo-dois menos s-minúsculo-um elevado a dois por n-minúsculo
em que é o tamanho do conjunto de valores (também pode ser denotado como ), como mencionado acima.
Similarmente para o desvio padrão s-minúsculo. Igual a raiz quadrada da razão de n-minúsculo vezes s-minúsculo-dois menos s-minúsculo-um elevado a dois por n-minúsculo, vezes, abre parentesis, n-minúsculo menos o número um, fecha parentesis.
Em uma implementação de computador, à medida que as três somas aumentam, é preciso considerar o erro de arredondamento, o overflow aritmético e o underflow aritmético. O método abaixo calcula o método das somas correntes com erros de arredondamento reduzidos.[43] Isto é um algoritmo para calcular a variância de amostras sem a necessidade de armazenar dados anteriores durante o cálculo. Aplicando este método a uma série de tempo, resultará em valores sucessivos de desvio padrão correspondente a pontos dados à medida que aumenta com cada nova amostra.
Para
, k-ésimo a-maiúsculo, igual a um anterior ao k-ésimo a-maiúsculo mais a razão do k-ésimo x-minúsculo menos m anterior ao k-ésimo a-maiúsculo por k-minúsculo em que
, k-ésimo q-maiúsculo. Igual a um anterior ao k-ésimo q-maiúsculo mais a razão k-minúsculo menos o número um por k-minúsculo vezes, abre parentesis, k-ésimo x-minúsculo menos o anterior ao k-ésimo a-maiúsculo, fecha parentesis, elevado a dois. Igual a um anterior ao k-ésimo q-maiúsculo mais, abre parentesis, k-éssimo x-minúsculo menos a um anterior ao k-ésimo a-maiúsculo, fecha parentesis, vezes, abre parentesis, k-éssimo x-minúsculo menos k-ésimo a-maiúsculo em que
A variância da amostra é
. n-ésimo s-minúsculo elevado a dois. Igual a razão do n-ésimo q-maiúsculo por n-minúsculo menos o número um.
A variância da população é
. n-ésimo sigma-minúsculo elevado a dois . Igual a razão do n-ésimo q-maiúsculo por n-minúsculo.
Cálculo ponderado
[editar | editar código-fonte]Quando os valores são ponderados com pesos desiguais , as somas de potências , e são calculadas como j-ésimo s-minúsculo igual a somatória com inicio em k-minúsculo igual ao número um até n-minúsculo de k-ésimo w-minúsculo, vezes, k-ésimo x-minúsculo elevado a j-minúsculo
As equações de desvio padrão continuam inalteradas, com a diferença que passa a ser a soma dos pesos em vez do número de observações . O método incremental com erros de arredondamento reduzidos também podem ser aplicados, com alguma complexidade adicional.
Uma soma de pesos deve ser computada para cada , de 1 até .
k-ésimo w-maiúsculo, igual a, um anterior k-ésimo w-maiúsculo, mais, k-ésimo w-minúsculo
Locais em que 1 / é usado devem ser substituídos por
2. k-ésimo a-maiúsculo. Igual a um anterior do k-ésimo a-maiúsculo, mais a razão do k-ésimo w-minúsculo por k-ésimo w-maiúsculo vezes, abre parentesis, k-ésimo x-minúsculo menos um anterior do que k-ésimo a-maiúsculo, fecha parentesis.
4. k-ésimo q-maiúsculo. Igual a um anterior do k-ésimo q-maiúsculo, mais a razão do k-ésimo w-minúsculo vezes um anterior k-ésimo w-maiúsculo por k-ésimo w-maiúsculo vezes, abre parentesis, k-ésimo x-minúsculo menos um anterior do que k-ésimo a-maiúsculo, fecha parentesis, elevado a dois. Igual a um anterior k-ésimo q-maiúsculo, mais k-ésimo w-minúsculo, vezes, abre parentesis, k-ésimo x-minúsculo menos um anterior ao k-ésimo a-maiúsculo, fecha parentesis, vezes, k-ésimo x-minúsculo menos k-ésimo a-maiúsculo, fecha parentesis.
Na divisão final, n-ésimo sigma-minúsculo elevado a dois igual a razão do n-ésimo q-maiúsculo por n-ésimo w-maiúsculo e n-ésimo s-minúsculo elevado a dois. Igual a razão do n-ésimo q-maiúsculo por n-ésimo w-maiúsculo menos o número um ou n-ésimo s-minúsculo elevado a dois, igual a razão de apostrofo n-minúsculo por apostrofo n-minúsculo menos o número um vezes n-ésimo sigma-min;músculo elevado a dois em que é o número total de elementos e é o número de elementos com pesos diferente de 0. As fórmulas acima tornam-se iguais às fórmulas mais simples dadas acima se os pesos forem tomados como iguais a um.
Aplicações
[editar | editar código-fonte]O desvio padrão é usado como medida de dispersão de um conjunto de dados. Quanto menor o desvio padrão, mais os valores são agrupados em torno da média. Seja a distribuição de notas entre os estudantes de uma sala de aula. Quanto menor o desvio padrão, mais homogêneas serão as notas. Quanto maior o desvio padrão, menos homogêneas serão as notas. Se as notas forem classificadas de 0 a 20, o desvio padrão mínimo será 0 (se todas as notas forem idênticas) e o desvio padrão máximo será 5 (se metade da classe tirar 0 e metade da classe tirar 20). Se estudantes tirarem 0 e estudantes tirarem 10, de modo que a amostra contenha vezes a nota 0 e vezes a nota 10, então a média será razão de n-minúsculo vezes vinte por n-minúsculo mais minúsculo ou barra horizontal sobre x-maiúsculo igual a dez e . barra horizontal sobre x-maiúsculo elevado a dois igual a cem Os valores quadrados x-maiúsculo elevado a dois são n-minúsculo vezes quatrocentos e n-minúsculo vezes zero . A média de x-maiúsculo elevado a dois é barra horizontal sobre x-maiúsculo elevado a dois igual a duzentos. Portanto, a variância é 100 e o desvio padrão é 10.
Testes experimentais, industriais e de hipóteses
[editar | editar código-fonte]Na indústria, o desvio padrão é usado para calcular o índice de fidelidade de um aparelho de medida ou o índice de qualidade de um produto.[47][48] Os pesos dos produtos de uma linha de produção precisam cumprir um valor exigido legalmente. Pesando uma fração dos produtos, é possível calcular o peso médio que sempre será um pouco diferente da média de longo prazo. Usando o desvio padrão, é possível encontrar um valor máximo e um valor mínimo para que o peso médio esteja dentro de uma porcentagem muito alta de tempo (igual ou maior que 99,9%). Se o desvio padrão ficar fora do intervalo, então o processo de produção precisa ser corrigido. Estes testes estatísticos são particularmente importantes quando o teste é relativamente caro.
Na ciência, é comum considerar que os valores são distribuídos de acordo com a curva de Gauss. Nas ciências sociais, a média e o desvio padrão determinam o intervalo em que existe a maioria da população. Se a média for e o desvio padrão for , então 95% da população estará no intervalo m-minúsculo menos um vírgula noventa e seis vezes sigma-minúsculo, ponto e vírgula m-minúsculo mais um vírgula noventa e seis vezes sigma-minúsculo e 68,2% da população estará no intervalo . m-minúsculo menos sigma-minúsculo, ponto e vírgula, m-minúsculo mais sigma-minúsculo. [49]
O desvio padrão também é usado para formar um intervalo de confiança de uma amostra. Na imagem ao lado, há um desvio nos dois lados da média de 68,2% da distribuição, dois desvios
sigma-minúsculo, vezes, abre parentesis, intervalo fechado de menos dois vezes sigma-minúsculo até mais dois vezes sigma-minúsculo, vezes treze vírgula seis mais trinta e quatro vírgula um mais trinta e quatro vírgula um mais treze vírgula seis, fecha parentesis. Igual a noventa e cinco vírgula quatro porcento.
, 3 desvios
sigma-minúsculo vezes o intervalo fechado de menos três vezes sigma-minúsculo até mais três vezes sigma-minúsculo, vezes dois vírgula um mais treze vírgula seis mais trinta e quatro vírgula um mais trinta e quatro vírgula um mais treze vírgula seis mais dois vírgula um, fecha parentesis. Igual a noventa e nove vírgula seis porcento.
e assim por diante.
Em um exemplo na física de partículas, o padrão 5 sigma é usado para considerar o resultado significativo. O padrão 5 sigma traduz uma chance em 3,5 milhões de uma flutuação aleatória afetar o resultado, o que representa uma probabilidade de erro inferior a 0,00003 % (nível de confiança superior a 99.99997%).[50] Este nível de certeza foi requerido para declarar a primeira detecção de ondas gravitacionais[51][52] e garantir a descoberta de uma partícula consistente com bóson de Higgs em dois experimentos independentes na Organização Europeia para a Pesquisa Nuclear (CERN).
Em outro exemplo na mecânica quântica, o princípio da incerteza de Heisenberg afirma que o produto dos desvios padrão da posição e o impulso de uma partícula é maior ou igual que a constante de Planck divida por dois .[53] sigma-minúsculo sub-escrito x-minúsculo vezes sigma-minúsculo sub-escrito p-minúsculo maior ou igual a razão de h-minúsculo por dois
Finanças
[editar | editar código-fonte]Em finanças, o desvio padrão da taxa de retorno de investimento é uma medida da volatilidade do investimento, ou uma medida de risco associada às flutuações de preço de um determinado ativo ou ao risco de uma carteira de ativos.[54] O risco é um fator importante para gerenciar efetivamente uma carteira de investimentos porque ele determina a variação dos retornos sobre ativos e / ou sobre carteiras de ativos e fornece aos investidores uma base matemática para decisões de investimentos (teoria moderna do portfólio). O risco é medido pelo desvio padrão do retorno esperado sobre os preços de acordo com o modelo de precificação de ativos financeiros de Harry Markowitz.[55] Em análise técnica dos preços das ações, o desvio padrão fornece uma estimativa quantificada da incerteza dos retornos futuros. Quanto maior o retorno esperado sobre o investimento, maior o risco. Este aumento é conhecido como risco premium. Em outras palavras, investidores devem estimar o retorno esperado e a incerteza de retornos futuros.
Seja um investidor que precise escolher entre duas ações. A ação A tem um retorno médio de 10% em 20 anos, com desvio padrão de 20 pontos percentuais. A ação B tem um retorno médio de 12% no mesmo período, com desvio padrão de 30 pontos percentuais. Com base no risco e no retorno, um investidor pode decidir pela ação A pelo retorno médio adicional de 12% não compensar o desvio padrão adicional de 10 pontos percentuais (risco ou incerteza maior sobre o retorno esperado). O investimento inicial da ação B deve ser menor que o investimento inicial da ação A. O retorno da ação B deve ser em média 2% maior que o retorno da ação A. A ação A deve ganhar 10% com 10 pontos percentuais para cima ou para baixo (variação de 30% para 10%), cerca de dois terços do retorno dos anos futuros. Quando são considerados possíveis retornos ou possíveis resultados mais extremos no futuro, um investidor deve esperar resultado de até 10% com 60 pontos percentuais para cima ou para baixo (variação de 70% para 50%), que inclui resultados para três desvio padrão a partir do retorno médio (cerca de 99,7% do possível retorno).
Calculando a média aritmética do retorno de um título em um determinado período, obtém–se o retorno esperado do ativo. Subtraindo o retorno esperado do retorno real em cada período, obtém–se a diferença a partir da média. Elevando a diferença em cada período ao quadrado e retirando a média, obtém–se a variância total do retorno do ativo. Quanto maior a variância, maior o risco do título. Encontrando a raiz quadrada da variância, obtém–se o desvio padrão da ferramenta de investimento em questão.
Séries temporais financeira são conhecidas por serem séries não estacionárias, enquanto os cálculos estatísticos acima como o desvio padrão aplicam–se apenas às séries estacionárias. Para aplica–los às séries não estacionárias, as séries precisam ser transformadas em séries estacionárias, permitindo o uso de ferramentas estatística que agora possuem uma base válida para trabalhar.
A análise de Bollinger é uma ferramenta que facilita a análise de previsões do mercado. John Bollinger construiu a curva de deslocamento da média para vinte dias e as curvas, de cada lado da curva de deslocamento da média, situadas a duas vezes do desvio padrão dos vinte dias.[56] O desvio padrão populacional é usado para estabelecer a largura das bandas de Bollinger. A banda de Bollinger ao lado é denotada como . O valor mais comumente usado para é 2. Há cerca de 5% de chance de o valor ser diferente, assumindo uma distribuição normal dos retornos.
Tempo
[editar | editar código-fonte]Sejam as temperaturas máximas médias diárias de duas cidades, uma no continente e outra na costa. O intervalo das temperaturas máximas diárias das cidades perto da costa é menor que as temperaturas máximas diárias das cidades no continente. Portanto, enquanto cada uma das duas cidades podem ter a mesma temperatura máxima média, o desvio padrão da temperatura máxima diária da cidade da costa será muito menor que a temperatura máxima diária da cidade no continente. Em qualquer dia particular, é mais provável que a temperatura máxima real seja mais afastada da temperatura máxima média da cidade no continente que da temperatura máxima média da cidade na costa.
Ver também
[editar | editar código-fonte]Referências
- ↑ Bland, J. Martin; Altman, Douglas G. «Measurement Error» (PDF). BMJ. Consultado em 23 de janeiro de 2017
- ↑ Saporta, Gilbert (2006). Probabilités – Analyse des Données et Statistiques. Paris: Éditions Technip. p. 622. 25 páginas
- ↑ Saporta, Gilbert (2006). Probabilités – Analyse des Données et Statistiques,. Paris: Éditions Technip. p. 622. 119 páginas
- ↑ Saporta, Gilbert (2006). Probabilités – Analyse des Données et Statistiques. Paris: Éditions Technip. p. 622. 121 páginas
- ↑ Gorard, Stephen (2004). «Revisiting a 90–year–old Debate: The Advantages of the Mean Deviation». Department of Educational Studies, University of York. Consultado em 23 de janeiro de 2017
- ↑ Gauss, Carl Friedrich (1816). «Bestimmung der Genauigkeit der Beobachtungen». Zeitschrift für Astronomie und verwandte Wissenschaften: 187 – 197
- ↑ Walker, Helen (1931). Studies in the History of the Statistical Method. [S.l.]: Baltimore, MD: Williams & Wilkins Co. pp. 24 – 25
- ↑ Bernstein, Peter L. (1996). Against the Gods: The Remarkable Story of Risk. [S.l.]: John Wiley & Sons. p. 383. 127 páginas
- ↑ Pearson, Karl (1894). «On the Dissection of Asymmetrical Frequency Curves». A Philosophical Transactions of the Royal Society. 185: 71 – 110
- ↑ a b c Dodge, Yadolah (2010). The Concise Encyclopaedia of Statistics. New York: Springer. p. 622. 506 páginas
- ↑ Miller, Jeff. «Earliest Known Uses of Some of the Words of Mathematics». Consultado em 23 de janeiro de 2017
- ↑ Fisher, Ronald Aylmar (1918). «The Correlation between Relatives on the Supposition of Mendelian Inheritance» (PDF). Philosophical Transactions of the Royal Society of Edinburgh. 52: 99 – 433. Consultado em 23 de janeiro de 2017
- ↑ Saporta, Gilbert (2006). Probabilités – Analyse des Données et Statistiques. Paris: Éditions Technip. p. 622. 30 páginas
- ↑ Saporta, Gilbert (2006). Probabilités – Analyse des Données et Statistiques. Paris: Éditions Technip. p. 622. 31 páginas
- ↑ Saporta, Gilbert (2006). Probabilités – Analyse des Données et Statistiques. Paris: Éditions Technip. p. 622. 38 páginas
- ↑ a b Saporta, Gilbert (2006). Probabilités – Analyse des Données et Statistiques. Paris: Éditions Technip. p. 622. 39 páginas
- ↑ Saporta, Gilbert (2006). Probabilités – Analyse des données et Statistiques. Paris: Éditions Technip. p. 622. 33 páginas
- ↑ Dodge, Yadolah (2010). The Concise Encyclopaedia of Statistics. New York: Springer. p. 622. 71 páginas
- ↑ Dodge, Yadolah (2010). The Concise Encyclopaedia of Statistics. New York: Springer. p. 622. 60 páginas
- ↑ Saporta, Gilbert (2006). Probabilités – Analyse des Données et Statistiques. Paris: Éditions Technip. p. 622
- ↑ Saporta, Gilbert (2006). Probabilités – Analyse des Données et Statistiques. Paris: Éditions Technip. p. 622. 26 páginas
- ↑ Rioul, Olivier (2008). Théorie des Probabilités. Paris: Éditions Hermes Sciences. p. 364. 146 páginas
- ↑ Gautier, C.; Girard, G.; Gerll, D.; Thiercé, C.; Warusfel, A. (1975). Aleph1 Analyse. Paris: Éditions Hachette. p. 465. 387 páginas
- ↑ Saporta, Gilbert (2006). Probabilités – Analyse des Données et Statistiques. Paris: Éditions Technip. p. 622. 66 páginas
- ↑ Rioul, Olivier (2008). Théorie des Probabilités. Paris: Éditions Hermes Sciences. p. 364. 157 páginas
- ↑ Jacquard, Albert (1976). Les Probabilités. Paris: Presses Universitaires de France. p. 125
- ↑ Ghahramani, Saeed (2000). Fundamentals of Probability. New Jersey: Prentice Hall. p. 438
- ↑ Saporta, Gilbert (2006). Probabilités – Analyse des Données et Statistiques. Paris: Éditions Technip. p. 622
- ↑ Weisstein, Eric W. «Distribution Function». MathWorld — A Wolfram Web Resource. Consultado em 24 de janeiro de 2017
- ↑ Weisstein, Eric W. «Bessel's Correction». MathWorld — A Wolfram Web Resource. Consultado em 24 de janeiro de 2017
- ↑ Saporta, Gilbert (2006). Probabilités – Analyse des Données et Statistiques. Paris: Éditions Technip. p. 622. 289 páginas
- ↑ Tufféry, Stéphane (2010). Data Mining et Statistique Décisionnelle. Paris: Éditions Technip. p. 705. 655 páginas
- ↑ a b Saporta, Gilbert (2006). Probabilités – Analyse des Données et Statistiques. Paris: Éditions Technip. p. 622
- ↑ Erro de citação: Etiqueta
<ref>
inválida; não foi fornecido texto para as refs de nome:3
- ↑ Rioul, Olivier (2008). Théorie des Probabilités. Paris: Éditions Hermes Sciences. p. 364. 253 páginas
- ↑ a b Dodge, Yadolah (2010). The Concise Encyclopaedia of Statistics. New York: Springer. p. 622
- ↑ a b Dodge, Yadolah (2010). The Concise Encyclopaedia of Statistics. New York: Springer. p. 622. 71 páginas
- ↑ Saporta, Gilbert (2006). Probabilités – Analyse des Données et Statistiques. Paris: Éditions Technip. p. 622. 121 páginas
- ↑ Anderson, David R.; Sweeney, Dennis J.; Williams, Thomas A. (2010). Statistics – Encyclopaedia Britannica Ultimate Reference Suite. [S.l.: s.n.]
- ↑ a b Deming, W.E. «Quelques Méthodes de Sondage» (PDF). Revue de Statistique Appliquée. 12 (04). Consultado em 24 de janeiro de 2017
- ↑ Cook, John D. (28 de setembro de 2008). «Theoretical Explanation for Numerical Results». John D. Cook. Consultado em 24 de janeiro de 2017
- ↑ Cook, John D. (26 de setembro de 2008). «Comparing Three Methods of Computing Standard Deviation». John D. Cook. Consultado em 24 de janeiro de 2017
- ↑ a b Welford, B. P. «Note on a Method for Calculating Corrected Sums of Squares and Produc» (PDF). Technometrics. 04 (03). Consultado em 24 de janeiro de 2017
- ↑ Cook, John D. «Accurately Computing Running Variance». John D. Cook. Consultado em 24 de janeiro de 2017
- ↑ Yamartino, R. J. (1884). «A Comparison of Several Single–Pass Estimators of the Standard Deviation of Wind Direction». Journal of Climate and Applied Meteorology. 23: 1362 – 1366. Consultado em 24 de janeiro de 2017
- ↑ Bagot, Mike (2009). «Victorian Urban Wind Resource Assessment» (PDF). Consultado em 24 de janeiro de 2017
- ↑ Ferignac, P. (1959). «Contrôle de Réception Quantitatif ou par Mesure» (PDF). Revue de Statistique Appliquée. 07 (02). Consultado em 24 de janeiro de 2017
- ↑ Ferignac, P. (1965). «Erreurs de Mesure et Contrôle de la Qualité» (PDF). Revue de Statistique Appliquée. 13 (02). Consultado em 24 de janeiro de 2017
- ↑ Saporta, Gilbert (2006). Probabilités – Analyse des Données et Statistiques. Paris: Éditions Technip. p. 622
- ↑ Heuer, Rolf (2012). «Une Fin D'Année Pleine de Suspense». Bulletin Hebdomadaire du CERN. Consultado em 24 de janeiro de 2017
- ↑ LIGO Scientific Collaboration, Virgo Collaboration (2016), «Observation of Gravitational Waves from a Binary Black Hole Merger», Physical Review Letters, 116 (6), PMID 26918975, arXiv:1602.03837, doi:10.1103/PhysRevLett.116.061102
- ↑ Abbott, B. P. (2016). «Observation of Gravitational Waves from a Binary Black Hole Merger». Physical Review Letters. Consultado em 24 de janeiro de 2017
- ↑ Meyer, Yves (1985 – 1986). «Principe D'Incertitude, Bases Hilbertiennes et Algèbres D'Opérateurs». Séminaire N. Bourbaki (662): 209 – 223. Consultado em http://archive.numdam.org/ARCHIVE/SB/SB_1985-1986__28_/SB_1985-1986__28__209_0/SB_1985-1986__28__209_0.pdf Verifique data em:
|ano=, |acessodata=
(ajuda) - ↑ «What is Standard Deviation?». Edu Pristine. 7 de novembro de 2011. Consultado em 24 de janeiro de 2017
- ↑ Fery, P. (2010). «Risque et Calcul Socioéconomique» (PDF). Consultado em 24 de janeiro de 2017
- ↑ «Bollinger Bands Introduction:». Bollinger Bands. Consultado em 24 de janeiro de 2017