Margem de erro

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa

A margem de erro é uma estatística que expressa a quantidade de erro amostral aleatório nos resultados de uma pesquisa.[1] Isto é, a margem de erro é a medida do raio ou a metade da largura do intervalo de confiança para a mesma estatística.[2] A margem de erro indica a probabilidade do resultado da amostra ser próxima de 1, se toda a população for pesquisada. Geralmente a probabilidade usada para o resultado da amostra estar dentro da margem de erro é de 95%, embora às vezes sejam usados outros valores.[3] Quanto maior a margem de erro, menor a confiança dos resultados de uma pesquisa serem próximos dos valores reais para toda população.[4]

Geralmente a margem de erro é usada em contextos diferentes de pesquisas para indicar o erro observacional para reportar quantidades medidas. Por exemplo, na astronomia reporta-se a margem de erro como 4,2421(16) anos-luz (distância da Proxima Centauri), com o número entre parênteses indicado o intervalo esperado de valores nos dígitos correspondentes anteriores. Neste caso, 4,2421(16) é equivalente a 4,2421 0,0016. Esta notação com é mais comumente vista em outras áreas da ciência e da engenharia.[5]

A margem de erro é comumente usada em pesquisas, como pesquisas de opinião, pesquisas de marketing ou pesquisas de rastreamento. Geralmente utiliza-se o nível de confiança de 95%.[6]

Contexto histórico[editar | editar código-fonte]

A margem de erro é uma estimativa do intervalo de confiança,[7] conceito introduzido por Jerzy Neyman com a publicação de On The Two Different Aspects of The Representative Method: The Method of Stratified Sampling and The Method of Purposive Selection em 1934.[8][9] De acordo com Michael Ornstein, em A Companion to Survey Research, o trabalho do matemático polaco-estadunidense marca o início da pesquisa de opinião moderna.[10]

Neyman demonstra o risco do viés quando a amostra não é selecionada aleatoriamente e o valor da estratificação da amostra por meio da qual a população é separada em dois ou mais estratos (amostras são selecionadas de cada estrato não necessariamente com a mesma probabilidade). Isto é feito a partir da análise de uma amostra não aleatória de 29 das 214 unidades geográficas de um censo nacional italiano. Embora as 29 unidades tenham sido escolhidas por se aproximarem da média da população em número de variáveis, a amostra resultante aparentava ser diferente da população em outras medidas.[10]

Neyman estabelece o intervalo de confiança como o critério para a precisão da estimativa de uma característica da população e mostra como calcular o intervalo de confiança para amostras por clusters. Isto pode ser aplicado em amostras por área, em que áreas geográficas como municípios, distritos rurais ou blocos de cidades são escolhidos para depois uma amostra aleatória ser selecionada.[11] As amostras por áreas desenvolveram-se com M. M. Hansen e W. N. Hurwitz na década de 1940 e com Leslie Kish na década de 1960. Os primeiros textos sobre amostragem em pesquisa surgiram em 1950, mas os métodos práticos para estimar erros em amostras complexas vieram em 1970 e não foram incorporados aos softwares de análise de pesquisa até meados de 2000.[12]

Definição formal[editar | editar código-fonte]

Visualização da margem de erro em relação ao intervalo de confiança de 95% para a proporção amostral. A curva azul representa a distribuição da proporção amostral. A área azul sob a curva representa o intervalo de confiança de 95%. A linha vermelha representa a margem de erro.
A parte superior representa a densidade de probabilidade em relação à porcentagem real, mostrando a probabilidade relativa de a porcentagem real ocorrer com base em uma porcentagem amostrada. Na parte inferior, cada linha mostra o intervalo de confiança de 95% de uma amostra (margem de erro à esquerda e amostras não enviesadas à direita). Nota-se que quanto maior as amostras não enviesadas, menor a margem de erro.

A margem de erro para uma estatística particular é definida como o raio ou a metade da largura do intervalo de confiança para a mesma estatística.[13][14]

Por exemplo, para determinar um intervalo de confiança para média com coeficiente de confiança de 95% (), usa-se o quantil de 97,5% da distribuição normal:

,

em que é a função de distribuição cumulativa da distribuição normal padrão.[13][14]

Decorre o score pela formação:

. A posição 0,975 da tabela mostra (consultar a tabela de distribuição normal padrão para teste z).[15][16]

Portanto, o intervalo de confiança para média com nível de significância de 95% é ,

em que, é o desvio padrão e é o tamanho da população.[15][16]

O raio do intervalo de confiança é . Logo, a margem de erro é .[15][16]

Interpretação[editar | editar código-fonte]

Quando uma margem de erro é reportada em uma pesquisa, ela se refere à margem de erro máxima para todas as porcentagens usando a amostra completa da pesquisa. Se a estatística é uma porcentagem, a margem de erro máxima pode ser calculada como o raio do intervalo de confiança para uma porcentagem de 50%. A margem de erro tem sido descrita como uma quantidade absoluta, igual ao raio do intervalo de confiança para a estatística. Por exemplo, se o valor real for 50 pontos percentuais e a estatística tiver raio de intervalo de confiança de 5 pontos percentuais, então pode-se afirmar que a margem de erro é de 5 pontos percentuais.[2]

A margem de erro pode ser definida para qualquer nível de confiança, mas geralmente são escolhidos 90%, 95% (principalmente) ou 99%.[3] A magnitude da margem de erro também pode ser determinada pela configuração da amostra e particularmente pelo tamanho da amostra para uma pesquisa (uma amostra maior resulta em uma margem de erro menor, com todo o resto permanecendo igual).[1]

Se forem usados os mesmos intervalos de confiança, então a margem de erro pode ser considerada tanto o erro amostral quanto o erro não-amostral.[17] Se for usado um intervalo de confiança aproximado (por exemplo, assumindo que a distribuição é normal e modelando o intervalo de confiança), então a margem de erro pode considerar apenas o erro amostral aleatório e desconsiderar outras fontes de erro ou de viés como perguntas mal formuladas, pessoas mentindo ou recusando-se a responder, exclusão de pessoas que não puderam ser contatadas ou erros de contagem ou de cálculo.[18]

Em alguns casos, a margem de erro é expressa como uma quantidade relativa em vez de uma quantidade absoluta. Por exemplo, supondo que o valor real seja 50 pontos percentuais e que o raio do intervalo de confiança seja 5 pontos percentuais. Se for utilizada a definição absoluta, a margem de erro seria 5 pontos percentuais. Se for utilizada a definição relativa, a margem de erro seria 10% (5 pontos percentuais correspondem a 10% de 50 pontos percentuais). Entretanto, esta distinção geralmente não é explícita.[19]

Exemplo[editar | editar código-fonte]

De acordo com uma pesquisa realizada em 2 de outubro de 2004 pela Newsweek sobre a campanha presidencial dos Estados Unidos, 47% dos eleitores votariam em John Kerry / John Edwards e 45% dos eleitores votariam em Ralph Nader / Peter Camejo se a eleição acontecesse naquele dia. O tamanho da amostra era de 1.013 pessoas.[20] Basicamente pesquisas envolvem tomar uma amostra de uma certa população. No caso da pesquisa da Newsweek, a população de interesse são os eleitores. Como é impraticável consultar todos os eleitores, os pesquisadores tomam pequenas amostras que devem ser representativas. Isto é, uma amostra aleatória da população.[21]

É possível que os pesquisadores coletem uma amostra de 1.013 eleitores que votarão em Bush, quando na verdade a população está dividida entre Bush e Kerry. Entretanto, isto é extremamente improvável, supondo que a população esta dividida por igual entre Bush e Kerry. Então, uma pessoa escolhida ao acaso votaria em Bush com probabilidade de 0,5. Assim, a probabilidade de que todas as 1.013 pessoas escolhidas votarão em Bush é .[22]

A teoria da amostragem fornece métodos para calcular a probabilidade dos resultados da pesquisa divergirem da realidade devido ao acaso. Por exemplo, a pesquisa mostra Kerry com 47% das intenções de votos, mas seu apoio é tão maior quanto 50% ou tão menor quanto 44%. Esta teoria e algumas suposições bayesianas sugerem que a porcentagem real será próxima de 47%.[23]

Quanto mais pessoas forem consultadas, mais confiantes os pesquisadores podem ficar que a porcentagem real é próxima da porcentagem observada (a margem de erro é uma medida do quão próximo os resultados devem estar).[1] No entanto, a margem de erro apenas conta para o erro amostral aleatório. Então, não há correspondência para erros sistemáticos que podem ocorrer pela falta de respostas ou por interações entre a pesquisa e as memórias, as motivações, a comunicação e o conhecimento dos sujeitos.[18]

Cálculo da margem de erro para amostras aleatórias[editar | editar código-fonte]

No caso da pesquisa da Newsweek, os cálculos consideram uma amostra aleatória simples retirada de uma grande população. O erro padrão de uma proporção é o desvio padrão estimado da amostra, que pode ser estimado a partir da porcentagem e do tamanho da amostra desde que seja pequeno em relação ao tamanho da população:

.[24]

Para um intervalo de confiança de 95%, tem-se a margem de erro:

.[24]

Cálculo da porcentagem[editar | editar código-fonte]

O cálculo da porcentagem é dado pela atribuição da intenção de voto. Isto é, se uma pessoa afirma que votará em John Kerry, o pesquisador contabilizará um voto para o candidato. Em termos matemáticos, a variável aleatória recebe valor 1 quando o entrevistado afirma que votará em John Kerry e recebe valore 0 em caso contrário.[25]

No caso da pesquisa da Newsweek, John Kerry tem 47% das intenções de voto. Portanto, a porcentagem é obtida a partir da amostra de 1.013 pessoas quando

(equivalente a 47%).[26]

A distribuição de probabilidade deve ser concentrada em torno de proporção populacional . Então,

. [27]

Pela definição de esperança,

. [28]

Substituindo por obtém-se

. [28]

A variação da amostra para a eleição entre os candidatos é dada por

. [28]

Este cálculo somente é possível se a amostra for aleatória.[29]

Decorre que . [30]

. Logo, .[30]

Substituindo por , obtém-se

.[31]

Então, o desvio padrão é . Portanto, a aproximação pela distribuição normal se torna possível para . [32]

Interpretação do resultado[editar | editar código-fonte]

No caso da pesquisa da Newsweek, quando a reportagem informar que a margem de erro está para dois pontos percentuais para mais ou para menos, isto se refere à probabilidade de 95% quando a porcentagem está no intervalo e . Caso a amostra não seja uma amostra aleatória simples de uma grande população, o erro padrão e o intervalo de confiança precisam ser estimados por meio de cálculos mais avançados (Linearização e reamostragem são técnicas amplamente usadas para dados de uma complexa configuração de amostras).[33]

Nota-se que não há necessariamente uma conexão estrita entre o intervalo de confiança real e o erro padrão real. O intervalo de confiança real da porcentagem é o intervalo , que contém a porcentagem da distribuição e em que da distribuição está abaixo de e da distribuição está acima de . O erro padrão real da estatística é a raiz quadrada da variância real da amostragem da estatística. O intervalo de confiança real e o erro padrão real podem não estar estritamente conectados, embora haja uma relação direta geralmente para grandes distribuições que parecem curvas normais.[34]

No caso da pesquisa da Newsweek, o nível de apoio de John Kerry era , para e . O erro padrão (0,016 ou 1,6%) ajuda a dar a sensação de precisão para a porcentagem estimada para John Kerry. Uma interpretação bayesiana do erro padrão é que, embora a porcentagem real não seja conhecida, é altamente provavelmente que a porcentagem esteja localizada dentro de dois erros padrão da porcentagem estimada. O erro padrão pode ser usado para criar um intervalo de confiança dentro do qual a porcentagem real deve ter um certo nível de confiança.[35]

A margem de erro é metade da largura do intervalo de confiança. Isto pode ser calculado como um múltiplo do erro padrão, com o fator dependendo do nível de confiança desejado. Uma margem de um erro padrão corresponde a um intervalo de confiança de 68%, enquanto a estimativa mais ou menos 1,96 erros padrão corresponde a um intervalo de confiança de 95% e um intervalo de confiança de 99% corresponde a 2,58 erros padrão nos dois lados da estimativa.[35]

Erros padrões de distribuições amostrais[editar | editar código-fonte]

Em estatística, é possível verificar erros para distribuições amostrais, utilizadas em grande medida para análise de dados.[36]

Média[editar | editar código-fonte]

O erro da média é utilizado para grandes e pequenas amostras, quando :

,

em que é o tamanho da amostra e é o desvio padrão.[37]

Proporção[editar | editar código-fonte]

Quando se estima a proporção de uma amostra, pode-se verificar o erro:

,

em que é o tamanho da amostra e é a porcentagem.[38]

Desvio padrão[editar | editar código-fonte]

Caso ocorra uma distribuição de desvio padrão por aproximação da distribuição normal e , o erro é calculado por:

,

em que é o tamanho da amostra e é o desvio padrão.[39]

Mediana[editar | editar código-fonte]

Quando , a distribuição amostral da mediana é próxima de uma distribuição normal. Então, é possível calcular o erro da mediana por:

,

em que é o tamanho da amostra e é o desvio padrão.[39]

Primeiro e terceiro quartil[editar | editar código-fonte]

Quando , as posições de e são aproximadas para o primeiro quartil e o terceiro quartil da população pelo cálculo do erro da mediana (a posição de considera o mesmo cálculo do erro da mediana):

,

em que é o tamanho da amostra e é o desvio padrão.[39]

Variância[editar | editar código-fonte]

Caso ocorra uma distribuição de variância por uma aproximação da distribuição normal e , o erro é calculado por:

,

em que é o tamanho da amostra e é o desvio padrão.[40]

Coeficiente de variação[editar | editar código-fonte]

O coeficiente de variação da população é dado por . Quando a população possui distribuição normal ou aproximadamente normal, o erro é calculado por:

,

em que é o tamanho da amostra e é o coeficiente de variação.[40]

Usos da margem de erro em pesquisas[editar | editar código-fonte]

Diferentes níveis de confiança[editar | editar código-fonte]

Para uma amostra aleatória simples de uma grande população, a margem de erro máxima é uma outra expressão do tamanho da amostra . Os numeradores destas equações são arredondados em duas casas decimais.[41]

Para confiança , .[41]

Para confiança de 99%, .[41]

Para confiança de 95%, .[41]

Para confiança de 90%, .[41]

Se um artigo sobre uma pesquisa não reporta a margem de erro, mas não determina que uma amostra aleatória simples de determinado tamanho foi usada, a margem de erro pode ser calculada para um grau de confiança desejado por meio das fórmulas acima. Também, dada a margem de erro de 95%, é possível encontrar a margem de erro de 99% elevando a margem de erro reportada em cerca de 30%. Por exemplo, uma amostra aleatória com tamanho 400 fornecerá uma margem de erro em um nível de confiança de 95% de , logo abaixo de 5%. Uma amostra aleatória de tamanho 1.600 fornecerá uma margem de erro de , logo abaixo de 2,5%. Uma amostra aleatória de tamanho 10.000 fornecerá uma margem de erro em um nível de confiança de 95% de , logo abaixo de 1%.[42]

Margens de erro máximas e específicas[editar | editar código-fonte]

Enquanto a margem de erro tipicamente reportada na imprensa é uma imagem da pesquisa que reflete a variação amostral máxima de qualquer porcentagem baseado em todos os entrevistados, o termo margem de erro também refere-se ao radio do intervalo de confiança para uma estatística particular. A margem de erro para uma porcentagem particular individual geralmente será menor que a margem de erro máxima reportada pela pesquisa. Este máximo aplica-se apenas quando a porcentagem observada é 50% e a margem de erro encolhe à medida que a porcentagem aproxima-se dos extremos 0% e 100%. Em outras palavras, a margem de erro máxima é o raio de um intervalo de confiança de 95% para uma porcentagem reportada de 50%. Se move-se para longe de 50%, o intervalo de confiança para será melhor. Portanto, a margem de erro máxima representa o majorante da incerteza, tem-se 95% de certeza de que a porcentagem real está dentro da margem de erro máxima de uma porcentagem reportada para qualquer porcentagem reportada.[43]

Efeito do tamanho da população[editar | editar código-fonte]

A fórmula acima para a margem de erro assume que há uma população infinitamente grande. Portanto, não depende do tamanho da população de interesse. De acordo com a teoria da amostragem, esta suposição é razoável quando a fração amostral é pequena. A margem de erro para um método amostral particular é essencialmente a mesma, independente do tamanho da população de interesse, contanto que a fração amostral seja menor que 5%. Em casos em que a fração amostral é maior que 5%, analistas podem ajustar a margem de erro com o fator de correção para população finita (FCPF) para considerar a pressão adicional obtida pela amostragem próxima de uma porcentagem maior da população.[44]

O FCPF pode ser calculado por [45]

Para ajustar a margem de erro para uma grande fração amostral, o FCPF reduz a margem de erro. O FCPF aproxima-se de 0 à medida que o tamanho da amostra aproxima-se do tamanho da população , que tem o efeito de eliminar completamente a margem de erro. Isto faz sentido porque quando , a amostra torna-se um censo e o erro amostral torna-se irrelevante. Os analistas devem estar cientes que as amostras continuam verdadeiramente aleatórias à medida que a fração amostral aumenta para que o viés não seja introduzido.[46][47]

Comparação de porcentagens[editar | editar código-fonte]

Em um sistema de pluralidade dos votos, em que o ganhador é o candidato com mais votos, é importante saber quem está à frente. Os termos statistical tie e statistical dead heat às vezes são usados para descrever porcentagens que divergem por menos que uma margem de erro, mas estes termos podem ser mal interpretados.[48][49] Por um lado, a margem de erro como é geralmente calculada é aplicável à porcentagem individual, não à diferença entre porcentagens. Então, a diferença entre duas estimativas percentuais pode não ser estatisticamente significante, mesmo quando elas divergem por mais que uma margem de erro. Os resultados da pesquisa também fornecem frequentemente informações relevantes mesmo quando não há diferença estatisticamente significante.[50]

Quando as porcentagens são comparadas, pode ser útil considerar a probabilidade de uma ser maior que outra.[51] Em situações simples, a probabilidade pode ser derivada pelo cálculo do erro padrão mencionado acima, pela fórmula para a variância da diferença de duas variáveis aleatórias e pela suposição de que se ninguém escolher o candidato A, eles escolherão o candidato B e vice-versa. Elas são perfeitamente e negativamente correlatas. Isto pode não ser uma suposição aceitável quando há mais de duas respostas possíveis para a pesquisa. Para pesquisas mais complexas, fórmulas diferentes para calcular o erro padrão da diferença devem ser usadas.[52]

O erro padrão da diferença de duas porcentagens para o candidato A e para o candidato B, supondo que elas são perfeitamente e negativamente correlatas, é

[53]

Dada a diferença da porcentagem observada (2% ou 0,02) e o erro padrão da diferença mencionado acima (0,03), qualquer cálculo estatístico pode ser usado para calcular a probabilidade de uma amostra de uma distribuição normal com média 0,02 e desvio padrão 0,03 ser maior que 0.[53]

Probabilidade de erro[editar | editar código-fonte]

Em estatística, fala-se em probabilidade de erro quando trata-se de teste de hipóteses. Probabilidade de erro significa aceitar a hipótese quando ela deveria ser rejeitada ou rejeitar a hipótese quando ela deveria ser aceita. Em termos matemáticos, a probabilidade de erro é:

, para os casos em que a hipótese é aceita quando ela deveria ser rejeitada. Isto é, aceita-se a hipótese com dados dentro da região crítica.[54]

, para os casos em que a hipótese é rejeitada quando ela deveria ser aceita. Isto é, rejeita-se a hipótese com dados fora da região crítica.[54]

é a hipótese nula (hipótese assumida como verdadeira para a construção do teste de hipóteses).  é a hipótese alternativa (hipótese considerada quando a hipótese nula não tem evidência estatística). É possível escrever qualquer com , desde que fique claro no teste de hipóteses a hipótese que será aceita e a hipótese que será rejeitada.[54]

Erro amostral[editar | editar código-fonte]

É possível calcular o erro de uma amostra por meio da sua média. Se o desvio padrão da amostra for desconhecido, ele deve ser estimado. Portanto,

,

em que é o desvio padrão conhecido, é o tamanho da amostra e é a média da amostra.

.[55],

em que é o desvio padrão desconhecido estimado, é o tamanho da amostra e é a média da amostra.[55]

Também é possível calcular o erro da proporção de duas amostras. Por exemplo, uma fabricante A afirma que seu novo medicamento para ataques cardíacos tem mais efeito que o atual remédio disponível no mercado. É possível estimar se a afirmação da fabricante A é verdadeira. Toma-se uma amostra de uma população que utiliza o novo medicamento da fabricante A e uma amostra de uma população que utiliza o atual remédio disponível no mercado. Depois de as pessoas da amostra e as pessoas da amostra tomarem seus respectivos medicamentos por um determinado período de tempo, observa-se que 40 pessoas da amostra e 58 pessoas da amostra tiveram ataque cardíaco. Isto é, a proporção de ataques do coração na amostra foi de e a proporção de ataques do coração na amostra foi de . Entretanto, esta evidência ainda não é suficiente para garantir que a afirmação da fabricante A é verdadeira.[56]

É possível verificar se a afirmação da fabricante A é verdadeira por meio da estatística . Seja , em que indica que uma população única e desconhecida terá ataque cardíaco. Em vez de estimar e , é possível somar as duas proporções das amostras para obter um parâmetro global para estimar o parâmetro .[57]

A estatística é calculada por:

[56]

A estatística é dada por:

[56]

Substituindo os valores, tem-se:

[56]

Consultando a tabela padronizada para o valor , encontra-se . Isto significa que o nível de significância . Isto é, existe 19% de chances de ser verdadeira ou de pessoas que utilizam o novo medicamento da fabricante A terem ataque cardíaco.[56]

No entanto, existe um erro amostral nos cálculos dado por:

,

em que é a proporção da primeira amostra e a proporção da segunda amostra.[58]

Tomando e , tem-se:

.[59]

Então, o erro amostral é de 2%.[59]

Erros não amostrais[editar | editar código-fonte]

O erro de arredondamento ocorre tanto em cálculos manuais quanto em cálculos feitos por computadores, uma vez que as máquinas não possuem espaços suficientes para computar números irracionais ou números racionais com muitas casas decimais. Em estatística, procura-se trabalhar com uma amostra muito grande. Então, a realização de vários arredondamentos resulta em um erro considerável e desprezado pelo mercado que faz uso de dados estatísticos.[60]

O erro de truncamento também é cometido por computadores. Isto é, para truncar o número 3,4562372881 é preciso decidir quantas casas decimais serão consideradas. Então, o truncamento pode ficar em 3,45 e o arredondamento pode ficar em 3,46. Isto envolve aproximação, podendo também ser considerado um erro de aproximação.[60]

O erro provável é conhecido como de uma estatística . Este erro é provável a partir de uma estimativa.[61]

O erro padrão em relação a mínimos quadrados é cometido a partir de uma regressão linear e é dado por

.[62]

Os resíduos (desvios verticais) são estimadores, quando varia em torno da verdadeira reta.[56]

Relação entre média e margem de erro[editar | editar código-fonte]

O intervalo de confiança também podem ser calculado para uma série de estatísticas, que inclui porcentagens individuais, diferenças entre porcentagens, médias, medianas e totais.[63]

A porcentagem está relacionada ao percentil, que mostra a porcentagem de dados inferiores à posição desejada nos dados (). Seja um conjunto de dados com quantidade . Particionando em cem partes iguais, é possível encontrar porcentagens de 0 a 100, desde que a condição matemática para o intervalo com seja respeitada. Isto está relacionado à margem de erro, a partir do momento em que a intenção se torna necessária na utilização de porcentagem como a revista Newsweek representa anteriormente as eleições de 2004.[64]

Em geral, o erro está relacionado ao raio do intervalo de confiança de acordo com a definição formal e a média amostral determina o centro do diâmetro do intervalo de confiança. Isto é, a média amostral está relacionada ao erro por meio do intervalo de confiança.[13][14] A margem de erro para a diferença entre porcentagens é maior que a margens de erro para cada uma das porcentagens, podendo ser ainda maior que a margem de erro máxima para qualquer porcentagem individual de uma pesquisa.[65]

Conceitos relacionados[editar | editar código-fonte]

Intervalo de confiança[editar | editar código-fonte]

Ver artigo principal: Intervalo de confiança

O intervalo de confiança é um tipo de estimativa por intervalo de um parâmetro populacional desconhecido, que pode variar de amostra para amostra e que com dada frequência (nível de confiança) inclui o parâmetro de interesse real não observável.[66][67] O nível de confiança é a frequência com a qual o intervalo observado contém o parâmetro real de interesse quando o experimento é repetido várias vezes. Em outras palavras, o nível de confiança seria a proporção de intervalos de confiança construídos em experimentos separados da mesma população e com o mesmo procedimento que contém o parâmetro de interesse real.[68][69][70] Os intervalos de confiança são tipicamente estabelecidos no nível de confiança de 95%.[71] Entretanto, quando apresentados graficamente os intervalos de confiança podem ser mostrados em vários níveis de confiança como 90%, 95% e 99%.[72]

Significância estatística[editar | editar código-fonte]

Ver artigo principal: Significância estatística

A significância estatística é considerada um procedimento para verificar a discrepância de uma hipótese estatística em relação aos dados observados, utilizando uma medida de evidência (p-valor).[73] O nível de significância é a probabilidade de erro do tipo I (rejeitar a hipótese nula quando ela é verdadeira).[74] Em testes de hipóteses estatísticos, diz-se que há significância estatística ou que o resultado é estatisticamente significante quando o p-valor observado é menor que o nível de significância definido para o estudo.[75][76] O p-valor (nível descritivo ou probabilidade de significância) é a probabilidade de se obter uma estatística de teste igual ou mais extrema que a estatística observada a partir de uma amostra de uma população quando a hipótese nula é verdadeira. Em outras palavras, o p-valor é o menor nível de significância para o qual se rejeita a hipótese nula. Por exemplo, a hipótese nula é rejeitada a 5% quando o p-valor é menor que 5%.[77]

Teste de hipóteses[editar | editar código-fonte]

Ver artigo principal: Teste de hipóteses

O teste de hipóteses é um procedimento que permite tomar uma decisão (aceitar ou rejeitar a hipótese nula) entre duas ou mais hipóteses (hipótese nula ou hipótese alternativa), utilizando os dados observados de um determinado experimento.[78] São fundamentais os seguintes conceitos para um teste de hipóteses:[79]

  • Hipótese nula (): é a hipótese assumida como verdadeira para a construção do teste. É a teoria, o efeito ou a alternativa que se está interessado em testar.
  • Hipótese alternativa (): é considerada quando a hipótese nula não tem evidência estatística
  • Erro do tipo I (): é a probabilidade de se rejeitar a hipótese nula quando ela é verdadeira
  • Erro do tipo II: é a probabilidade de se rejeitar a hipótese alternativa quando ela é verdadeira
Hipótese nula é verdadeira Hipótese nula é falsa
Hipótese nula é rejeitada Erro tipo I Não há erro
Hipótese nula não é rejeitada Não há erro Erro tipo II

Ver também[editar | editar código-fonte]

Referências

  1. a b c Souza 2014.
  2. a b Kazmier, Leonard J. (2008). Teorias e Problemas de Estatística Aplicada à Administração e Economia. [S.l.]: Bookman. p. 161. 386 páginas 
  3. a b Devore, Devore L. (2006). Probabilidade e Estatística para Engenharia e Ciências. [S.l.]: Cengage Learning. p. 249. 692 páginas 
  4. Kiehl 1970, p. 205-216.
  5. «Errors». COSMOS - The SAO Encyclopedia of Astronomy. Swinburne University of Technology. Consultado em 30 de dezembro de 2013 
  6. Doane, David P.; Seword, Lori E. (2014). Estatística Aplicada à Administração e Economia. [S.l.]: AMGH Editora. p. 318 - 319 
  7. Pegg, Pegg, Ed Jr.; Weisstein, Eric W. «Margin of Error». MathWorld - A Wolfram Web Resource 
  8. «The Legacy of Jerzy Neyman» (PDF) 
  9. Neyman, Jerzy (1934). «On the Two Different Aspects of the Representative Method: The Method of Stratified Sampling and the Method of Purposive Selection». Journal of the Royal Statistical Society. 97 (4): 558 - 625 
  10. a b Ornstein 2013, p. 3.
  11. Ornstein 2013, p. 4.
  12. Ornstein 2013, p. 5.
  13. a b c Lohr, Sharon L. (1999). Sampling: Design and Analysis. Pacific Grove, California: Duxbury Press. p. 49. ISBN 0-534-35361-4. The margin of error of an estimate is the half-width of the confidence interval ... 
  14. a b c Stokes, Lynne; Belin, Tom (2004). «What is a Margin of Error?» (PDF). What is a Survey?. Survey Research Methods Section, American Statistical Association. 64 páginas. Consultado em 31 de maio de 2006 
  15. a b c Spiegel 2006, p. 195.
  16. a b c Farber, Larson. «Distribuição normal de probabilidade» (PDF). Universidade Federal da Paraíba. p. 9. Consultado em 27 de março de 2017 
  17. Ferraz, Cristiano. «Estatística econômica» (PDF). UFPR. p. 20. Consultado em 5 de junho de 2017 
  18. a b Sudman & Bradburn 1982, p. 17-19.
  19. Cruz, Carlos Henrique de Brito; Fragnito, Hugo Luis; Costa, Ivan Ferreira da; Mello, Bernardo de Assunção. «Guia para Física Experimental Caderno de Laboratório, Gráficos e Erros Instituto de Física, Unicamp» (PDF). UNICAMP. p. 15. Consultado em 5 de junho de 2017 
  20. «NEWSWEEK POLL: First Presidential Debate». Newsweek. 2 de outubro de 2004. Consultado em 31 de maio de 2006 
  21. Wonnacott & Wonnacott 1990, p. 4-8.
  22. Reis, Brígida A. (2013). «NOTAÇÃO CIENTÍFICA/ARREDONDAMENTOS» (PDF). Colégio Estadual Yvone Pimentel. pp. 1 – 2. Consultado em 12 de junho de 2017 
  23. Fogo, José Carlos. «Técnicas de Amostragem» (PDF). UFSCAR. Consultado em 6 de junho de 2017 
  24. a b Sample Sizes, Margin of Error, Quantitative AnalysisArquivado em 2012-01-21 no Wayback Machine.
  25. «CAPÍTULO 7 - INTERVALO DE CONFIANÇA E TESTES DE HIPÓTESES» (PDF). Universidade do Estado do Mato Grosso. p. 168. Consultado em 6 de junho de 2017 
  26. «USA TODAY Education - Democracy TODAY». usatoday30.usatoday.com. Consultado em 22 de junho de 2017 
  27. LEITE, ISABEL C. C. (2007). «PROBABILIDADE DISTRIBUIÇÃO DE PROBABILIDADE» (PDF). IFBA. Consultado em 6 de junho de 2017 
  28. a b c Pinheiro, Hildete Prisco. «Vari ́aveis Aleat ́orias Discretas - Esperan ̧ca e Variˆancia» (PDF). IMEUniCAMP. p. 5. Consultado em 7 de junho de 2017 
  29. Pinheiro, Hildete Prisco. «Variáveis Aleatórias Discretas - Esperança e Variância» (PDF). IMEUniCAMP. p. 11. Consultado em 7 de junho de 2017 
  30. a b Medeiros, Luiz. «Variáveis Aleatórias» (PDF). UFPB. p. 8. Consultado em 7 de junho de 2017 
  31. Reis, Marcelo M. «Amostragem e Distribuição Amostral» (PDF). UFSC. p. 20. Consultado em 7 de junho de 2017 
  32. Ross, Sheldon M. (2004). Probability and Statistics for Engineers and Scientists. San Diego - California: Elsevier Academic Press. 24 páginas. ISBN 0-12-598057-4 
  33. Viali, Lorí. «Correlação e Regressão» (PDF). PUCrS. pp. 13 – 14. Consultado em 7 de junho de 2017 
  34. Luchesa, Cláudio J.; Neto, Anselmo Chaves. «Cálculo do tamanho da amostra nas pesquisas em Administração» (PDF). UniCuritiba. p. 21. Consultado em 7 de junho de 2017 
  35. a b Lunet, Nuno; Severo, Milton; Barros, Henrique. «Desvio Padrão ou Erro Padrão» (PDF). Scientific Electronic Library Online. p. 2. Consultado em 7 de junho de 2017 
  36. «Distribuição Amostral - Estimação» (PDF). Faculdade de Arquitetura e Urbanismo da Universidade de São Paulo (FAU / USP). Consultado em 23 de maio de 2017 
  37. Chiann, Chang. «Estimação para a média» (PDF). IME-USP. p. 17. Consultado em 6 de abril de 2017 
  38. Viali 2016, p. 13.
  39. a b c Spiegel 2006, p. 219.
  40. a b Spiegel 2006, p. 220.
  41. a b c d e Souza, Adriano Mendonça (20 de setembro de 2008). «Intervalos de Confiança» (PDF). UFSM. pp. 15 – 24. Consultado em 7 de junho de 2017 
  42. Fogo, José Carlos. «Intervalos de confiança» (PDF). UFSCAR. p. 4 - 5. Consultado em 7 de junho de 2017 
  43. Farias, Ana Maria Lima de. «INFERÊNCIA ESTATÍSTICA» (PDF). UFF. pp. 61 – 62. Consultado em 7 de junho de 2017 
  44. Viali 2016, p. 8.
  45. Isserlis, L. (1918). «On the value of a mean as calculated from a sample». Journal of the Royal Statistical Society. 81 (1): 75-81. JSTOR 2340569. doi:10.2307/2340569  (Equação 1)
  46. D'ávila, Víctor Hugo Lachos. «Inferência Estatística» (PDF). UniCAMP. p. 6. Consultado em 12 de junho de 2017 
  47. Abadie, Alberto; Athey, Susan; Imbens, Guido W.; Wooldridge, Jeffrey M. (2014). «Finite Population Causal Standard Errors». MIT. Consultado em 12 de junho de 2017 
  48. Braiker, Brian. "The Race is On: With voters widely viewing Kerry as the debate’s winner, Bush’s lead in the NEWSWEEK poll has evaporated". MSNBC, October 2, 2004. Retrieved on 2 February 2007.
  49. Rogosa, D.R. (2005). A school accountability case study: California API awards and the Orange County Register margin of error folly. In R.P. Phelps (Ed.), Defending standardized testing (pp. 205-226). Mahwah, NJ: Lawrence Erlbaum Associates.
  50. Kiehl 1970, p. 206-207.
  51. Drum, Kevin. Political Animal, Washington Monthly, August 19, 2004. Retrieved on 15 February 2007.
  52. Szwarcwald, Célia Landmann; Damacena, Giseli Nogueira (2008). «Amostras complexas em inquéritos populacionais: planejamento e implicações na análise estatística dos dados» (PDF). Repositório Institucional da Fiocruz. p. 41. Consultado em 12 de junho de 2017 
  53. a b Souza 2014, p. 3.
  54. a b c Viali, Lorí. «Estatística Básica» (PDF). Universidade Federal do Rio Grande do Sul. p. 7. Consultado em 9 de março de 2017 
  55. a b Moore 2000, p. 288.
  56. a b c d e f Moore 2000, p. 357.
  57. Moore 2000, p. 354.
  58. Moore 2000, p. 355.
  59. a b Moore 2000, p. 358.
  60. a b Spiegel 2006, p. 12.
  61. Spiegel 2006, p. 239.
  62. Moore 2000, p. 421.
  63. Income - Median Family Income in the Past 12 Months by Family Size, U.S. Census Bureau. Retrieved February 15, 2007.
  64. «Medidas de Tendência Central» (PDF). ReoCities. 19 páginas. Consultado em 12 de abril de 2017 
  65. Bland, John Martin. «Week 6: Proportions, risk ratios and odds ratios» (PDF). University of York. pp. 1 – 2. Consultado em 12 de junho de 2017 
  66. Ribeiro Jr., Paulo J. «Intervalos de Confiança». Universidade Federal do Paraná (UFPR). Consultado em 21 de março de 2017 
  67. Shimakura, Silvia E. «Intervalo de Confiança». Universidade Federal do Paraná (UFPR). Consultado em 21 de março de 2017 
  68. Neyman, J. (1937). «Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability». Philosophical Transactions of the Royal Society. 236: 333 - 380 
  69. Kendall, M. G.; Stuart, D. G. (1973). The Advanced Theory of Statistics - Vol 2: Inference and Relationship. Londres: Griffin. pp. seção 20.4 
  70. Cox, D. R.; Hinkley, D. V. (1974). Theoretical Statistics. Londres: Chapman & Hall. pp. 49, 209 
  71. Zar, J. H. (1984). Biostatistical Analysis. New Jersey: Prentice Hall International. pp. 43 – 45 
  72. Zhou, Mai. «Formulas for Exam 2» (PDF). University of Kentucky. Consultado em 21 de março de 2017 
  73. «Conceitos Elementares de Estatística». Consultado em 1 de fevereiro de 2017 
  74. Schlotzhauer, Sandra (2007). Elementary Statistics Using JMP (SAS Press) PAP/CDR ed. Cary, NC: SAS Institute. pp. 166–169. ISBN 1-599-94375-1 
  75. Sirkin, R. Mark (2005). «Two-sample t tests». Statistics for the Social Sciences 3rd ed. Thousand Oaks, CA: SAGE Publications, Inc. pp. 271–316. ISBN 1-412-90546-X 
  76. Borror, Connie M. (2009). «Statistical decision making». The Certified Quality Engineer Handbook 3rd ed. Milwaukee, WI: ASQ Quality Press. pp. 418–472. ISBN 0-873-89745-5 
  77. Paes, Ângela Tavares (1998). «Itens Essenciais em Bioestatística». Arquivos Brasileiros de Cardiologia. 71 (4) 
  78. D'ávila, Víctor Hugo Lachos. «Teste de Hipóteses» (PDF). Universidade Estadual de Campinas (UNICAMP). p. 3. Consultado em 13 de abril de 2017 
  79. «Introdução à Inferência Estatística» (PDF). Universidade Federal de São Carlos (UFSCar). p. 79. Consultado em 4 de maio de 2017 

Leitura adicional[editar | editar código-fonte]

  • Souza, Tatiene Correia de (26 de outubro de 2014). «Intervalo de Confiança - Margem de Erro» (PDF). Universidade Federal da Paraíba (UFPB). Consultado em 22 de maio de 2017 
  • Kiehl, Luiz Fernando (1970). «O Tamanho da Amostra na Pesquisa de Mercado» (PDF). Revista de Administração de Empresas. 10 (4) 
  • Ornstein, Michael (2013). A Companion to Survey Research. [S.l.]: SAGE. 183 páginas 
  • Spiegel, Murray R. (2006). Estatística. São Paulo: Pearson 
  • Sudman, Seymour; Bradburn, Norman M. (1982). Asking questions: a pratical guide to questionnaire design. [S.l.: s.n.] 
  • Wonnacott, Thomas H.; Wonnacott, Ronald J. (1972). Introductory statistics. New York: Wiley 
  • Viali, Lorí (2016). «Amostragem e Estimação» (PDF). PUCRS. Consultado em 6 de abril de 2017 
  • Moore, David (2000). Estatística Básica e sua Prática. Rio de Janeiro: LTC 

Ligações externas[editar | editar código-fonte]