Teste de McNemar

Em estatística, o teste de McNemar é um teste estatístico utilizado em dados nominais pareados. Ele é aplicado para tabelas de contingência 2 × 2 com um traço dicotômico, com pares de indivíduos correspondentes, para determinar as linhas e colunas onde as frequências marginais são iguais (isto é, se há uma "homogeneidade marginal"). É nomeado após Quinn McNemar, que o introduziu em 1947.^[1] Uma aplicação do teste em Genética é o teste de desequilíbrio de transmissão para detecção de desequilíbrio de ligação.^[2]

Definição[editar | editar código-fonte]

O teste é aplicado a uma tabela de contingência 2 × 2, que apresenta os resultados de dois testes em uma amostra de n indivíduos, como segue:

	Teste 2 positivo	Teste 2 negativo	Total da linha
Teste 1 positivo	a	b	a + b
Teste 1 negativo	c	d	c + d
Total da coluna	a + c	b + d	n

A hipótese nula de homogeneidade marginal indica que as duas probabilidades marginais para cada resultado são as mesmas, isto é, p_a + p_b = p_a + p_c e p_c + p_d = p_b + p_d.

Assim, a hipótese nula e a hipótese alternativa são^[1]

{\begin{aligned}H_{0}&:~p_{b}=p_{c}\\H_{1}&:~p_{b}\neq p_{c}\end{aligned}}

Aqui p_a, p_b, p_c e p_d indicam as probabilidades teóricas de ocorrências nas células com o rótulo correspondente.

O teste estatístico de McNemar é:

\chi ^{2}={(b-c)^{2} \over b+c}.

Sob a hipótese nula, com um número suficientemente grande de discordantes (células b e c), $\chi ^{2}$ tem uma distribuição qui-quadrado com 1 grau de liberdade. Se o resultado de $\chi ^{2}$ é significativo, isto fornece evidências suficientes para rejeitar a hipótese nula em favor da hipótese alternativa, isto é, que p_b ≠ p_c. O que significa que as proporções marginais são significativamente diferentes umas das outras.

Variações[editar | editar código-fonte]

Se tanto b ou c forem pequenos (b + c < 25), então $\chi ^{2}$ não se aproxima bem pela distribuição qui-quadrado. Um teste binomial exato pode então ser usado, onde b é comparado com uma distribuição binomial com parâmetro n = b + c e p = 0.5. De fato, o teste binomial exato avalia o desequilíbrio nos discordantes b e c. Para atingir um P-valor de dois lados, o P-valor do extremo da cauda deve ser multiplicado por 2:

{\text{P-valor exato}}=2\sum _{i=b}^{n}{n \choose i}0.5^{i}(1-0.5)^{n-i}

que é simplesmente o dobro da função de distribuição acumulada da distribuição binomial com p = 0,5 e n = b + c.

Edwards ^[3] propôs a seguinte versão corrigida de continuidade do teste de McNemar para aproximar o P-valor da binomial:

\chi ^{2}={(|b-c|-1)^{2} \over b+c}.

O teste meio-P de McNemar (teste meio-P binomial) é calculado subtraindo-se a metade a probabilidade do b observado do P-valor exato de um lado, então dobrado para obter o meio-P-valor de dois lados::^[4]^[5]

{\text{meio-P-valor}}=2\left(\sum _{i=0}^{b}{n \choose i}0.5^{i}(1-0.5)^{n-i}-0.5{n \choose b}0.5^{b}(1-0.5)^{n-b}\right)

Isto é equivalente a:

{\text{meio-P-valor}}={\text{P-valor exato}}-{n \choose b}0.5^{b}(1-0.5)^{n-b}

onde o segundo termo é a função massa de probabilidade da distribuição binomial e n = b + c. Felizmente, as funções da distribuição binomial estão disponíveis em pacotes comuns de software e o teste meio-P de McNemar pode ser facilmente calculado.^[5]

O conselho tradicional tem sido usar o teste binomial exato quando b + c < 25. No entanto, as simulações tem mostrado ambos, o teste binomial exato e o teste de McNemar, com correção de continuidade sendo excessivamente conservadora.^[5] Quando b + c < 6, o P-valor exato sempre excede o nível de significância comum de 0,05.. O teste de McNemar original é mais poderoso, porém às vezes muito liberal. A versão meio-P é quase tão poderosa quanto o teste assintótico de McNemar e não excede o nível de significância nominal.

Exemplos[editar | editar código-fonte]

No primeiro exemplo, um pesquisador tenta determinar se um medicamento tem um efeito sobre uma determinada doença. As contagens de indivíduos encontram-se na tabela, com o diagnóstico (doença: presente ou ausente), antes do tratamento dado nas linhas, e o diagnóstico após o tratamento nas colunas. O teste requer os mesmos indivíduos a serem testados nas medições do antes e depois (pares combinados).

	Depois: presente	Depois: ausente	Total da linha
Antes: presente	101	121	222
Antes: ausente	59	33	92
Total da coluna	160	154	314

Neste exemplo, a hipótese nula de "homogeneidade marginal" significaria que não houve efeito no tratamento. A partir dos dados acima, a estatística do teste de McNemar

\chi ^{2}={(121-59)^{2} \over {121+59}}

tem o valor 21.35, o que é extremamente improvável para formar a distribuição descrita na hipótese nula (P < 0.001). Assim, o teste fornece fortes evidências para rejeitar a hipótese nula de nenhum efeito no tratamento.

Um segundo exemplo ilustra as diferenças entre o teste de McNemar e suas alternativas.^[5] A tabela de dados é formatada como antes, com diferentes números em suas células:

	Depois: presente	Depois: ausente	Total da linha
Antes: presente	59	6	65
Antes: ausente	16	80	96
Total da coluna	75	86	161

Com estes dados, o tamanho da amostra (161 pacientes) não é pequeno, no entanto, os resultados do uso do teste de McNemar e outras alternativas são diferentes. O teste binomial exato dá P = 0.053 e o teste de McNemar com a correção de continuidade dá $\chi ^{2}$ = 3.68 e P = 0.055. O teste assintótico do teste de McNemar dá $\chi ^{2}$ = 4.55 e P = 0.033 e o teste meio-P de McNemar dá P = 0.035. Tanto o do teste de McNemar e a alternativa meio-P fornecem evidências mais fortes para uma associação estatisticamente significante do efeito do tratamento neste segundo exemplo.

Discussão[editar | editar código-fonte]

Uma observação interessante quando se está interpretando o teste de McNemar é que os elementos da diagonal principal não contribuem para a decisão sobre onde (no exemplo acima) condições pré ou pós-tratamento são mais favoráveis. Assim, a soma b + c pode ser pequena e o poder estatístico dos testes descritos acima pode ser baixo, mesmo que o número de pares a + b + c + d seja grande (veja o segundo exemplo acima).

Uma extensão do teste de McNemar existe nas situações em que a não necessariamente a independência se mantém entre os pares; em vez disso, há grupos de dados pareados, onde os pares em um agrupamento pode não ser independente, mas a independência se mantém entre diferentes agrupamentos.^[6] Um exemplo é analisar a eficácia de um procedimento odontológico; neste caso, um par corresponde ao tratamento de um dente em particular em pacientes que podem ter múltiplos dentes tratados; a eficácia do tratamento de dois dentes no mesmo paciente não é provável de ser independente, mas o tratamento de dois dentes em pacientes distintos é mais provável de ser independente.^[7]

Informações no pares[editar | editar código-fonte]

John Rice escreveu:^[8] 85 pacientes de Hodgkin [...] tinham um irmão ou irmã do mesmo sexo que estava livre da doença e cuja idade era de cerca de 5 anos da idade do paciente. Esses pesquisadores apresentaram a seguinte tabela:

Eles calcularam uma estatística qui-quadrado [...] [eles] tinham cometido um erro em sua análise, ignorando os emparelhamentos.[...] [suas] amostras não eram independentes, porque os irmãos estavam emparelhados [...] nós montamos uma tabela que apresenta os emparelhamentos:

É nessa segunda tabela que o teste de McNemar pode ser aplicado. Observe que a soma dos números na segunda tabela é 85 - o número de pares de irmãos - considerando que a soma dos números na primeira tabela é duas vezes esse valor, 170 - número de indivíduos. A segunda tabela fornece mais informações do que a primeira. Os números da primeira tabela podem ser encontrados usando os números na segunda tabela, mas isso não é recíproco. Os números da primeira tabela dão apenas os totais marginais do números na segunda tabela.

Testes relacionados[editar | editar código-fonte]

O teste de sinal binomial dá um teste exato para o teste de McNemar.
O teste Q de Cochran é uma extensão do teste de McNemar para mais do que dois "tratamentos".
O teste exato de Liddell é uma alternativa do teste de McNemar.^[9]^[10]
O teste de Stuart-Maxwell é uma generalização diferente do teste de McNemar, utilizado para o teste de homogeneidade marginal em uma tabela quadrada com mais de duas linhas/colunas.^[11]^[12]^[13]
O teste de Bhapkar (1996) é uma alternativa mais poderosa para o teste Stuart–Maxwell,^[14]^[15] mas tende a ser liberal. Alternativas competitivas para os métodos existentes estão disponíveis.^[16]
O teste de Cochran-Mantel-Haenszel é uma generalização do uso do teste de McNemar para quando os pares forem substituídos por estratos de tamanho arbitrário.

Veja também[editar | editar código-fonte]

Teste Qui-Quadrado de Pearson

Referências

↑ ^a ^b McNemar, Quinn (18 de junho de 1947). «Note on the sampling error of the difference between correlated proportions or percentages». Psychometrika. 12 (2): 153–157. PMID 20254758. doi:10.1007/BF02295996
↑ Spielman RS; McGinnis RE; Ewens WJ (março de 1993). «Transmission test for linkage disequilibrium: the insulin gene region and insulin-dependent diabetes mellitus (IDDM)». Am J Hum Genet. 52 (3): 506–16. PMC 1682161. PMID 8447318
↑ Edwards, A (1948). «Note on the "correction for continuity" in testing the significance of the difference between correlated proportions». Psychometrika. 13: 185–187. doi:10.1007/bf02289261
↑ Lancaster, H.O. (1961). «Significance tests in discrete distributions.». J AmStat Assoc. 56: 223–234. doi:10.1080/01621459.1961.10482105
↑ ^a ^b ^c ^d Fagerland, M.W.; Lydersen, S.; Laake, P. (2013). «The McNemar test for binary matched-pairs data: mid-p and asymptotic are better than exact conditional». BMC Medical Research Methodology. 13. 91 páginas. doi:10.1186/1471-2288-13-91
↑ Yang, Z.; Sun, X.; Hardin, J.W. (2010). «A note on the tests for clustered matched-pair binary data». Biometrical Journal. 52 (5): 638–652. PMID 20976694. doi:10.1002/bimj.201000035
↑ Durkalski, V.L.; Palesch, Y.Y.; Lipsitz, S.R.; Rust, P.F. (2003). «Analysis of clustered matched-pair data». Statistics in medicine. 22 (15): 2417–28. PMID 12872299. doi:10.1002/sim.1438. Consultado em 1 de abril de 2009 ^{[ligação inativa]}
↑ Rice, John (1995). Mathematical Statistics and Data Analysis Second ed. Belmont, California: Duxbury Press. pp. 492–494. ISBN 0-534-20934-3
↑ Liddell, D. (1976). «Practical Tests of 2 × 2 Contingency Tables». Journal of the Royal Statistical Society. 25 (4): 295–304. JSTOR 2988087
↑ «Maxwell's test, McNemar's test, Kappa test». Rimarcik.com. Consultado em 22 de novembro de 2012
↑ Sun, Xuezheng; Yang, Zhao (2008). «Generalized McNemar's Test for Homogeneity of the Marginal Distributions» (PDF). SAS Global Forum
↑ Stuart, Alan (1955). «A Test for Homogeneity of the Marginal Distributions in a Two-Way Classification». Biometrika Trust. JSTOR 2333387 Em falta ou vazio |url= (ajuda)
↑ Maxwell, A.E. (1970). «Comparing the Classification of Subjects by Two Independent Judges» (PDF). The British Journal of Psychiatry
↑ «McNemar Tests of Marginal Homogeneity». John-uebersax.com. 30 de agosto de 2006. Consultado em 22 de novembro de 2012
↑ Bhapkar, V.P. (1966). «A Note on the Equivalence of Two Test Criteria for Hypotheses in Categorical Data». American Statistical Association. JSTOR 2283057 Em falta ou vazio |url= (ajuda)
↑ Yang, Z.; Sun, X.; Hardin, J.W. (2012). «Testing Marginal Homogeneity in Matched-Pair Polytomous Data». Therapeutic Innovation & Regulatory Science. 46 (4): 434–438. doi:10.1177/0092861512442021

[McNemar1947-1] McNemar, Quinn (18 de junho de 1947). «Note on the sampling error of the difference between correlated proportions or percentages». Psychometrika. 12 (2): 153–157. PMID 20254758. doi:10.1007/BF02295996

[Spielman93-2] Spielman RS; McGinnis RE; Ewens WJ (março de 1993). «Transmission test for linkage disequilibrium: the insulin gene region and insulin-dependent diabetes mellitus (IDDM)». Am J Hum Genet. 52 (3): 506–16. PMC 1682161. PMID 8447318

[Edwards1948-3] Edwards, A (1948). «Note on the "correction for continuity" in testing the significance of the difference between correlated proportions». Psychometrika. 13: 185–187. doi:10.1007/bf02289261

[Lancaster1961-4] Lancaster, H.O. (1961). «Significance tests in discrete distributions.». J AmStat Assoc. 56: 223–234. doi:10.1080/01621459.1961.10482105

[Fagerland2013-5] Fagerland, M.W.; Lydersen, S.; Laake, P. (2013). «The McNemar test for binary matched-pairs data: mid-p and asymptotic are better than exact conditional». BMC Medical Research Methodology. 13. 91 páginas. doi:10.1186/1471-2288-13-91

[6] Yang, Z.; Sun, X.; Hardin, J.W. (2010). «A note on the tests for clustered matched-pair binary data». Biometrical Journal. 52 (5): 638–652. PMID 20976694. doi:10.1002/bimj.201000035

[7] Durkalski, V.L.; Palesch, Y.Y.; Lipsitz, S.R.; Rust, P.F. (2003). «Analysis of clustered matched-pair data». Statistics in medicine. 22 (15): 2417–28. PMID 12872299. doi:10.1002/sim.1438. Consultado em 1 de abril de 2009 ^{[ligação inativa]}

[Rice1995-8] Rice, John (1995). Mathematical Statistics and Data Analysis Second ed. Belmont, California: Duxbury Press. pp. 492–494. ISBN 0-534-20934-3

[9] Liddell, D. (1976). «Practical Tests of 2 × 2 Contingency Tables». Journal of the Royal Statistical Society. 25 (4): 295–304. JSTOR 2988087

[10] «Maxwell's test, McNemar's test, Kappa test». Rimarcik.com. Consultado em 22 de novembro de 2012

[11] Sun, Xuezheng; Yang, Zhao (2008). «Generalized McNemar's Test for Homogeneity of the Marginal Distributions» (PDF). SAS Global Forum

[12] Stuart, Alan (1955). «A Test for Homogeneity of the Marginal Distributions in a Two-Way Classification». Biometrika Trust. JSTOR 2333387 Em falta ou vazio |url= (ajuda)

[13] Maxwell, A.E. (1970). «Comparing the Classification of Subjects by Two Independent Judges» (PDF). The British Journal of Psychiatry

[14] «McNemar Tests of Marginal Homogeneity». John-uebersax.com. 30 de agosto de 2006. Consultado em 22 de novembro de 2012

[15] Bhapkar, V.P. (1966). «A Note on the Equivalence of Two Test Criteria for Hypotheses in Categorical Data». American Statistical Association. JSTOR 2283057 Em falta ou vazio |url= (ajuda)

[16] Yang, Z.; Sun, X.; Hardin, J.W. (2012). «Testing Marginal Homogeneity in Matched-Pair Polytomous Data». Therapeutic Innovation & Regulatory Science. 46 (4): 434–438. doi:10.1177/0092861512442021

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]