Coeficiente de correlação tau de Kendall

Origem: Wikipédia, a enciclopédia livre.

Em estatística, o coeficiente de correlação de postos de Kendall, comumente chamado de coeficiente tau de Kendall (devido à letra grega τ), é uma estatística usada para medir a correlação de postos entre duas quantidades medidas. Um teste tau é um teste de hipóteses não paramétrico referente à dependência estatística baseada no coeficiente tau.

É uma medida de correlação de postos, ou seja, verifica a semelhança entre as ordens dos dados quando classificados por cada uma das quantidades. Recebe este nome em homenagem ao estatístico britânico Maurice Kendall, que o desenvolveu em 1938.[1] O filósofo alemão Gustav Fechner propôs uma medida semelhante no contexto das séries temporais em 1897.[2]

Intuitivamente, a correlação de Kendall entre duas variáveis será elevada se as observações tiverem uma classificação semelhante (ou idêntica no caso de correlação igual a 1), comparadas as duas variáveis. Por classificação, entende-se a descrição das posições relativas das observações no interior de cada variável. A correlação de Kendall será baixa quando as observações tiverem uma classificação diferente (ou completamente diferente no caso de correlação igual a -1) comparadas as duas variáveis.[3]

Tanto o coeficiente , como o coeficiente de Spearman podem ser formulados como casos especiais de um coeficiente de correlação geral.

Definição[editar | editar código-fonte]

Considere , , ..., um conjunto de observações das variáveis aleatórias conjuntas e respectivamente, tal que todos os valores de e sejam únicos. Qualquer par de observações e , em que , é concordante se as classificações de ambos os elementos concordarem uma com a outra, isto é, se e ou se e . Elas são discordantes se e ou se e . Se ou , o par não é nem concordante, nem discordante.

O coeficiente de Kendall é definido como:

[4]

Propriedades[editar | editar código-fonte]

  • O denominador é o número total de combinações de pares, então, o coeficiente deve estar no intervalo .
  • Se a concordância entre as duas classificações for perfeita (isto é, se as duas classificações forem iguais), o coeficiente tem valor 1.
  • Se a discordância entre as duas classificações for perfeita (isto é, se uma classificação for o reverso da outra), o coeficiente tem valor -1.
  • Se e forem independentes, espera-se que o coeficiente seja próximo de zero.

Teste de hipóteses[editar | editar código-fonte]

O coeficiente de postos de Kendall é frequentemente usado como uma estatística de teste em um teste de hipóteses para estabelecer se duas variáveis podem ser consideradas estatisticamente dependentes. O teste é não paramétrico, já que não se apoia em pressupostos sobre as distribuições de ou ou a distribuição de .

Sob a hipótese nula da independência de e , a distribuição amostral de tem valor esperado igual a zero.[5] Esta distribuição não pode ser caracterizada em termos de distribuições comuns, mas pode ser calculada com exatidão para pequenas amostras.[6] No caso de amostras maiores, é comum usar uma aproximação da distribuição normal com média zero e variância igual a:

.[7]

Repetições[editar | editar código-fonte]

Um par é considerado empatado se ou . Um par empatado não é concordante, nem discordante. Quando pares empatados aparecem nos dados, o coeficiente pode ser modificado de várias maneiras para que se mantenha no intervalo .

Tau-a[editar | editar código-fonte]

A estatística de Tau-a testa a razão de possibilidades de tabelas de contingência. Ambas as variáveis devem ser ordinais. Tau-a não fará ajustes para empates. É definida como:

em que , e são definidas na próxima seção.

Tau-b[editar | editar código-fonte]

A estatística de Tau-b, diferentemente de Tau-a, faz ajustes para empates.[8] Valores de Tau-b variam entre -1 (associação 100% negativa ou inversão perfeita) e +1 (associação 100% positiva ou concordância perfeita). Sendo igual a zero, indica ausência de associação.

O coeficiente Tau-b de Kendall é definido como:

em que

  • ;
  • ;
  • ;
  • é o número de pares concordantes;
  • é o número de pares discordantes;
  • é o número de valores empatados no -ésimo grupo de empates para a primeira quantidade;
  • é o número de valores empatados no -ésimo grupo de empates para a segunda quantidade.

Tau-c[editar | editar código-fonte]

A estatística de Tau-c (também chamada de Tau-c de Stuart-Kendall) difere de Tau-b na medida em que é mais adequada para tabelas retangulares do que para tabelas quadradas.

Testes de significância[editar | editar código-fonte]

Quando duas quantidades são estatisticamente independentes, a distribuição de não é facilmente caracterizável em termos de distribuições conhecidas.[9] Entretanto, para , a seguinte estatística, , é aproximadamente distribuída como uma normal padrão quando as variáveis são estatisticamente independentes:

Assim, para testar se as duas variáveis são estatisticamente dependentes, computa-se e encontra-se a probabilidade cumulativa para a distribuição normal padrão em . Para um teste bicaudal, multiplica-se aquele número por dois para obter o valor-p. Se o valor-p, estiver abaixo de um dado nível de significância, rejeita-se a hipótese nula (àquele nível de significância) de que as quantidades são estatisticamente independentes.

Numerosos ajustes devem ser acrescentados a quando se levam em conta os empates. A seguinte estatística, , tem distribuição igual à distribuição e é mais uma vez aproximadamente igual à distribuição normal padrão quando as quantidades forem estatisticamente independentes:

em que

  • ;
  • ;
  • ;
  • ;
  • ;
  • .

Ver também[editar | editar código-fonte]

Referências[editar | editar código-fonte]

  1. Kendall, M. G. (1 de junho de 1938). «A NEW MEASURE OF RANK CORRELATION». Biometrika. 30 (1-2): 81–93. ISSN 0006-3444. doi:10.1093/biomet/30.1-2.81 
  2. Kruskal, William H. (1 de dezembro de 1958). «Ordinal Measures of Association». Journal of the American Statistical Association. 53 (284): 814–861. ISSN 0162-1459. doi:10.2307/2281954 
  3. Kendall, Maurice George (1 de janeiro de 1970). Rank Correlation Methods (em inglês). [S.l.]: Griffin. ISBN 9780852641996 
  4. «Kendall tau metric - Encyclopedia of Mathematics». www.encyclopediaofmath.org (em inglês). Consultado em 21 de junho de 2017 
  5. Daniel, Wayne W. (1990). Applied nonparametric statistics (em inglês). [S.l.]: PWS-Kent Publ. ISBN 9780534919764 
  6. Bonett, Douglas G.; Wright, Thomas A. (1 de março de 2000). «Sample size requirements for estimating pearson, kendall and spearman correlations». Psychometrika (em inglês). 65 (1): 23–28. ISSN 0033-3123. doi:10.1007/bf02294183 
  7. «Kendall coefficient of rank correlation - Encyclopedia of Mathematics». www.encyclopediaofmath.org (em inglês). Consultado em 21 de junho de 2017 
  8. Agresti, Alan (6 de julho de 2012). Analysis of Ordinal Categorical Data (em inglês). [S.l.]: John Wiley & Sons. ISBN 9781118209998 
  9. Abdi, Hervé (2007). «The Kendall Rank Correlation Coefficient». In: Salkind, Neil. Encyclopedia of Measurement and Statistics (PDF). Thousand Oaks (Califórnia): Sage. Consultado em 21 de junho de 2017 

Ligações externas[editar | editar código-fonte]