Coeficiente de correlação tau de Kendall

Em estatística, o coeficiente de correlação de postos de Kendall, comumente chamado de coeficiente tau de Kendall (devido à letra grega τ), é uma estatística usada para medir a correlação de postos entre duas quantidades medidas. Um teste tau é um teste de hipóteses não paramétrico referente à dependência estatística baseada no coeficiente tau.

É uma medida de correlação de postos, ou seja, verifica a semelhança entre as ordens dos dados quando classificados por cada uma das quantidades. Recebe este nome em homenagem ao estatístico britânico Maurice Kendall, que o desenvolveu em 1938.^[1] O filósofo alemão Gustav Fechner propôs uma medida semelhante no contexto das séries temporais em 1897.^[2]

Intuitivamente, a correlação de Kendall entre duas variáveis será elevada se as observações tiverem uma classificação semelhante (ou idêntica no caso de correlação igual a 1), comparadas as duas variáveis. Por classificação, entende-se a descrição das posições relativas das observações no interior de cada variável. A correlação de Kendall será baixa quando as observações tiverem uma classificação diferente (ou completamente diferente no caso de correlação igual a -1) comparadas as duas variáveis.^[3]

Tanto o coeficiente $\tau$ , como o coeficiente $\rho$ de Spearman podem ser formulados como casos especiais de um coeficiente de correlação geral.

Definição[editar | editar código-fonte]

Considere $(x_{1},y_{1})$ , $(x_{2},y_{2})$ , ..., $(x_{n},y_{n})$ um conjunto de observações das variáveis aleatórias conjuntas $X$ e $Y$ respectivamente, tal que todos os valores de $(x_{i})$ e $(y_{i})$ sejam únicos. Qualquer par de observações $(x_{i},y_{i})$ e $(x_{j},y_{j})$ , em que $i\neq j$ , é concordante se as classificações de ambos os elementos concordarem uma com a outra, isto é, se $x_{i}>x_{j}$ e $y_{i}>y_{j}$ ou se $x_{i}<x_{j}$ e $y_{i}<y_{j}$ . Elas são discordantes se $x_{i}>x_{j}$ e $y_{i}<y_{j}$ ou se $x_{i}<x_{j}$ e $y_{i}>y_{j}$ . Se $x_{i}=x_{j}$ ou $y_{i}=y_{j}$ , o par não é nem concordante, nem discordante.

O coeficiente $\tau$ de Kendall é definido como:

\tau ={\frac {({\text{quantidade de pares concordantes}})-({\text{quantidade de pares discordantes}})}{n(n-1)/2}}.

^[4]

Propriedades[editar | editar código-fonte]

O denominador é o número total de combinações de pares, então, o coeficiente deve estar no intervalo $-1\leq \tau \leq 1$ .

Se a concordância entre as duas classificações for perfeita (isto é, se as duas classificações forem iguais), o coeficiente tem valor 1.
Se a discordância entre as duas classificações for perfeita (isto é, se uma classificação for o reverso da outra), o coeficiente tem valor -1.
Se $X$ e $Y$ forem independentes, espera-se que o coeficiente seja próximo de zero.

Teste de hipóteses[editar | editar código-fonte]

O coeficiente de postos de Kendall é frequentemente usado como uma estatística de teste em um teste de hipóteses para estabelecer se duas variáveis podem ser consideradas estatisticamente dependentes. O teste é não paramétrico, já que não se apoia em pressupostos sobre as distribuições de $X$ ou $Y$ ou a distribuição de $(X,Y)$ .

Sob a hipótese nula da independência de $X$ e $Y$ , a distribuição amostral de $\tau$ tem valor esperado igual a zero.^[5] Esta distribuição não pode ser caracterizada em termos de distribuições comuns, mas pode ser calculada com exatidão para pequenas amostras.^[6] No caso de amostras maiores, é comum usar uma aproximação da distribuição normal com média zero e variância igual a:

{\frac {2(2n+5)}{9n(n-1)}}

.^[7]

Repetições[editar | editar código-fonte]

Um par $\{(x_{i},y_{i}),(x_{j},y_{j})\}$ é considerado empatado se $x_{i}=x_{j}$ ou $y_{i}=y_{j}$ . Um par empatado não é concordante, nem discordante. Quando pares empatados aparecem nos dados, o coeficiente pode ser modificado de várias maneiras para que se mantenha no intervalo $[-1,1]$ .

Tau-a[editar | editar código-fonte]

A estatística de Tau-a testa a razão de possibilidades de tabelas de contingência. Ambas as variáveis devem ser ordinais. Tau-a não fará ajustes para empates. É definida como:

\tau _{A}={\frac {n_{c}-n_{d}}{n_{0}}}

em que $n_{c}$ , $n_{d}$ e $n_{0}$ são definidas na próxima seção.

Tau-b[editar | editar código-fonte]

A estatística de Tau-b, diferentemente de Tau-a, faz ajustes para empates.^[8] Valores de Tau-b variam entre -1 (associação 100% negativa ou inversão perfeita) e +1 (associação 100% positiva ou concordância perfeita). Sendo igual a zero, indica ausência de associação.

O coeficiente Tau-b de Kendall é definido como:

\tau _{B}={\frac {n_{c}-n_{d}}{\sqrt {(n_{0}-n_{1})(n_{0}-n_{2})}}}

em que

$n_{0}=n(n-1)/2$ ;
$n_{1}=\sum _{i}t_{i}(t_{i}-1)/2$ ;
$n_{2}=\sum _{j}u_{j}(u_{j}-1)/2$ ;
$n_{c}$ é o número de pares concordantes;
$n_{d}$ é o número de pares discordantes;
$t_{i}$ é o número de valores empatados no $i$ -ésimo grupo de empates para a primeira quantidade;
$u_{j}$ é o número de valores empatados no $j$ -ésimo grupo de empates para a segunda quantidade.

Tau-c[editar | editar código-fonte]

A estatística de Tau-c (também chamada de Tau-c de Stuart-Kendall) difere de Tau-b na medida em que é mais adequada para tabelas retangulares do que para tabelas quadradas.

Testes de significância[editar | editar código-fonte]

Quando duas quantidades são estatisticamente independentes, a distribuição de $\tau$ não é facilmente caracterizável em termos de distribuições conhecidas.^[9] Entretanto, para $\tau _{A}$ , a seguinte estatística, $z_{A}$ , é aproximadamente distribuída como uma normal padrão quando as variáveis são estatisticamente independentes:

z_{A}={3(n_{c}-n_{d}) \over {\sqrt {n(n-1)(2n+5)/2}}}

Assim, para testar se as duas variáveis são estatisticamente dependentes, computa-se $z_{A}$ e encontra-se a probabilidade cumulativa para a distribuição normal padrão em $-|z_{A}|$ . Para um teste bicaudal, multiplica-se aquele número por dois para obter o valor-p. Se o valor-p, estiver abaixo de um dado nível de significância, rejeita-se a hipótese nula (àquele nível de significância) de que as quantidades são estatisticamente independentes.

Numerosos ajustes devem ser acrescentados a $z_{A}$ quando se levam em conta os empates. A seguinte estatística, $z_{B}$ , tem distribuição igual à distribuição $\tau _{B}$ e é mais uma vez aproximadamente igual à distribuição normal padrão quando as quantidades forem estatisticamente independentes:

z_{B}={n_{c}-n_{d} \over {\sqrt {v}}}

em que

$v=(v_{0}-v_{t}-v_{u})/18+v_{1}+v_{2}$ ;
$v_{0}=n(n-1)(2n+5)$ ;
$v_{t}=\sum _{i}t_{i}(t_{i}-1)(2t_{i}+5)$ ;
$v_{u}=\sum _{j}u_{j}(u_{j}-1)(2u_{j}+5)$ ;
$v_{1}=\sum _{i}t_{i}(t_{i}-1)\sum _{j}u_{j}(u_{j}-1)/(2n(n-1))$ ;
$v_{2}=\sum _{i}t_{i}(t_{i}-1)(t_{i}-2)\sum _{j}u_{j}(u_{j}-1)(u_{j}-2)/(9n(n-1)(n-2))$ .