Coeficiente de correlação ponto-bisserial

O coeficiente de correlação ponto bisserial (r_pb) é um coeficiente de correlação utilizado quando uma variável (por exemplo, Y) é dicotômica; Y pode ser "naturalmente" dicotômica, como se o lançamento de uma moeda resulta em cara ou coroa, ou uma variável dicotomizada artificialmente. Na maioria das situações não é aconselhável dicotomizar variáveis artificialmente^[^{carece de fontes?]}. Quando uma nova variável é dicotomizada artificialmente a nova variável dicotômica pode ser concebido como tendo uma continuidade subjacente. Se este for o caso, uma correlação bisserial seria o cálculo mais apropriado.

A correlação ponto-bisserial é matematicamente equivalente à correlação de Pearson (produto-momento) correlação, isto é, se temos uma variável X medida continuamente e uma variável Y dicotômica, r_XY = r_pb. Isso pode ser demonstrado através da atribuição de dois valores numéricos diferentes para a variável dicotômica.

Cálculo[editar | editar código-fonte]

Para calcular r_pb, suponha que a variável dicotômica Y assuma os valores 0 e 1. Se o conjunto de dados for dividido em dois grupos, o grupo 1, em que Y recebeu o valor "1" e o grupo 2, em que Y recebeu o valor "0", então o coeficiente de correlação ponto-bisserial é calculado da seguinte forma:

r_{pb}={\frac {M_{1}-M_{0}}{s_{n}}}{\sqrt {\frac {n_{1}n_{0}}{n^{2}}}},

em que s_n é o desvio padrão utilizado quando os dados estão disponíveis para todos os membros da população:

s_{n}={\sqrt {{\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}}}\,,

sendo M₁ o valor médio da variável contínua X para todos os pontos de dados no grupo 1, e M₀ o valor médio da variável contínua X para todos os pontos de dados no grupo 2. Além disso, n₁ é o número de pontos de dados no grupo 1, n₀ é o número de pontos de dados no grupo 2 e n é o tamanho total da amostra. Esta fórmula é uma fórmula que foi derivada a partir da fórmula para r_XY, a fim de reduzir os passos no cálculo; ela é mais fácil calcular que r_XY.

Há uma fórmula equivalente que utiliza s_n−1:

r_{pb}={\frac {M_{1}-M_{0}}{s_{n-1}}}{\sqrt {\frac {n_{1}n_{0}}{n(n-1)}}},

onde s_n−1 é o desvio padrão utilizado quando só estão disponíveis os dados para uma amostra da população:

s_{n-1}={\sqrt {{\frac {1}{n-1}}\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}}}.

A versão da fórmula usando s_n−1 é útil quando o cálculo do coeficiente de correlação ponto-bisserial é feito em uma linguagem de programação ou outro ambiente de desenvolvimento em que há uma função para o cálculo de s_n−1, mas não há uma função disponível para o cálculo de s_n.

O livro de Glass e Hopkins intitulado Métodos Estatísticos em Educação e Psicologia, (3ª Edição)^[1] contém uma versão correta da fórmula ponto bisserial.

O quadrado do coeficiente de correlação ponto bisserial também pode ser escrito como

{\frac {(M_{1}-M_{0})^{2}}{\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}}}\left({\frac {n_{1}n_{0}}{n}}\right)\,.

Pode-se testar a hipótese nula de que a correlação é zero na população. Um pouco de álgebra mostra que a fórmula usual para avaliar a significância de um coeficiente de correlação, quando aplicada a r_pb, é a mesma que a fórmula para um t-teste não pareado e assim

r_{pb}{\sqrt {\frac {n_{1}+n_{0}-2}{1-r_{pb}^{2}}}}

segue uma distribuição t de Student com (n₁+n₀ - 2) graus de liberdade, quando a hipótese nula é verdadeira.

Uma desvantagem do coeficiente ponto bisserial é que quanto mais distante de 50/50 estivar a distribuição de Y, mais restrita será a gama de valores que o coeficiente pode assumir. Se X puder ser considerado normalmente distribuído, um índice descritivo melhor é dado pelo coeficiente bisserial

r_{b}={\frac {M_{1}-M_{0}}{s_{n}}}{\frac {n_{1}n_{0}}{n^{2}u}},

em que u é a ordenada da distribuição normal, com média zero variância unitária no ponto que divide a distribuição nas proporções n₀/n e n₁/n. Isso não é fácil de calcular, e o coeficiente bisserial não é amplamente utilizado na prática.

Um caso específico de correlação bisserial ocorre quando X é a soma de algumas variáveis dicotômicas, uma das quais é Y. Um exemplo disto é quando X é a pontuação total de uma pessoa em um teste composto de n itens pontuados dicotomicamente. Uma estatística de interesse (que é um índice de discriminação) é a correlação entre a resposta a um determinado item e as pontuações totais nos testes correspondentes. Há três cálculos amplamente utilizados,^[2] e todos são chamados de correlação ponto bisserial: (i) a correlação de Pearson entre a pontuação dos itens e a pontuação total dos testes, incluindo as pontuações do item, (ii) a correlação de Pearson entre as pontuações do item e a pontuação total dos testes excluindo-se as pontuações do item, e (iii) uma correlação ajustada para o viés causado pela inclusão das pontuações do item nas pontuações do teste. A correlação (iii) é

r_{upb}={\frac {M_{1}-M_{0}-1}{\sqrt {{\frac {n^{2}s_{n}^{2}}{n_{1}n_{0}}}-2(M_{1}-M_{0})+1}}}.

Uma versão ligeiramente diferente do coeficiente de ponto bisserial é o rank bisserial que ocorre quando a variável X consiste de ranks, enquanto Y é dicotômica. O coeficiente poderia ser calculado da mesma forma utilizada quando X é contínua, mas isso teria a mesma desvantagem de que o intervalo de valores que ele pode assumir se tornaria mais restrito conforme a distribuição de Y se tornasse mais desigual. Para contornar isso, nota-se que o coeficiente terá o seu maior valor quando os menores ranks são todos opostos aos 0s e os maiores ranks são opostos aos 1s. Seu menor valor ocorre quando ocorreo o contrário. Estes valores são, respectivamente, mais e menos (n₁ + n₀)/2. Pode-se, então, usar o recíproco deste valor para dimensionar a diferença entre a média dos ranks observados sobre o intervalo de mais um a menos um. O resultado é

r_{rb}=2{\frac {M_{1}-M_{0}}{n_{1}+n_{0}}},

em que M₁ e M₀ são, respectivamente, as médias dos ranks correspondentes às pontuações 1 e 0 da variável dicotômica. Esta fórmula, que simplifica o cálculo da contagem de coincidências e inversões, é devida a Gene V Glass (1966).

É possível usar isso para testar a hipótese nula de nenhuma correlação na população da qual a amostra foi extraída. Se r_rb é calculado como acima, então, o menor valor entre