Coeficiente de correlação de postos de Spearman

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa
Question book.svg
Esta página ou secção não cita nenhuma fonte ou referência, o que compromete sua credibilidade (desde Agosto de 2008).
Por favor, melhore este artigo providenciando fontes fiáveis e independentes, inserindo-as no corpo do texto por meio de notas de rodapé. Encontre fontes: Googlenotícias, livros, acadêmicoYahoo!Bing. Veja como referenciar e citar as fontes.
O coeficiente de correlação de Spearman é menos sensível do que o de Pearson a valores muito distantes do esperado. Neste exemplo: Pearson = 0.30706 Spearman = 0.76270

Na estatística, o coeficiente de correlação de postos de Spearman, chamado assim devido a Charles Spearman e normalmente denominado pela letra grega ρ (rho), é uma medida de correlação não-paramétrica, isto é, ele avalia uma função monótona arbitrária que pode ser a descrição da relação entre duas variáveis, sem fazer nenhumas suposições sobre a distribuição de frequências das variáveis.

Ao contrário do coeficiente de correlação de Pearson, não requer a suposição que a relação entre as variáveis é linear, nem requer que as variáveis sejam medidas em intervalo de classe; pode ser usado para as variáveis medidas no nível ordinal.

Se não houver nenhum posto estabelecido, isto é.\neg\exists_{i,j} i\ne j \wedge (x_i=x_j \vee y_i=y_j)

o ρ é dado por:

 \rho = 1- {\frac {6 \sum d_i^2}{(n^3-n)}}

Onde:

d_i = a diferença entre cada posto de valor correspondentes de x e y, e
n = o número dos pares dos valores.

Para amostras maiores que 20 observações, podemos utilizar a seguinte aproximação para a distribuição t de Student

t = \frac{\rho}{\sqrt{(1-\rho^2)/(n-2)}}

Exemplo[editar | editar código-fonte]

Neste exemplo, usaremos os dados brutos da tabela abaixo para calcular a correlação entre o QI de uma pessoa com o número de horas de televisão assistidas por semana.

QI, X_i Horas de TV por semana, Y_i
106 7
86 0
100 27
101 50
99 28
103 29
97 20
113 12
112 6
110 17

Primeiro, precisamos achar o valor do termo d^2_i. Para fazer isto executamos os seguintes passos:

  1. Ordene os dados pela primeira coluna (X_i). Crie uma nova coluna x_i e escreva nela os valores dos postos 1,2,3,...n.
  2. Em seguida, ordene os dados pela segunda coluna (Y_i). Crie uma quarta coluna y_i e analogamente coloque os valores dos postos 1,2,3,...n.
  3. Crie uma quinta coluna d_i para conter as diferenças entre as duas colunas de postos (x_i e y_i).
  4. Crie uma última coluna d^2_i para conter os valores da coluna d_i ao quadrado.
IQ, X_i Horas de TV por semana, Y_i posto x_i posto y_i d_i d^2_i
86 0 1 1 0 0
97 20 2 6 −4 16
99 28 3 8 −5 25
100 27 4 7 −3 9
101 50 5 10 −5 25
103 29 6 9 −3 9
106 7 7 3 4 16
110 17 8 5 3 9
112 6 9 2 7 49
113 12 10 4 6 36

Somamos os d^2_i e encontramos \sum d_i^2 = 194. O valor de n é 10. Agora estes valores podem ser substituidos na equação,

 \rho = 1- {\frac {6\times194}{10(10^2 - 1)}}

Que fornecem ρ = −0.175757575... Com um valor-P = 0.6864058 (usando a Distribuição-t)

Este valor pequeno mostra que a correlação entre QI e o número de horas assistindo TV é pequena.

obs. Se existem dados com o mesmo posto (dados iguais), o posto dos valores que são iguais é a média dos postos que lhes corresponderiam se não fossem iguais.

Ex:

QI, X_i Horas de TV por semana, Y_i
106 7
86 0
100 28
100 50
99 28
103 28
97 20
113 12
113 7
110 17
QI (i), X_i Horas de TV por semana (t), Y_i posto(i) posto(t) d d2
86 0 1 1 0 0
97 20 2 6 4 16
99 28 3 8 5 25
100 50 4.5 10 5.5 30.25
100 28 4.5 8 3.5 12.25
103 28 6 8 2 4
106 7 7 2.5 4.5 20.25
110 17 8 5 3 9
113 7 9.5 2.5 7 49
113 12 9.5 4 5.5 30.25

Ver também[editar | editar código-fonte]