Distância de Cook

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa

Em estatística, a distância de Cook é uma medida da influência de uma observação ao realizar-se uma análise de regressão de mínimos quadrados. O nome é uma homenagem ao estatístico americano R. Dennis Cook. A distância de Cook mede o efeito de excluir uma dada observação. E em pontos com grande distância de Cook considera-se checagem para validação.

A distância de Cook é definida como

D_i = \frac{ \sum_{j=1}^n (\hat Y_j\ - \hat Y_{j(i)})^2 }{p \ \mathrm{MSE}} .

Que é algebricamente equivalente à expressão

D_i = \frac{e_i^2}{p \ \mathrm{MSE}}\left[\frac{h_{ii}}{(1-h_{ii})^2}\right] .

Nas equações acima:

\hat Y_j \, é a previsão do modelo de regressão completo para a observação j;
\hat Y_{j(i)}\, é a previsão de observação j de um modelo de regressão reformado em que a observação i foi omitida;
h_{ii} \, é o i-nésimo elemento da diagonal da matriz de projeção \mathbf{X}\left(\mathbf{X}^T\mathbf{X}\right)^{-1}\mathbf{X}^T;
e_i \, é o resíduo bruto (i.e., a diferença entre o valor observado e o valor ajustado pelo modelo proposto);
 \mathrm{MSE} \, é o erro quadrático médio do modelo de regressão;
p é o número de parâmetros ajustados no modelo

Detecção de observações altamente influentes[editar | editar código-fonte]

Há mais de uma opinião a respeito de quais pontos de corte devem ser usados para se detectar pontos altamente influentes. A norma operacional D_i>1 é uma das sugeridas.[1] Outros sugerem o uso de D_i>4/n, onde n é o número de observações.[2]

Notas

Referências[editar | editar código-fonte]

  1. Cook, R. Dennis; and Weisberg, Sanford (1982); Residuals and influence in regression, New York, NY: Chapman & Hall
  2. Bollen, Kenneth A.; and Jackman, Robert W. (1990); Regression diagnostics: An expository treatment of outliers and influential cases, in Fox, John; and Long, J. Scott (eds.); Modern Methods of Data Analysis (pp. 257-91). Newbury Park, CA: Sage