Distância de Cook
Origem: Wikipédia, a enciclopédia livre.
Em estatística, a distância de Cook é uma medida da influência de uma observação ao realizar-se uma análise de regressão de mínimos quadrados. O nome é uma homenagem ao estatístico americano R. Dennis Cook. A distância de Cook mede o efeito de excluir uma dada observação. E em pontos com grande distância de Cook considera-se checagem para validação.
A distância de Cook é definida como
Que é algebricamente equivalente à expressão
Nas equações acima:
é a previsão do modelo de regressão completo para a observação j;
é a previsão de observação j de um modelo de regressão reformado em que a observação i foi omitida;
é o i-nésimo elemento da diagonal da matriz de projeção
;
é o resíduo bruto (i.e., a diferença entre o valor observado e o valor ajustado pelo modelo proposto);
é o erro quadrático médio do modelo de regressão;
é o número de parâmetros ajustados no modelo
Detecção de observações altamente influentes [editar]
Há mais de uma opinião a respeito de quais pontos de corte devem ser usados para se detectar pontos altamente influentes. A norma operacional
é uma das sugeridas.1 Outros sugerem o uso de
, onde
é o número de observações.2
Notas
- Este artigo foi inicialmente traduzido do artigo da Wikipédia em inglês, cujo título é «Cook's distance», especificamente desta versão.
Referências [editar]
- ↑ Cook, R. Dennis; and Weisberg, Sanford (1982); Residuals and influence in regression, New York, NY: Chapman & Hall
- ↑ Bollen, Kenneth A.; and Jackman, Robert W. (1990); Regression diagnostics: An expository treatment of outliers and influential cases, in Fox, John; and Long, J. Scott (eds.); Modern Methods of Data Analysis (pp. 257-91). Newbury Park, CA: Sage
- Cook, R. Dennis. (Feb 1977). "Detection of Influential Observations in Linear Regression". Technometrics 19 (1): 15–18. American Statistical Association. DOI:10.2307/1268249.
- Cook, R. Dennis. (Mar 1979). "Influential Observations in Linear Regression". Journal of the American Statistical Association 74 (365): 169–174. American Statistical Association. DOI:10.2307/2286747.
- Lorenz, Frederick O.. (Apr 1987). "Teaching about Influence in Simple Regression". Teaching Sociology 15 (2): 173–177. American Sociological Association. DOI:10.2307/1318032.
- Chatterjee, Samprit; Hadi, Ali S.. In: Samprit. Regression analysis by example. 4th ed. [S.l.]: John Wiley and Sons, 2006. ISBN 0-471-74696-7

![D_i = \frac{e_i^2}{p \ \mathrm{MSE}}\left[\frac{h_{ii}}{(1-h_{ii})^2}\right] .](http://upload.wikimedia.org/math/9/0/c/90ce458a589bce8e875c6ca8b8ec4d74.png)
é a previsão do modelo de regressão completo para a observação j;
é a previsão de observação j de um modelo de regressão reformado em que a observação i foi omitida;
é o i-nésimo elemento da diagonal da
;
é o resíduo bruto (i.e., a diferença entre o valor observado e o valor ajustado pelo modelo proposto);
é o
é o número de parâmetros ajustados no modelo