Ponto de alavanca (estatística)

Em estatística, em particular, na análise de regressão, o ponto de alavanca é uma medida dos valores de observação da variável independente.

Os computadores modernos para análise estatística incluem, como parte das instalações para a análise de regressão, algumas medidas quantitativas que identificam as influências dos dados: entre essas medidas esta a o ponto de alavancagem parcial, uma medida de como uma variável contribui para alavancar o ponto de referência.^[1]^[2]

Modelo de Regressão Linear[editar | editar código-fonte]

No modelo de regressão linear , o ponto de alavanca para a i-ésima unidade de dados é definido como:

h_{ii}=\left[\mathbf {H} \right]_{ii},

o elemento da matriz de projeção $\mathbf {H} =\mathbf {X} \left(\mathbf {X} ^{\mathsf {T}}\mathbf {X} \right)^{-1}\mathbf {X} ^{\mathsf {T}}$ , onde $\mathbf {X}$ é a matriz de projeto.

h_{ii}={\frac {\partial {\hat {y}}_{i}}{\partial y_{i}}},

${\hat {y}}_{i}$ e ${y}_{i}$ são as medida de ajustes e observação, respectivamente.

Limites do ponto de alavanca[editar | editar código-fonte]

0\leq h_{ii}\leq 1.

Prova[editar | editar código-fonte]

Primeiro, note que H é uma matriz idempotente: $H^{2}=X(X^{\top }X)^{-1}X^{\top }X(X^{\top }X)^{-1}X^{\top }=XI(X^{\top }X)^{-1}X^{\top }=H.$ Como também, observe que a $H$ é simétrica. Desse nodo, quando igualamos a ii elemento de H ao H ², nos temos

h_{ii}=h_{ii}^{2}+\sum _{j\neq i}h_{ij}^{2}\geq 0

e

h_{ii}\geq h_{ii}^{2}\implies h_{ii}\leq 1.

Efeitos do desvio residual[editar | editar código-fonte]

Se temos uma ordinário dos mínimos quadrados com uma configuração fixa de X, erros de regressão $\epsilon _{i},$ e

Y=X\beta +\epsilon

\operatorname {Var} (\epsilon )=\sigma ^{2}I

em seguida, $\operatorname {Var} (e_{i})=(1-h_{ii})\sigma ^{2}$ onde $e_{i}=Y_{i}-{\hat {Y}}_{i}$ (onde o i-ésimo é a regressão residual).

Em outras palavras, se o modelo de erros $\epsilon$ é homoscedástico, a observação do ponto de alavancagem determina o grau de diferenças no modelo de desvio de ramo dessa observação.

Antecipadamente, observe que $I-H$ é idempotente e simétrica. Isso significa,

$\operatorname {Var} (e_{i})=(1-h_{ii})\sigma ^{2}.$

Resíduos de studentizados[editar | editar código-fonte]

Os resíduos de studentizados — são resíduos ajustados para sua observação específica residual de variância e, em seguida, é

t_{i}={e_{i} \over {\widehat {\sigma }}{\sqrt {1-h_{ii}\ }}}

onde ${\widehat {\sigma }}$ é uma estimativa apropriada de $\sigma .$

Matriz de projeção – one as entradas da diagonal principal são os pontos de alavancagens de observações
Mahalanobis a distância – uma medida de alavancagem de um ponto de referência
Distância de Cook– uma medida de alterações nos coeficientes de regressão quando uma observação é eliminado
DFFITS
Os Outliers – extremos valores de Y nas observações

Referências

↑ Cardinali, C. (2013). Data Assimilation: Observation influence diagnostic of a data assimilation system (PDF). [S.l.]: ECMWF Publications
↑ Everitt, B.S. (2002). Cambridge Dictionary of Statistics. [S.l.]: Cambridge University Press. ISBN 0-521-81099-X

[1] Cardinali, C. (2013). Data Assimilation: Observation influence diagnostic of a data assimilation system (PDF). [S.l.]: ECMWF Publications

[2] Everitt, B.S. (2002). Cambridge Dictionary of Statistics. [S.l.]: Cambridge University Press. ISBN 0-521-81099-X

[1]

[2]