Regressão linear

Em estatística ou econometria, regressão linear é uma equação para se estimar a condicional (valor esperado) de uma variável y, dados os valores de algumas outras variáveis x.^[1]^[2]

A regressão, em geral, tem como objetivo tratar de um valor que não se consegue estimar inicialmente.

A regressão linear é chamada "linear" porque se considera que a relação da resposta às variáveis é uma função linear de alguns parâmetros. Os modelos de regressão que não são uma função linear dos parâmetros se chamam modelos de regressão não-linear. Sendo uma das primeiras formas de análise regressiva a ser estudada rigorosamente, é usada extensamente em aplicações práticas. Isso acontece porque modelos que dependem de forma linear dos seus parâmetros desconhecidos, são mais fáceis de ajustar que os modelos não-lineares aos seus parâmetros, e porque as propriedades estatísticas dos estimadores resultantes são fáceis de determinar.^[3]

Modelos de regressão linear são frequentemente ajustados usando a abordagem dos mínimos quadrados, mas que também pode ser montada de outras maneiras, tal como minimizando a "falta de ajuste" em alguma outra norma (com menos desvios absolutos de regressão), ou através da minimização de uma penalização da versão dos mínimos quadrados. Por outro lado, a abordagem de mínimos quadrados pode ser utilizado para ajustar a modelos que não são modelos lineares. Assim, embora os termos "mínimos quadrados" e "modelo linear" estejam intimamente ligados, eles não são sinônimos. ^[^{carece de fontes?]}

Equação da Regressão Linear[editar | editar código-fonte]

Para se estimar o valor esperado, usa-se de uma equação, que determina a relação entre ambas as variáveis.

$y_{i}=\alpha +\beta \,X_{i}+\varepsilon _{i}$

, onde:

$y_{i}$ : Variável explicada (dependente); representa o que o modelo tentará prever

$\alpha$ : É uma constante, que representa a interceptação da reta com o eixo vertical;

$\beta$ : Representa a inclinação (coeficiente angular) em relação à variável explicativa;

$X_{i}$ : Variável explicativa (independente);

$\varepsilon _{i}$ : Representa todos os factores residuais mais os possíveis erros de medição. O seu comportamento é aleatório, devido à natureza dos factores que encerra. Para que essa fórmula possa ser aplicada, os erros devem satisfazer determinadas hipóteses, que são: terem distribuição normal, com a mesma variância $\sigma ^{2}\,$ , independentes e independentes da variável explicativa X, ou seja, i.i.d. (independentes e identicamente distribuídas).

Notação Matricial[editar | editar código-fonte]

A equação acima pode ser reescrita em forma de matriz:

$\mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}$

Onde $\mathbf {y}$ é uma matriz de $n\times 1$ observações, $\mathbf {X}$ é uma matriz de tamanho $n\times p+1$ (sendo a primeira coluna com valores sempre = 1, representando a constante $\alpha$ , e $p$ é a quantidade de variáveis explicativas), ${\boldsymbol {\beta }}$ é uma matriz de $p+1\times 1$ variáveis explicativas (sendo que $\beta _{0}$ representa a constante $\alpha$ ) e ${\boldsymbol {\varepsilon }}$ é uma matriz de $n\times 1$ de resíduos.

\mathbf {y} ={\begin{bmatrix}y_{1}\\y_{2}\\\vdots \\y_{n}\end{bmatrix}},\qquad \mathbf {X} ={\begin{bmatrix}1&X_{11}&X_{12}&\cdots &X_{1p}\\1&X_{21}&X_{22}&\cdots &X_{2p}\\\vdots &\vdots &\ddots &\vdots \\1&X_{n1}&X_{n2}&\cdots &X_{np}\end{bmatrix}},\qquad {\boldsymbol {\beta }}={\begin{bmatrix}\beta _{0}\\\beta _{1}\\\beta _{2}\\\vdots \\\beta _{p}\end{bmatrix}},\qquad {\boldsymbol {\varepsilon }}={\begin{bmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\vdots \\\varepsilon _{n}\end{bmatrix}}

Estimativa dos fatores $\alpha$ e $\beta$ [editar | editar código-fonte]

A técnica mais usual para estimativa dos parâmetros $\alpha$ e $\beta$ é o Método dos mínimos quadrados, mas também podem ser usados:

Mínimos Quadrados Ponderados
Mínimos quadrados generalizados
Máxima verossimilhança
Regularização de Tikhonov
Mínimo Desvio absoluto

Interpretação dos parâmetros do modelo[editar | editar código-fonte]

O chamado intercepto ou coeficiente linear ( $\beta _{0}$ ) é utilizado para representar o ponto em que a reta da regressão corta o eixo Y quando X = 0. Já o parâmetro representa a inclinação da reta ( $\beta _{1}$ ) é denominado como coeficiente de regressão ou coeficiente angular. A interpretação geométrica dos coeficientes podem ser vistos na imagem abaixo.

Com base no modelo representado na imagem assim, é possível identificar que :

A relação matemática entre Y e X é linear
Os valores de x são fixos (ou controlados), isto é, x não é uma variável aleatória
A média do erro é nula, ou seja $E(\varepsilon _{i})=0$ .

$E(Y_{i})=E(\beta _{0}+\beta _{1}x_{i}+\epsilon _{i})=\beta _{0}+\beta _{1}x_{i}+E(\epsilon _{i})=\beta _{0}+\beta _{1}x_{i}$

Dado isto, temos que a regressão do modelo acima e dado por:

$E[Y|x]=\beta _{0}+\beta _{1}x$

Sabendo que para cada valor de X, a variação de $\varepsilon _{i}$ será sempre $\sigma ^{2}$ , teremos que:

$Var(\epsilon _{i})=E(\epsilon _{i}^{2})-[E(\epsilon _{i})^{2}]=E(\epsilon _{i}^{2})=\sigma ^{2}$ Assim temos que :

$Var(Y_{i})=E[Y_{i}-E(Y_{i}|x_{i})^{2}]=E(\epsilon _{i}^{2})=\sigma ^{2}$

Quando deparamos com casos como este, dizemos que o erro é homocedástico, ou seja, a variância é constante.

Em casos como esse, esta hipótese não implica que os erros sejam independentes. Se a distribuição dos erros for normal, esta hipótese é equivalente a independência dos erros.

$Cov(\epsilon _{i},\epsilon _{j})=E(\epsilon _{i}\epsilon _{j})-E(\epsilon _{i})E(\epsilon _{j})=E(\epsilon _{i},\epsilon _{j})=0$ $i\neq j$

Ver também[editar | editar código-fonte]

Ligações externas[editar | editar código-fonte]

SysLinea 0.1.2 : Programa de código aberto com regressão linear e não linear.
Manual da Regressão Linear

Referências

↑ «Linear regression» (PDF) (em inglês). Stanford.edu. Consultado em 10 de julho de 2019
↑ «Chapter 9 - Simple linear regression» (PDF) (em inglês). Carnegie Mellon University - Statistics & Data Science. Consultado em 10 de julho de 2019
↑ http://www.fisica.ufs.br/egsantana/cinematica/regresion/regresion.htm Regressão linear com experimêntos físicos ^{[ligação inativa]}

Bibliografia[editar | editar código-fonte]

REIS, E., Estatistica Descritiva (2ª ed.). Lisboa: Edições Sílabo, 1994

[1] «Linear regression» (PDF) (em inglês). Stanford.edu. Consultado em 10 de julho de 2019

[2] «Chapter 9 - Simple linear regression» (PDF) (em inglês). Carnegie Mellon University - Statistics & Data Science. Consultado em 10 de julho de 2019

[3] ttp://www.fisica.ufs.br/egsantana/cinematica/regresion/regresion.htm Regressão linear com experimêntos físicos ^{[ligação inativa]}

[1]

[2]

[3]

v d e Econometria
Regressão linear	Método dos mínimos quadrados · R² · Teste t · Teste F · Valor-p
Regressão não-linear	Modelo linear generalizado · Máxima verossimilhança · Método dos momentos generalizados
Ajustes nos modelos	Correlação serial · Endogeneidade · Heteroscedasticidade · Mínimos quadrados de dois estágios · Multicolinearidade · Variável dummy · Variáveis instrumentais · Regressão quantílica · Teste de especificação de Hausman
Variável dependente limitada	Modelo probit · Regressão logística · Regressão de Poisson
Série temporal	Autocorrelação · Ruído branco · Operador de defasagem · ARMA · ARIMA · GARCH · Dados em painel · Teste de Chow · Teste de Dickey-Fuller aumentado
Softwares	EViews · Gretl · LIMDEP & NLOGIT · IGEst · MATLAB · R · Shazam software · Stata · Octave · JMulTi · PSPP
Pessoas	Adrien-Marie Legendre · Carl Friedrich Gauss · David Dickey · George Box · Gwilym Jenkins · George Chow · Lars Peter Hansen · Ronald Fisher · Wayne Fuller