Método dos mínimos quadrados

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa
NoFonti.svg
Este artigo ou se(c)ção cita uma ou mais fontes fiáveis e independentes, mas ela(s) não cobre(m) todo o texto.
Por favor, melhore este artigo providenciando mais fontes fiáveis e independentes e inserindo-as em notas de rodapé ou no corpo do texto, conforme o livro de estilo.
Encontre fontes: Googlenotícias, livros, acadêmicoScirusBing. Veja como referenciar e citar as fontes.

O Método dos Mínimos Quadrados, ou Mínimos Quadrados Ordinários (MQO) ou OLS (do inglês Ordinary Least Squares) é uma técnica de otimização matemática que procura encontrar o melhor ajuste para um conjunto de dados tentando minimizar a soma dos quadrados das diferenças entre o valor estimado e os dados observados (tais diferenças são chamadas resíduos).[1]

É a forma de estimação mais amplamente utilizada na econometria. Consiste em um estimador que minimiza a soma dos quadrados dos resíduos da regressão, de forma a maximizar o grau de ajuste do modelo aos dados observados.

Um requisito para o método dos mínimos quadrados é que o fator imprevisível (erro) seja distribuído aleatoriamente, essa distribuição seja normal e independente. O Teorema Gauss-Markov garante (embora indiretamente) que o estimador de mínimos quadrados é o estimador não-enviesado de mínima variância linear na variável resposta.

Outro requisito é que o modelo é linear nos parâmetros, ou seja, as variáveis apresentam uma relação linear entre si. Caso contrário, deveria ser usado um modelo de regressão não-linear.

Credita-se Carl Friedrich Gauss como o desenvolvedor das bases fundamentais do método dos mínimos quadrados, em 1795, quando Gauss tinha apenas dezoito anos. Entretanto, Adrien-Marie Legendre foi o primeiro a publicar o método em 1805, em seu Nouvelles méthodes pour la détermination des orbites des comètes. Gauss publicou suas conclusões apenas em 1809.[2] [3] [4]

Regressão simples[editar | editar código-fonte]

Queremos estimar valores de determinada variável y\,\!. Para isso, consideramos os valores de outra variável x\,\! que acreditamos ter poder de explicação sobre y\,\! conforme a fórmula:

y = \alpha + \beta x + \varepsilon  ,\!

onde:

  • \alpha \,\!: Parâmetro do modelo chamado de constante (porque não depende de x\,\!).
  • \beta \,\!: Parâmetro do modelo chamado de coeficiente da variável x\,\!.
  • \varepsilon \,\!: Erro - representa a variação de y\,\! que não é explicada pelo modelo.

Também temos uma base de dados com n \,\! valores observados de y \,\! e de x \,\!. Perceba que, usando a base de dados, y \,\! e x \,\! são vetores, ou seja, representam uma lista de valores, um para cada observação da base de dados. O método dos mínimos quadrados ajuda a encontrar as estimativas de \alpha \,\! e \beta \,\!. Como o nome diz, serão somente estimativas desses parâmetros, porque o valor real dos parâmetros são desconhecidos. Portanto, ao fazer a estimativa, mudamos a notação de algumas variáveis:


\begin{align}
\alpha & \rightarrow a \\
\beta & \rightarrow b \\
\varepsilon & \rightarrow e
\end{align}

Para ilustrar isso, Heij[5] menciona:

We do not know Greek but we can compute Latin
Não sabemos grego, mas podemos calcular em latim

Desse modo, ao estimar o modelo usando a base de dados, estamos estimando, na verdade:

y_i = a + b x_i + e_i \,\!

onde i \,\! indica cada uma das n \,\! observações da base de dados e e \,\! passa a ser chamado de resíduo, ao invés de erro. Em alguns livros, a notação para as estimativas dos parâmetros é um pouco diferente. Ao invés de substituir a letra, apenas adiciona-se o símbolo chapéu (\hat{ }).

O método dos mínimos quadrados minimiza a soma dos quadrado dos resíduos, ou seja, minimiza \sum_{i=1}^n e_i^2.

A ideia por trás dessa técnica é que, minimizando a soma do quadrado dos resíduos, encontraremos a \,\! e b\,\! que trarão a menor diferença entre a previsão de y\,\! e o y\,\! realmente observado.

Substituindo e_i \,\! por y_i - a - b x_i \,\!, temos:

S(a,b) = \sum_{i=1}^n \left( y_i - a - b x_i \right) ^2

A minimização se dá ao derivar S(a,b) \,\! em relação a a \,\! e b \,\! e igualar a zero:


\begin{align}
{\partial S \over \partial a} & = -2 \sum_{i=1}^n \left( y_i - a - b x_i \right) = 0 \\
{\partial S \over \partial b} & = -2 \sum_{i=1}^n x_i \left( y_i - a - b x_i \right) = 0 \\
\end{align}

Distribuindo e dividindo a primeira expressão por 2n \,\! temos:


\begin{align}
& \frac{-2 \sum_{i=1}^n y_i} {2n} + \frac{2 \sum_{i=1}^n a} {2n} + \frac{2 \sum_{i=1}^n b x_i} {2n} = \frac{0} {2n} \\
& \frac{-\sum_{i=1}^n y_i} {n} + \frac{\sum_{i=1}^n a} {n} + \frac{b \sum_{i=1}^n x_i} {n} = 0 \\
& -\bar{y} + a + b \bar{x} = 0 \\
& a = \bar{y} - b \bar{x}
\end{align}

onde \bar{y} é a média amostral de y \,\! e \bar{x} é a média amostral de x \,\!.

Substituindo esse resultado na segunda expressão temos:


\begin{align}
& -2 \sum_{i=1}^n x_i \left(y_i - \bar{y} + b \bar{x} - b x_i \right) = 0 \\
& \sum_{i=1}^n \left[ x_i \left( y_i - \bar{y} \right) + x_i b \left( \bar{x} - x_i \right) \right] = 0 \\
& \sum_{i=1}^n x_i \left( y_i - \bar{y} \right) + b \sum_{i=1}^n x_i \left( \bar{x} - x_i \right) = 0 \\
& b = \frac{\sum_{i=1}^n x_i \left( y_i - \bar{y} \right)} {\sum_{i=1}^n x_i \left( x_i - \bar{x}\right)}
\end{align}

Alguns livros também usam uma fórmula diferente que gera o mesmo resultado:

b = \frac{\sum_{i=1}^n \left( x_i - \bar{x} \right) \left( y_i - \bar{y} \right)} {\sum_{i=1}^n \left( x_i - \bar{x} \right)^2}

Exemplo de regressão simples[editar | editar código-fonte]

Regressao Simples-Exemplo.gif

Considere a seguinte base de dados:

i y\,\!
Consumo
x\,\!
Renda
1 122 139
2 114 126
3 86 90
4 134 144
5 146 163
6 107 136
7 68 61
8 117 62
9 71 41
10 98 120

Aplicando as fórmulas acima, chega-se em:


\begin{align}
b & = \frac{7.764,40} {15.671,60} = 0,4954 \\
a & = 106,30 - 0,4954 \times 108,20 = 52,69
\end{align}

portanto,

Consumo = 52,69 + 0,4954 \times Renda + e \,\!

Interpretação: Tirando a parte do Consumo que não é influenciada pela Renda, o incremento de $ 1 na Renda causa um incremento esperado de $ 0,4954 no Consumo.

Regressão múltipla[editar | editar código-fonte]

A regressão múltipla apresenta um funcionamento parecido com o da regressão simples, porém, leva em consideração diversas variáveis explicativas x \,\! influenciando y \,\! ao mesmo tempo:

y=\beta_0+x_1\beta_1+x_2\beta_2+x_3\beta_3+\dots+x_k\beta_k+\varepsilon

Ao usar a base de dados com k\,\! variáveis explicativas e n\,\! observações, o modelo pode ser escrito na forma matricial:


\begin{pmatrix}
 y_1 \\
 y_2 \\
 y_3 \\
 y_4 \\
 \dots \\
 y_n
\end{pmatrix}
= \begin{pmatrix}
 1 & x_{11} & x_{21} & \dots & x_{k1} \\
 1 & x_{12} & x_{22} & \dots & x_{k2} \\
 1 & x_{13} & x_{23} & \dots & x_{k3} \\
 1 & x_{14} & x_{24} & \dots & x_{k4} \\
 \dots & \dots & \dots & \dots & \dots \\
 1 & x_{1n} & x_{2n} & \dots & x_{kn}
\end{pmatrix}
\times
\begin{pmatrix}
 b_0 \\
 b_1 \\
 b_2 \\
 \dots \\
 b_k
\end{pmatrix}
+
\begin{pmatrix}
 e_1 \\
 e_2 \\
 e_3 \\
 e_4 \\
 \dots \\
 e_n
\end{pmatrix}

, onde x_{ji} \,\! representa o valor da j\,\!-ésima variável da i \,\!-ésima observação. A fórmula também pode ser escrita na forma resumida:

y = X b + e \,\!

A solução de mínimos quadrados continua sendo alcançada através da minimização da soma do quadrado dos erros \sum_{i=1}^n e_i^2, que pode ser reescrito como e'e\,\!, onde o apóstrofe significa que a matriz foi transposta.

Substituindo e \,\! por y-Xb \,\!, temos:


\begin{align}
S\left(b\right) & = \left(y-Xb\right)'\left(y-Xb\right) \\
& = y'y-y'Xb-b'X'y+b'X'Xb
\end{align}

A minimização se dá ao derivar S\left(b\right)\,\! em relação a b \,\! e igualar a zero. O primeiro termo não depende de b\,\!, os segundo e terceiro termos são iguais e o terceiro termo é uma forma quadrática dos elementos de b\,\!.


\begin{align}
& {\partial S \over \partial b} = -2X'y+2X'Xb = 0 \\
& X'Xb = X'y \,\! \\
& b = \left(X'X \right)^{-1}X'y
\end{align}

Exemplo de regressão múltipla[editar | editar código-fonte]

Considere a base de dados usada no exemplo da regressão simples, porém, acrescente mais uma variável explicativa (taxa de juros):

i y\,\!
Consumo
x_1\,\!
Renda
x_2\,\!
Taxa de Juros
1 122 139 11,5%
2 114 126 12,0%
3 86 90 10,5%
4 134 144 9,0%
5 146 163 10,0%
6 107 136 12,0%
7 68 61 10,5%
8 117 62 8,0%
9 71 41 10,0%
10 98 120 11,5%

Aplicando a fórmula acima, chega-se em:


b = \left(
\left(\begin{smallmatrix}
 1 & 1 & 1 & \cdots \\
 139 & 126 & 90 & \cdots \\
 0,115 & 0,12 & 0,105 & \cdots
\end{smallmatrix}\right) \times
\left(\begin{smallmatrix}
 1 & 139 & 0,115 \\
 1 & 126 & 0,12 \\
 1 & 90 & 0,105 \\
 \cdots & \cdots & \cdots
\end{smallmatrix}\right) \right) ^{-1} \times
\left(\begin{smallmatrix}
 1 & 1 & 1 & \cdots \\
 139 & 126 & 90 & \cdots \\
 0,115 & 0,12 & 0,105 & \cdots
\end{smallmatrix}\right) \times
\left(\begin{smallmatrix}
 122 \\
 114 \\
 86 \\
 \cdots
\end{smallmatrix}\right)=
\left(\begin{smallmatrix}
 148,52 \\
 0,6136 \\
 -1.034,41
\end{smallmatrix}\right)

portanto,

Consumo = 148,52 + 0,6136 \times Renda - 1.034,41 \times Taxa\,de\,Juros + e \,\!

Interpretação: Tirando a parte do Consumo que não é influenciada pela Taxa de Juros, o incremento de $ 1 na Renda causa um incremento esperado de $ 0,6136 no Consumo; além disso, o incremento de 1 ponto percentual (0,01) na Taxa de Juros causa um decréscimo esperado de $ 10,3441 no Consumo.

Premissas[editar | editar código-fonte]

Ao usar o método dos mínimos quadrados, assumimos algumas premissas a respeito das variáveis:

  • Os regressores são fixos: As variáveis da matriz X\,\! não são estocásticas.
  • Erro é aleatório com média 0: O erro \varepsilon \,\! é aleatório e sua esperança E \left( \varepsilon \right) = 0 \,\!.
  • Homoscedasticidade: A variância do erro é constante.
  • Sem correlação: Não existe correlação entre os erros das observações, ou seja, E \left( \varepsilon_i \varepsilon_j \right) = 0 \,\! para qualquer i \neq j\,\!.
  • Parâmetros são constantes: \alpha \,\! e \beta \,\! são valores fixos desconhecidos.
  • Modelo é linear: Os dados da variável dependente y \,\! foram gerados pelo processo linear y = X \beta + \epsilon \,\!.
  • Erro tem distribuição normal: O erro é distribuído conforme a curva de distribuição normal.

Caso alguma dessas premissas não seja verdadeira, o método pode gerar resultados sub-ótimos ou com viés.

Coeficiente de determinação R²[editar | editar código-fonte]

O Coeficiente de determinação, também chamado de é uma medida de qualidade do modelo em relação à sua habilidade de estimar corretamente os valores da variável resposta y \,\!.

R^2=1-\frac{SQ_\text{res}}{SQ_\text{tot}} , sendo SQres o Somatório dos Quadrados dos Resíduos e SQtot o Somatório dos Quadrados Total

ou R² ajustado:

\bar{R^2}=1-\frac{n-1}{n-(k+1)}\left(1-R^2\right)\,\!

Exemplo de R² e R² ajustado[editar | editar código-fonte]

Usando os dados do exemplo de regressão múltipla, podemos calcular:

R^2=1-\frac{671,54}{5.958,10} = 0,88729

Isso significa que 88,729% da variância de y\,\! é explicada pela variância de X\,\!.

\bar{R^2}=1-\frac{10-1}{10-(2+1)}\left(1-0,88729\right) = 0,85509

Teste de significância dos coeficientes[editar | editar código-fonte]

Se uma variável x_j\,\! realmente possui poder explicativo sobre y\,\!, seu coeficiente b_j\,\! deve ser estatísticamente diferente de zero. Ou seja, deve ser suficientemente maior ou menor do que zero para que tenhamos confiança de que a variável realmente possui poder explicativo. Caso isso não seja verdade, a variável poderia ser retirada do modelo sem que exista grande perda da sua qualidade. Para verificar se os coeficientes são significantes, levamos em consideração que o estimador b\,\! tem distribuição normal centrada em \beta\,\! e com variância \sigma^2 \left( X'X \right)^{-1}, onde \sigma^2\,\! é a variância do erro \varepsilon\,\!. Ou seja:

b \sim N \left( \beta , \sigma^2 \left( X'X \right)^{-1} \right)

Porém, como o erro não é observado, usamos a aproximação amostral s^2\,\!:

s^2=\frac{e'e}{n-(k+1)}

, onde (k+1)\,\! representa o número de variáveis explicativas mais a constante.

Considerando que a hipótese nula é a de que \beta_j=0\,\!, então a estatística t para a variável j é:

t_j=\frac{b_j}{s \sqrt{a_{jj}}} \sim t \left( n-k-1 \right)

, onde a_{jj}\,\! é o j-ésimo elemento da diagonal de \left( X'X \right)^{-1}.

Aplicando o valor de t_j\,\! na curva acumulada da distribuição t de Student com n-k-1 \,\! graus de liberdade, pode-se obter o nível de confiança necessário para que a hipótese nula seja rejeitada.

Exemplo de teste de significância dos coeficientes[editar | editar código-fonte]

Usando os dados do exemplo de regressão múltipla, podemos calcular:

 s = \sqrt{\tfrac{671,54}{10-(2+1)}} = 9,7946

\left( X'X \right)^{-1} = \left(
\left(\begin{smallmatrix}
 1 & 1 & 1 & \cdots \\
 139 & 126 & 90 & \cdots \\
 0,115 & 0,12 & 0,105 & \cdots
\end{smallmatrix}\right) \times
\left(\begin{smallmatrix}
 1 & 139 & 0,115 \\
 1 & 126 & 0,12 \\
 1 & 90 & 0,105 \\
 \cdots & \cdots & \cdots
\end{smallmatrix}\right) \right) ^{-1} = \left(\begin{smallmatrix}
 7,2254 & 0,0010 & -68,8504 \\
 0,0010 & 0,0001 & -0,0849 \\
 -68,8504 & -0,0849 & 743,1920
\end{smallmatrix}\right)

\begin{align}
t_0 & =\tfrac{148,52}{9,7946 \sqrt{7,2254}} = 5,6412 \\
t_1 & =\tfrac{0,6136}{9,7946 \sqrt{0,0001}} = 7,3069 \\
t_2 & =\tfrac{-1.034,41}{9,7946 \sqrt{743,1920}} = -3,8740 \\
\end{align}

Na distribuição t de Student com 7 (10-2-1) graus de liberdade, o valor de |t_j|\,\! que garante um nível de confiança de 95% é 2,3646. Como |t_0|\,\! é maior que 2,3646, a hipótese nula de que \beta_0 = 0\,\! é rejeitada com, pelo menos 95% de confiança. O mesmo também ocorre para |t_1| \text{ e } |t_2| \,\!.

Referências

  1. Universidade de Berkeley, Econometrics Laboratory Software Archive. Regression Analysis (em Inglês). Página visitada em 18/05/2011.
  2. (em inglês) Indiana University Bloomington, Human Intelligence, Karl Friedrich Gauss (1777-1855), German Mathematician [1]
  3. Memória, José M. P. (2004). Breve História da Estatística (em Inglês). Embrapa Informação Tecnológica. Página visitada em 11/05/2011.
  4. Stigler, S. M.. The History of Statistics: The Measurement of Uncertainty before 1900. [S.l.]: Harvard University Press, 1986. 410 p.
  5. HEIJ, Christiaan; DE BOER, Paul; FRANSES, Philip Hans; KLOEK, Teun; VAN DIJK, Herman K. Econometric Methods with Applications in Business and Economics. OXFORD, 2004

Ver também[editar | editar código-fonte]

Ligações externas[editar | editar código-fonte]