Método dos mínimos quadrados
O Método dos Mínimos Quadrados, ou Mínimos Quadrados Ordinários (MQO) ou OLS (do inglês Ordinary Least Squares) é uma técnica de otimização matemática que procura encontrar o melhor ajuste para um conjunto de dados tentando minimizar a soma dos quadrados das diferenças entre o valor estimado e os dados observados (tais diferenças são chamadas resíduos).1
É a forma de estimação mais amplamente utilizada na econometria. Consiste em um estimador que minimiza a soma dos quadrados dos resíduos da regressão, de forma a maximizar o grau de ajuste do modelo aos dados observados.
Um requisito para o método dos mínimos quadrados é que o fator imprevisível (erro) seja distribuído aleatoriamente, essa distribuição seja normal e independente. O Teorema Gauss-Markov garante (embora indiretamente) que o estimador de mínimos quadrados é o estimador não-enviesado de mínima variância linear na variável resposta.
Outro requisito é que o modelo é linear nos parâmetros, ou seja, as variáveis apresentam uma relação linear entre si. Caso contrário, deveria ser usado um modelo de regressão não-linear.
Credita-se Carl Friedrich Gauss como o desenvolvedor das bases fundamentais do método dos mínimos quadrados, em 1795, quando Gauss tinha apenas dezoito anos. Entretanto, Adrien-Marie Legendre foi o primeiro a publicar o método em 1805, em seu Nouvelles méthodes pour la détermination des orbites des comètes. Gauss publicou suas conclusões apenas em 1809.2 3 4
Índice |
Regressão simples [editar]
Queremos estimar valores de determinada variável
. Para isso, consideramos os valores de outra variável
que acreditamos ter poder de explicação sobre
conforme a fórmula:
onde:
: Parâmetro do modelo chamado de constante (porque não depende de
).
: Parâmetro do modelo chamado de coeficiente da variável
.
: Erro - representa a variação de
que não é explicada pelo modelo.
Também temos uma base de dados com
valores observados de
e de
. Perceba que, usando a base de dados,
e
são vetores, ou seja, representam uma lista de valores, um para cada observação da base de dados. O método dos mínimos quadrados ajuda a encontrar as estimativas de
e
. Como o nome diz, serão somente estimativas desses parâmetros, porque o valor real dos parâmetros são desconhecidos. Portanto, ao fazer a estimativa, mudamos a notação de algumas variáveis:
Para ilustrar isso, Heij5 menciona:
- We do not know Greek but we can compute Latin
- Não sabemos grego, mas podemos calcular em latim
Desse modo, ao estimar o modelo usando a base de dados, estamos estimando, na verdade:
onde
indica cada uma das
observações da base de dados e
passa a ser chamado de resíduo, ao invés de erro. Em alguns livros, a notação para as estimativas dos parâmetros é um pouco diferente. Ao invés de substituir a letra, apenas adiciona-se o símbolo chapéu (
).
O método dos mínimos quadrados minimiza a soma dos quadrado dos resíduos, ou seja, minimiza
.
A ideia por trás dessa técnica é que, minimizando a soma do quadrado dos resíduos, encontraremos
e
que trarão a menor diferença entre a previsão de
e o
realmente observado.
Substituindo
por
, temos:
A minimização se dá ao derivar
em relação a
e
e igualar a zero:
Distribuindo e dividindo a primeira expressão por
temos:
onde
é a média amostral de
e
é a média amostral de
.
Substituindo esse resultado na segunda expressão temos:
Alguns livros também usam uma fórmula diferente que gera o mesmo resultado:
Exemplo de regressão simples [editar]
Considere a seguinte base de dados:
![]() |
![]() Consumo |
![]() Renda |
|---|---|---|
| 1 | 122 | 139 |
| 2 | 114 | 126 |
| 3 | 86 | 90 |
| 4 | 134 | 144 |
| 5 | 146 | 163 |
| 6 | 107 | 136 |
| 7 | 68 | 61 |
| 8 | 117 | 62 |
| 9 | 71 | 41 |
| 10 | 98 | 120 |
Aplicando as fórmulas acima, chega-se em:
portanto,
Interpretação: Tirando a parte do Consumo que não é influenciada pela Renda, o incremento de $ 1 na Renda causa um incremento esperado de $ 0,4954 no Consumo.
Regressão múltipla [editar]
A regressão múltipla apresenta um funcionamento parecido com o da regressão simples, porém, leva em consideração diversas variáveis explicativas
influenciando
ao mesmo tempo:
Ao usar a base de dados com
variáveis explicativas e
observações, o modelo pode ser escrito na forma matricial:
, onde
representa o valor da
-ésima variável da
-ésima observação. A fórmula também pode ser escrita na forma resumida:
A solução de mínimos quadrados continua sendo alcançada através da minimização da soma do quadrado dos erros
, que pode ser reescrito como
, onde o apóstrofe significa que a matriz foi transposta.
Substituindo
por
, temos:
A minimização se dá ao derivar
em relação a
e igualar a zero. O primeiro termo não depende de
, os segundo e terceiro termos são iguais e o terceiro termo é uma forma quadrática dos elementos de
.
Exemplo de regressão múltipla [editar]
Considere a base de dados usada no exemplo da regressão simples, porém, acrescente mais uma variável explicativa (taxa de juros):
![]() |
![]() Consumo |
![]() Renda |
![]() Taxa de Juros |
|---|---|---|---|
| 1 | 122 | 139 | 11,5% |
| 2 | 114 | 126 | 12,0% |
| 3 | 86 | 90 | 10,5% |
| 4 | 134 | 144 | 9,0% |
| 5 | 146 | 163 | 10,0% |
| 6 | 107 | 136 | 12,0% |
| 7 | 68 | 61 | 10,5% |
| 8 | 117 | 62 | 8,0% |
| 9 | 71 | 41 | 10,0% |
| 10 | 98 | 120 | 11,5% |
Aplicando a fórmula acima, chega-se em:
portanto,
Interpretação: Tirando a parte do Consumo que não é influenciada pela Taxa de Juros, o incremento de $ 1 na Renda causa um incremento esperado de $ 0,6136 no Consumo; além disso, o incremento de 1 ponto percentual (0,01) na Taxa de Juros causa um decréscimo esperado de $ 10,3441 no Consumo.
Premissas [editar]
Ao usar o método dos mínimos quadrados, assumimos algumas premissas a respeito das variáveis:
- Os regressores são fixos: As variáveis da matriz
não são estocásticas. - Erro é aleatório com média 0: O erro
é aleatório e sua esperança
. - Homoscedasticidade: A variância do erro é constante.
Ver também: heteroscedasticidade
- Sem correlação: Não existe correlação entre os erros das observações, ou seja,
para qualquer
. - Parâmetros são constantes:
e
são valores fixos desconhecidos. - Modelo é linear: Os dados da variável dependente
foram gerados pelo processo linear
. - Erro tem distribuição normal: O erro é distribuído conforme a curva de distribuição normal.
Caso alguma dessas premissas não seja verdadeira, o método pode gerar resultados sub-ótimos ou com viés.
Coeficiente de determinação R² [editar]
O Coeficiente de determinação, também chamado de R² é uma medida de qualidade do modelo em relação à sua habilidade de estimar corretamente os valores da variável resposta
.
, sendo SQres o Somatório dos Quadrados dos Resíduos e SQtot o Somatório dos Quadrados Total
ou R² ajustado:
Exemplo de R² e R² ajustado [editar]
Usando os dados do exemplo de regressão múltipla, podemos calcular:
Isso significa que 88,729% da variância de
é explicada pela variância de
.
Teste de significância dos coeficientes [editar]
Se uma variável
realmente possui poder explicativo sobre
, seu coeficiente
deve ser estatísticamente diferente de zero. Ou seja, deve ser suficientemente maior ou menor do que zero para que tenhamos confiança de que a variável realmente possui poder explicativo. Caso isso não seja verdade, a variável poderia ser retirada do modelo sem que exista grande perda da sua qualidade. Para verificar se os coeficientes são significantes, levamos em consideração que o estimador
tem distribuição normal centrada em
e com variância
, onde
é a variância do erro
. Ou seja:
Porém, como o erro não é observado, usamos a aproximação amostral
:
, onde
representa o número de variáveis explicativas mais a constante.
Considerando que a hipótese nula é a de que
, então a estatística t para a variável j é:
, onde
é o j-ésimo elemento da diagonal de
.
Aplicando o valor de
na curva acumulada da distribuição t de Student com
graus de liberdade, pode-se obter o nível de confiança necessário para que a hipótese nula seja rejeitada.
Exemplo de teste de significância dos coeficientes [editar]
Usando os dados do exemplo de regressão múltipla, podemos calcular:
Na distribuição t de Student com 7 (10-2-1) graus de liberdade, o valor de
que garante um nível de confiança de 95% é 2,3646. Como
é maior que 2,3646, a hipótese nula de que
é rejeitada com, pelo menos 95% de confiança. O mesmo também ocorre para
.
Referências
- ↑ Universidade de Berkeley, Econometrics Laboratory Software Archive. Regression Analysis (em Inglês). Página visitada em 18/05/2011.
- ↑ (em inglês) Indiana University Bloomington, Human Intelligence, Karl Friedrich Gauss (1777-1855), German Mathematician [1]
- ↑ Memória, José M. P. (2004). Breve História da Estatística (em Inglês). Embrapa Informação Tecnológica. Página visitada em 11/05/2011.
- ↑ Stigler, S. M.. The History of Statistics: The Measurement of Uncertainty before 1900. [S.l.]: Harvard University Press, 1986. 410 p.
- ↑ HEIJ, Christiaan; DE BOER, Paul; FRANSES, Philip Hans; KLOEK, Teun; VAN DIJK, Herman K. Econometric Methods with Applications in Business and Economics. OXFORD, 2004
Ver também [editar]
- Mínimos quadrados generalizados - MQG
- Máxima verossimilhança
- Método dos momentos generalizados - MMG
- Regressão
- Econometria
- Decomposição em Valores Singulares - a técnica computacional moderna para regressão e projeção ortogonal.
- As funcoes Scilab: svd, sva e contra-barra (backslash)
Ligações externas [editar]
- (em inglês) - http://www.physics.csbsju.edu/stats/least_squares.html
- (em inglês) - http://zunzun.com
- (em inglês) - http://www.orbitals.com/self/least/least.htm
- (em inglês) - O operador contrabarra ou '\' no Scilab http://help.scilab.org/docs/5.3.3/en_US/backslash.html






![\begin{align}
& -2 \sum_{i=1}^n x_i \left(y_i - \bar{y} + b \bar{x} - b x_i \right) = 0 \\
& \sum_{i=1}^n \left[ x_i \left( y_i - \bar{y} \right) + x_i b \left( \bar{x} - x_i \right) \right] = 0 \\
& \sum_{i=1}^n x_i \left( y_i - \bar{y} \right) + b \sum_{i=1}^n x_i \left( \bar{x} - x_i \right) = 0 \\
& b = \frac{\sum_{i=1}^n x_i \left( y_i - \bar{y} \right)} {\sum_{i=1}^n x_i \left( x_i - \bar{x}\right)}
\end{align}](http://upload.wikimedia.org/math/7/b/2/7b22a27bf048178290f299364f9c4ff4.png)













.
para qualquer
.
.
, sendo SQres o Somatório dos Quadrados dos Resíduos e SQtot o Somatório dos Quadrados Total







