Coeficiente de determinação

Origem: Wikipédia, a enciclopédia livre.

O coeficiente de determinação, também chamado de , é uma medida de ajuste de um modelo estatístico linear generalizado, como a regressão linear simples ou múltipla, aos valores observados de uma variável aleatória. O R² varia entre 0 e 1, por vezes sendo expresso em termos percentuais. Nesse caso, expressa a quantidade da variância dos dados que é explicada pelo modelo linear. Assim, quanto maior o R², mais explicativo é o modelo linear, ou seja, melhor ele se ajusta à amostra. Por exemplo, um R² = 0,8234 significa que o modelo linear explica 82,34% da variância da variável dependente a partir do regressores (variáveis independentes) incluídas naquele modelo linear.

Método[editar | editar código-fonte]

onde é o numero de observações;

Partindo de que é o valor observado e é a média das observações, esta equação dá-nos a Soma Total dos Quadrados, ou seja, a soma dos quadrados das diferenças entre a média e cada valor observado.

onde é o valor estimado (previsão) de .

Esta equação é a soma dos quadrados dos resíduos, que calcula a parte que não é explicada pelo modelo.

onde é o valor estimado (previsão) de .

Esta equação, a soma dos quadrados explicada, indica-nos a diferença entre a média das observações e o valor estimado para cada observação, e soma os respectivos quadrados. Quanto menor for a diferença, maior poder explicativo detém o modelo.

Em alguns casos temos:

E normalizando a equação de cima, temos que:

R² ajustado[editar | editar código-fonte]

A inclusão de inúmeras variáveis, mesmo que tenham muito pouco poder explicativo sobre a variável dependente, aumentarão o valor de . Isto incentiva a inclusão indiscriminada de variáveis, prejudicando o princípio da parcimônia (ver de forma mais ampla em navalha de Ockhan). Para combater esta tendência, podemos usar uma medida alternativa do coeficiente de determinação, que penaliza a inclusão de regressores pouco explicativos. Trata-se do R² ajustado:

onde representa o número de variáveis explicativas mais a constante.

Note que a inclusão de mais variáveis com pouco poder explicativo prejudica o valor do R² ajustado, porque aumenta uma unidade, sem aumentar substancialmente o .