Regressão linear

Origem: Wikipédia, a enciclopédia livre.
Saltar para a navegação Saltar para a pesquisa

Em estatística ou econometria, regressão linear é uma equação para se estimar a condicional (valor esperado) de uma variável y, dados os valores de algumas outras variáveis x.

Exemplo de regressão linear.

A regressão, em geral, tem como objectivo tratar de um valor que não se consegue estimar inicialmente.

A regressão linear é chamada "linear" porque se considera que a relação da resposta às variáveis é uma função linear de alguns parâmetros. Os modelos de regressão que não são uma função linear dos parâmetros se chamam modelos de regressão não-linear. Sendo uma das primeiras formas de análise regressiva a ser estudada rigorosamente, e usada extensamente em aplicações práticas. Isso acontece porque modelos que dependem de forma linear dos seus parâmetros desconhecidos, são mais fáceis de ajustar que os modelos não-lineares aos seus parâmetros, e porque as propriedades estatísticas dos estimadores resultantes são fáceis de determinar.[1]

Modelos de regressão linear são frequentemente ajustados usando a abordagem dos mínimos quadrados, mas que também pode ser montada de outras maneiras, tal como minimizando a "falta de ajuste" em alguma outra norma (com menos desvios absolutos de regressão), ou através da minimização de uma penalização da versão dos mínimos quadrados. Por outro lado, a abordagem de mínimos quadrados pode ser utilizado para ajustar a modelos que não são modelos lineares. Assim, embora os termos "mínimos quadrados" e "modelo linear" estejam intimamente ligados, eles não são sinônimos. [carece de fontes?]

Equação da Regressão Linear[editar | editar código-fonte]

Para se estimar o valor esperado, usa-se de uma equação, que determina a relação entre ambas as variáveis.

Em que: - Variável explicada (dependente); é o valor que se quer atingir;

- É uma constante, que representa a interceptação da reta com o eixo vertical;

- É outra constante, que representa o declive(coeficiente angular)da reta;

- Variável explicativa (independente), representa o fator explicativo na equação;

- Variável que inclui todos os factores residuais mais os possíveis erros de medição. O seu comportamento é aleatório, devido à natureza dos factores que encerra. Para que essa fórmula possa ser aplicada, os erros devem satisfazer determinadas hipóteses, que são: serem variáveis normais, com a mesma variância (desconhecida), independentes e independentes da variável explicativa X.

Cálculo dos fatores e [editar | editar código-fonte]

Definindo e , temos que e se relacionam por:

Desenvolvimento[editar | editar código-fonte]

Estas fórmulas podem ser desenvolvidas a partir da definição de mínimos quadrados

O objetivo é determinar e de forma que a soma dos quadrados dos erros seja mínima, ou seja, devemos minimizar

Desenvolvendo este quadrado e eliminando os termos constantes (ou seja, aqueles que não têm termos em e ), chega-se a:

A partir desse ponto, pode-se resolver usando-se cálculo (tomando as derivadas parciais, etc), ou através de uma transformação de coordenadas:

ou

Transformando a expressão a ser minimizada em:

ou

Esta expressão se separa na soma de duas expressões quadráticas independentes, que podem ser minimizadas usando matemática elementar:

Cujos valores minimizadores são:

Memorização[editar | editar código-fonte]

Uma forma fácil de memorizar esta expressão é escrever:

e, em seguida, somar as colunas:

Intervalos de confiança[editar | editar código-fonte]

O valor estimado de , , deve ser analisado através da distribuição t de Student, porque

tem a distribuição t de Student com n-2 graus de liberdade (ver Fisher, R. A. (1925). "Applications of "Student's" distribution". Metron 5: 90–104.), em que:

A variância de , pode ser estimada através dos erros observados:

se distribui como uma qui-quadrado com n-2 graus de liberdade.

Onde poderíamos aplicar a regressão linear?[editar | editar código-fonte]

Será que todos vão ficar acima do peso ou ser tornar obesos? Sim, dizia um artigo que li, por volta de 2048, todos os americanos já serão obesos. Em 2048 terei 64 anos e espero não ser obeso, mas li que serei. O que fazer?

O artigo da Obesity teve muito publicidade. Vários jornais alertaram para o “apocalipse da obesidade”, “todos estamos mais gordos” e coisas do gênero. Ellenberg lembra que este tipo de reação e mito é muito comum nos EUA. No pós-guerra, rapazes deixavam crescer o cabelo, e, portanto, estavam sujeitos a serem açoitados pelos comunistas.

Já em nossa geração, quem jogava videogame demais, estava fadado a sair matando de maneira indiscriminada por pura diversão. Agora, comeremos fast-food demais, e todos morreremos fracos e imóveis, cercados de embalagens de papelão vazias, estirados em sofás dos quais há muito perdemos a capacidade de nos levantar. O artigo sobre obesidade certificava essa ansiedade comum a todos nós como um fato cientificamente comprovado.

Boa notícia. Não estamos fadados a ficar acima do peso em 2048. Por quê? Nem toda curva é uma reta. Mas dizia Newton, toda curva é bem próxima de uma reta. Esse é a ideia que orienta a regressão linear, técnica estatística que está para as ciências sociais como a chave de fenda para os consertos domésticos. É aquela ferramenta que você vai usar quase com certeza, qualquer que seja o serviço.

Toda vez que você lê no jornal que pessoas com mais primos são mais felizes, ou que países com mais fast-foods têm preceitos morais mais amplos, ou que cortar pela metade o consumo de vitamina B3 duplica seu risco de ter pé de atleta, ou que a cada US$ 10 mil a mais em renda tornam você 3% mais propenso a tornar-se alguém de direita, você está encontrando o resultado de uma regressão linear.[2]

Qual o pior crime da regressão linear?[editar | editar código-fonte]

Mas o artigo sobre a Obesity oculta o PIOR CRIME contra a matemática e o senso comum. A regressão linear é fácil de fazer – uma vez que se fez uma, as outras são tranquilas. Então Wang e companhia dividiram seus dados segundo grupos étnicos e sexo. Homens negros, por exemplo, tinham menos propensão a estar acima do peso que o americano médio, e, mais importante, sua taxa de sobrepeso crescia apenas com metade da velocidade. Se sobrepuserem a proporção de homens negros acima do peso sobre a proporção global de americanos acima do peso, junto com a regressão linear que Wang e companhia elaboraram, veremos que homens negros são mais magros. Eles só estarão todos acima do peso em 2095. Em 2048, só 80% serão obesos.

Conseguem localizar o problema? Se todos os americanos estiverem acima do peso em 2048, onde deverão estar àqueles 1 em 5 futuros homens negros sem problema de peso? No exterior? A contradição básica passa sem ser mencionada no artigo. Artigos como este me lembram das brincadeiras que fazíamos quando algum colega, numa prova de física, registrava que a altura do poste era de 5 quilômetros.

Lembre-se: higiene matemática é importante. Quanto você está testando em campo um método matemático, tente computar a mesma coisa de várias maneiras diferentes. Se você obtiver respostas diferentes, há algo de errado em seu método.[3]

Ver também[editar | editar código-fonte]

Ligações Externas[editar | editar código-fonte]

Referências

Bibliografia[editar | editar código-fonte]

  • REIS, E., Estatistica Descritiva (2ª ed.). Lisboa: Edições Sílabo, 1994