Regressão logística

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa

A regressão logística é uma técnica estatística que tem como objectivo produzir, a partir de um conjunto de observações, um modelo que permita a predição de valores tomados por uma variável categórica, frequentemente binária, a partir de uma série de variáveis explicativas contínuas e/ou binárias[1] [2]

A regressão logística é amplamente usada em ciências médicas e sociais, e tem outras denominações, como modelo logístico, modelo logit, e classificador de máxima entropia. A regressão logística é utilizada em áreas como as seguintes:

  • Em medicina, permite por exemplo determinar os factores que caracterizam um grupo de indivíduos doentes em relação a indivíduos sãos.
  • No domínio dos seguros, permite encontrar fracções da clientela que sejam sensíveis a determinada política securitária em relação a um dado risco particular.
  • Em instituições financeiras, pode detectar os grupos de risco para a subscrição de um crédito.
  • Em econometria, permite explicar uma variável discreta, como por exemplo as intenções de voto em actos eleitorais.

O êxito da regressão logística assenta sobretudo nas numerosas ferramentas que permitem interpretar de modo aprofundado os resultados obtidos.

Em comparação com as técnicas conhecidas em regressão, em especial a regressão linear, a regressão logística distingue-se essencialmente pelo facto de a variável resposta ser categórica.

Enquanto método de predição para variáveis categóricas, a regressão logística é comparável às técnicas supervisionadas propostas em aprendizagem automática (árvores de decisão, redes neuronais, etc.), ou ainda a análise discriminante preditiva em estatística exploratória. É possível de as colocar em concorrência para escolha do modelo mais adaptado para um certo problema preditivo a resolver.

Trata-se de um modelo de regressão para variáveis dependentes ou de resposta binomialmente distribuídas. É útil para modelar a probabilidade de um evento ocorrer como função de outros factores. É um modelo linear generalizado que usa como função de ligação a função logit.

Descrição[editar | editar código-fonte]

A regressão logística analisa dados distribuídos binomialmente da forma

Y_i \ \sim  B(p_i,n_i),\text{ for }i = 1, \dots , m,

onde os números de ensaios de Bernoulli ni são conhecidos e as probabilidades de êxito pi são desconhecidas. Um exemplo desta distribuição é a percentagem de sementes (pi) que germinam depois de ni serem plantadas.

O modelo é então obtido na base de que cada ensaio (valor de i) e o conjunto de variáveis explicativas/independentes possa informar acerca da probabilidade final. Estas variáveis explicativas podem-se ver como um vector Xi k-dimensional e o modelo toma então a forma

p_i = \operatorname{E}\left(\left.\frac{Y_i}{n_{i}}\right|X_i \right). \,\!

Os logits das probabilidades binomiais desconhecidas (i.e., os logaritmos dos odds) são modelados como uma função linear dos Xi.

\operatorname{logit}(p_i)=\ln\left(\frac{p_i}{1-p_i}\right) = \beta_0 + \beta_1 x_{1,i} + \cdots + \beta_k x_{k,i}.

Note-se que um elemento particular de Xi pode ser ajustado a 1 para todo o i obtendo-se um intercepto no modelo. Os parâmetros desconhecidos βj são habitualmente estimados através de máxima verossimilhança.

A interpretação dos valores estimados do parâmetro βj é similar aos efeitos aditivos em log odds ratio para uma unidade de mudança na jésima variável explicativa. No caso de uma variável explicativa dicotómica, por exemplo o género, e^\beta é o estimador de odds ratio de ter o resultado para, por exemplo, homens comparados com mulheres.

O modelo tem uma formulação equivalente dada por

p_i = \frac{1}{1+e^{-(\beta_0 + \beta_1 x_{1,i} + \cdots + \beta_k x_{k,i})}}. \,\!

Esta forma funcional é habitualmente identificada como um perceptron (ou perceptrão em português europeu) de uma camada simples ou rede neuronal artificial de uma só camada. Uma rede neuronal de uma só camada calcula uma saída contínua em vez de uma função por troços. A derivada de pi em relação a X = x1...xk é calculada na forma geral:

y = \frac{1}{1+e^{-f(X)}}

onde f(X) é uma função analítica em X. Com esta escolha, a rede de camada simples é idêntica ao modelo de regressão logística. Esta função tem uma derivada contínua, a qual permite ser usada na propagação para trás. Esta função também é preferida pois a sua derivada é facilmente calculável:

y' = y(1-y)\frac{\mathrm{d}f}{\mathrm{d}X}\,\!

Extensões[editar | editar código-fonte]

Existem diversas extensões do modelo para tratar variáveis dependentes multicategóricas e/ou ordinais, tais como a regressão politómica. A classificação em várias classes por regressão logística é conhecida como logit multinomial. Uma extensão do modelo logístico para ajustar conjuntos de variáveis independentes é o campo aleatório condicional.

Exemplo[editar | editar código-fonte]

Seja p(x) a probabilidade de êxito quando o valor da variável preditiva é x. Então, seja

p(x) = \frac{1}{1+e^{-(B_0+B_1x)}} = \frac{e^{B_0 + B_1x}}{1+e^{B_0+B_1x}}.

Depois de alguma álgebra prova-se que

\frac{p(x)}{1-p(x)} = e^{B_0+B_1x},

onde \frac{p(x)}{1-p(x)} são os odds favoráveis (êxito).

Se tomarmos um valor de exemplo, digamos p(50) = 2/3, então

\frac{p(50)}{1-p(50)} = \frac{\frac{2}{3}}{1-\frac{2}{3}} = 2.

Quando x = 50, um êxito é duas vezes tão provável como uma falha, ou seja, pode dizer-se simplesmente que os odds são 2 para 1.

Ver também[editar | editar código-fonte]

Ligações externas[editar | editar código-fonte]

Referências[editar | editar código-fonte]

  1. Logistic Regression. Visitado em 12-12-2008.
  2. Logistic Regression: Statnotes, from North Carolina State University, Public Administration Program. Visitado em 12-12-2008.
  • Agresti, Alan.. Categorical Data Analysis. [S.l.]: New York: Wiley-Interscience, 2002. ISBN 0-471-36093-7.
  • Amemiya, T.. Advanced Econometrics. [S.l.]: Harvard University Press, 1985. ISBN 0-674-00560-0.
  • Balakrishnan, N.. Handbook of the Logistic Distribution. [S.l.]: Marcel Dekker, Inc., 1991. ISBN 978-0824785871.
  • Green, William H.. Econometric Analysis, fifth edition. [S.l.]: Prentice Hall, 2003. ISBN 0-13-066189-9.
  • Hosmer, David W.; Stanley Lemeshow. Applied Logistic Regression, 2nd ed.. [S.l.]: New York; Chichester, Wiley, 2000. ISBN 0-471-35632-8.