Modelo linear generalizado

Origem: Wikipédia, a enciclopédia livre.

Em estatística, o modelo linear generalizado (MLG) é uma generalização flexível da regressão linear ordinária que permite variáveis de resposta que têm modelos de distribuição de erro diferentes de uma distribuição normal. O MLG generaliza a regressão linear permitindo que o modelo linear seja relacionado à variável de resposta por meio de uma função de ligação e permitindo que a magnitude da variância de cada medição seja uma função de seu valor previsto.

Modelos lineares generalizados foram formulados por John Nelder e Robert Wedderburn como forma de unificar vários outros modelos estatísticos, incluindo a regressão linear, a regressão logística e a regressão de Poisson.[1] Eles propuseram um método de mínimos quadrados reponderados iterativamente para estimativa de máxima verossimilhança dos parâmetros do modelo. A estimativa de verossimilhança máxima continua popular e é o método padrão em muitos pacotes de computação estatística. Outras abordagens foram desenvolvidas, incluindo abordagens bayesianas e ajustes de mínimos quadrados a respostas de variância estabilizada.

Intuição[editar | editar código-fonte]

A regressão linear ordinária prevê o valor esperado de uma determinada quantidade desconhecida (a variável de resposta, uma variável aleatória) como uma combinação linear de um conjunto de valores observados (preditores). Isso implica que uma mudança constante em um preditor leva a uma mudança constante na variável de resposta (ou seja, um modelo de resposta linear). Isso é apropriado quando a variável de resposta pode variar, em uma boa aproximação, indefinidamente em qualquer direção, ou mais geralmente para qualquer quantidade que varia apenas por uma quantidade relativamente pequena em comparação com a variação nas variáveis preditivas, por exemplo, alturas humanas.

No entanto, essas suposições são inadequadas para alguns tipos de variáveis de resposta. Por exemplo, nos casos em que se espera que a variável de resposta seja sempre positiva e variando em um intervalo amplo, variações constantes na entrada levam a variações geométricas (ou seja, exponenciais) em vez de constantes, na saída. Por exemplo, suponha que um modelo de previsão linear aprenda com alguns dados (talvez principalmente extraídos de grandes praias) que uma diminuição de 10 graus na temperatura levaria a uma redução de 1000 pessoas visitando a praia. É improvável que esse modelo se generalize bem para praias de tamanhos diferentes. Mais especificamente, o problema é que se você usar o modelo para prever o novo número de pessoas presentes com uma queda de temperatura de 10 para uma praia que recebe regularmente 50 banhistas, você preveria um valor impossível de -950 pessoas presentes. Logicamente, um modelo mais realista poderia prever uma taxa de variação constante para a quantidade de pessoas presentes na praia (por exemplo, um aumento de 10 graus leva a uma duplicação da frequência à praia e uma queda de 10 graus leva a uma redução pela metade). Esse modelo é denominado modelo de resposta exponencial (ou modelo log-linear, uma vez que se prevê que o logaritmo da resposta varie linearmente).

Da mesma forma, um modelo que prevê uma probabilidade de fazer uma escolha sim/não (uma variável de Bernoulli) é ainda menos adequado como um modelo de resposta linear, uma vez que as probabilidades são limitadas em ambas as extremidades (devem estar entre 0 e 1). Imagine, por exemplo, um modelo que prevê a probabilidade de uma determinada pessoa ir à praia em função da temperatura. Um modelo razoável pode prever, por exemplo, que uma mudança em 10 graus torna uma pessoa duas vezes mais ou menos propensa a ir à praia. Mas o que "duas vezes mais provável" significa em termos de probabilidade? Não pode significar literalmente dobrar o valor da probabilidade (por exemplo, 50% torna-se 100%, 75% torna-se 150%, etc.). Em vez disso, são as chances que estão dobrando: das chances de 2:1/ para as chances de 4:1, para as chances de 8:1, etc. Esse modelo é um modelo de chances logarítmicas ou logístico.

Os modelos lineares generalizados cobrem todas essas situações, permitindo que as variáveis de resposta tenham distribuições arbitrárias (em vez de simplesmente distribuições normais) e que uma função arbitrária da variável de resposta (a função de ligação) varie linearmente com os preditores (em vez de assumir que o a própria resposta deve variar linearmente). Por exemplo, o caso acima do número previsto de frequentadores da praia normalmente seria modelado com uma distribuição de Poisson e uma ligação logarítmica, enquanto o caso da probabilidade prevista de frequência à praia seria normalmente modelado com uma distribuição de Bernoulli (ou distribuição binomial, dependendo exatamente de como o problema é formulado) e uma função de ligação de chances logarítmicas (ou logit).

Visão geral[editar | editar código-fonte]

Em um modelo linear generalizado (MLG), assume-se que cada resultado Y das variáveis dependentes é gerado a partir de uma distribuição particular em uma família exponencial, uma grande classe de distribuições de probabilidade que inclui as distribuições normal, binomial, Poisson e gama, entre outras. A média, μ, da distribuição depende das variáveis independentes, X, por meio de:

em que E(Y|X) é o valor esperado de Y condicional em X; Xβ é o preditor linear, uma combinação linear de parâmetros desconhecidos β; g é a função de ligação.

Neste quadro, a variância é normalmente uma função, V, da média:

É conveniente se V seguir de uma família exponencial de distribuições, mas pode ser simplesmente que a variância seja uma função do valor previsto.

Os parâmetros desconhecidos, β, são normalmente estimados com máxima verossimilhança, máxima quase-verossimilhança ou técnicas bayesianas.

Componentes do modelo[editar | editar código-fonte]

O MLG consiste de três elementos:[2]

  1. Uma família exponencial de distribuições de probabilidade.
  2. Um preditor linear
  3. Uma função de ligação tal que

Distribuição de probabilidade[editar | editar código-fonte]

Uma família exponencial superdispersa de distribuições é uma generalização de uma família exponencial e o modelo de dispersão exponencial de distribuições e inclui as famílias de distribuições de probabilidade, parametrizadas por e , cujas funções de densidade f (ou função massa de probabilidade, no caso de uma distribuição discreta) podem ser expressas na forma

O parâmetro de dispersão, , normalmente é conhecido e geralmente está relacionado à variância da distribuição. As funções , , , , e são conhecidas. Muitas distribuições comuns estão nesta família, incluindo a normal, exponencial, gama, de Poisson, de Bernoulli e (para um número fixo de tentativas) binomial, multinomial e binomial negativa.

Para escalares e (denotados e neste caso), isso se reduz a

está relacionado à média da distribuição. E se é a função identidade, então considera-se que a distribuição está em sua forma canônica (ou forma natural). Observe que qualquer distribuição pode ser convertida para a forma canônica reescrevendo como e então aplicando a transformação . Sempre é possível converter em termos da nova parametrização, mesmo que não seja uma função de um para um; veja comentários na página sobre famílias exponenciais. Se, além disso, é a identidade e é conhecido então é chamado de parâmetro canônico (ou parâmetro natural) e está relacionado à média por meio de

Para escalares e , isso se reduz a

Nesse cenário, pode-se mostrar que a variância da distribuição é[3]

Para escalares e , isso se reduz a

Preditor linear[editar | editar código-fonte]

O preditor linear é a quantidade que incorpora as informações sobre as variáveis independentes no modelo. O símbolo η (a legra grega "eta") denota um preditor linear. Ele está relacionado ao valor esperado dos dados por meio da função de ligação.

O valor de η é expresso como combinação linear (por isso, o nome "linear") de parâmetros desconhecidos β. Os coeficientes da combinação linear são representados como a matriz das variáveis independentes X. Assim, η pode ser expresso como

Função de ligação[editar | editar código-fonte]

A função de ligação fornece o relacionamento entre o preditor linear e a média da função de distribuição. Existem muitas funções de ligação comumente usadas e sua escolha é baseada em várias considerações. Sempre há uma função de ligação canônica bem definida que é derivada da exponencial da função densidade da resposta. No entanto, em alguns casos, faz sentido tentar combinar o domínio da função de ligação com a imagem da média da função de distribuição ou usar uma função de ligação não canônica para fins algorítmicos, por exemplo, regressão probit bayesiana.

Ao usar uma função de distribuição com um parâmetro canônico , a função de ligação canônica é a função que expressa em termos de , ou seja, . Para as distribuições mais comuns, a média é um dos parâmetros na forma padrão da função densidade da distribuição, e então é a função definida acima que leva a função densidade à sua forma canônica. Ao usar a função de ligação canônica, , o que permite que seja uma estatística suficiente para .

A seguir está uma tabela de várias distribuições de família exponencial de uso comum e os dados para os quais elas são normalmente usadas, junto com as funções de ligação canônicas e suas inversas (às vezes chamadas de função média, como feito aqui).

Distribuições comuns com usos típicos e funções de ligação canônicas
Distribuição Suporte da distribuição Usos típicos Nome da ligação Função de ligação, Função média
Normal real: Dados de resposta linear Identidade
Exponencial real: Dados de resposta exponencial, parâmetros de escala Oposta da inversa
Gama
Gaussiana inversa real: Quadrado da inversa
Poisson inteiros: contagem de ocorrências em quantidade fixa de tempo/espaço Log
Bernoulli inteiros: resultado de ocorrência única sim/não Logit
Binomial inteiros: contagem do número de ocorrências "sim" de N ocorrências sim/não
Categórico inteiros: resultado da ocorrência única de K-way
Vetor K de inteiros: , onde exatamente um elemento no vetor tem o valor 1
Multinomial K -vetor de inteiros: contagem de ocorrências de diferentes tipos (1. . K ) de N ocorrências totais de K -way

No caso das distribuições exponencial e gama, o domínio da função de ligação canônica não é o mesmo que o intervalo permitido da média. Em particular, o preditor linear pode ser positivo, o que daria uma média negativa impossível. Ao maximizar a probabilidade, devem ser tomadas precauções para evitar isso. Uma alternativa é usar uma função de ligação não canônica.

No caso das distribuições de Bernoulli, binomial, categórica e multinomial, o suporte das distribuições não é do mesmo tipo de dados do parâmetro que está sendo predito. Em todos esses casos, o parâmetro previsto é uma ou mais probabilidades, ou seja, números reais no intervalo . O modelo resultante é conhecido como regressão logística (ou regressão logística multinomial no caso em que estão sendo previstos valores K-way em vez de binários).

Para as distribuições Bernoulli e binomial, o parâmetro é uma probabilidade única, indicando a probabilidade de ocorrência de um único evento. A distribuição Bernoulli ainda satisfaz a condição básica do modelo linear generalizado em que, embora um único resultado seja sempre 0 ou 1, o valor esperado será uma probabilidade com valor real, ou seja, a probabilidade de ocorrência de um "sim" (ou 1) como resultado. Da mesma forma, em uma distribuição binomial, o valor esperado é Np, ou seja, a proporção esperada de resultados "sim" será a probabilidade a ser prevista.

Para distribuições categóricas e multinomiais, o parâmetro a ser previsto é um vetor de K probabilidades, com a restrição adicional de que todas as probabilidades devem somar 1. Cada probabilidade indica a probabilidade de ocorrência de um dos K valores possíveis. Para a distribuição multinomial, e para a forma vetorial da distribuição categórica, os valores esperados dos elementos do vetor podem ser relacionados às probabilidades previstas de forma semelhante às distribuições binomial e de Bernoulli.

Ajuste[editar | editar código-fonte]

Máxima verossimilhança[editar | editar código-fonte]

As estimativas de máxima verossimilhança podem ser encontradas usando um algoritmo de mínimos quadrados reponderado iterativamente ou um método de Newton com atualizações da forma:

em que é a matriz de informação observada (a oposta da matriz Hessiana) e é a função de pontuação; ou um método de pontuação de Fisher:

em que é a matriz de informações de Fisher. Observe que, se a função de ligação canônica for usada, elas serão iguais.[4]

Métodos bayesianos[editar | editar código-fonte]

Em geral, a distribuição posteriori não pode ser encontrada na forma fechada e, portanto, deve ser aproximada, geralmente usando aproximações de Laplace ou algum tipo de método Monte Carlo de cadeia de Markov como a amostragem de Gibbs.

Exemplos[editar | editar código-fonte]

Modelos lineares gerais[editar | editar código-fonte]

Um possível ponto de confusão tem a ver com a distinção entre modelos lineares generalizados e modelos lineares gerais, dois modelos estatísticos amplos. O cocriador John Nelder expressou pesar sobre esta terminologia.[5]

O modelo linear geral pode ser visto como um caso especial do modelo linear generalizado tendo a identidade como ligação e respostas normalmente distribuídas. Como a maioria dos resultados de interesse é obtida apenas para o modelo linear geral, o modelo linear geral passou por um desenvolvimento histórico um pouco mais longo. Os resultados para o modelo linear generalizado com uma ligação que não seja a identidade são assintóticos (tendendo a funcionar bem com grandes amostras).

Regressão linear[editar | editar código-fonte]

Um exemplo simples e muito importante de um modelo linear generalizado (também um exemplo de um modelo linear geral) é a regressão linear. Na regressão linear, o uso do estimador de mínimos quadrados é justificado pelo teorema de Gauss-Markov, que não assume que a distribuição seja normal.

Do ponto de vista dos modelos lineares generalizados, entretanto, é útil supor que a função de distribuição é a distribuição normal com variância constante que e a função de ligação é a identidade, que é a ligação canônica se a variância for conhecida.

Para a distribuição normal, o modelo linear generalizado possui uma expressão de forma fechada para as estimativas de máxima verossimilhança, o que é conveniente. A maioria dos outros MLGs carece de estimativas de forma fechada.

Dados binários[editar | editar código-fonte]

Quando os dados de resposta, Y, são binários (assumindo apenas os valores 0 e 1), geralmente se escolhe como função de distribuição a distribuição de Bernoulli e a interpretação de μi é então a probabilidade, p, de Yi assumir o valor 1.

Existem várias funções de ligação populares para funções binomiais.

Função de ligação Logit[editar | editar código-fonte]

A função de ligação mais comum é a ligação logit canônica:

MLGs com esta configuração são modelos de regressão logística (ou modelos logit).

Função de ligação probit como escolha popular da função de distribuição cumulativa inversa[editar | editar código-fonte]

Alternativamente, a inversa de qualquer função de distribuição cumulativa contínua (FDC) pode ser usada como ligação, uma vez que o intervalo da FDC é , o intervalo da média binomial. A FDC normal é uma escolha popular e produz o modelo probit. Sua ligação é

A razão para o uso do modelo probit é que um escalamento constante da variável de entrada para uma FDC normal (que pode ser absorvida através do escalamento equivalente de todos os parâmetros) produz uma função que é praticamente idêntica à função logit, mas os modelos probit são mais tratáveis em algumas situações do que os modelos logit. (Em uma configuração bayesiana em que distribuições anteriores normalmente distribuídas são colocadas nos parâmetros, a relação entre as anteriores normais e a função de ligação FDC normal significa que um modelo probit pode ser calculado usando a amostragem de Gibbs, enquanto um modelo logit geralmente não pode.)

Log-log complementar (cloglog)[editar | editar código-fonte]

A função complementar log-log também pode ser usada:

Esta função de ligação é assimétrica e frequentemente produzirá resultados diferentes das funções de ligação logit e probit.[6] O modelo de cloglog corresponde a aplicações onde se observam zero eventos (por exemplo, defeitos) ou um ou mais, onde se assume que o número de eventos segue a distribuição de Poisson.[7] A suposição de Poisson significa que

em que μ é um número positivo denotando o número esperado de eventos. Se p representa a proporção de observações com pelo menos um evento, seu complemento

e então

Um modelo linear requer que a variável de resposta assuma valores ao longo de toda a reta real. Uma vez que μ deve ser positivo, pode-se forçar que isso ocorra tomando o logaritmo e deixando que log(μ) seja um modelo linear. Isso produz a transformação "cloglog"

Ligação identidade[editar | editar código-fonte]

A ligação identidade g(p) = p também é usada algumas vezes para dados binomiais para produzir um modelo de probabilidade linear. No entanto, a ligação identidade pode prever "probabilidades" sem sentido menores que zero ou maiores que um. Isso pode ser evitado usando uma transformação como cloglog, probit ou logit (ou qualquer função de distribuição cumulativa inversa). Um mérito primário da ligação identidade é que ela pode ser estimada usando matemática linear - e outras funções de ligação padrão são aproximadamente lineares correspondendo à ligação identidade próximo a p = 0,5.

Função de variância[editar | editar código-fonte]

A função de variância para dados "quasibinomial" é:

em que o parâmetro de dispersão τ é exatamente 1 para a distribuição binomial. De fato, a verossimilhança binomial padrão omite τ. Quando está presente, o modelo é denominado "quase-binomial" e a probabilidade modificada é denominada quase-probabilidade, uma vez que geralmente não é a probabilidade correspondente a qualquer família real de distribuições de probabilidade. Se τ exceder 1, diz-se que o modelo exibe superdispersão.

Regressão multinomial[editar | editar código-fonte]

O caso binomial pode ser facilmente estendido para permitir uma resposta que tenha distribuição multinomial (também, um Modelo Linear Generalizado para contagens, com um total restrito). Geralmente, isso é feito de duas maneiras:

Resposta ordenada[editar | editar código-fonte]

Se a variável de resposta for ordinal, pode-se ajustar uma função de modelo da forma:

para m > 2. Ligações diferentes g levam a modelos de regressão ordinal, como modelos de chances proporcionais ou modelos probit ordenados.

Resposta não ordenada[editar | editar código-fonte]

Se a variável de resposta é uma medida nominal, ou os dados não satisfazem as premissas de um modelo ordenado, pode-se ajustar um modelo da seguinte forma:

para m > 2. Ligações g diferentes conduzem a modelos logit multinomial ou probit multinomial. Eles são mais gerais do que os modelos de resposta ordenada e são estimados mais parâmetros.

Dados de contagem[editar | editar código-fonte]

Outro exemplo de modelos lineares generalizados inclui a regressão de Poisson, que modela os dados de contagem usando a distribuição de Poisson. A ligação é normalmente o logaritmo, a ligação canônica.

A função de variância é proporcional à média

em que o parâmetro de dispersão τ é tipicamente fixado em exatamente um. Quando não é, o modelo de quase-verossimilhança resultante é frequentemente descrito como Poisson com superdispersão ou quase-Poisson.

Extensões[editar | editar código-fonte]

Dados correlacionados ou agrupados[editar | editar código-fonte]

O MLG padrão assume que as observações não estão correlacionadas. Foram desenvolvidas extensões para permitir a correlação entre as observações, como ocorre por exemplo em estudos longitudinais e projetos agrupados:

  • As equações de estimação generalizadas (EEG) permitem a correlação entre observações sem o uso de um modelo de probabilidade explícito para a origem das correlações, portanto, não há probabilidade explícita. São adequados quando os efeitos aleatórios e suas variâncias não são de interesse inerente, pois permitem a correlação sem explicar sua origem. O foco está em estimar a resposta média sobre a população (efeitos de "média da população") em vez dos parâmetros de regressão que permitiriam a previsão do efeito da alteração de um ou mais componentes de X em um determinado indivíduo. As EEG são geralmente usadas em conjunto com os erros padrão de Huber-White.[8][9]
  • Os modelos lineares mistos generalizados (MLMG) são uma extensão dos MLG que inclui efeitos aleatórios no preditor linear, fornecendo um modelo de probabilidade explícito que explica a origem das correlações. As estimativas de parâmetro "específicas do sujeito" resultantes são adequadas quando o foco está na estimativa do efeito da alteração de um ou mais componentes de X em um determinado indivíduo. Os MLMG também são chamados de modelos multinível e modelos mistos. Em geral, ajustar MLMG é computacionalmente mais complexo e intensivo do que ajustar EEG.

Modelos aditivos generalizados[editar | editar código-fonte]

Os modelos aditivos generalizados (MAGs) são outra extensão dos MLGs em que o preditor linear η não se restringe a ser linear nas covariáveis X, mas é a soma das funções de suavização aplicadas aos xi:

As funções de suavização fi são estimadas a partir dos dados. Em geral, isso requer um grande número de pontos de dados e é computacionalmente intensivo.[10][11]

Ver também[editar | editar código-fonte]

  • Comparação de modelos lineares gerais e generalizados
  • Modelo fracionário
  • Modelo de array linear generalizado
  • GLIM (software)
  • Quase-variância
  • Família exponencial natural
  • Distribuições Tweedie
  • Funções de variância
  • Modelo linear generalizado vetorial (MLGV)

Referências[editar | editar código-fonte]

Citações[editar | editar código-fonte]

  1. Nelder, John; Wedderburn, Robert (1972). «Generalized Linear Models». Blackwell Publishing. Journal of the Royal Statistical Society. Series A (General). 135: 370–384. JSTOR 2344614. doi:10.2307/2344614 
  2. «6.1 - Introduction to Generalized Linear Models | STAT 504». newonlinecourses.science.psu.edu. Consultado em 18 de março de 2019 
  3. McCullagh & Nelder 1989, Chapter 2.
  4. McCullagh & Nelder 1989, p. 43.
  5. Senn, Stephen (2003). «A conversation with John Nelder». Statistical Science. 18: 118–131. doi:10.1214/ss/1056397489. I suspect we should have found some more fancy name for it that would have stuck and not been confused with the general linear model, although general and generalized are not quite the same. I can see why it might have been better to have thought of something else. 
  6. «Complementary Log-log Model» (PDF) 
  7. «Which Link Function — Logit, Probit, or Cloglog?». Bayesium Analytics (em inglês). 14 de agosto de 2015. Consultado em 17 de março de 2019 
  8. Zeger, Scott L.; Liang, Kung-Yee; Albert, Paul S. (1988). «Models for Longitudinal Data: A Generalized Estimating Equation Approach». International Biometric Society. Biometrics. 44: 1049–1060. JSTOR 2531734. PMID 3233245. doi:10.2307/2531734 
  9. Hardin, James; Hilbe, Joseph (2003). Generalized Estimating Equations. London, England: Chapman and Hall/CRC. ISBN 1-58488-307-3 
  10. Hastie & Tibshirani 1990.
  11. Wood 2006.

Bibliografia[editar | editar código-fonte]

Leitura complementar[editar | editar código-fonte]

Ligações externas[editar | editar código-fonte]