Critério de informação de Akaike

Origem: Wikipédia, a enciclopédia livre.

O critério de informação de Akaike (AIC) é uma métrica que mensura a qualidade de um modelo estatístico visando também a sua simplicidade. Fornece, portanto, uma métrica para comparação e seleção de modelos, em que menores valores de AIC representam uma maior qualidade e simplicidade, segundo este critério.[1][2]

É fundamentado na teoria da informação. Quando um modelo estatístico é usado para representar um determinado processo, a representação nunca será exata, ou seja, o modelo nunca será perfeito e certamente algumas informações serão perdidas. O AIC estima a quantidade relativa de informação perdida por um determinado modelo: quanto menos informações um modelo perde, maior a qualidade desse modelo e menor a pontuação AIC.

Ao estimar a quantidade de informação perdida por um modelo, o AIC lida com o balanço entre a qualidade e parcimônia de um modelo, ou seja, lida tanto com sobreajuste quanto com subajuste.

Além disso, a base lógica do AIC se encaixa no princípio da Navalha de Occam. Segundo este princípio, dadas duas hipóteses (modelos estatísticos) de mesmo poder explicativo para determinado fenômeno, a hipótese mais simples têm maior chance de estar correta. O AIC leva em conta e penaliza a complexidade dos modelos e tende a favorecer a escolha de modelos mais simples.

O AIC foi formulado pelo estatístico japonês Hirotugu Akaike e atualmente é uma das ferramentas amplamente utilizadas na inferência estatística.

Definição[editar | editar código-fonte]

Considere um determinado modelo estatístico, ajustado de acordo com dados observados. Seja o número de parâmetros de tal modelo e o valor máximo da função de verossimilhança. Então, o valor de AIC do modelo considerado é dado por:[3][4]

Dado uma coleção de modelos candidatos para os dados, o modelo com menor AIC é o escolhido de acordo com este critério. Assim, o AIC bonifica a qualidade de ajuste (altos valores para a função de verossimilhança) e, por outro lado, penaliza a quantidade de parâmetros do modelo. Tal pênalti auxilia na prevenção de sobreajuste, o que é desejado, uma vez que aumentar o número de parâmetros geralmente melhora a qualidade do modelo.

Suponha que os dados são gerados por um modelo . Considere então dois modelos candidatos para representá-lo, digamos, e . Na prática, não conhecemos o "verdadeiro" modelo , mas se o conhecêssemos, poderíamos determinar a perda de informação através da Divergência de Kullback-leibler, digamos, e respectivamente, e escolher o que minimiza a perda de informação.

Como não conhecemos o modelo gerador dos dados, não podemos determinar tais medidas. Akaike (1974)[4] propôs uma solução, mostrando que, contudo, podemos estimar, via AIC, o quanto de informação é perdida ao se utilizar e . Entretanto, a estimativa é válida somente assintoticamente: se o tamanho amostral é pequeno, então é aconselhável utilizar uma correção para um tamanho amostral pequeno (ver AICc abaixo).

Note que o AIC não fornece uma medida de qualidade do modelo global, apenas relativa no que diz respeito à comparação entre modelos candidatos. Dessa forma, se todos os modelos propostos se ajustam mal aos dados, o AIC não explicita tal fato.

Modificação para tamanhos amostrais pequenos[editar | editar código-fonte]

Quando o tamanho amostral é tido como pequeno, é provável que ao se utilizar o AIC, escolhamos modelos menos parcimoniosos. Desse modo, uma correção do AIC para se evitar um possível sobreajuste neste caso é dada por:[3]

em que representa o tamanho amostral.

Note que quando , então .

Referências

  1. McElreath, Richard (2016). Statistical Rethinking: A Bayesian Course with Examples in R and Stan. [S.l.]: CRC Press. p. 189. ISBN 978-1-4822-5344-3. AIC provides a surprisingly simple estimate of the average out-of-sample deviance. 
  2. Taddy, Matt (2019). Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions. New York: McGraw-Hill. p. 90. ISBN 978-1-260-45277-8. The AIC is an estimate for OOS deviance. 
  3. a b Burnham, Kenneth P. (2002). Model selection and multimodel inference : a practical information-theoretic approach. David Raymond Anderson, Kenneth P. Burnham 2.ª ed. New York: Springer. OCLC 48557578 
  4. a b Akaike, H. (dezembro de 1974). «A new look at the statistical model identification». IEEE Transactions on Automatic Control (6): 716–723. ISSN 1558-2523. doi:10.1109/TAC.1974.1100705. Consultado em 6 de julho de 2021