Critério de informação de Akaike

O critério de informação de Akaike (AIC) é uma métrica que mensura a qualidade de um modelo estatístico visando também a sua simplicidade. Fornece, portanto, uma métrica para comparação e seleção de modelos, em que menores valores de AIC representam uma maior qualidade e simplicidade, segundo este critério.^[1]^[2]

É fundamentado na teoria da informação. Quando um modelo estatístico é usado para representar um determinado processo, a representação nunca será exata, ou seja, o modelo nunca será perfeito e certamente algumas informações serão perdidas. O AIC estima a quantidade relativa de informação perdida por um determinado modelo: quanto menos informações um modelo perde, maior a qualidade desse modelo e menor a pontuação AIC.

Ao estimar a quantidade de informação perdida por um modelo, o AIC lida com o balanço entre a qualidade e parcimônia de um modelo, ou seja, lida tanto com sobreajuste quanto com subajuste.

Além disso, a base lógica do AIC se encaixa no princípio da Navalha de Occam. Segundo este princípio, dadas duas hipóteses (modelos estatísticos) de mesmo poder explicativo para determinado fenômeno, a hipótese mais simples têm maior chance de estar correta. O AIC leva em conta e penaliza a complexidade dos modelos e tende a favorecer a escolha de modelos mais simples.

O AIC foi formulado pelo estatístico japonês Hirotugu Akaike e atualmente é uma das ferramentas amplamente utilizadas na inferência estatística.

Definição[editar | editar código-fonte]

Considere um determinado modelo estatístico, ajustado de acordo com dados observados. Seja $k$ o número de parâmetros de tal modelo e ${\hat {L}}$ o valor máximo da função de verossimilhança. Então, o valor de AIC do modelo considerado é dado por:^[3]^[4]

$AIC=2k-2\ln({\hat {L}}).$

Dado uma coleção de modelos candidatos para os dados, o modelo com menor AIC é o escolhido de acordo com este critério. Assim, o AIC bonifica a qualidade de ajuste (altos valores para a função de verossimilhança) e, por outro lado, penaliza a quantidade de parâmetros do modelo. Tal pênalti auxilia na prevenção de sobreajuste, o que é desejado, uma vez que aumentar o número de parâmetros geralmente melhora a qualidade do modelo.

Suponha que os dados são gerados por um modelo ${\textstyle f}$ . Considere então dois modelos candidatos para representá-lo, digamos, ${\textstyle g_{1}}$ e ${\textstyle g_{2}}$ . Na prática, não conhecemos o "verdadeiro" modelo ${\textstyle f}$ , mas se o conhecêssemos, poderíamos determinar a perda de informação através da Divergência de Kullback-leibler, digamos, ${\textstyle D_{KL}(f||g_{1})}$ e ${\textstyle D_{KL}(f||g_{2})}$ respectivamente, e escolher o que minimiza a perda de informação.

Como não conhecemos o modelo gerador dos dados, não podemos determinar tais medidas. Akaike (1974)^[4] propôs uma solução, mostrando que, contudo, podemos estimar, via AIC, o quanto de informação é perdida ao se utilizar ${\textstyle g_{1}}$ e ${\textstyle g_{2}}$ . Entretanto, a estimativa é válida somente assintoticamente: se o tamanho amostral é pequeno, então é aconselhável utilizar uma correção para um tamanho amostral pequeno (ver AICc abaixo).

Note que o AIC não fornece uma medida de qualidade do modelo global, apenas relativa no que diz respeito à comparação entre modelos candidatos. Dessa forma, se todos os modelos propostos se ajustam mal aos dados, o AIC não explicita tal fato.

Modificação para tamanhos amostrais pequenos[editar | editar código-fonte]

Quando o tamanho amostral é tido como pequeno, é provável que ao se utilizar o AIC, escolhamos modelos menos parcimoniosos. Desse modo, uma correção do AIC para se evitar um possível sobreajuste neste caso é dada por:^[3]

$AICc=AIC+{\dfrac {2k^{2}+2k}{n-k-1}},$

em que ${\textstyle n}$ representa o tamanho amostral.

Note que quando ${\textstyle n\to \infty }$ , então ${\textstyle AICc\to AIC}$ .

Referências

↑ McElreath, Richard (2016). Statistical Rethinking: A Bayesian Course with Examples in R and Stan. [S.l.]: CRC Press. p. 189. ISBN 978-1-4822-5344-3. AIC provides a surprisingly simple estimate of the average out-of-sample deviance.
↑ Taddy, Matt (2019). Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions. New York: McGraw-Hill. p. 90. ISBN 978-1-260-45277-8. The AIC is an estimate for OOS deviance.
↑ ^a ^b Burnham, Kenneth P. (2002). Model selection and multimodel inference : a practical information-theoretic approach. David Raymond Anderson, Kenneth P. Burnham 2.ª ed. New York: Springer. OCLC 48557578
↑ ^a ^b Akaike, H. (dezembro de 1974). «A new look at the statistical model identification». IEEE Transactions on Automatic Control (6): 716–723. ISSN 1558-2523. doi:10.1109/TAC.1974.1100705. Consultado em 6 de julho de 2021

[1] McElreath, Richard (2016). Statistical Rethinking: A Bayesian Course with Examples in R and Stan. [S.l.]: CRC Press. p. 189. ISBN 978-1-4822-5344-3. AIC provides a surprisingly simple estimate of the average out-of-sample deviance.

[2] Taddy, Matt (2019). Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions. New York: McGraw-Hill. p. 90. ISBN 978-1-260-45277-8. The AIC is an estimate for OOS deviance.

[:0-3] Burnham, Kenneth P. (2002). Model selection and multimodel inference : a practical information-theoretic approach. David Raymond Anderson, Kenneth P. Burnham 2.ª ed. New York: Springer. OCLC 48557578

[:1-4] Akaike, H. (dezembro de 1974). «A new look at the statistical model identification». IEEE Transactions on Automatic Control (6): 716–723. ISSN 1558-2523. doi:10.1109/TAC.1974.1100705. Consultado em 6 de julho de 2021

[1]

[2]

[3]

[4]