AIC, BIC, CIC, DIC, EIC, FIC, GIC, HIC, IIC - Posso usá-los de forma intercambiável?

47

Na p. Brian Ripley, 34 de seu PRNN, comenta que "A AIC foi nomeada por Akaike (1974) como 'Um critério de informação', embora pareça comum acreditar que o A representa Akaike". De fato, ao introduzir a estatística da AIC, Akaike (1974, p.719) explica que

"IC stands for information criterion and A is added so that similar statistics, BIC, DIC
etc may follow".

Considerando esta citação como uma previsão feita em 1974, é interessante notar que em apenas quatro anos dois tipos da estatística BIC (Bayesian IC) foram propostos por Akaike (1977, 1978) e Schwarz (1978). Spiegelhalter et al. (2002) por muito mais tempo para criar o DIC (Deviance IC). Embora o aparecimento do critério CIC não tenha sido previsto por Akaike (1974), seria ingênuo acreditar que nunca foi contemplado. Foi proposto por Carlos C. Rodriguez em 2005. (Observe que o CIC de R. Tibshirani e K. Knight (Critério de inflação de covariância) é uma coisa diferente.)

Eu sabia que o EIC (IC empírico) foi proposto por pessoas da Universidade Monash por volta de 2003. Acabei de descobrir o Critério de Informação Focada (FIC). Alguns livros se referem a Hannan e Quinn IC como HIC, veja, por exemplo, este ). Eu sei que deveria haver GIC (Generalized IC) e acabei de descobrir o Critério de Investimento em Informações (IIC). Há NIC, TIC e muito mais.

Acho que poderia cobrir o resto do alfabeto, por isso não estou perguntando onde a sequência AIC, BIC, CIC, DIC, EIC, FIC, GIC, HIC, IIC, ... pára, ou quais letras do alfabeto têm não foi usado ou foi usado pelo menos duas vezes (por exemplo, o E no EIC pode ser estendido ou empírico). Minha pergunta é mais simples e espero que seja praticamente útil. Posso usar essas estatísticas de maneira intercambiável, ignorando as suposições específicas em que elas foram derivadas, as situações específicas em que elas deveriam ser aplicáveis ​​e assim por diante?

Esta questão é parcialmente motivada por Burnham & Anderson (2001) escrevendo que:

...the comparison of AIC and BIC model selection ought to be based on their performance 
properties such as mean square error for parameter estimation (includes prediction) and 
confidence interval coverage: tapering effects or not, goodness-of-fit issues, 
derivation of theory is irrelevant as it can be frequentist or Bayes. 

O capítulo 7 da monografia de Hyndman et al. Sobre suavização exponencial parece seguir o conselho da AB ao analisar o desempenho dos cinco CIs alternativos (AIC, BIC, AICc, HQIC, LEIC) na seleção do modelo que melhor prevê (conforme medido por uma medida de erro proposta recentemente chamada MASE) para concluir que a AIC era uma alternativa melhor com mais frequência. (O HQIC foi relatado como o melhor seletor de modelo apenas uma vez.)

Não sei ao certo qual é o propósito útil dos exercícios de pesquisa que tratam implicitamente todos os CICs como se fossem derivados para responder a uma e a mesma pergunta sob conjuntos equivalentes de suposições. Em particular, não tenho certeza de como é útil investigar o desempenho preditivo do critério consistente para determinar a ordem de uma autorregressão (que Hannan e Quinn derivaram para seqüências estacionárias ergódicas) usando-o no contexto exponencial não estacionário. modelos de suavização descritos e analisados ​​na monografia de Hyndman et al. Estou faltando alguma coisa aqui?

Referências:

Akaike, H. (1974), Um novo olhar sobre a identificação do modelo estatístico, IEEE Transactions on Automatic Control 19 (6), 716-723.

Akaike, H. (1977), No princípio da maximização da entropia, em PR Krishnaiah, ed., Applications of statistics , vol. 27, Amsterdã: Holanda do Norte, pp. 27-41.

Akaike, H. (1978), Uma análise bayesiana do procedimento mínimo da AIC, Annals of the Institute of Statistical Mathematics 30 (1), 9-14.

Burnham, KP & Anderson, DR (2001) informações de Kullback-Leibler como base para forte inferência em estudos ecológicos, Wildlife Research 28, 111-119

Hyndman, RJ, Koehler, AB, Ord, JK e Snyder, RD Previsão com suavização exponencial: a abordagem do espaço de estados. Nova York: Springer, 2008

Ripley, reconhecimento de padrões BD e redes neurais . Cambridge: Cambridge University Press, 1996

Schwarz, G. (1978), Estimando a dimensão de um modelo, Annals of Statistics 6 (2), 461-464.

Spiegelhalter, DJ, Best, NG, Carlin, BP e van der Linde, A. (2002), medidas bayesianas de complexidade do modelo et (com discussão), Journal of the Royal Statistical Society. Série B (Metodologia Estatística) 64 (4), 583-639.

Hibernando
fonte
9
Em conversa com Findley e Parzen ( projecteuclid.org/download/pdf_1/euclid.ss/1177010133 ), Akaike revelou que a AIC era usada por um assistente em seu programa FORTRAN. Nomes de variáveis ​​como IC, por padrão, quantidades inteiras implícitas; um prefixo como A foi suficiente para instruir o compilador de que a quantidade era real. Embora não pretendesse "Akaike", ele percebeu que isso também significava simplesmente "um". (Aliás, enquanto esta referência é, por assim dizer, um antídoto para uma história incorreta, perpetua o erro de ortografia de Mallows' como Mallow de.)
Nick Cox
Esta questão faz pensar sobre "projeto alfabética experimental": doe.soton.ac.uk/elearning/section3.6.jsp
b Kjetil Halvorsen

Respostas:

36

Meu entendimento é que AIC, DIC e WAIC estão todos estimando a mesma coisa: o desvio fora da amostra esperado associado a um modelo. Isso também é o mesmo que a validação cruzada estima. Em Gelman et al. (2013), eles dizem isso explicitamente:

Uma maneira natural de estimar o erro de previsão fora da amostra é a validação cruzada (ver Vehtari e Lampinen, 2002, para uma perspectiva bayesiana), mas os pesquisadores sempre buscaram medidas alternativas, pois a validação cruzada exige ajustes repetidos no modelo e pode encontrar problemas com dados esparsos. Por razões práticas, ainda resta um lugar para correções simples de viés, como AIC (Akaike, 1973), DIC (Spiegelhalter, Best, Carlin e van der Linde, 2002, van der Linde, 2005) e, mais recentemente, WAIC (Watanabe, 2010), e todos esses podem ser vistos como aproximações para diferentes versões de validação cruzada (Stone, 1977).

O BIC estima algo diferente, que está relacionado ao tamanho mínimo da descrição. Gelman et al. dizer:

O BIC e suas variantes diferem dos outros critérios de informação aqui considerados, motivados não por uma estimativa do ajuste preditivo, mas pelo objetivo de aproximar a densidade de probabilidade marginal dos dados, p (y), no modelo, que pode ser usado para estimar probabilidades posteriores relativas em um cenário de comparação discreta de modelos.

Infelizmente, não sei nada sobre os outros critérios de informação que você listou.

Você pode usar os critérios de informação do tipo AIC de forma intercambiável? As opiniões podem ser diferentes, mas, como a AIC, DIC, WAIC e a validação cruzada estimam a mesma coisa, então sim, elas são mais ou menos intercambiáveis. BIC é diferente, como observado acima. Eu não sei sobre os outros.

Por que ter mais de um?

  • A AIC funciona bem quando você tem uma estimativa de probabilidade máxima e antecedentes planos, mas realmente não tem nada a dizer sobre outros cenários. A penalidade também é muito pequena quando o número de parâmetros se aproxima do número de pontos de dados. O AICc corrige demais isso, o que pode ser bom ou ruim, dependendo da sua perspectiva.

  • O DIC usa uma penalidade menor se partes do modelo forem fortemente restringidas por anteriores (por exemplo, em alguns modelos multiníveis em que os componentes de variação são estimados). Isso é bom, já que parâmetros altamente restritos não constituem realmente um grau completo de liberdade. Infelizmente, as fórmulas geralmente usadas para o DIC assumem que o posterior é essencialmente gaussiano (ou seja, é bem descrito por sua média) e, portanto, pode-se obter resultados estranhos (por exemplo, penalidades negativas) em algumas situações.

  • O WAIC utiliza toda a densidade posterior de maneira mais eficaz que o DIC, portanto Gelman et al. prefiro, embora possa ser difícil calcular em alguns casos.

  • A validação cruzada não depende de nenhuma fórmula específica, mas pode ser computacionalmente proibitiva para muitos modelos.

Na minha opinião, a decisão sobre qual dos critérios semelhantes à AIC usar depende inteiramente desses tipos de questões práticas, ao invés de uma prova matemática de que um se sairá melhor que o outro.

Referências :

Gelman et al. Entendendo os critérios de informação preditiva para modelos bayesianos. Disponível em http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.295.3501&rep=rep1&type=pdf

David J. Harris
fonte
3
Além da referência Gelman et al. Para entender os critérios de informação preditiva dos modelos bayesianos, consulte também o artigo mais recente Aki Vehtari, Andrew Gelman e Jonah Gabry (2016). Avaliação prática do modelo bayesiano usando validação cruzada de exclusão e WAIC. Em Estatística e Computação, doi: 10.1007 / s11222-016-9696-4. pré-impressão do arXiv arXiv: 1507.04544. arxiv.org/abs/1507.04544 Este documento também demonstra que a validação cruzada confiável pode ser computada em tempo insignificante para muitos modelos.
Aki Vehtari
4

"Intercambiavelmente" é uma palavra muito forte. Todos eles são critérios que buscam comparar modelos e encontrar um modelo "melhor", mas cada um define "melhor" de maneira diferente e pode identificar modelos diferentes como "melhor".

Emil Friedman
fonte
0

"Propor um referendo". Apenas para votar! ;-) Gostei do CAIC (Bozdogan, 1987) e do BIC puramente da minha prática pessoal, porque esses critérios causam sérias penalidades por complexidade, obtivemos mais parcimônia, mas sempre exibi a lista de bons modelos - delta 4-6 -8 (em vez de 2). Na etapa de investigar os parâmetros (porque temos um "bom alongamento dos modelos candidatos"), a média MM (B&A) geralmente quase nada muda. Sou um pouco cético em relação ao AIC clássico e ao AICc (H&T, popularizado pela B&A), já que eles geralmente dão uma "camada espessa do creme". ;-)

Ivan Kshnyasev
fonte