Na p. Brian Ripley, 34 de seu PRNN, comenta que "A AIC foi nomeada por Akaike (1974) como 'Um critério de informação', embora pareça comum acreditar que o A representa Akaike". De fato, ao introduzir a estatística da AIC, Akaike (1974, p.719) explica que
"IC stands for information criterion and A is added so that similar statistics, BIC, DIC
etc may follow".
Considerando esta citação como uma previsão feita em 1974, é interessante notar que em apenas quatro anos dois tipos da estatística BIC (Bayesian IC) foram propostos por Akaike (1977, 1978) e Schwarz (1978). Spiegelhalter et al. (2002) por muito mais tempo para criar o DIC (Deviance IC). Embora o aparecimento do critério CIC não tenha sido previsto por Akaike (1974), seria ingênuo acreditar que nunca foi contemplado. Foi proposto por Carlos C. Rodriguez em 2005. (Observe que o CIC de R. Tibshirani e K. Knight (Critério de inflação de covariância) é uma coisa diferente.)
Eu sabia que o EIC (IC empírico) foi proposto por pessoas da Universidade Monash por volta de 2003. Acabei de descobrir o Critério de Informação Focada (FIC). Alguns livros se referem a Hannan e Quinn IC como HIC, veja, por exemplo, este ). Eu sei que deveria haver GIC (Generalized IC) e acabei de descobrir o Critério de Investimento em Informações (IIC). Há NIC, TIC e muito mais.
Acho que poderia cobrir o resto do alfabeto, por isso não estou perguntando onde a sequência AIC, BIC, CIC, DIC, EIC, FIC, GIC, HIC, IIC, ... pára, ou quais letras do alfabeto têm não foi usado ou foi usado pelo menos duas vezes (por exemplo, o E no EIC pode ser estendido ou empírico). Minha pergunta é mais simples e espero que seja praticamente útil. Posso usar essas estatísticas de maneira intercambiável, ignorando as suposições específicas em que elas foram derivadas, as situações específicas em que elas deveriam ser aplicáveis e assim por diante?
Esta questão é parcialmente motivada por Burnham & Anderson (2001) escrevendo que:
...the comparison of AIC and BIC model selection ought to be based on their performance
properties such as mean square error for parameter estimation (includes prediction) and
confidence interval coverage: tapering effects or not, goodness-of-fit issues,
derivation of theory is irrelevant as it can be frequentist or Bayes.
O capítulo 7 da monografia de Hyndman et al. Sobre suavização exponencial parece seguir o conselho da AB ao analisar o desempenho dos cinco CIs alternativos (AIC, BIC, AICc, HQIC, LEIC) na seleção do modelo que melhor prevê (conforme medido por uma medida de erro proposta recentemente chamada MASE) para concluir que a AIC era uma alternativa melhor com mais frequência. (O HQIC foi relatado como o melhor seletor de modelo apenas uma vez.)
Não sei ao certo qual é o propósito útil dos exercícios de pesquisa que tratam implicitamente todos os CICs como se fossem derivados para responder a uma e a mesma pergunta sob conjuntos equivalentes de suposições. Em particular, não tenho certeza de como é útil investigar o desempenho preditivo do critério consistente para determinar a ordem de uma autorregressão (que Hannan e Quinn derivaram para seqüências estacionárias ergódicas) usando-o no contexto exponencial não estacionário. modelos de suavização descritos e analisados na monografia de Hyndman et al. Estou faltando alguma coisa aqui?
Referências:
Akaike, H. (1974), Um novo olhar sobre a identificação do modelo estatístico, IEEE Transactions on Automatic Control 19 (6), 716-723.
Akaike, H. (1977), No princípio da maximização da entropia, em PR Krishnaiah, ed., Applications of statistics , vol. 27, Amsterdã: Holanda do Norte, pp. 27-41.
Akaike, H. (1978), Uma análise bayesiana do procedimento mínimo da AIC, Annals of the Institute of Statistical Mathematics 30 (1), 9-14.
Burnham, KP & Anderson, DR (2001) informações de Kullback-Leibler como base para forte inferência em estudos ecológicos, Wildlife Research 28, 111-119
Hyndman, RJ, Koehler, AB, Ord, JK e Snyder, RD Previsão com suavização exponencial: a abordagem do espaço de estados. Nova York: Springer, 2008
Ripley, reconhecimento de padrões BD e redes neurais . Cambridge: Cambridge University Press, 1996
Schwarz, G. (1978), Estimando a dimensão de um modelo, Annals of Statistics 6 (2), 461-464.
Spiegelhalter, DJ, Best, NG, Carlin, BP e van der Linde, A. (2002), medidas bayesianas de complexidade do modelo et (com discussão), Journal of the Royal Statistical Society. Série B (Metodologia Estatística) 64 (4), 583-639.
fonte
Respostas:
Meu entendimento é que AIC, DIC e WAIC estão todos estimando a mesma coisa: o desvio fora da amostra esperado associado a um modelo. Isso também é o mesmo que a validação cruzada estima. Em Gelman et al. (2013), eles dizem isso explicitamente:
O BIC estima algo diferente, que está relacionado ao tamanho mínimo da descrição. Gelman et al. dizer:
Infelizmente, não sei nada sobre os outros critérios de informação que você listou.
Você pode usar os critérios de informação do tipo AIC de forma intercambiável? As opiniões podem ser diferentes, mas, como a AIC, DIC, WAIC e a validação cruzada estimam a mesma coisa, então sim, elas são mais ou menos intercambiáveis. BIC é diferente, como observado acima. Eu não sei sobre os outros.
Por que ter mais de um?
A AIC funciona bem quando você tem uma estimativa de probabilidade máxima e antecedentes planos, mas realmente não tem nada a dizer sobre outros cenários. A penalidade também é muito pequena quando o número de parâmetros se aproxima do número de pontos de dados. O AICc corrige demais isso, o que pode ser bom ou ruim, dependendo da sua perspectiva.
O DIC usa uma penalidade menor se partes do modelo forem fortemente restringidas por anteriores (por exemplo, em alguns modelos multiníveis em que os componentes de variação são estimados). Isso é bom, já que parâmetros altamente restritos não constituem realmente um grau completo de liberdade. Infelizmente, as fórmulas geralmente usadas para o DIC assumem que o posterior é essencialmente gaussiano (ou seja, é bem descrito por sua média) e, portanto, pode-se obter resultados estranhos (por exemplo, penalidades negativas) em algumas situações.
O WAIC utiliza toda a densidade posterior de maneira mais eficaz que o DIC, portanto Gelman et al. prefiro, embora possa ser difícil calcular em alguns casos.
A validação cruzada não depende de nenhuma fórmula específica, mas pode ser computacionalmente proibitiva para muitos modelos.
Na minha opinião, a decisão sobre qual dos critérios semelhantes à AIC usar depende inteiramente desses tipos de questões práticas, ao invés de uma prova matemática de que um se sairá melhor que o outro.
Referências :
Gelman et al. Entendendo os critérios de informação preditiva para modelos bayesianos. Disponível em http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.295.3501&rep=rep1&type=pdf
fonte
"Intercambiavelmente" é uma palavra muito forte. Todos eles são critérios que buscam comparar modelos e encontrar um modelo "melhor", mas cada um define "melhor" de maneira diferente e pode identificar modelos diferentes como "melhor".
fonte
"Propor um referendo". Apenas para votar! ;-) Gostei do CAIC (Bozdogan, 1987) e do BIC puramente da minha prática pessoal, porque esses critérios causam sérias penalidades por complexidade, obtivemos mais parcimônia, mas sempre exibi a lista de bons modelos - delta 4-6 -8 (em vez de 2). Na etapa de investigar os parâmetros (porque temos um "bom alongamento dos modelos candidatos"), a média MM (B&A) geralmente quase nada muda. Sou um pouco cético em relação ao AIC clássico e ao AICc (H&T, popularizado pela B&A), já que eles geralmente dão uma "camada espessa do creme". ;-)
fonte