Acabei de encontrar o "critério de informação Akaike" e notei essa grande quantidade de literatura sobre seleção de modelos (também parecem existir coisas como o BIC).
Por que os métodos contemporâneos de aprendizado de máquina não se beneficiam desses critérios de seleção de modelos BIC e AIC?
Respostas:
AIC e BIC são usados, por exemplo, em regressão gradual. Na verdade, eles fazem parte de uma classe maior de "heurísticas", que também são usadas. Por exemplo, o DIC (Critério de informação de desvio) é frequentemente usado na seleção do modelo bayesiano.
No entanto, eles são basicamente "heurísticas". Embora possa ser demonstrado que tanto o AIC quanto o BIC convergem assintoticamente para abordagens de validação cruzada (acho que o AIC vai para o CV de uma só vez, e o BIC para outra abordagem, mas não tenho certeza), eles são conhecidos por penalizar e penalizar demais, respectivamente. Ou seja, ao usar o AIC, você geralmente obtém um modelo, o que é mais complicado do que deveria ser, enquanto no BIC você obtém um modelo muito simplista.
Como ambos estão relacionados ao CV, o CV geralmente é uma escolha melhor, que não sofre com esses problemas.
Finalmente, há a questão do número de parâmetros necessários para o BIC e o AIC. Com aproximadores de funções gerais (por exemplo, KNNs) em entradas com valor real, é possível "ocultar" parâmetros, ou seja, construir um número real que contenha a mesma informação que dois números reais (pense, por exemplo, na interseção dos dígitos). Nesse caso, qual é o número real de parâmetros? Por outro lado, com modelos mais complicados, você pode ter restrições em seus parâmetros, digamos que só pode ajustar parâmetros de modo queθ1>θ2 (veja, por exemplo, aqui ). Ou você pode não ter identificabilidade; nesse caso, vários valores dos parâmetros realmente fornecem o mesmo modelo. Em todos esses casos, a simples contagem de parâmetros não fornece uma estimativa adequada.
Como muitos algoritmos contemporâneos de aprendizado de máquina mostram essas propriedades (isto é, aproximação universal, número pouco claro de parâmetros, não identificabilidade), o AIC e o BIC são menos úteis para esse modelo do que podem parecer à primeira vista.
EDIT :
Mais alguns pontos que poderiam ser esclarecidos:
fonte