Qual é o sentido de dividir os dados em partes de treinamento e teste para avaliar as propriedades de previsão quando temos a AIC?

8

Assintoticamente, minimizar o AIC é equivalente a minimizar o MSE de validação cruzada de exclusão única para dados transversais [ 1 ]. Então, quando temos a AIC, por que alguém usa o método de dividir os dados em conjuntos de treinamento, validação e teste para medir as propriedades preditivas dos modelos? Quais são especificamente os benefícios dessa prática?

Posso pensar em uma razão: se alguém deseja avaliar o desempenho preditivo dos modelos, a análise fora da amostra é útil. Mas, embora a AIC não seja uma medida da precisão da previsão , geralmente se tem uma boa idéia se algum modelo estiver atingindo seu potencial máximo (para os dados que lhe são fornecidos) em termos de quão bem você será capaz de prever.

Erosennin
fonte
2
Um trecho dos documentos da sklearn : A seleção de modelo baseada em critérios de informação é muito rápida, mas depende de uma estimativa adequada dos graus de liberdade, é derivada para amostras grandes (resultados assintóticos) e assume que o modelo está correto, ou seja, que os dados estão realmente gerado por este modelo. Eles também tendem a quebrar quando o problema está mal condicionado (mais recursos do que amostras).
Sascha 27/05
Na verdade, não acho que a AIC assuma um modelo correto ( stats.stackexchange.com/questions/205222/… ). Em relação ao tamanho da amostra e ao AIC ser um resultado assintótico: você nunca dividiria seus dados em três partes quando tiver poucos dados. Tamanho da amostra tão pequena é problemática para ambos out-of-sample análise e AIC
Erosennin
1
O @sascha tem um ponto: a AIC aproxima as informações esperadas de KL. perda bem um dos modelos tem que ser bastante bom. Não acho que alguém defenda o uso da AIC para comparar modelos ruins para ver quais são menos ruins.
Scortchi - Restabelecer Monica
2
tr(J(θ0)(I(θ0))1)k no slide 10 ao qual @sascha está vinculado. (Eu estava apenas olhando em nosso site - parece que temos muitas afirmações sobre a AIC, e referências contendo ainda mais afirmações; mas pouco além. De memória, Pawitan, In All Likelihood , e Burnham & Anderson, Model Selection , dão derivações .)
Scortchi - Restabelece Monica
1
Ok, eu pulei a parte TIC e perdi essa parte. Você está absolutamente certo. Desculpas a você @sascha, e obrigado por me esclarecer :) Sim, acabei de dar uma olhada no Burnham & Anderson. Ótimo recurso!
Erosennin

Respostas:

9

Na prática, eu sempre uso validação cruzada ou uma simples divisão de teste de trem em vez de AIC (ou BIC). Não estou muito familiarizado com a teoria por trás da AIC, mas duas preocupações principais me levam a preferir estimativas mais diretas de precisão preditiva:

  1. O número em si não diz muito sobre a precisão de um modelo. A AIC pode fornecer evidências de qual dos vários modelos é o mais preciso, mas não informa a precisão do modelo em unidades do DV. Quase sempre estou interessado em estimativas de precisão concretas desse tipo, porque ele me diz o quão útil é um modelo em termos absolutos e também o quão mais preciso é do que um modelo de comparação.

  2. O AIC, como o BIC, precisa para cada modelo uma contagem de parâmetros ou algum outro valor que mede a complexidade do modelo. Não está claro o que você deve fazer para isso no caso de métodos preditivos menos tradicionais, como a classificação do vizinho mais próximo, florestas aleatórias ou o novo método maluco que você rabiscou em um guardanapo no meio do caminho do mês passado. Por outro lado, estimativas de precisão podem ser produzidas para qualquer modelo preditivo e da mesma maneira.

Kodiologist
fonte
1
+1 Ótimo! # 2 é um ótimo argumento! O número 1 trata do que eu escrevo sobre a AIC não ser uma medida da precisão da previsão, ótimo ponto! Posso perguntar como você compara "quanto mais preciso é do que um modelo de comparação"? Recentemente, pensei nisso ao comparar o MSE de dois modelos. MSE do Modelo 1 e Modelo 2 foi 10 e 20, respectivamente. Como interpreto o quão mais preciso é o Modelo 1? Estou pensando que não pode ser tão simples quanto 20/10, porque comparar isso deve / deve levar em consideração a escala do DV?
Erosennin
2
Eu apenas olho para os dois respectivos valores de precisão (MSE ou o que for), em vez de tentar fazer uma comparação. Além disso, sempre ajuda a obter uma pontuação de precisão para um modelo trivial (isto é, um modelo que não usa preditores) se esse já não era um dos modelos que você estava comparando.
Kodiologist
(+1) Há uma indústria caseira na invenção de AICs, quase-AICs e similares para situações que não são de estimativa de probabilidade máxima com um não fixo. parâmetros.
Scortchi - Restabelece Monica
@ Kodiologist: Eu acho que seria muito interessante com uma pontuação de comparação. Dessa forma, podemos comparar modelos criados em diferentes conjuntos de dados, por exemplo, avaliar o desempenho de modelos antigos versus novos modelos quando novos dados estiverem disponíveis.
Erosennin
Em relação a 2. existe uma maneira relativamente fácil de obter os graus de liberdade do modelo (embora em alguns casos possa demorar um pouco para ser computado, em muitas situações comuns há um atalho); que é ; em um sentido direto bastante literal, isso mede os graus de liberdade do modelo para aproximar os dados. Veja, por exemplo, o artigo JASA de 1998 de Ye. StasK vincula-se a uma referência completa nesta resposta, por exemplo. ... k=iy^iyi
ctd