Ao tentar selecionar entre vários modelos ou o número de recursos a serem incluídos, digamos previsão, posso pensar em duas abordagens.
- Divida os dados em conjuntos de treinamento e teste. Melhor ainda, use bootstrapping ou validação cruzada k-fold. Treine sempre no conjunto de treinamento e calcule o erro sobre o conjunto de teste. Erro no teste de plotagem vs. número de parâmetros. Normalmente, você obtém algo assim:
- Calcule a probabilidade do modelo integrando sobre os valores dos parâmetros. ou seja, calcule e plote isso em relação ao número de parâmetros. Em seguida, temos algo parecido com isto:
Então, minhas perguntas são:
- Essas abordagens são adequadas para resolver esse problema (decidir quantos parâmetros incluir no seu modelo ou selecionar entre vários modelos)?
- Eles são equivalentes? Provavelmente não. Eles darão o mesmo modelo ideal sob certas suposições ou na prática?
- Além da diferença filosófica usual de especificar conhecimentos prévios em modelos bayesianos, etc., quais são os prós e os contras de cada abordagem? Qual você escolheria?
Atualização: Também encontrei a pergunta relacionada sobre a comparação da AIC e da BIC. Parece que meu método 1 é assintoticamente equivalente ao AIC e o método 2 é assintoticamente relacionado ao BIC. Mas eu também li lá que o BIC é equivalente ao CV Leave-One-Out. Isso significaria que o erro mínimo de treinamento e o máximo de verossimilhança bayesiana são equivalentes onde LOO CV é equivalente a K-fold CV. Um artigo talvez muito interessante " Uma teoria assintótica para seleção linear de modelos ", de Jun Shao, relaciona-se a essas questões.
bayesian
model-selection
cross-validation
feature-selection
alta largura de banda
fonte
fonte
Respostas:
Qualquer um poderia ser, sim. Se você estiver interessado em obter um modelo que preveja melhor, da lista de modelos que você considera, a abordagem de divisão / validação cruzada pode fazer isso bem. Se você estiver interessado em saber qual dos modelos (na sua lista de modelos putativos) é realmente o que gera seus dados, a segunda abordagem (avaliar a probabilidade posterior dos modelos) é o que você deseja.
Não, eles não são em geral equivalentes. Por exemplo, o uso do AIC (An Information Criterion, de Akaike) para escolher o melhor modelo corresponde à validação cruzada, aproximadamente. O uso do BIC (Critério de Informação Bayesiano) corresponde ao uso das probabilidades posteriores, novamente aproximadamente. Como esse não é o mesmo critério, deve-se esperar que eles levem a escolhas diferentes, em geral. Eles podem dar as mesmas respostas - sempre que o modelo que predizer melhor também for a verdade - mas em muitas situações o modelo que melhor se encaixa é na verdade aquele que se adapta melhor, o que leva a discordâncias entre as abordagens.
Eles concordam na prática? Depende do que sua 'prática' envolve. Tente dos dois lados e descubra.
fonte
A otimização é a raiz de todo mal nas estatísticas! ; o)
Sempre que você tenta selecionar um modelo com base em um critério que é avaliado em uma amostra finita de dados, você introduz um risco de ajustar demais o critério de seleção de modelo e acabar com um modelo pior do que o iniciado. Tanto a validação cruzada quanto a probabilidade marginal são critérios de seleção de modelo sensatos, mas ambos dependem de uma amostra finita de dados (assim como AIC e BIC - a penalidade de complexidade pode ajudar, mas não resolve esse problema). Eu descobri que isso é um problema substancial no aprendizado de máquina, consulte
Do ponto de vista bayesiano, é melhor integrar todas as opções e parâmetros do modelo. Se você não otimizar ou escolher qualquer coisa, fica mais difícil ajustar demais. A desvantagem é que você acaba com integrais difíceis, que geralmente precisam ser resolvidas com o MCMC. Se você deseja um melhor desempenho preditivo, sugiro uma abordagem totalmente bayesiana; se você deseja entender os dados, geralmente é útil escolher um melhor modelo. No entanto, se você redimensionar os dados e acabar com um modelo diferente a cada vez, isso significa que o procedimento de ajuste é instável e nenhum dos modelos é confiável para a compreensão dos dados.
Observe que uma diferença importante entre validação cruzada e evidência é que o valor da probabilidade marginal assume que o modelo não está especificado incorretamente (essencialmente a forma básica do modelo é apropriada) e pode fornecer resultados enganosos, se for o caso. A validação cruzada não faz essa suposição, o que significa que ela pode ser um pouco mais robusta.
fonte