Acho que entendo como os fundamentos do bootstrap funcionam, mas não tenho certeza se entendo como posso usar o bootstrap para a seleção de modelos ou para evitar ajustes excessivos.
Para a seleção de modelos, por exemplo, você escolheria o modelo que produz o menor erro (talvez variância?) Nas amostras de inicialização?
Existem textos que discutem como usar a inicialização para seleção ou validação de modelo?
EDIT: Veja este tópico, e a resposta de @ mark999 para mais contexto por trás desta pergunta.
model-selection
cross-validation
bootstrap
Amelio Vazquez-Reina
fonte
fonte
Respostas:
Primeiro, você precisa decidir se realmente precisa da seleção de modelos ou apenas precisa modelar. Na maioria das situações, dependendo da dimensionalidade, é preferível ajustar um modelo abrangente e flexível.
O bootstrap é uma ótima maneira de estimar o desempenho de um modelo. A coisa mais simples a estimar é a variação. De acordo com o ponto original, o bootstrap pode estimar o desempenho futuro provável de um determinado procedimento de modelagem, em novos dados ainda não realizados.
Se estiver usando a reamostragem (autoinicialização ou validação cruzada) para escolher os parâmetros de ajuste do modelo e estimar o modelo, será necessário um autoinicialização dupla ou uma validação cruzada aninhada.
Em geral, o bootstrap requer menos ajustes do modelo (geralmente cerca de 300) do que a validação cruzada (a validação cruzada de 10 vezes deve ser repetida 50-100 vezes para estabilidade).
Alguns estudos de simulação podem ser encontrados em http://biostat.mc.vanderbilt.edu/rms
fonte
Considere usar o bootstrap para obter a média do modelo .
O artigo abaixo poderia ajudar, pois compara uma abordagem de média do modelo de autoinicialização (a mais comumente usada?) À média da modelagem bayesiana e apresenta uma receita para realizar a média do modelo.
Média do modelo de bootstrap em estudos de séries temporais da poluição e mortalidade do ar em partículas
fonte