Resposta curta: As duas técnicas de validação envolvem o treinamento e o teste de vários modelos.
Resposta longa sobre como fazer o melhor: isso, é claro, depende. Mas aqui estão alguns pensamentos que eu uso para orientar minhas decisões sobre a validação de reamostragem. Sou quimiometrista, portanto, essas estratégias e também os termos estão mais ou menos relacionados a problemas analítico-químicos.
Para explicar um pouco meus pensamentos, penso na validação como medida da qualidade do modelo e no treinamento como medida dos parâmetros do modelo - isso leva a uma analogia bastante poderosa para todos os outros tipos de medição.
Existem dois pontos de vista diferentes para essas abordagens com relação à validação:
um ponto de vista tradicional para validação de reamostragem é: o conjunto de dados reamostrado (às vezes chamado de conjunto ou subconjunto substituto de dados) é praticamente o mesmo que o conjunto de dados original (real).
Portanto, um "modelo substituto" ajustado ao conjunto de dados substituto é praticamente o mesmo que o modelo ajustado com todo o conjunto de dados reais. Mas algumas amostras são deixadas de fora do conjunto de dados substituto, o modelo é independente deles. Portanto, pego as amostras deixadas de fora ou fora do bootstrap como um conjunto de validação independente para o modelo substituto e utilizo o resultado como aproximação do modelo de dados completos.
No entanto, o modelo substituto geralmente não é realmente equivalente ao modelo de dados completos: menos amostras foram usadas para treinamento (mesmo para o bootstrap, o número de amostras diferentes é menor). Enquanto a curva de aprendizado aumenta, o modelo substituto é, em média, um pouco pior que o modelo de dados completos. Esse é o viés pessimista conhecido da validação de reamostragem (se você acabar com um viés otimista, isso geralmente é um indicador de que o conjunto de teste deixado de fora / oob não era independente do modelo).
O segundo ponto de vista é que o conjunto de dados reamostrado é uma versão perturbada de todo o conjunto de dados. Examinar como os modelos substitutos (ou suas previsões para as amostras deixadas de fora / oob) diferem do modelo de dados completo, em seguida, informa algo sobre a estabilidade do modelo em relação aos dados de treinamento.
Nessa perspectiva, os modelos substitutos são algo como medições repetidas. Digamos que sua tarefa é medir o conteúdo de algum mineral de um trem inteiro de minério. O minério não é homogêneo. Então você coleta amostras físicas de diferentes locais e, em seguida, analisa o conteúdo geral e sua variação no trem. Da mesma forma, se você acha que seu modelo pode não ser estável, pode analisar o desempenho geral e a variação dos modelos substitutos.
n não realizado com casos que já são conhecidos pelo modelo. Em outras palavras, apenas os casos deixados de fora são testados. Isso é repetido várias vezes (cada modelo deixa de fora um conjunto diferente de casos) para (a) medir e (b) calcular a melhor média possível das variações devido aos tamanhos finitos (pequenos) da amostra (para teste e treinamento) .
Eu costumo resample casos, por exemplo, um caso = todas as medidas de um paciente. Então, fora da bolsa são todos os pacientes dos quais não ocorrem medições nos dados de treinamento. Isso é útil se você souber que as medidas de um caso são mais semelhantes entre si do que as medidas de outros casos (ou pelo menos você não pode excluir essa possibilidade).
Não que a validação de reamostragem permita medir o desempenho de amostras desconhecidas . Se, além disso, você deseja medir o desempenho de amostras futuras desconhecidas (desvio instrumental!), Precisará de um conjunto de testes que seja medido "no futuro", isto é, um certo tempo após a medição de todas as amostras de treinamento. Na química analítica, isso é necessário, por exemplo, se você deseja descobrir com que frequência precisa refazer a calibração do seu instrumento (para cada determinação, diariamente, semanalmente, mensalmente, ...)
Bootstrap vs validação cruzada terminologia :
- a reamostragem com substituição geralmente é chamada de autoinicialização,
- reamostragem sem validação cruzada de substituição.
Ambos podem ter algum tipo de estratificação. Historicamente, a divisão para validação cruzada (pelo menos em quimiometria) geralmente é feita de maneira não aleatória, por exemplo, uma validação cruzada em três vezes da forma abcabc..abc (conjunto de dados classificado por resultado) para calibração / regressão se você tiver muito poucos casos (amostras físicas) e desejar garantir que todo o intervalo de dados seja coberto.
As duas técnicas geralmente são repetidas / iteradas várias vezes. Novamente, por razões históricas e, pelo menos, na quimiometria, a validação cruzada com dobras k geralmente significa treinamento e teste de modelos k (cada um testado com 1 / kth dos dados que não estavam envolvidos no treinamento). Se uma divisão aleatória é repetida, as pessoas chamam de validação cruzada iterada ou repetida.
kknnn
- Observe que o bootstrap não é apropriado para algumas técnicas de ajuste de modelo que primeiro removem medições duplicadas.
- Existem algumas variantes do bootstrap, por exemplo, .632-bootstrap e .632 + -bootstrap
kk
Não conheço o "melhor" (o que provavelmente depende do que você usa), mas uso a validação de autoinicialização para estimar erros em novos dados da seguinte maneira (terceira maneira, se desejar):
O que está fora da bolsa nem sempre é claramente definido. Muitas vezes, são todas as observações que não fizeram parte do conjunto de treinamento. Mais rigoroso seria (eu uso desta maneira) ter apenas observações na amostra oob que tenham uma realização de todo o vetor preditivo que não faz parte do conjunto de treinamento (o que é especialmente útil se você tiver muitos fatores). Ainda mais rigoroso é usar uma amostra de OO que contém apenas as observações que têm uma realização diferente da variável preditora nos preditores escolhidos no modelo (especialmente útil se o modelo for encontrado com algum procedimento de seleção de variáveis, por exemplo, árvores).
Em geral, repito esse número k de vezes e agrego os resultados nas dobras k (média ou mediana ou qualquer estatística que seja útil). O modelo escolhido dessa maneira pode ser ajustado ao conjunto de dados geral (como na sua opção 2) para avaliar adicionalmente se ainda existe uma tendência a superajuste (a medida de desempenho não deve estar muito longe das amostras de inicialização).
Se eu tiver mais modelos ou uma grade de parâmetros ou similar, eu os encaixo em cada conjunto de treinamento e os avalio em cada amostra de amostra. Também é possível não usar um conjunto de treinamento duas vezes, mas para cada combinação de modelo ou parâmetro de ajuste para desenhar um novo par de treinamento / oob.
Veja, por exemplo, O Projeto e Análise de Experimentos de Benchmarking .
fonte