Qual é o procedimento para a "validação de inicialização" (também conhecida como "reamostragem de validação cruzada")?

15

A "validação de inicialização" / "validação cruzada de reamostragem" é nova para mim, mas foi discutida pela resposta a esta pergunta . Acho que envolve dois tipos de dados: os dados reais e os dados simulados, em que um determinado conjunto de dados simulados é gerado a partir dos dados reais por reamostragem com substituição até que os dados simulados tenham o mesmo tamanho dos dados reais. Posso pensar em duas abordagens para usar esses tipos de dados: (1) ajuste o modelo uma vez, avalie-o várias vezes em muitos conjuntos de dados simulados; (2) ajustam o modelo várias vezes usando cada um dos muitos conjuntos de dados simulados, sempre que comparados com os dados reais. Qual (se) é o melhor?

Mike Lawrence
fonte

Respostas:

20

Resposta curta: As duas técnicas de validação envolvem o treinamento e o teste de vários modelos.

Resposta longa sobre como fazer o melhor: isso, é claro, depende. Mas aqui estão alguns pensamentos que eu uso para orientar minhas decisões sobre a validação de reamostragem. Sou quimiometrista, portanto, essas estratégias e também os termos estão mais ou menos relacionados a problemas analítico-químicos.

Para explicar um pouco meus pensamentos, penso na validação como medida da qualidade do modelo e no treinamento como medida dos parâmetros do modelo - isso leva a uma analogia bastante poderosa para todos os outros tipos de medição.

Existem dois pontos de vista diferentes para essas abordagens com relação à validação:

  1. um ponto de vista tradicional para validação de reamostragem é: o conjunto de dados reamostrado (às vezes chamado de conjunto ou subconjunto substituto de dados) é praticamente o mesmo que o conjunto de dados original (real).
    Portanto, um "modelo substituto" ajustado ao conjunto de dados substituto é praticamente o mesmo que o modelo ajustado com todo o conjunto de dados reais. Mas algumas amostras são deixadas de fora do conjunto de dados substituto, o modelo é independente deles. Portanto, pego as amostras deixadas de fora ou fora do bootstrap como um conjunto de validação independente para o modelo substituto e utilizo o resultado como aproximação do modelo de dados completos.
    No entanto, o modelo substituto geralmente não é realmente equivalente ao modelo de dados completos: menos amostras foram usadas para treinamento (mesmo para o bootstrap, o número de amostras diferentes é menor). Enquanto a curva de aprendizado aumenta, o modelo substituto é, em média, um pouco pior que o modelo de dados completos. Esse é o viés pessimista conhecido da validação de reamostragem (se você acabar com um viés otimista, isso geralmente é um indicador de que o conjunto de teste deixado de fora / oob não era independente do modelo).

  2. O segundo ponto de vista é que o conjunto de dados reamostrado é uma versão perturbada de todo o conjunto de dados. Examinar como os modelos substitutos (ou suas previsões para as amostras deixadas de fora / oob) diferem do modelo de dados completo, em seguida, informa algo sobre a estabilidade do modelo em relação aos dados de treinamento.
    Nessa perspectiva, os modelos substitutos são algo como medições repetidas. Digamos que sua tarefa é medir o conteúdo de algum mineral de um trem inteiro de minério. O minério não é homogêneo. Então você coleta amostras físicas de diferentes locais e, em seguida, analisa o conteúdo geral e sua variação no trem. Da mesma forma, se você acha que seu modelo pode não ser estável, pode analisar o desempenho geral e a variação dos modelos substitutos.

n não realizado com casos que já são conhecidos pelo modelo. Em outras palavras, apenas os casos deixados de fora são testados. Isso é repetido várias vezes (cada modelo deixa de fora um conjunto diferente de casos) para (a) medir e (b) calcular a melhor média possível das variações devido aos tamanhos finitos (pequenos) da amostra (para teste e treinamento) .
Eu costumo resample casos, por exemplo, um caso = todas as medidas de um paciente. Então, fora da bolsa são todos os pacientes dos quais não ocorrem medições nos dados de treinamento. Isso é útil se você souber que as medidas de um caso são mais semelhantes entre si do que as medidas de outros casos (ou pelo menos você não pode excluir essa possibilidade).

Não que a validação de reamostragem permita medir o desempenho de amostras desconhecidas . Se, além disso, você deseja medir o desempenho de amostras futuras desconhecidas (desvio instrumental!), Precisará de um conjunto de testes que seja medido "no futuro", isto é, um certo tempo após a medição de todas as amostras de treinamento. Na química analítica, isso é necessário, por exemplo, se você deseja descobrir com que frequência precisa refazer a calibração do seu instrumento (para cada determinação, diariamente, semanalmente, mensalmente, ...)

Bootstrap vs validação cruzada terminologia :

  • a reamostragem com substituição geralmente é chamada de autoinicialização,
  • reamostragem sem validação cruzada de substituição.

Ambos podem ter algum tipo de estratificação. Historicamente, a divisão para validação cruzada (pelo menos em quimiometria) geralmente é feita de maneira não aleatória, por exemplo, uma validação cruzada em três vezes da forma abcabc..abc (conjunto de dados classificado por resultado) para calibração / regressão se você tiver muito poucos casos (amostras físicas) e desejar garantir que todo o intervalo de dados seja coberto.

As duas técnicas geralmente são repetidas / iteradas várias vezes. Novamente, por razões históricas e, pelo menos, na quimiometria, a validação cruzada com dobras k geralmente significa treinamento e teste de modelos k (cada um testado com 1 / kth dos dados que não estavam envolvidos no treinamento). Se uma divisão aleatória é repetida, as pessoas chamam de validação cruzada iterada ou repetida.

kknnn

  • Observe que o bootstrap não é apropriado para algumas técnicas de ajuste de modelo que primeiro removem medições duplicadas.
  • Existem algumas variantes do bootstrap, por exemplo, .632-bootstrap e .632 + -bootstrap

kk

cbeleites suporta Monica
fonte
A resposta longa é boa.
Momo
(+1) ótima perspectiva. Tenho certeza de que o termo substituto permanecerá.
steffen
@ steffen, obrigado. Não sou de forma alguma o inventor do termo. Acho que me encontrei em algum artigo de U. Braga-Neto (possivelmente este: ncbi.nlm.nih.gov/pubmed/14960464 ), mas fiquei imediatamente convencido do termo ...
cbeleites apoia Monica
Em relação à observação na pergunta sobre dados simulados. A inicialização por si só não envolve dados simulados. Os dados simulados serão usados ​​como uma maneira de avaliar se o método de autoinicialização funciona em um problema específico. Mas o próprio bootstrap é apenas uma reutilização dos dados com base na amostra do bootstrap. Amostras selecionadas aleatoriamente com substituição do conjunto de dados original. Isso geralmente envolve tirar n novas amostras, onde n é o tamanho da amostra original. Monte Carlo entra como uma maneira de aproximar a distribuição do bootstrap gerando realmente amostras de bootstrap no computador.
22812 Michael R. Chernick
3

Não conheço o "melhor" (o que provavelmente depende do que você usa), mas uso a validação de autoinicialização para estimar erros em novos dados da seguinte maneira (terceira maneira, se desejar):

  1. Desenhe um conjunto de treinamento de N observações a partir dos dados originais (do tamanho N) com substituição.
  2. Ajuste o modelo aos dados de treinamento.
  3. Avalie o modelo nas amostras out-of-bag (oob)

O que está fora da bolsa nem sempre é claramente definido. Muitas vezes, são todas as observações que não fizeram parte do conjunto de treinamento. Mais rigoroso seria (eu uso desta maneira) ter apenas observações na amostra oob que tenham uma realização de todo o vetor preditivo que não faz parte do conjunto de treinamento (o que é especialmente útil se você tiver muitos fatores). Ainda mais rigoroso é usar uma amostra de OO que contém apenas as observações que têm uma realização diferente da variável preditora nos preditores escolhidos no modelo (especialmente útil se o modelo for encontrado com algum procedimento de seleção de variáveis, por exemplo, árvores).

Em geral, repito esse número k de vezes e agrego os resultados nas dobras k (média ou mediana ou qualquer estatística que seja útil). O modelo escolhido dessa maneira pode ser ajustado ao conjunto de dados geral (como na sua opção 2) para avaliar adicionalmente se ainda existe uma tendência a superajuste (a medida de desempenho não deve estar muito longe das amostras de inicialização).

Se eu tiver mais modelos ou uma grade de parâmetros ou similar, eu os encaixo em cada conjunto de treinamento e os avalio em cada amostra de amostra. Também é possível não usar um conjunto de treinamento duas vezes, mas para cada combinação de modelo ou parâmetro de ajuste para desenhar um novo par de treinamento / oob.

Veja, por exemplo, O Projeto e Análise de Experimentos de Benchmarking .

Momo
fonte