Circunflexo - Validação cruzada de dobras K repetida vs Validação cruzada de dobras K aninhada, n-vezes repetidas

16

O pacote de interpolação é uma biblioteca R brilhante para a construção de vários modelos de aprendizado de máquina e possui várias funções para construção e avaliação de modelos. Para ajuste de parâmetros e treinamento do modelo, o pacote de interpolação de mão oferece 'repeatcv' como um dos métodos.

Como boa prática, o ajuste de parâmetros pode ser realizado usando a validação cruzada de dobras K aninhada, que funciona da seguinte maneira:

  1. Particionar o conjunto de treinamento em subconjuntos 'K'
  2. Em cada iteração, faça os subconjuntos 'K menos 1' para o treinamento do modelo e mantenha 1 subconjunto (conjunto de validação) para o teste do modelo.
  3. Particione ainda mais o conjunto de treinamento 'K menos 1' nos subconjuntos 'K' e use iterativamente o novo subconjunto 'K menos 1' e o 'conjunto de validação' para o ajuste de parâmetros (pesquisa em grade). O melhor parâmetro identificado nesta etapa é usado para testar o holdout definido na etapa 2.

Por outro lado, suponho que a validação cruzada repetida com dobra K pode repetir as etapas 1 e 2 repetidamente quantas vezes escolhermos para encontrar variação do modelo.

No entanto, ao passar pelo algoritmo no manual do sinal de intercalação, parece que o método 'repeatcv' também pode executar validação cruzada aninhada em K, além de repetir a validação cruzada.

algoritmo de trem de interpolação https://topepo.github.io/caret/training.html

Minhas perguntas são:

  1. Meu entendimento sobre o método de repetição do cursor do cursor está correto?
  2. Caso contrário, você poderia dar um exemplo do uso da validação cruzada dobrada em K aninhada, com o método 'repeatcv' usando o pacote de intercalação?

Editar:

Diferentes estratégias de validação cruzada são explicadas e comparadas neste artigo de metodologia.

Krstajic D, Buturovic LJ, Leahy DE e Thomas S : armadilhas da validação cruzada ao selecionar e avaliar modelos de regressão e classificação . Journal of Cheminformatics 2014 6 (1): 10. doi: 10.1186 / 1758-2946-6-10

Estou interessado em “Algoritmo 2: validação cruzada aninhada estratificada repetida” e “Algoritmo 3: validação cruzada de pesquisa em grade repetida para seleção de variáveis ​​e ajuste de parâmetros” usando o pacote de intercalação.

Mani
fonte

Respostas:

2

Não há nada de errado com o algoritmo (aninhado) apresentado e, de fato, provavelmente teria um bom desempenho com robustez decente para o problema de variação de viés em diferentes conjuntos de dados. Você nunca disse, no entanto, que o leitor deve assumir que os recursos que você está usando são os mais "ideais"; portanto, se isso for desconhecido, há alguns problemas de seleção de recursos que devem ser abordados primeiro.

SELEÇÃO DE RECURSOS / PARÂMETROS

wrapperfilterque emprega um método diferente, que é muito distante do classificador / modelo, como uma tentativa de minimizar o viés de seleção do recurso (parâmetro). Procure enviesamento x viés de filtragem e seleção durante a seleção de recurso (GJ McLachlan).

D1D2n=50π=0.1n,0.2n,0,3n,0.4n,0.5n

OTIMIZAÇÃO / MINIMIZAÇÃO

y=f(x1,x2,,xj)yé escalado continuamente. Dado isso, e dada a necessidade de minimizar o viés em suas previsões (viés de seleção, variação de viés, vazamento de informações de objetos de teste em objetos de treinamento etc.), é possível usar o CV durante o uso de métodos de inteligência de enxame, como otimização de enxame de partículas (PSO), otimização de colônias de formigas etc. A PSO (ver Kennedy e Eberhart, 1995) adiciona parâmetros para a troca de informações sociais e culturais entre partículas, à medida que elas voam pelo espaço de parâmetros durante o aprendizado. Depois de se familiarizar com os métodos de inteligência de enxame, você verá que pode superar muitos vieses na determinação de parâmetros. Por fim, não sei se existe uma abordagem de floresta aleatória (RF, consulte Breiman, Journ. Of Machine Learning) para aproximação de funções, mas se houver,

JoleT
fonte