Nos elementos do aprendizado estatístico , encontrei a seguinte declaração:
Há uma qualificação: as etapas iniciais de triagem não supervisionada podem ser feitas antes que as amostras sejam deixadas de fora. Por exemplo, podemos selecionar os 1000 preditores com maior variação em todas as 50 amostras, antes de iniciar a validação cruzada. Como essa filtragem não envolve os rótulos das classes, não oferece aos preditores uma vantagem injusta.
Isso é realmente válido? Quero dizer, filtrando atributos de antemão, não estamos imitando os dados de treinamento / novo ambiente de dados - isso importa que a filtragem que estamos executando não seja supervisionada? Não é melhor executar todas as etapas de pré-processamento no processo de validação cruzada? Se esse não for o caso, significa que todo o pré-processamento não supervisionado pode ser realizado com antecedência, incluindo normalização de recursos / PCA etc. etc. Posso concordar que, com um conjunto de dados relativamente estável, essas diferenças provavelmente devem ser muito pequenas - mas isso não significa que elas não existem, certo? Qual é a maneira correta de pensar sobre isso?
Eu imploro para diferir nesta questão com a opinião de @ AmiTavory, bem como com os Elementos de aprendizagem estatística.
Vindo de um campo aplicado com tamanhos de amostra muito baixos, tenho a experiência de que também as etapas não supervisionadas de pré-processamento podem introduzir um viés grave.
No meu campo, esse seria o PCA mais freqüentemente para redução de dimensionalidade antes que um classificador seja treinado. Embora eu não possa mostrar os dados aqui, vi PCA + (LDA validado cruzado) vs. validado cruzado (PCA + LDA) subestimando a taxa de erro em aproximadamente uma ordem de magnitude . (Isso geralmente é um indicador de que o PCA não é estável.)
Quanto à argumentação de "vantagem injusta" dos Elementos, se for examinada a variação dos casos de teste + taining, terminamos com recursos que funcionam bem com os casos de treinamento e teste. Assim, criamos aqui uma profecia auto-realizável que é a causa do viés super-otimista. Esse viés é baixo se você tiver tamanhos de amostra razoavelmente confortáveis.
Portanto, recomendo uma abordagem um pouco mais conservadora do que os elementos:
Dito isto, a valiação cruzada também é apenas um atalho para realizar um estudo de validação adequado. Assim, você pode argumentar com praticidade:
Você pode verificar se o pré-processamento em questão produz resultados estáveis (você pode fazer isso, por exemplo, por validação cruzada). Se você achar que já está perfeitamente estável com tamanhos de amostra mais baixos, IMHO, você pode argumentar que não haverá muito viés ao retirá-lo da validação cruzada.
No entanto, para citar um supervisor anterior: Tempo de cálculo não é argumento científico.
Costumo fazer uma "pré-visualização" de algumas dobras e poucas iterações para a validação cruzada, para garantir que todo o código (incluindo o resumo / gráficos dos resultados) e o deixo durante a noite ou no final de semana no servidor por um período validação cruzada mais refinada.
fonte