Os dados de normalização (com média zero e desvio padrão da unidade) antes de executar uma validação cruzada repetida em dobra k tem conquistas negativas, como ajuste excessivo?
Nota: isto é para uma situação em que #cases> total #features
Estou transformando alguns dos meus dados usando uma transformação de log e normalizando todos os dados como acima. Estou então realizando a seleção de recursos. Em seguida, aplico os recursos selecionados e os dados normalizados a uma validação cruzada repetida em 10 vezes para tentar estimar o desempenho generalizado do classificador e estou preocupado que o uso de todos os dados para normalizar possa não ser apropriado. Devo normalizar os dados de teste de cada dobra usando dados de normalização obtidos dos dados de treinamento para essa dobra?
Quaisquer opiniões recebidas com gratidão! Desculpas se esta pergunta parece óbvia.
Edit: Ao testar isso (de acordo com as sugestões abaixo), descobri que a normalização anterior ao CV não fazia muita diferença em termos de desempenho quando comparada à normalização no CV.
fonte
A validação cruzada é melhor vista como um método para estimar o desempenho de um procedimento estatístico, em vez de um modelo estatístico. Portanto, para obter uma estimativa de desempenho imparcial, é necessário repetir todos os elementos desse procedimento separadamente em cada dobra da validação cruzada, o que incluiria normalização. Então, eu diria normalizar em cada dobra.
O único momento em que isso não seria necessário é se o procedimento estatístico fosse completamente insensível à escala e ao valor médio dos dados.
fonte
Eu acho que se a normalização envolve apenas dois parâmetros e você tem uma amostra de bom tamanho que não será um problema. Eu ficaria mais preocupado com a transformação e o processo de seleção de variáveis. A validação cruzada de 10 vezes parece ser a raiva hoje. Alguém usa o bootstrap 632 ou 632+ para estimar a taxa de erro do classificador, como sugerido primeiro por Efron (1983) na JASA e depois posteriormente em um artigo de Efron e Tibshirani com o 632+?
fonte
Eu pessoalmente gosto do método .632. O que é basicamente um processo de substituição com substituição. Se você fizer isso e remover duplicatas, obterá 632 entradas de um conjunto de entradas de 1000. Meio arrumado.
fonte