Na classificação de texto, tenho um conjunto de treinamento com cerca de 800 amostras e um conjunto de testes com cerca de 150 amostras. O conjunto de teste nunca foi usado e aguarda para ser usado até o final.
Estou usando todo o conjunto de treinamento de 800 amostras, com validação cruzada de 10 vezes ao ajustar e ajustar os classificadores e recursos. Isso significa que eu não tenho um conjunto de validação separado, mas cada 10 vezes fora, um conjunto de validação é selecionado automaticamente.
Depois de ficar satisfeito com tudo e querer entrar na etapa final da avaliação, treinarei meus classificadores em 800 amostras inteiras. E teste no conjunto de 150 amostras.
Meu entendimento está correto quanto ao uso da validação cruzada na classificação de texto? Esta prática é válida?
Outra questão na validação cruzada é:
em vez de 10 vezes, também tentei deixar uma como indicador geral de desempenho. Porque para deixar um de fora, não é possível ter informações sobre f1 / precisão / recall, pergunto-me qual é a relação entre a precisão de deixar de fora e métricas de 10 vezes?
Qualquer visão seria muito apreciada.
Editar:
Esta é uma introdução bastante interessante à validação cruzada. Também se refere a outros trabalhos de pesquisa.
Respostas:
Você descreveu corretamente a maneira de trabalhar com a validação cruzada. De fato, você tem 'sorte' de ter uma validação razoável definida no final, porque muitas vezes a validação cruzada é usada para otimizar um modelo, mas nenhuma validação "real" é feita.
Como o @Simon Stelling disse em seu comentário, a validação cruzada levará a erros estimados mais baixos (o que faz sentido porque você está constantemente reutilizando os dados), mas, felizmente, este é o caso de todos os modelos, portanto, impedindo a catástrofe (ou seja: os erros são reduzidos apenas levemente para um modelo "ruim" e mais para o modelo "bom"), selecionar o modelo que apresenta melhor desempenho em um critério com validação cruzada, normalmente também será o melhor "de verdade".
Um método que às vezes é usado para corrigir um pouco os erros mais baixos, especialmente se você estiver procurando por modelos parcimoniosos, é selecionar o menor modelo / método mais simples para o qual o erro de validação cruzada esteja dentro de um SD a partir do ótimo (validação cruzada). Como a validação cruzada em si, essa é uma heurística, portanto deve ser usada com algum cuidado (se essa for uma opção: faça um gráfico dos seus erros com relação aos seus parâmetros de ajuste: isso lhe dará uma idéia se você tem resultados aceitáveis)
Dado o viés descendente dos erros, é importante não publicar os erros ou outra medida de desempenho da validação cruzada sem mencionar que eles vêm da validação cruzada (embora, seja verdade: eu já vi muitas publicações que não mencionam que o a medida de desempenho foi obtida verificando o desempenho no conjunto de dados original --- então, mencionar a validação cruzada realmente faz seus resultados valerem mais ). Para você, isso não será um problema, pois você tem um conjunto de validação.
Um aviso final: se o ajuste do seu modelo resultar em alguns concorrentes próximos, é uma boa ideia analisar os desempenhos deles no seu conjunto de validação posteriormente, mas não baseie sua seleção final no modelo: você pode, na melhor das hipóteses, usá-lo para acalmar seu desempenho . consciência, mas seu modelo "final" deve ter sido escolhido antes que você veja o conjunto de validação.
Escreveu sua segunda pergunta: acredito que Simon deu a você todas as respostas que você precisa em seu comentário, mas para completar o quadro: com frequência, é o trade-off de desvio de variação que entra em jogo. Se você sabe que, em média, alcançará o resultado correto (imparcialidade), normalmente o preço é que cada um dos seus cálculos individuais pode estar muito longe dele (alta variação). Antigamente, a imparcialidade era o nec plus ultra. Nos dias atuais, às vezes se aceita um viés (pequeno) (para que você nem saiba que a média de seus cálculos resultará no resultado correto), se resulta em menor variância. A experiência demonstrou que o saldo é aceitável com 10 vezes a validação cruzada. Para você, o viés seria apenas um problema para a otimização do seu modelo, desde que você possa estimar o critério posteriormente (de forma imparcial) no conjunto de validação. Como tal, há poucas razões para não usar a validação cruzada.
fonte