No gráfico abaixo,
- eixo x => Tamanho do conjunto de dados
- eixo y => Pontuação da validação cruzada
A linha vermelha é para dados de treinamento
A linha verde é para testar dados
Em um tutorial ao qual estou me referindo, o autor diz que o ponto em que a linha vermelha e a linha verde se sobrepõem significa,
É improvável que coletar mais dados aumente o desempenho da generalização e estamos em uma região que provavelmente subestimaremos os dados. Portanto, faz sentido experimentar um modelo com mais capacidade
Não consigo entender direito o significado da frase em negrito e como ela acontece.
Aprecio qualquer ajuda.
machine-learning
cross-validation
tharindu_DG
fonte
fonte
Respostas:
Portanto, a falta de ajuste significa que você ainda tem capacidade para melhorar seu aprendizado, enquanto a falta de ajuste significa que você usou uma capacidade mais do que a necessária para o aprendizado.
A área verde é onde o erro de teste está aumentando, ou seja, você deve continuar fornecendo capacidade (pontos de dados ou complexidade do modelo) para obter melhores resultados. Mais linha verde passa, mais plana fica, ou seja, você está alcançando o ponto em que a capacidade fornecida (que é dados) é suficiente e melhor para tentar fornecer o outro tipo de capacidade que é a complexidade do modelo.
Se isso não melhorar sua pontuação no teste ou mesmo reduzi-la, significa que a combinação de Complexidade de Dados foi de alguma forma ideal e você pode interromper o treinamento.
fonte
Enquanto Kasra Manshaei dá uma boa resposta geral (+1), eu gostaria de dar um exemplo fácil de entender.
Então, vamos ao contrário: digamos que você tenha 1000 pontos de dados. Conhecendo um pouco de matemática, você escolhe um polinômio de grau 999. Agora você pode ajustar perfeitamente os dados de treinamento. No entanto, seus dados podem se encaixar perfeitamente. Por exemplo, veja (do meu blog )
Nesse caso, você tem outros modelos que também se ajustam perfeitamente aos dados. Obviamente, o modelo azul parece meio natural entre os pontos de dados. O modelo em si pode não ser capaz de capturar bem o tipo de distribuição; portanto, restringir o modelo a algo mais simples pode realmente ajudá-lo. Este pode ser um exemplo de sobreajuste .
fonte
No seu caso, você tem - uma lacuna muito pequena (ou nenhuma) entre as curvas de trem e de teste que indica que o modelo tem uma alta tendência de viés / falta de ajuste, solução: precisa escolher um modelo mais complexo; - para fins de conclusão, é necessário adicionar um caso oposto quando a diferença entre as curvas de trem e de teste for muito grande, indicando uma alta variação / super adaptação, soluções: a) continue aumentando o tamanho do conjunto de dados; b) escolha um modelo menos complexo; c) faça a regularização.
fonte
Você pode fazer qualquer um dos seguintes:
1) altere os recursos que você está alimentando no modelo
2) escolha um modelo diferente para trabalhar
3) carregar mais dados no modelo (pode não ser uma opção para você, mas normalmente é uma opção)
fonte