Digamos que eu tenha um problema simples de aprendizado de máquina, como uma classificação. Com algumas referências em visão ou reconhecimento de áudio, eu, como humano, sou um classificador muito bom. Portanto, tenho uma intuição de quão bom um classificador pode ser.
Mas com muitos dados, um ponto é que eu não sei como é possível obter o classificador que treino. Esses são dados em que eu pessoalmente não sou um classificador muito bom (digamos, classifique o humor de uma pessoa a partir dos dados de EEG). Não é realmente possível ter uma intuição sobre a dificuldade do meu problema.
Agora, se eu me deparar com um problema de aprendizado de máquina, gostaria de descobrir o quanto posso ser bom. Existem abordagens de princípios para isso? Como você faria isso?
Visualizar dados? Comece com modelos simples? Comece com modelos muito complexos e veja se consigo me superestimar? O que você está procurando se quiser responder a esta pergunta? Quando você para de tentar?
fonte
Se houver uma maneira de visualizar seus dados, esse é o melhor cenário possível, no entanto, nem todos os dados podem ser visualizados da mesma maneira; portanto, você pode precisar encontrar sua própria maneira de projetar os dados que podem ajudá-lo a entender seus dados Melhor.
No entanto, em geral, geralmente colho uma pequena amostra dos dados, os converto em ARFF e tento diferentes algoritmos de cluster do WEKA. Então, apenas vejo qual algoritmo me dá uma melhor matriz de confusão. Isso me dá uma dica de quão bem as classes são separadas e me permite investigar por que esse algoritmo específico se sai melhor para esses dados. Também mudo o número de clusters (ou seja, não uso apenas k = 2, uso k = 3, 4 etc.). Isso me dá uma idéia se há fragmentação nos dados ou se uma classe é mais fragmentada que a outra. Se você misturar pontos de treinamento e teste para cluster, também poderá medir quais clusters são representados por seus pontos de treinamento. Alguns clusters podem estar super-representados e outros podem estar sub-representados, ambos podem causar problemas que afetam o aprendizado de um classificador.
Sempre verifique a precisão do seu treinamento. Se a precisão do seu treinamento não estiver boa, pontos de treinamento mal classificados também são uma grande dica.
fonte