Acabei de concluir o curso de aprendizado de máquina para R em cognitiveclass.ai e comecei a experimentar com florestas aleatórias.
Eu criei um modelo usando a biblioteca "randomForest" em R. O modelo é classificado por duas classes, boa e ruim.
Sei que quando um modelo está super ajustado, ele tem um bom desempenho nos dados de seu próprio conjunto de treinamentos, mas mal nos dados fora da amostra.
Para treinar e testar meu modelo, embaralhei e dividi o conjunto de dados completo em 70% para treinamento e 30% para teste.
Minha pergunta: estou obtendo uma precisão de 100% das previsões feitas no conjunto de testes. Isso é ruim? Parece bom demais para ser verdade.
O objetivo é o reconhecimento de formas de onda em quatro, dependendo das formas de onda. Os recursos do conjunto de dados são os resultados de custo da análise Dynamic Time Warping das formas de onda com sua forma de onda de destino.
fonte
Respostas:
Altas pontuações de validação, como precisão, geralmente significam que você não está ajustando demais, no entanto, isso deve levar a cautela e pode indicar que algo deu errado. Também pode significar que o problema não é muito difícil e que seu modelo realmente tem um bom desempenho. Duas coisas que podem dar errado:
fonte
Investigue para ver quais são seus recursos mais preditivos. Às vezes, você acidentalmente incluiu seu alvo (ou algo equivalente ao seu alvo) entre seus recursos.
fonte