Costumo ouvir sobre a avaliação do desempenho de um modelo de classificação, mantendo o conjunto de testes e treinando um modelo no conjunto de treinamento. Em seguida, crie 2 vetores, um para os valores previstos e outro para os valores verdadeiros. Obviamente, fazer uma comparação permite julgar o desempenho do modelo por seu poder preditivo usando coisas como F-Score, Kappa Statistic, Precision & Recall, curvas ROC etc.
Como isso se compara à avaliação de previsão numérica como regressão? Suponho que você possa treinar o modelo de regressão no conjunto de treinamento, usá-lo para prever valores e comparar esses valores previstos com os valores reais presentes no conjunto de teste. Obviamente, as medidas de desempenho teriam que ser diferentes, pois essa não é uma tarefa de classificação. Os resíduos usuais e as estatísticas são medidas óbvias, mas existem mais / melhores maneiras de avaliar o desempenho de modelos de regressão? Parece que a classificação tem muitas opções, mas a regressão é deixada para e resíduos.
fonte
Respostas:
Como dito, normalmente, o erro médio quadrático é usado. Você calcula seu modelo de regressão com base no seu conjunto de treinamento e avalia seu desempenho usando um conjunto de testes separado (um conjunto nas entradas x e saídas previstas conhecidas y) calculando o MSE entre as saídas do conjunto de teste (y) e as saídas fornecidas pelo modelo (f (x)) para as mesmas entradas fornecidas (x).
Como alternativa, você pode usar as seguintes métricas: erro quadrático médio raiz, erro quadrático relativo, erro absoluto médio, erro absoluto relativo ... (solicite definições ao google)
fonte