Avaliando um modelo de regressão

9

Para problemas de classificação, tenho usado Redes Neurais e medido erros do tipo I e II usando a matriz de confusão e suas medidas de acordo com este recurso ( espelho ), o que é bastante simples.

Quando confrontado com um problema de estimativa, como avaliar o desempenho do modelo? Supondo que não haja classes e a saída seja interpretada em forma real. Além da média das métricas de distância, que não oferecem muita percepção.

Jack H
fonte
3
Esclareça 'problema de estimativa'. O que o modelo faz? Quais são as entradas e quais são as saídas?
Trisoloriansunscreen
Portanto, para um vetor de entrada normalizado e com valor real, esperamos uma saída com valor real. Assim, por exemplo, a saída pode ser estimada em intensidade de energia.
Jack H

Respostas:

13

O link que você postou tem muitas das técnicas que eu sugeriria, mas a plotagem adicional de curvas de aprendizado pode ajudar. Isso pode ajudá-lo a ver não apenas o desempenho absoluto, mas também a ter uma noção do quão longe está do desempenho ideal.

Curvas de aprendizado: se você traçar erros de validação cruzada (cv) e taxas de erro do conjunto de treinamento versus tamanho do conjunto de treinamento, poderá aprender muito. Se as duas curvas se aproximam com baixa taxa de erro, você está indo bem.

Se parecer que as curvas estão começando a se aproximar e as duas se mantêm baixas, você precisa de mais dados.

Se a curva cv permanecer alta, mas a curva do conjunto de treinamento permanecer baixa, você terá uma situação de alta variação. Você pode obter mais dados ou usar a regularização para melhorar a generalização.

Se o cv permanecer alto e a curva do conjunto de treinamento for alcançada, você terá um viés alto. Nesse caso, você deseja adicionar detalhes ao seu modelo.

John Yetter
fonte
A propósito, aqui está um vídeo do Coursera que explica extremamente bem as curvas de aprendizado.
John Marter
Pode hoje ser encontrados no youtube: youtu.be/g4XluwGYPaA
fdelia
3

Existem várias maneiras de definir critérios de desempenho do modelo na estimativa. A maioria das pessoas usa o quão bom o modelo se ajusta aos dados. Portanto, em caso de regressão, será "quanta variação é explicada pelo modelo". No entanto, você precisa ter cuidado com essa regressão ao executar a seleção de variáveis ​​(por exemplo, pelo LASSO) que precisa controlar para o número de parâmetros incluídos no modelo. Pode-se usar a versão validada cruzada da variância explicada, que presumivelmente fornece desempenho de modelo de estimativa imparcial.

avi
fonte
3

Referindo-se à documentação do scikit-learn (pacote baseado em Python para aprendizado de máquina), r2_score e explan_variance_score são opções populares. Ao contrário de medidas de distância como mean_squared_error ou mean_absolute_error, essas métricas fornecem uma indicação de quão boa ou ruim é a previsão (mais perto de 1 => melhores previsões). [A propósito, se usar medidas de distância, eu recomendaria o RMSE (erro quadrático médio da raiz) em vez de apenas o MSE (erro quadrático médio) para que a magnitude possa ser comparada com as previsões]

Como alternativa, você também pode calcular o coeficiente de correlação entre os valores previstos do regressor e os valores das variáveis ​​de destino reais usando o coeficiente de correlação de Pearson (para modelos lineares) ou melhor ir para o coeficiente de correlação de classificação de Spearman (pois isso não assume modelos lineares e é menos sensível a valores extremos )

As curvas de aprendizado sugeridas na resposta de John Yetter também são um bom método, mas as métricas acima mencionadas podem ser mais fáceis de avaliar o desempenho.

San
fonte
2

R2

Jacek Podlewski
fonte