Qual é a diferença entre "coeficiente de determinação" e "erro quadrático médio"?

32

Para problemas de regressão, vi pessoas usando "coeficiente de determinação" (também conhecido como R ao quadrado) para executar a seleção do modelo, por exemplo, encontrar o coeficiente de penalidade apropriado para a regularização.

No entanto, também é comum usar "erro ao quadrado médio" ou "erro ao quadrado médio da raiz" como uma medida da precisão da regressão.

Então, qual é a principal diferença entre esses dois? Eles poderiam ser usados ​​alternadamente para tarefas de "regularização" e "regressão"? E qual é o principal uso de cada um na prática, como aprendizado de máquina, tarefas de mineração de dados?

dolaameng
fonte

Respostas:

40

, ondeSSEé a soma do erro ao quadrado (resíduos ou desvios da linha de regressão) eSSTé a soma dos desvios ao quadrado damédiaYdo dependente.R2=1SSESSTSSESSTY

MSE=SSEnmnm

R2MSE R2R2

Radj2=1(1R2)n1nm=1SSE/(nm)SST/(n1)=1MSEσy2

ttnphns
fonte
2
Eu pensei que MSE é a média dos erros, o que significa MSE = SSE / n, em que ocasiões usamos MSE = SSE / (nm)? Por favor explique. Obrigado
Sincole Brans
@SincoleBrans Consulte en.wikipedia.org/wiki/Mean_squared_error , seção "Regressão".
ttnphns
Estou um pouco confuso. Os resultados em martin-thoma.com/regression mostram que um modelo pode ser bom (em comparação com outros modelos) com R ^ 2, mas ao mesmo tempo ruim com MSE. Você poderia explicar isso?
Martin Thoma