Erro médio quadrático e soma dos quadrados residuais

31

Olhando para as definições da Wikipedia de:

Parece-me que

MSE=1 1NRSS=1 1N(fEu-yEu)2

onde é o número de amostras e é a nossa estimativa de .NfEuyEu

No entanto, nenhum dos artigos da Wikipedia menciona esse relacionamento. Por quê? Estou esquecendo de algo?

Josh
fonte
6
Eu sei que isso parece inútil e meio hostil, mas eles não mencionam isso porque é óbvio. Além disso, você quer ter um pouco de cuidado aqui. Geralmente, quando você encontra um MSE no trabalho empírico real, não é dividido por mas dividido por onde é o número (incluindo a interceptação) de variáveis ​​do lado direito em algum modelo de regressão. RSSNRSSN-KK
Bill
10
@ Bill: Bem, é exatamente o tipo de relacionamento que normalmente leva à vinculação de artigos na Wikipedia. Seu ponto de vista sobre o grau de liberdade também mostra que isso não é tão óbvio e definitivamente algo que vale a pena mencionar.
bluenote10
2
@ Bill: Concordo, porém a obviedade é muito subjetiva. A área cinza de estatística / aprendizado de máquina está repleta de notações infernais e, portanto, é bom ser explícito.
rnoodle

Respostas:

30

Na verdade, é mencionado na seção Regressão do erro médio quadrático na Wikipedia:

Na análise de regressão, o termo erro quadrático médio é algumas vezes usado para se referir à estimativa imparcial da variação do erro: a soma residual dos quadrados dividida pelo número de graus de liberdade.

Você também pode encontrar algumas informações aqui: Erros e resíduos nas estatísticas Dizem que a expressão erro médio quadrático pode ter significados diferentes em casos diferentes, o que às vezes é complicado.

whenov
fonte
4

Mas esteja ciente de que a Soma dos erros quadráticos (SSE) e a Soma dos quadrados residuais (RSS) às vezes são usadas de forma intercambiável, confundindo assim os leitores. Por exemplo, verifique este URL: https://365datascience.com/sum-squares/ para obter mais informações sobre regressão linear.

Estritamente falando do ponto de vista estatístico, Erros e Resíduos são conceitos completamente diferentes. Os erros referem-se principalmente à diferença entre os valores reais da amostra observados e os valores previstos e usados ​​principalmente nas métricas estatísticas, como erros quadráticos de raiz (RMSE) e erros médios de absolvição (MAE). Por outro lado, os resíduos referem-se exclusivamente às diferenças entre variáveis ​​dependentes e estimativas da regressão linear.

Dr.CYY
fonte
0

Não acho que isso esteja correto aqui se considerarmos que o MSE é o quadrado da RMSE. Por exemplo, você tem uma série de dados amostrados sobre previsões e observações, agora tenta fazer uma regressão linear: Observação (O) = a + b X Previsão (P). Nesse caso, o MSE é a soma da diferença quadrática entre O e P e dividida pelo tamanho da amostra N.

Mas se você deseja medir o desempenho da regressão linear, é necessário calcular o resíduo quadrado médio (MSR). No mesmo caso, seria primeiramente calcular a soma residual dos quadrados (RSS) que corresponde à soma das diferenças quadráticas entre os valores reais de observação e as observações previstas derivadas da regressão linear. Em seguida, é seguido pelo RSS dividido por N-2 para obtenha MSR.

Simplificando, no exemplo, o MSE não pode ser estimado usando RSS / N, pois o componente RSS não é mais o mesmo para o componente usado para calcular o MSE.

Dr.CYY
fonte
11
Eu não entendo essa resposta.
Michael R. Chernick 15/06
Veja, com base no exemplo mencionado de previsão amostrada e valores de dados observados, a regressão linear é estabelecida: Observação (O) = a + b X Previsão (P) (a, b são interceptação e inclinação, respectivamente). Nesse caso, MSE = Σ (OP) ^ 2 / n, onde Σ (OP) ^ 2 é a soma dos erros quadráticos (SSE) en é o tamanho da amostra. Entretanto, Resíduos Quadrados Médios (MSR) = Σ (OO´) ^ 2 / n-2, onde Σ (OO´) ^ 2 é igual a Soma de quadrados de resíduos (RSS) e O` = a + b X P. MSR e O RSS é usado principalmente para testar a significância geral da regressão linear. Observe também: SSE = Erros sistemáticos (SE) + RSS, onde SE = Σ (PO´) ^ 2
Dr.CYY