Olhando para as definições da Wikipedia de:
- Erro médio quadrático (MSE)
- Soma residual de quadrados (RSS)
Parece-me que
onde é o número de amostras e é a nossa estimativa de .
No entanto, nenhum dos artigos da Wikipedia menciona esse relacionamento. Por quê? Estou esquecendo de algo?
Respostas:
Na verdade, é mencionado na seção Regressão do erro médio quadrático na Wikipedia:
Você também pode encontrar algumas informações aqui: Erros e resíduos nas estatísticas Dizem que a expressão erro médio quadrático pode ter significados diferentes em casos diferentes, o que às vezes é complicado.
fonte
Mas esteja ciente de que a Soma dos erros quadráticos (SSE) e a Soma dos quadrados residuais (RSS) às vezes são usadas de forma intercambiável, confundindo assim os leitores. Por exemplo, verifique este URL: https://365datascience.com/sum-squares/ para obter mais informações sobre regressão linear.
Estritamente falando do ponto de vista estatístico, Erros e Resíduos são conceitos completamente diferentes. Os erros referem-se principalmente à diferença entre os valores reais da amostra observados e os valores previstos e usados principalmente nas métricas estatísticas, como erros quadráticos de raiz (RMSE) e erros médios de absolvição (MAE). Por outro lado, os resíduos referem-se exclusivamente às diferenças entre variáveis dependentes e estimativas da regressão linear.
fonte
Não acho que isso esteja correto aqui se considerarmos que o MSE é o quadrado da RMSE. Por exemplo, você tem uma série de dados amostrados sobre previsões e observações, agora tenta fazer uma regressão linear: Observação (O) = a + b X Previsão (P). Nesse caso, o MSE é a soma da diferença quadrática entre O e P e dividida pelo tamanho da amostra N.
Mas se você deseja medir o desempenho da regressão linear, é necessário calcular o resíduo quadrado médio (MSR). No mesmo caso, seria primeiramente calcular a soma residual dos quadrados (RSS) que corresponde à soma das diferenças quadráticas entre os valores reais de observação e as observações previstas derivadas da regressão linear. Em seguida, é seguido pelo RSS dividido por N-2 para obtenha MSR.
Simplificando, no exemplo, o MSE não pode ser estimado usando RSS / N, pois o componente RSS não é mais o mesmo para o componente usado para calcular o MSE.
fonte