Eu já vi "resíduos" definidos de várias maneiras como sendo "valores preditos menos reais" ou "valores reais menos preditos". Para fins de ilustração, para mostrar que as duas fórmulas são amplamente usadas, compare as seguintes pesquisas na Web:
Na prática, quase nunca faz diferença, uma vez que o sinal dos resíduos invidividuais geralmente não importa (por exemplo, se eles são quadrados ou se os valores absolutos são tomados). No entanto, minha pergunta é: uma dessas duas versões (previsão primeiro versus real primeiro) é considerada "padrão"? Eu gosto de ser consistente no meu uso; portanto, se houver um padrão convencional bem estabelecido, eu preferiria segui-lo. No entanto, se não houver um padrão, fico feliz em aceitá-lo como resposta, se for demonstrado de forma convincente que não existe uma convenção padrão.
fonte
Respostas:
Os resíduos são sempre reais menos o previsto. Os modelos são: Assim, os resíduos £ , que são estimativas de erros ε : ε = y - y
Concordo com @whuber que o sinal realmente não importa matematicamente. É bom ter uma convenção. E a convenção atual é como na minha resposta.
Como o OP desafiou minha autoridade nesse assunto, estou adicionando algumas referências:
fonte
Acabei de encontrar um motivo convincente para uma resposta ser a correta.
A regressão (e a maioria dos modelos estatísticos de qualquer tipo) diz respeito a como as distribuições condicionais de uma resposta dependem de variáveis explicativas. Um elemento importante da caracterização dessas distribuições é uma medida geralmente denominada "assimetria" (embora várias fórmulas tenham sido oferecidas): refere-se à maneira mais básica pela qual a forma distributiva se afasta da simetria. Aqui está um exemplo de dados bivariados (uma resposta e uma única variável explicativa x ) com respostas condicionais inclinadas positivamente:y x
A curva azul é o ajuste mínimo dos quadrados comuns. Traça os valores ajustados.
Quando calculamos a diferença entre uma resposta e seu valor equipada y , mudamos o local da distribuição condicional, mas não de outra forma alterar a sua forma. Em particular, sua assimetria não será alterada.y y^
Este é um gráfico de diagnóstico padrão que mostra como as distribuições condicionais alteradas variam com os valores previstos. Geometricamente, é quase o mesmo que "antecipar" o gráfico de dispersão anterior.
Se em vez disso, calcular a diferença na outra este vai deslocar e depois inverter a forma da distribuição condicional. Sua assimetria será negativa da distribuição condicional original.y^−y,
Isso mostra as mesmas quantidades da figura anterior, mas os resíduos foram calculados subtraindo os dados de seus ajustes - o que, é claro, é o mesmo que negar os resíduos anteriores.
Embora ambas as figuras anteriores sejam matematicamente equivalentes em todos os aspectos - uma é convertida na outra simplesmente lançando os pontos no horizonte azul - uma delas tem uma relação visual muito mais direta com a trama original.
Conseqüentemente, se nosso objetivo é relacionar as características distributivas dos resíduos às características dos dados originais - e quase sempre é esse o caso - , é melhor simplesmente mudar as respostas do que mudá-las e revertê-las.
A resposta certa é clara: calcular seus resíduos comoy- y^.
fonte
Green & Tashman (2008, Foresight ) relatam uma pequena pesquisa sobre a questão análoga de erros de previsão. Vou resumir argumentos para qualquer convenção, conforme relatado por eles:
Argumentos para "previsão real"
Pelo menos um entrevistado da sismologia escreveu que esta também é a convenção para modelar o tempo de viagem das ondas sísmicas. "Quando a onda sísmica real chega antes do tempo previsto pelo modelo, temos um tempo de viagem negativo residual (erro)." ( sic )
Esta convenção faz sentido se interpretamos y como um orçamento, plano ou meta. Aqui, um erro positivo significa que o orçamento / plano / meta foi excedido.y^
Esta convenção torna as fórmulas para suavização exponencial um pouco mais intuitivas. Podemos usar um sinal de . Com a outra convenção, precisaríamos usar um sinal de - .+ -
Argumentos para "predito-real"
Se , então um erro positivo indica que a previsão era demasiado elevado. Isso é mais intuitivo que o inverso.y= y^- ϵ
De maneira semelhante, se um viés positivo for definido como erros esperados positivos , isso significa que as previsões são, em média, muito altas com esta convenção.
E este é praticamente o único argumento dado para esta convenção. Por outro lado, considerando os mal-entendidos que a outra convenção pode levar (erros positivos = previsão muito baixa), é forte.
No final, eu argumentaria que tudo se resume a quem você precisa comunicar seus resíduos. E, como certamente há dois lados nessa discussão, faz sentido anotar explicitamente qual convenção você segue.
fonte
Terminologia diferente sugere convenções diferentes. O termo "residual" implica que é o que resta depois que todas as variáveis explicativas foram levadas em consideração, isto é, o previsto. "Erro de previsão" implica que é quanto a previsão se desvia do real, ou seja, previsão atual.
fonte
A resposta de @Aksakal está completamente correta, mas vou adicionar um elemento adicional que acho que me ajuda (e meus alunos).
O lema: As estatísticas são "perfeitas". Como sempre, sempre posso fornecer a previsão perfeita (eu sei que algumas sobrancelhas estão se levantando agora ... então me ouça).
fonte
fonte