Considere a figura a seguir dos Modelos Lineares de Faraway com R (2005, p. 59).
O primeiro gráfico parece indicar que os resíduos e os valores ajustados não estão correlacionados, pois deveriam estar em um modelo linear homoscedástico com erros normalmente distribuídos. Portanto, as segunda e terceira parcelas, que parecem indicar dependência entre os resíduos e os valores ajustados, sugerem um modelo diferente.
Mas por que o segundo gráfico sugere, como observa Faraway, um modelo linear heterocedástico, enquanto o terceiro gráfico sugere um modelo não linear?
O segundo gráfico parece indicar que o valor absoluto dos resíduos está fortemente correlacionado positivamente com os valores ajustados, enquanto nenhuma tendência é evidente no terceiro gráfico. Portanto, se fosse o caso, teoricamente, em um modelo linear heterocedástico com erros normalmente distribuídos
(onde a expressão à esquerda é a matriz de variância-covariância entre os resíduos e os valores ajustados) isso explicaria por que o segundo e o terceiro gráficos concordam com as interpretações de Faraway.
Mas é este o caso? Se não, de que outra forma as interpretações de Faraway da segunda e terceira parcelas podem ser justificadas? Além disso, por que o terceiro gráfico indica necessariamente não linearidade? Não é possível que seja linear, mas que os erros não sejam normalmente distribuídos, ou então eles sejam normalmente distribuídos, mas não sejam centrados em torno de zero?
fonte
Respostas:
Abaixo estão os gráficos residuais com a média aproximada e a dispersão de pontos (limites que incluem a maioria dos valores) em cada valor de ajuste (e, portanto, de ) marcado em - para uma aproximação aproximada indicando a média condicional (vermelha) e média condicional (aproximadamente!) duas vezes o desvio padrão condicional (roxo):x ±
O segundo gráfico mostra que o resíduo médio não muda com os valores ajustados (e também não muda com ), mas a dispersão dos resíduos (e, portanto, dos sobre a linha ajustada) está aumentando à medida que valores ajustados (ou ) mudam. Ou seja, a propagação não é constante. Heteroscedasticidade.x y x
o terceiro gráfico mostra que os resíduos são principalmente negativos quando o valor ajustado é pequeno, positivo quando o valor ajustado está no meio e negativo quando o valor ajustado é grande. Ou seja, a propagação é aproximadamente constante, mas a média condicional não é - a linha ajustada não descreve como se comporta quando muda, pois o relacionamento é curvo.y x
Na verdade não *, nessas situações, as parcelas parecem diferentes da terceira.
(i) Se os erros fossem normais, mas não centrados em zero, mas em , por exemplo, a interceptação pegaria o erro médio e, portanto, a interceptação estimada seria uma estimativa de (essa seria sua valor esperado, mas é estimado com erro). Conseqüentemente, seus resíduos ainda teriam uma média condicional zero e, portanto, o gráfico pareceria o primeiro gráfico acima.β 0 +θ β0 0+ θ
(ii) Se os erros não são normalmente distribuídos, o padrão de pontos pode ser mais denso em algum lugar que não a linha central (se os dados estiverem distorcidos), digamos, mas o resíduo médio local ainda estaria próximo de 0.
Aqui, as linhas roxas ainda representam um intervalo (muito) de aproximadamente 95%, mas não são mais simétricas. (Estou discutindo algumas questões para evitar obscurecer o ponto básico aqui.)
* Não é necessariamente impossível - se você tem um termo "erro" que realmente não se comportam como erros - disse onde e estão relacionados a eles em apenas o caminho certo - você pode ser capaz de produzir padrões algo como estes. No entanto, fazemos suposições sobre o termo de erro, por exemplo, que não está relacionado a , por exemplo, e tem média zero; teríamos que quebrar pelo menos alguns desses tipos de suposições para fazer isso. (Em muitos casos, você pode ter motivos para concluir que esses efeitos devem estar ausentes ou pelo menos relativamente pequenos.)y xx y x
fonte
Você escreveu
Não parece, sim. E é isso que significa heterocedástico.
Então você fornece uma matriz de todos os 1s, o que é irrelevante; a correlação pode existir e ser menor que 1.
Então você escreve
Eles fazem centro em torno 0. meio mais ou menos estão abaixo de 0, metade acima. É mais difícil dizer se eles são normalmente distribuídos a partir desse gráfico, mas outro gráfico geralmente recomendado é um gráfico normal quantil dos resíduos, e que mostraria se eles são normais ou não.
fonte