Interpretando a plotagem de resíduos versus valores ajustados para verificar as suposições de um modelo linear

34

Considere a figura a seguir dos Modelos Lineares de Faraway com R (2005, p. 59).

insira a descrição da imagem aqui

O primeiro gráfico parece indicar que os resíduos e os valores ajustados não estão correlacionados, pois deveriam estar em um modelo linear homoscedástico com erros normalmente distribuídos. Portanto, as segunda e terceira parcelas, que parecem indicar dependência entre os resíduos e os valores ajustados, sugerem um modelo diferente.

Mas por que o segundo gráfico sugere, como observa Faraway, um modelo linear heterocedástico, enquanto o terceiro gráfico sugere um modelo não linear?

O segundo gráfico parece indicar que o valor absoluto dos resíduos está fortemente correlacionado positivamente com os valores ajustados, enquanto nenhuma tendência é evidente no terceiro gráfico. Portanto, se fosse o caso, teoricamente, em um modelo linear heterocedástico com erros normalmente distribuídos

Cor(e,y^)=[1 11 11 11 1]

(onde a expressão à esquerda é a matriz de variância-covariância entre os resíduos e os valores ajustados) isso explicaria por que o segundo e o terceiro gráficos concordam com as interpretações de Faraway.

Mas é este o caso? Se não, de que outra forma as interpretações de Faraway da segunda e terceira parcelas podem ser justificadas? Além disso, por que o terceiro gráfico indica necessariamente não linearidade? Não é possível que seja linear, mas que os erros não sejam normalmente distribuídos, ou então eles sejam normalmente distribuídos, mas não sejam centrados em torno de zero?

Evan Aad
fonte
3
Nenhuma das três parcelas mostra correlação (pelo menos não correlação linear, que é o significado relevante de 'correlação' no sentido em que está sendo usada em " os resíduos e os valores ajustados não são correlacionados ").
Glen_b -Reinstate Monica
11
@Glen_b: Obrigado. Corrigi o parágrafo ao qual você estava se referindo substituindo "dependência" por "correlação".
precisa

Respostas:

46

Abaixo estão os gráficos residuais com a média aproximada e a dispersão de pontos (limites que incluem a maioria dos valores) em cada valor de ajuste (e, portanto, de ) marcado em - para uma aproximação aproximada indicando a média condicional (vermelha) e média condicional (aproximadamente!) duas vezes o desvio padrão condicional (roxo):x±

gráficos de diagnóstico com média aproximada e repartição para cada valor de ajuste marcado

  • O segundo gráfico mostra que o resíduo médio não muda com os valores ajustados (e também não muda com ), mas a dispersão dos resíduos (e, portanto, dos sobre a linha ajustada) está aumentando à medida que valores ajustados (ou ) mudam. Ou seja, a propagação não é constante. Heteroscedasticidade.xyx

  • o terceiro gráfico mostra que os resíduos são principalmente negativos quando o valor ajustado é pequeno, positivo quando o valor ajustado está no meio e negativo quando o valor ajustado é grande. Ou seja, a propagação é aproximadamente constante, mas a média condicional não é - a linha ajustada não descreve como se comporta quando muda, pois o relacionamento é curvo.yx

Não é possível que seja linear, mas que os erros não sejam normalmente distribuídos, ou então eles sejam normalmente distribuídos, mas não sejam centrados em torno de zero?

Na verdade não *, nessas situações, as parcelas parecem diferentes da terceira.

(i) Se os erros fossem normais, mas não centrados em zero, mas em , por exemplo, a interceptação pegaria o erro médio e, portanto, a interceptação estimada seria uma estimativa de (essa seria sua valor esperado, mas é estimado com erro). Conseqüentemente, seus resíduos ainda teriam uma média condicional zero e, portanto, o gráfico pareceria o primeiro gráfico acima.β 0 +θβ0 0+θ

(ii) Se os erros não são normalmente distribuídos, o padrão de pontos pode ser mais denso em algum lugar que não a linha central (se os dados estiverem distorcidos), digamos, mas o resíduo médio local ainda estaria próximo de 0.

erros não normais

Aqui, as linhas roxas ainda representam um intervalo (muito) de aproximadamente 95%, mas não são mais simétricas. (Estou discutindo algumas questões para evitar obscurecer o ponto básico aqui.)

* Não é necessariamente impossível - se você tem um termo "erro" que realmente não se comportam como erros - disse onde e estão relacionados a eles em apenas o caminho certo - você pode ser capaz de produzir padrões algo como estes. No entanto, fazemos suposições sobre o termo de erro, por exemplo, que não está relacionado a , por exemplo, e tem média zero; teríamos que quebrar pelo menos alguns desses tipos de suposições para fazer isso. (Em muitos casos, você pode ter motivos para concluir que esses efeitos devem estar ausentes ou pelo menos relativamente pequenos.)y xxyx

Glen_b -Reinstate Monica
fonte
11
Deixe-me ver se entendi corretamente. A homoscedasticidade significa que a propagação dos erros não depende de x (e, portanto, também não depende de , pois é uma função de )? y xy^y^x
precisa
2
Homoskedasticity significa literalmente "mesma propagação". Essa é a variação (populacional) da resposta em cada ponto de dados deve ser a mesma. Uma das maneiras observáveis ​​de diferir de ser igual é se ela mudar com a média (estimada pelo ajuste); outra maneira é se ela mudar com alguma variável independente (embora, para a regressão simples, presumivelmente haja apenas uma variável independente disponível na maioria dos casos, as duas serão basicamente a mesma coisa). Você pode imaginar uma situação em que a média seja alterada com mas o spread mude com , que por si só não está relacionado a . x 2 x 1x1 1x2x1 1
Glen_b -Reinstala Monica 11/11
11
(ctd) ... isso ainda seria uma violação de todas as observações com o mesmo spread. [Eu estava sendo um pouco frouxo com a distinção entre e os valores ajustados; Vou tentar limpar isso.]x
Glen_b -Reinstala Monica 11/11
Obrigado. A situação está muito mais clara agora. Eu pensei que homoscedasticidade significava que a matriz de variância-covariância do erro tem a forma e, portanto, em particular, se o vetor de erro distribuído como para algumas matrizes simétricas arbitrárias , o modelo era heterocedástico. Agora percebo que não é esse o caso. Mas agora que entendo o significado da homoscedasticidade, tenho outra pergunta. É possível dizer a partir do primeiro gráfico de Faraway que a matriz de variância-covariância do erro tem a forma ? Poderia ser algum arbitrário ? N ( 0 , V ) V σ 2 I Vσ2EuN(0 0,V)Vσ2EuV
precisa
11
(ctd) ... como você deve ver no meu primeiro comentário sob a minha resposta, em particular como resultado da frase que começa "Você poderia imaginar ..." - mas praticamente exclui a heterocedasticidade relacionada a O significativo.
Glen_b -Reinstala Monica 11/11
2

Você escreveu

O segundo gráfico parece indicar que o valor absoluto dos resíduos está fortemente correlacionado positivamente com os valores ajustados,

Não parece, sim. E é isso que significa heterocedástico.

Então você fornece uma matriz de todos os 1s, o que é irrelevante; a correlação pode existir e ser menor que 1.

Então você escreve

Além disso, por que o terceiro gráfico indica necessariamente não linearidade? Não é possível que seja linear, mas que os erros não sejam normalmente distribuídos, ou então eles sejam normalmente distribuídos, mas não sejam centrados em torno de zero?

Eles fazem centro em torno 0. meio mais ou menos estão abaixo de 0, metade acima. É mais difícil dizer se eles são normalmente distribuídos a partir desse gráfico, mas outro gráfico geralmente recomendado é um gráfico normal quantil dos resíduos, e que mostraria se eles são normais ou não.

Peter Flom - Restabelece Monica
fonte
Obrigado. É possível que a distribuição dos erros do primeiro gráfico seja para alguma matriz simétrica que não tenha a forma ? Nesse caso, ainda podemos usar um gráfico de QQ para descobrir que os erros são distribuídos normalmente? V σ 2 IN(0 0,V)Vσ2Eu
precisa
11
Um gráfico normal quantil olha apenas para a normalidade. A evidência de homosquasticidade no primeiro enredo é visual
Peter Flom - Reinstate Monica
@ Petereter: Desculpe pelo necropost: Estou um pouco confuso sobre a quantificação pela qual consideramos o erro em cada ponto (xi, yi): Consideramos várias respostas (xi, y1_1), (xi, yi_2), ... , (xi, yi_m) para a entrada xi; i = 1,2, ..., n (número de pontos de dados) e, em seguida, encontre a média e a variância para os valores yi_j? Estou apenas confuso sobre o motivo pelo qual, em uma regressão linear, y = ax + b, x, y, a (ou um multilinear y + a1x1 + a2x2 + ... ansn então ai, xi) são variáveis ​​aleatórias e não valores fixos. Além disso, fazemos essa análise para cada par de preditores e cada par (y, x_i) com y o valor independente?
Gary
Eu não entendo o que você está confuso. Há um valor previsto de y e um valor real de y para cada observação. O residual é a diferença entre eles.
Peter Flom - Restabelece Monica