Linhas retas diagonais em resíduos versus gráfico de valores ajustados para regressão múltipla

11

Estou observando padrões estranhos em resíduos para meus dados: insira a descrição da imagem aqui

[EDIT] Aqui estão os gráficos de regressão parcial para as duas variáveis:

http://i.imgur.com/Lh36l.png

http://i.imgur.com/akMjB.png

[EDIT2] Adicionado o gráfico PP http://i.imgur.com/pCKFA.png

A distribuição parece estar indo bem (veja abaixo), mas não tenho idéia de onde essa linha reta possa estar vindo. Alguma ideia? insira a descrição da imagem aqui

[ATUALIZAÇÃO 31.07]

Acontece que você estava absolutamente certo, eu tive casos em que a contagem de retuítes era de fato 0 e esses ~ 15 casos resultaram nesses estranhos padrões residuais.

Os resíduos parecem muito melhores agora: http://i.imgur.com/XGas9.png

Também incluí as regressões parciais com uma linha de loess. http://i.imgur.com/Jcr2M.png http://i.imgur.com/eb376.png

plotti
fonte
Você poderia adicionar também a linha ajustada plotada nos dados originais?
MånsT
Além disso, as legendas das figuras dizer "comunidade: anime" e "comunidade: astrologia", o que parece implicar que essas parcelas vêm de diferentes conjuntos de dados ...
MånsT
Lembro-me de ver esse tipo de padrão nos meus resíduos quando minhas variáveis ​​dependentes são categóricas ou 'não são contínuas o suficiente'.
Rei
Eu adicionei o enredo PP adequada e os lotes parciais dos dois IV
Plotti

Respostas:

23

Parece que em alguns subfaixas sua variável dependente é constante ou é exatamente linearmente dependente do (s) preditor (es). Vamos ter duas variáveis ​​correlacionadas, X e Y (Y é dependente). O gráfico de dispersão está à esquerda.

insira a descrição da imagem aqui

Vamos retornar, por exemplo, à primeira possibilidade ("constante"). Recodifique todos os valores Y do menor para -0,5 para um único valor -1 (veja a figura no centro). Regresse Y em X e plote os resíduos dispersos, ou seja, gire a imagem central para que a linha de previsão fique horizontal agora. Parece sua foto?

ttnphns
fonte
6
Essa é a estatística forense no seu melhor! Um grande +1.
Michael R. Chernick
Acontece que você estava absolutamente certo, eu tive casos em que a contagem de retuítes era de fato 0 e esses ~ 15 casos resultaram nesses estranhos padrões residuais. i.imgur.com/XGas9.png
Plotti
4

Não é de surpreender que você não veja o padrão no histograma, o padrão ímpar abrange um pouco do intervalo do histograma e representa apenas alguns pontos de dados em cada compartimento. Você realmente precisa descobrir quais são os pontos de dados e examiná-los. Você pode usar os valores e resíduos previstos para encontrá-los com facilidade. Depois de encontrar os valores, comece a investigar por que esses podem ser especiais.

Dito isto, esse padrão específico é especial apenas porque é longo. Se você observar atentamente seu gráfico de resíduos e seu gráfico quantil, verá que ele se repete, mas que são sequências menores. Talvez seja apenas uma anomalia. Ou talvez seja realmente um padrão que se repita. Mas você precisará descobrir onde estão os dados brutos e examiná-los para ter alguma esperança de entendê-los.

Para ajudar um pouco, o gráfico quantil-quantil sugere que você tenha vários resíduos idênticos. É possível que possa haver um erro de codificação. Eu posso gerar algo semelhante em R com ...

x <- c(rnorm(50), rep(-0.2, 10), rep(0, 4))
qqnorm(x);qqline(x)

Observe os dois pontos planos na linha. No entanto, parece mais complexo do que isso, porque há uma implicação de que os resíduos idênticos estão chegando a uma série de preditores.

John
fonte
3

Parece que você está usando R. Nesse caso, observe que você pode identificar pontos em um gráfico de dispersão usando ? Identifique . Eu acho que há várias coisas acontecendo aqui. Primeiro, você tem um ponto muito influente no gráfico de LN_RT_vol_in ~ LN_AT_vol_in(o destacado) em cerca de (0,2, 1,5). É muito provável que este seja o resíduo padronizado de cerca de -3,7. O efeito desse ponto será achatar a linha de regressão, inclinando-a mais horizontal do que a linha acentuadamente ascendente que você teria obtido. Um efeito disso é que todos os seus resíduos serão girados no sentido anti-horário em relação ao local onde estariam localizados dentro da residual ~ predictedtrama (pelo menos ao pensar em termos dessa covariável e ignorar a outra).

No entanto, a aparente linha reta de resíduos que você vê ainda estaria lá, pois eles existem em algum lugar na nuvem tridimensional de seus dados originais. Eles podem ser difíceis de encontrar em qualquer uma das parcelas marginais. Você pode usar a função identificar () para ajudar e também pode usar o pacote rgl para criar um gráfico de dispersão 3D dinâmico que você pode girar livremente com o mouse. No entanto, observe que os resíduos da linha reta estão todos abaixo de 0 em seu valor previsto e têm abaixo de 0 resíduos (ou seja, estão abaixo da linha de regressão ajustada); que fornece uma grande dica de onde procurar. Olhando novamente para o seu enredo deLN_RT_vol_in ~ LN_AT_vol_in, Acho que posso vê-los. Existe um aglomerado bastante reto de pontos na diagonal para baixo e para a esquerda a partir de (-.01, -1.00) na borda inferior da nuvem de pontos naquela região. Eu suspeito que esses são os pontos em questão.

Em outras palavras, os resíduos parecem assim porque já estão em algum lugar do espaço de dados. Em essência, é isso que @ttnphns está sugerindo, mas não acho que seja uma constante em nenhuma das dimensões originais - é uma constante em uma dimensão em ângulo aos seus eixos originais. Concordo ainda com @ MichaelChernick que essa retidão aparente no gráfico residual é provavelmente inofensiva, mas que seus dados não são realmente muito normais. No entanto, eles são um pouco normais, e você parece ter um número decente de dados; portanto, o CLT pode cobrir você, mas convém inicializar apenas por precaução. Finalmente, eu me preocupo que esse 'outlier' esteja gerando seus resultados; uma abordagem robusta provavelmente é merecida.

- Reinstate Monica
fonte
11
Essa declaração pode it's a constant in a dimension at an angle to your original axesser comparável à minha is exactly linearly dependent on the predictor(s)ou você quer dizer algo diferente?
ttnphns
@ttnphns, perdi essa parte da sua resposta quando a passei; Eu vi a "constante" e vi os pontos em sua trama, e foi isso que tirei. Sim, "é uma constante em uma dimensão ..." é logicamente sinônimo w / "é exatamente linearmente dependente ...". Agora percebo que meu ponto principal é basicamente o mesmo que o seu (+1), embora eu ache que alguns dos meus outros pontos (quais dados são provavelmente os culpados, estratégias de R, abordagens robustas etc.) ainda contribuam com algo para a discussão.
gung - Restabelece Monica
Claro, sua resposta contribuiu muito para mim.
ttnphns
1

Eu não diria necessariamente que o histograma está correto. A sobreposição visual do melhor ajuste normal em um histograma pode ser enganosa e o histograma pode ser sensível à escolha da largura da bandeja. O gráfico de probabilidade normal parece indicar uma grande saída do normal e, mesmo olhando para o histograma, parece-me uma leve inclinação (maior frequência no compartimento [0, + 0,5] comparado ao compartimento [-0,5,0]) e curtose grave (frequência muito grande nos intervalos [-4, -3,5] e [2,5, 3]).

Em relação ao padrão que você vê, pode ser proveniente da exploração seletiva através do gráfico de dispersão. Parece que se você caçar mais, poderá encontrar mais duas ou três linhas quase paralelas à que você escolheu. Eu acho que você está lendo muito sobre isso. Mas a não normalidade é uma preocupação real. Você tem um outlier muito grande com um resíduo de quase -4. Esses resíduos são provenientes de um mínimo de quadrados? Concordo que pode ser esclarecedor olhar para a linha ajustada em um gráfico de dispersão dos dados.

Michael R. Chernick
fonte
Eu adicionei os lotes parciais dos dois IV para lançar mais luz sobre isso
Plotti
11
Eu gostaria de ver a coisa mais básica, a linha ajustada percorrendo um gráfico de dispersão dos dados.
Michael R. Chernick