Pressupostos de modelos lineares e o que fazer se os resíduos não forem normalmente distribuídos

22

Estou um pouco confuso sobre quais são os pressupostos da regressão linear.

Até agora, verifiquei se:

  • todas as variáveis ​​explicativas se correlacionaram linearmente com a variável resposta. (Esse foi o caso)
  • houve colinearidade entre as variáveis ​​explicativas. (houve pouca colinearidade).
  • as distâncias de Cook dos pontos de dados do meu modelo estão abaixo de 1 (este é o caso, todas as distâncias estão abaixo de 0,4, portanto, não há pontos de influência).
  • os resíduos são normalmente distribuídos. (pode não ser esse o caso)

Mas então eu li o seguinte:

as violações da normalidade geralmente surgem porque (a) as distribuições das variáveis ​​dependentes e / ou independentes são elas próprias significativamente não normais e / ou (b) a suposição de linearidade é violada.

Pergunta 1 Isso soa como se as variáveis ​​independentes e dependentes precisassem ser normalmente distribuídas, mas até onde eu sei, esse não é o caso. Minha variável dependente, bem como uma das minhas variáveis ​​independentes, não são normalmente distribuídas. Eles deveriam ser?

Pergunta 2 Meu gráfico QQnormal dos resíduos fica assim:

verificação de normalidade dos resíduos

Isso difere ligeiramente de uma distribuição normal e shapiro.testtambém rejeita a hipótese nula de que os resíduos são de uma distribuição normal:

> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06

Os resíduos versus valores ajustados são parecidos com:

resíduos vs ajustados

O que posso fazer se meus resíduos não forem normalmente distribuídos? Isso significa que o modelo linear é totalmente inútil?

Stefan
fonte
3
Seus resíduos versus gráfico ajustado sugerem que sua variável dependente tem um limite inferior. Isso pode conduzir os padrões que você vê. Isso pode fornecer indicações de modelos alternativos que você pode considerar.
Maarten Buis 28/05

Respostas:

25

Primeiro, eu pegaria uma cópia deste artigo clássico e acessível e o leria: Anscombe FJ. (1973) Gráficos em análise estatística The American Statistician . 27: 17–21.

Sobre suas perguntas:

Resposta 1: Nem a variável dependente nem a independente precisam ser normalmente distribuídas. De fato, eles podem ter todos os tipos de distribuições malucas. O pressuposto de normalidade aplicável à distribuição dos erros ( YiY^Eu ).

Resposta 2: Você está realmente perguntando sobre duas suposições separadas de regressão de mínimos quadrados ordinários (OLS):

  1. YXy=uma+bxumaybYXYXXYX+X2YX+max(X-θ,0 0)θYX

  2. Outra é a suposição de resíduos normalmente distribuídos. Às vezes, alguém pode validamente se livrar de resíduos não normais em um contexto de OLS; ver, por exemplo, Lumley T., Emerson S. (2002) A importância da suposição de normalidade em grandes conjuntos de dados de saúde pública . Revisão Anual de Saúde Pública . 23: 151–69. Às vezes, não se pode (novamente, consulte o artigo Anscombe).

y

Alexis
fonte
2
Obrigado! Nos slides de algum curso de estatística, diz que, se as suposições falharem, você pode tentar transformar Y ou transformar as variáveis ​​explicativas. Quando eu transformo o Y, por exemplo, lm (Y ^ 0,3 ~ + X1 + X2 + ...), meus resíduos ficam normalmente distribuídos. Isso é algo válido de se fazer?
Stefan
@Stefan Yes! Transformar uma resposta geralmente é uma boa coisa a se fazer log, e simples transformações de energia são comuns.
Gregor
Var(f(x)f(Var(x))emY=β0 0+βXX+εβXeβXβXeCIβX
@ Alexis: Por que essas páginas dizem que as variáveis ​​precisam ser normalmente distribuídas? (1) pareonline.net/getvn.asp?n=2&v=8 (2) statisticssolutions.com/…
stackoverflowuser2010
7
Y=β0 0+βXX+εεN(0 0,σ)Y=3+0,5×X+N(0 0,1)YXβ0 03,βX0,5XY
11

Seus primeiros problemas são

  • apesar de suas garantias, o gráfico residual mostra que a resposta esperada condicional não é linear nos valores ajustados; o modelo para a média está errado.

  • você não tem variação constante. O modelo para a variação está errado.

você não pode nem avaliar a normalidade com esses problemas lá.

Glen_b -Reinstate Monica
fonte
Por favor, elabore como você concluiu a linearidade observando as parcelas? Entendo que a suposição de homosquasticidade não é atendida aqui.
Dr Nisha Arora
y^y^=300 060<0 00 0-3030-60>60), desenhe sua melhor estimativa de uma linha reta. Para mim as duas do meio são quase coincidentes, então eu combinaram suas linhas, dando algo como este
Glen_b -Reinstate Monica
Na metade do meio, quase todos os resíduos são negativos, nas partes externas quase todos os resíduos são positivos. Não é assim que os resíduos aleatórios parecem.
Glen_b -Reinstate Monica
Obrigado, @Glen_b. Depois de uma longa lacuna, estou revisitando meus conceitos para não poder visualizar em primeiro lugar.
Dr Nisha Arora
Embora não haja muito o que fazer aqui, espero que os dados originais não sejam negativos, e um modelo linear generalizado (talvez uma gama com link de log) ou uma transformação (provavelmente uma transformação de log) seria uma escolha mais adequada .
Glen_b -Reinstate Monica
3

Eu não diria que o modelo linear é completamente inútil. No entanto, isso significa que seu modelo não explica corretamente / totalmente seus dados. Há uma parte em que você precisa decidir se o modelo é "bom o suficiente" ou não.

Para sua primeira pergunta, não acho que um modelo de regressão linear pressuponha que suas variáveis ​​dependentes e independentes devam ser normais. No entanto, existe uma suposição sobre a normalidade dos resíduos.

Para sua segunda pergunta, há duas coisas diferentes que você pode considerar:

  1. Verifique diferentes tipos de modelos. Outro modelo pode ser melhor para explicar seus dados (por exemplo, regressão não linear, etc.). Você ainda teria que verificar se as suposições deste "novo modelo" não são violadas.
  2. Seus dados podem não conter covariáveis ​​suficientes (variáveis ​​dependentes) para explicar a resposta (resultado). Nesse caso, você não pode fazer mais nada. Às vezes, podemos aceitar verificar se os resíduos seguem uma distribuição diferente (por exemplo, distribuição t), mas isso não parece ser o seu caso.

Além da sua pergunta, vejo que o seu QQPlot não está "normalizado". Geralmente é mais fácil observar a plotagem quando seus resíduos são padronizados, veja stdres .

stdres(lmobject)

Espero que ajude você, talvez alguém explique isso melhor do que eu.

Julien D.
fonte
0

Além da resposta anterior, gostaria de acrescentar alguns pontos para melhorar seu modelo:

  1. Às vezes, a não normalidade dos resíduos indica presença de valores discrepantes. Se for esse o caso, lide primeiro com os discrepantes.

  2. Pode estar usando algumas transformações resolver o propósito.

  3. Além disso, para lidar com a multicolinearidade, você pode consultar https://www.researchgate.net/post/My_data_has_the_problem_of_multicolinearity_Removing_unique_variables_using_variance_inflation_factor_VIF_didnt_work_Any_solution

Dr Nisha Arora
fonte
-1

Para sua segunda pergunta,

Algo que aconteceu comigo na prática foi que eu estava superando as minhas respostas com muitas variáveis ​​independentes. No modelo sobreajustado, eu tinha resíduos não normais. Mesmo assim, os resultados estabeleceram que não havia evidências suficientes para descartar a possibilidade de que alguns coeficientes fossem zero (com valores de p maiores que 0,2). Portanto, em um segundo modelo, descartando variáveis ​​após um procedimento de seleção para trás, obtive resíduos normais validados graficamente com um qqplot e por testes de hipoteses com um teste de Shapiro-Wilk. Verifique se esse pode ser o seu caso.

Ayar Paco
fonte