Estou um pouco confuso sobre quais são os pressupostos da regressão linear.
Até agora, verifiquei se:
- todas as variáveis explicativas se correlacionaram linearmente com a variável resposta. (Esse foi o caso)
- houve colinearidade entre as variáveis explicativas. (houve pouca colinearidade).
- as distâncias de Cook dos pontos de dados do meu modelo estão abaixo de 1 (este é o caso, todas as distâncias estão abaixo de 0,4, portanto, não há pontos de influência).
- os resíduos são normalmente distribuídos. (pode não ser esse o caso)
Mas então eu li o seguinte:
as violações da normalidade geralmente surgem porque (a) as distribuições das variáveis dependentes e / ou independentes são elas próprias significativamente não normais e / ou (b) a suposição de linearidade é violada.
Pergunta 1 Isso soa como se as variáveis independentes e dependentes precisassem ser normalmente distribuídas, mas até onde eu sei, esse não é o caso. Minha variável dependente, bem como uma das minhas variáveis independentes, não são normalmente distribuídas. Eles deveriam ser?
Pergunta 2 Meu gráfico QQnormal dos resíduos fica assim:
Isso difere ligeiramente de uma distribuição normal e shapiro.test
também rejeita a hipótese nula de que os resíduos são de uma distribuição normal:
> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06
Os resíduos versus valores ajustados são parecidos com:
O que posso fazer se meus resíduos não forem normalmente distribuídos? Isso significa que o modelo linear é totalmente inútil?
Respostas:
Primeiro, eu pegaria uma cópia deste artigo clássico e acessível e o leria: Anscombe FJ. (1973) Gráficos em análise estatística The American Statistician . 27: 17–21.
Sobre suas perguntas:
Resposta 1: Nem a variável dependente nem a independente precisam ser normalmente distribuídas. De fato, eles podem ter todos os tipos de distribuições malucas. O pressuposto de normalidade aplicável à distribuição dos erros (YEu- Y^Eu ).
Resposta 2: Você está realmente perguntando sobre duas suposições separadas de regressão de mínimos quadrados ordinários (OLS):
Outra é a suposição de resíduos normalmente distribuídos. Às vezes, alguém pode validamente se livrar de resíduos não normais em um contexto de OLS; ver, por exemplo, Lumley T., Emerson S. (2002) A importância da suposição de normalidade em grandes conjuntos de dados de saúde pública . Revisão Anual de Saúde Pública . 23: 151–69. Às vezes, não se pode (novamente, consulte o artigo Anscombe).
fonte
log
, e simples transformações de energia são comuns.Seus primeiros problemas são
apesar de suas garantias, o gráfico residual mostra que a resposta esperada condicional não é linear nos valores ajustados; o modelo para a média está errado.
você não tem variação constante. O modelo para a variação está errado.
você não pode nem avaliar a normalidade com esses problemas lá.
fonte
Eu não diria que o modelo linear é completamente inútil. No entanto, isso significa que seu modelo não explica corretamente / totalmente seus dados. Há uma parte em que você precisa decidir se o modelo é "bom o suficiente" ou não.
Para sua primeira pergunta, não acho que um modelo de regressão linear pressuponha que suas variáveis dependentes e independentes devam ser normais. No entanto, existe uma suposição sobre a normalidade dos resíduos.
Para sua segunda pergunta, há duas coisas diferentes que você pode considerar:
Além da sua pergunta, vejo que o seu QQPlot não está "normalizado". Geralmente é mais fácil observar a plotagem quando seus resíduos são padronizados, veja stdres .
Espero que ajude você, talvez alguém explique isso melhor do que eu.
fonte
Além da resposta anterior, gostaria de acrescentar alguns pontos para melhorar seu modelo:
Às vezes, a não normalidade dos resíduos indica presença de valores discrepantes. Se for esse o caso, lide primeiro com os discrepantes.
Pode estar usando algumas transformações resolver o propósito.
Além disso, para lidar com a multicolinearidade, você pode consultar https://www.researchgate.net/post/My_data_has_the_problem_of_multicolinearity_Removing_unique_variables_using_variance_inflation_factor_VIF_didnt_work_Any_solution
fonte
Para sua segunda pergunta,
Algo que aconteceu comigo na prática foi que eu estava superando as minhas respostas com muitas variáveis independentes. No modelo sobreajustado, eu tinha resíduos não normais. Mesmo assim, os resultados estabeleceram que não havia evidências suficientes para descartar a possibilidade de que alguns coeficientes fossem zero (com valores de p maiores que 0,2). Portanto, em um segundo modelo, descartando variáveis após um procedimento de seleção para trás, obtive resíduos normais validados graficamente com um qqplot e por testes de hipoteses com um teste de Shapiro-Wilk. Verifique se esse pode ser o seu caso.
fonte