A regressão funciona com dados que normalmente não são distribuídos?

8

histograma dos meus dados

Estou tentando ver se as variáveis ​​xey juntas ou separadamente afetam significativamente Q_7 (o histograma acima). Fiz um teste de normalidade Shapiro-Wilk e fiz o seguinte

shapiro.test(Q_7)
## data:  Q_7
## W = 0.68439, p-value < 2.2e-16

Com esta distribuição, a seguinte regressão funcionará? Ou há outro teste que eu deveria estar fazendo?

lm(Q_7 ~ x*y)
kjetil b halvorsen
fonte
7
verifique resíduos, não dados
李哲源
Tente transformar o log Q_7. No momento, está fortemente inclinado para a direita. Verifique também as distribuições dos preditores.
31266 Joe
1
Procure o teorema de Gauss Markov.
G. Grothendieck
Tente com a transformação de raiz quadrada. Se você tiver muitos zeros, a transformação do log pode não funcionar bem. Além disso, como você está lidando com contagens, a regressão binomial negativa de Poisson é uma opção mais natural.
utobi
1
O que significa "não dados"?
Silverfish

Respostas:

17

y=Xβ+ε
Xyβεεyy|Xεy

yεεε^=yXβ^β^ε^εε

Ruben van Bergen
fonte
Este é um bom resumo rápido das coisas padrão, mas parece não ter um dos principais recursos desta questão, que é que, com uma resposta distorcida, mas diferente de zero, é improvável que essa forma funcional seja uma boa idéia. Para evitar previsões negativas e por outros motivos, a regressão de Poisson parece um melhor ponto de partida.
Nick Cox
8

A resposta curta é sim.

yXε

lmYX

  • E[ε|X]=0
  • Var(ε)<

Se você assumir ainda que seus resíduos não estão correlacionados e que todos têm a mesma variação, o teorema de Gauss-Markov se aplica e o OLS é o melhor estimador linear e imparcial (AZUL).

Se seus resíduos estiverem correlacionados ou tiverem variações diferentes, o OLS ainda funcionará, mas poderá ser menos preciso, o que deve ser refletido na maneira como você relata os intervalos de confiança de suas estimativas (usando, digamos, erros padrão robustos ).

Se você também assume que seus resíduos são normalmente distribuídos, o OLS se torna assintoticamente eficiente, porque é equivalente à probabilidade máxima.

Portanto, a regressão pode funcionar melhor se seus dados forem normalmente distribuídos, mas ainda funcionará se não estiverem.

Thomas
fonte