Normalidade da variável dependente = normalidade dos resíduos?

34

Esse problema parece elevar sua cabeça feia o tempo todo, e estou tentando decapitá-lo para meu próprio entendimento de estatística (e sanidade!).

As suposições dos modelos lineares gerais (teste t, ANOVA, regressão etc.) incluem a "suposição de normalidade", mas descobri que isso raramente é descrito claramente.

Muitas vezes encontro livros / manuais de estatística / etc. simplesmente afirmando que a "suposição de normalidade" se aplica a cada grupo (isto é, variáveis ​​categóricas X), e devemos examinar as divergências da normalidade para cada grupo .

Perguntas :

  1. a suposição se refere aos valores de Y ou aos resíduos de Y?

  2. para um grupo específico , é possível ter uma distribuição fortemente não normal dos valores de Y (por exemplo, distorcida) MAS uma distribuição aproximadamente (ou pelo menos mais normal) dos resíduos de Y?

    Outras fontes descrevem que a suposição se refere aos resíduos do modelo (nos casos em que existem grupos, por exemplo, testes t / ANOVA), e devemos examinar as diferenças de normalidade desses resíduos (ou seja, apenas um gráfico / teste de QQ para corre).

  3. normalidade de resíduos para o modelo implica normalidade de resíduos para os grupos ? Em outras palavras, devemos apenas examinar os resíduos do modelo (ao contrário das instruções em muitos textos)?

    Para colocar isso em um contexto, considere este exemplo hipotético:

    • Quero comparar a altura da árvore (Y) entre duas populações (X).
    • Em uma população, a distribuição de Y é fortemente inclinada para a direita (ou seja, a maioria das árvores é baixa, muito pequena), enquanto a outra é virtualmente normal
    • A altura é geralmente mais alta na população normalmente distribuída (sugerindo que pode haver uma diferença "real").
    • A transformação dos dados não melhora substancialmente a distribuição da primeira população.
  4. Em primeiro lugar, é válido comparar os grupos considerando as distribuições de altura radicalmente diferentes?

  5. Como abordar a "suposição de normalidade" aqui? A altura de recordação em uma população normalmente não é distribuída. Examino resíduos para ambas as populações separadamente OU resíduos para o modelo (teste t)?


Consulte as perguntas por número nas respostas. A experiência me mostrou que as pessoas se perdem ou se desviam facilmente (especialmente eu!). Tenha em mente que eu não sou um estatístico; embora eu tenha uma compreensão razoavelmente conceitual (isto é, não técnica!) das estatísticas.

PS, procurei nos arquivos e li os seguintes tópicos que não consolidaram meu entendimento:

DeanP
fonte
2
" Questão 1) a suposição se refere aos valores de Y ou aos resíduos de Y? " - Estritamente falando, nenhum , embora o segundo seja o que você verifica . O que é assumido normal são os erros não observáveis ou equivalentemente a distribuição condicional de Y em cada combinação de preditores. A distribuição incondicional de Y não é considerada normal.
Glen_b -Reinstate Monica
11
+1 Obrigado por se esforçar para organizar e consolidar alguns dos (muitos) tópicos em que esse problema surge; é definitivamente um FAQ.
whuber
Gostaria apenas de agradecer por esta pergunta. Tanto para o assunto abordado quanto quão bem organizado e vinculado é. Estou ciente de que você fez isso há muito tempo, mas é apenas uma pergunta muito boa!
Hmmmm

Respostas:

14

Um ponto que pode ajudar a sua compreensão:

xumaby=xab também é normalmente distribuído (mas com uma média e variância possivelmente diferentes).

Como os resíduos são apenas os valores de y menos a média estimada (os resíduos padronizados também são divididos por uma estimativa do erro padrão), se os valores de y são normalmente distribuídos, os resíduos também são e vice-versa. Portanto, quando falamos de teoria ou suposições, não importa de que falamos, porque uma implica a outra.

Portanto, para as perguntas que isso leva a:

  1. sim, ambos
  2. Não, (no entanto, os valores y individuais virão de normais com diferentes meios, que podem fazer com que pareçam não normais se agrupados)
  3. Normalidade de resíduos significa normalidade de grupos, no entanto, pode ser bom examinar resíduos ou valores-y por grupos em alguns casos (o agrupamento pode obscurecer a não normalidade que é óbvia em um grupo) ou procurar todos juntos em outros casos (observações insuficientes) por grupo a determinar, mas todos juntos você pode dizer).
  4. Isso depende do que você quer dizer com comparação, quão grande é o tamanho da amostra e seus sentimentos em "Aproximado". A suposição de normalidade é necessária apenas para testes / intervalos nos resultados. Você pode ajustar o modelo e descrever as estimativas pontuais, se há normalidade ou não. O Teorema do Limite Central diz que, se o tamanho da amostra for grande o suficiente, as estimativas serão aproximadamente normais, mesmo que os resíduos não sejam.
  5. Depende de qual pergunta você está tentando responder e de quão "aproximado" você está.

Outro ponto que é importante entender (mas muitas vezes conflita na aprendizagem) é que existem 2 tipos de resíduos aqui: os resíduos teóricos, que são as diferenças entre os valores observados e o verdadeiro modelo teórico, e os resíduos observados, que são as diferenças entre os valores observados e as estimativas do modelo atualmente ajustado. Assumimos que os resíduos teóricos são normais. Os resíduos observados não são i, i ou distribuídos normais (mas têm uma média de 0). No entanto, para fins práticos, os resíduos observados estimam os resíduos teóricos e, portanto, ainda são úteis para o diagnóstico.

Greg Snow
fonte
Para obter mais informações sobre erros e resíduos, acho útil ler este artigo no wiki pt.wikipedia.org/wiki/Errors_and_residuals
Lil'Lobster
11
yy^
yy^-
No primeiro trimestre (o que é meio que reconhecido na resposta ao segundo trimestre): Claramente, são os resíduos e não os Ys. Quando as covariáveis ​​diferem entre as observações, você pode facilmente ter uma distribuição marginal bidimensional, mesmo que os resíduos sejam normais. Portanto, não se pode simplesmente olhar para os Ys, apenas para os resíduos.
Björn
@ Bjorn, este é um bom esclarecimento. As variáveis ​​y são normais, condicionais em x, portanto, os valores y brutos são uma mistura de normais, e um gráfico apenas dos valores y pode não mostrar normalidade, mesmo que eles se ajustem ao pressuposto de serem condicionais normais em x. Para diagnósticos, geralmente usamos os resíduos (porque a parte condicional foi removida principalmente). A suposição de normalidade (condicional) refere-se aos resíduos teóricos e aos valores y.
Greg Snow
7

As respostas curtas:

  1. resíduos
  2. não
  3. depende, ambas as abordagens têm vantagens e desvantagens
  4. Por que não? Pode fazer mais sentido comparar medianas em vez de médias.
  5. pelo que você nos disse, a suposição de normalidade provavelmente é violada

A resposta mais longa:

A suposição é que a variável dependente (y) é normalmente distribuída, mas com diferentes meios para diferentes grupos. Como conseqüência, se você plotar apenas a distribuição de y, pode facilmente parecer muito diferente da curva normal em forma de sino padrão. Os resíduos representam a distribuição de y com essas diferenças nas médias "filtradas".

Como alternativa, você pode observar a distribuição de y em cada grupo separadamente. Isso também filtra as diferenças de médias entre os grupos. A vantagem é que dessa forma você também obtém informações sobre a distribuição em cada grupo, o que, no seu caso, parece relevante. A desvantagem é que cada grupo contém menos observações do que o conjunto de dados combinado que você obteria ao examinar os resíduos. Além disso, você não seria capaz de comparar grupos de forma significativa se tiver muitos grupos, por exemplo, porque inseriu muitas variáveis ​​preditivas em seu modelo ou uma variável preditora (quase) contínua em seu modelo. Portanto, se seu modelo consiste em apenas uma variável preditora categórica e o número de observações em cada grupo é grande o suficiente, pode ser significativo inspecionar a distribuição de y em cada grupo separadamente.

Maarten Buis
fonte
7
Estritamente, os resíduos são apenas estimativas dos erros ou distúrbios desconhecidos e incognoscíveis; portanto, mesmo que a normalidade esteja correta em princípio, você não pode obter resíduos exatamente normais na prática. Mais importante, a normalidade dos erros é a suposição menos importante nesses métodos!
Nick Cox
@NickCox (+1) concordou em ambos os casos
Maarten Buis
1

YX
XY


eYϵX
YY|XN(Xβ,σ2)
XYY|X é normal.


YX

Pergunta 3)
O importante para o uso de modelos lineares que exigem normalidade é que os resíduos que não são normais, juntos ou não, são um indicador importante de que seu modelo pode não se encaixar nos seus dados.
Se você estiver fazendo ANOVA, é claro que seus resíduos gerais não precisam ser normais (ou melhor, homoscedásticos), isso não faria sentido. Porém, em uma regressão, é melhor você ter um modelo com os resíduos normais gerais. Caso contrário, seus estimadores e testes de intervalo estarão errados. Pode ser o caso de certas autocorrelações ou de um viés variável ausente. Se o modelo estiver 100% correto (incluindo, talvez, quebras estruturais e ponderação, se necessário), não é fácil buscar termos de erro normais, mesmo centrados em torno de 0. Praticamente a pergunta geralmente se torna: Podemos nos safar dessas coisas se a amostra é grande o suficiente? Não há resposta definitiva, mas para uma abordagem 100% correta, sim, todos os resíduos devem ser normais.

Questão 4 e 5)
Depende do que você quer dizer com comparação. Dada a suposição de termos de erro normais, é possível testar com base na suposição de duas distribuições diferentes. Você também pode usar a estimativa GLS para uma regressão para contabilizar os diferentes parâmetros de distribuição - SE você tem o modelo certo ... e acho que seus grupos funcionam como uma variável indicadora / binária?
Provavelmente seria muito difícil argumentar que a distribuição de resíduos será normal - conseqüência é que, embora você possa fazer coisas com seus dados, eles não serão baseados no OLS comum.
Mas isso depende do que você deseja fazer com os dados.


Y|X

Penso que uma boa abordagem seria examinar a álgebra do OLS regular, com foco nas distribuições resultantes.

EU SOU UM
fonte