Esse problema parece elevar sua cabeça feia o tempo todo, e estou tentando decapitá-lo para meu próprio entendimento de estatística (e sanidade!).
As suposições dos modelos lineares gerais (teste t, ANOVA, regressão etc.) incluem a "suposição de normalidade", mas descobri que isso raramente é descrito claramente.
Muitas vezes encontro livros / manuais de estatística / etc. simplesmente afirmando que a "suposição de normalidade" se aplica a cada grupo (isto é, variáveis categóricas X), e devemos examinar as divergências da normalidade para cada grupo .
Perguntas :
a suposição se refere aos valores de Y ou aos resíduos de Y?
para um grupo específico , é possível ter uma distribuição fortemente não normal dos valores de Y (por exemplo, distorcida) MAS uma distribuição aproximadamente (ou pelo menos mais normal) dos resíduos de Y?
Outras fontes descrevem que a suposição se refere aos resíduos do modelo (nos casos em que existem grupos, por exemplo, testes t / ANOVA), e devemos examinar as diferenças de normalidade desses resíduos (ou seja, apenas um gráfico / teste de QQ para corre).
normalidade de resíduos para o modelo implica normalidade de resíduos para os grupos ? Em outras palavras, devemos apenas examinar os resíduos do modelo (ao contrário das instruções em muitos textos)?
Para colocar isso em um contexto, considere este exemplo hipotético:
- Quero comparar a altura da árvore (Y) entre duas populações (X).
- Em uma população, a distribuição de Y é fortemente inclinada para a direita (ou seja, a maioria das árvores é baixa, muito pequena), enquanto a outra é virtualmente normal
- A altura é geralmente mais alta na população normalmente distribuída (sugerindo que pode haver uma diferença "real").
- A transformação dos dados não melhora substancialmente a distribuição da primeira população.
Em primeiro lugar, é válido comparar os grupos considerando as distribuições de altura radicalmente diferentes?
Como abordar a "suposição de normalidade" aqui? A altura de recordação em uma população normalmente não é distribuída. Examino resíduos para ambas as populações separadamente OU resíduos para o modelo (teste t)?
Consulte as perguntas por número nas respostas. A experiência me mostrou que as pessoas se perdem ou se desviam facilmente (especialmente eu!). Tenha em mente que eu não sou um estatístico; embora eu tenha uma compreensão razoavelmente conceitual (isto é, não técnica!) das estatísticas.
PS, procurei nos arquivos e li os seguintes tópicos que não consolidaram meu entendimento:
- ANOVA suposição normalidade / distribuição normal de resíduos
- Normalidade de resíduos versus dados da amostra; e quanto aos testes t?
- O teste de normalidade é 'essencialmente inútil'?
- Testando a normalidade
- Avaliando a normalidade da distribuição
- Quais testes eu uso para confirmar que os resíduos são normalmente distribuídos?
- O que fazer quando o teste de Kolmogorov-Smirnov é significativo para os resíduos do teste paramétrico, mas a assimetria e a curtose parecem normais?
Respostas:
Um ponto que pode ajudar a sua compreensão:
Como os resíduos são apenas os valores de y menos a média estimada (os resíduos padronizados também são divididos por uma estimativa do erro padrão), se os valores de y são normalmente distribuídos, os resíduos também são e vice-versa. Portanto, quando falamos de teoria ou suposições, não importa de que falamos, porque uma implica a outra.
Portanto, para as perguntas que isso leva a:
Outro ponto que é importante entender (mas muitas vezes conflita na aprendizagem) é que existem 2 tipos de resíduos aqui: os resíduos teóricos, que são as diferenças entre os valores observados e o verdadeiro modelo teórico, e os resíduos observados, que são as diferenças entre os valores observados e as estimativas do modelo atualmente ajustado. Assumimos que os resíduos teóricos são normais. Os resíduos observados não são i, i ou distribuídos normais (mas têm uma média de 0). No entanto, para fins práticos, os resíduos observados estimam os resíduos teóricos e, portanto, ainda são úteis para o diagnóstico.
fonte
As respostas curtas:
A resposta mais longa:
A suposição é que a variável dependente (y) é normalmente distribuída, mas com diferentes meios para diferentes grupos. Como conseqüência, se você plotar apenas a distribuição de y, pode facilmente parecer muito diferente da curva normal em forma de sino padrão. Os resíduos representam a distribuição de y com essas diferenças nas médias "filtradas".
Como alternativa, você pode observar a distribuição de y em cada grupo separadamente. Isso também filtra as diferenças de médias entre os grupos. A vantagem é que dessa forma você também obtém informações sobre a distribuição em cada grupo, o que, no seu caso, parece relevante. A desvantagem é que cada grupo contém menos observações do que o conjunto de dados combinado que você obteria ao examinar os resíduos. Além disso, você não seria capaz de comparar grupos de forma significativa se tiver muitos grupos, por exemplo, porque inseriu muitas variáveis preditivas em seu modelo ou uma variável preditora (quase) contínua em seu modelo. Portanto, se seu modelo consiste em apenas uma variável preditora categórica e o número de observações em cada grupo é grande o suficiente, pode ser significativo inspecionar a distribuição de y em cada grupo separadamente.
fonte
Pergunta 3)
O importante para o uso de modelos lineares que exigem normalidade é que os resíduos que não são normais, juntos ou não, são um indicador importante de que seu modelo pode não se encaixar nos seus dados.
Se você estiver fazendo ANOVA, é claro que seus resíduos gerais não precisam ser normais (ou melhor, homoscedásticos), isso não faria sentido. Porém, em uma regressão, é melhor você ter um modelo com os resíduos normais gerais. Caso contrário, seus estimadores e testes de intervalo estarão errados. Pode ser o caso de certas autocorrelações ou de um viés variável ausente. Se o modelo estiver 100% correto (incluindo, talvez, quebras estruturais e ponderação, se necessário), não é fácil buscar termos de erro normais, mesmo centrados em torno de 0. Praticamente a pergunta geralmente se torna: Podemos nos safar dessas coisas se a amostra é grande o suficiente? Não há resposta definitiva, mas para uma abordagem 100% correta, sim, todos os resíduos devem ser normais.
Questão 4 e 5)
Depende do que você quer dizer com comparação. Dada a suposição de termos de erro normais, é possível testar com base na suposição de duas distribuições diferentes. Você também pode usar a estimativa GLS para uma regressão para contabilizar os diferentes parâmetros de distribuição - SE você tem o modelo certo ... e acho que seus grupos funcionam como uma variável indicadora / binária?
Provavelmente seria muito difícil argumentar que a distribuição de resíduos será normal - conseqüência é que, embora você possa fazer coisas com seus dados, eles não serão baseados no OLS comum.
Mas isso depende do que você deseja fazer com os dados.
Penso que uma boa abordagem seria examinar a álgebra do OLS regular, com foco nas distribuições resultantes.
fonte