O que devo verificar quanto à normalidade: dados brutos ou resíduos?

27

Aprendi que devo testar a normalidade não nos dados brutos, mas em seus resíduos. Devo calcular os resíduos e depois fazer o teste W de Shapiro-Wilk?

Os resíduos são calculados como: ?XEu-significar

Consulte esta pergunta anterior para meus dados e o design.

stan
fonte
Você está fazendo isso usando software (e, em caso afirmativo, qual software) ou está tentando fazer os cálculos manualmente?
Chris Simokat
@ Chris Simokat: Eu estou tentando fazer isso com R e Statistica ...
stan
3
Essa pergunta pode ser interessante: e se os resíduos forem normalmente distribuídos, mas você não é ; também cobre a questão de saber se a normalidade é necessária para os dados brutos ou para os resíduos.
gung - Restabelece Monica
11
Desculpe, eu não sou experiente o suficiente com SAS para saber como fazê-lo fazer isso automaticamente em diferentes situações. No entanto, ao executar uma regressão, você poderá salvar os resíduos em um conjunto de dados de saída, e um gráfico qq poderá ser feito.
gung - Restabelece Monica
11
Boa informação por Karen Grace-Martin: este e este
stan

Respostas:

37

Por que você deve testar a normalidade?

A suposição padrão na regressão linear é que os resíduos teóricos são independentes e normalmente distribuídos. Os resíduos observados são uma estimativa dos resíduos teóricos, mas não são independentes (existem transformações nos resíduos que removem parte da dependência, mas ainda fornecem apenas uma aproximação dos resíduos verdadeiros). Portanto, um teste com os resíduos observados não garante que os resíduos teóricos correspondam.

Se os resíduos teóricos não forem exatamente distribuídos normalmente, mas o tamanho da amostra for grande o suficiente, o Teorema do Limite Central diz que a inferência usual (testes e intervalos de confiança, mas não necessariamente intervalos de previsão) com base na suposição de normalidade ainda estará aproximadamente correta .

Observe também que os testes de normalidade são descartados; eles podem dizer que é improvável que os dados tenham vindo de uma distribuição normal. Mas se o teste não for significativo, o que não significa que os dados vieram de uma distribuição normal, também pode significar que você simplesmente não tem energia suficiente para ver a diferença. Tamanhos de amostra maiores fornecem mais poder para detectar a não normalidade, mas amostras maiores e o CLT significam que a não normalidade é menos importante. Portanto, para tamanhos de amostra pequenos, a suposição de normalidade é importante, mas os testes não têm sentido; para tamanhos de amostra grandes, os testes podem ser mais precisos, mas a questão da normalidade exata se torna sem sentido.

Portanto, combinando tudo isso, o que é mais importante do que um teste de normalidade exata é o entendimento da ciência por trás dos dados para ver se a população está próxima o suficiente da normalidade. Gráficos como qqplots podem ser bons diagnósticos, mas a compreensão da ciência também é necessária. Se houver preocupação de que haja muita assimetria ou potencial para valores discrepantes, estão disponíveis métodos não paramétricos que não exigem a suposição de normalidade.

Greg Snow
fonte
6
Para responder à pergunta na primeira linha: Normalidade aproximada é crucial para a aplicação de testes F na ANOVA e para criação de limites de confiança em torno de variações. (+1) pelas boas ideias.
whuber
4
@whuber, sim, a normalidade aproximada é importante, mas os testes testam a normalidade exata, não aproximada. E para amostras de tamanhos grandes, essa aproximação não precisa ser muito próxima (onde é mais provável que os testes sejam rejeitados). Um bom gráfico e conhecimento da ciência que produziu os dados são muito mais úteis do que um teste formal de normalidade se você estiver justificando o uso de testes F (ou outra inferência baseada em normal).
Greg Snow,
Greg, OK. Eu faço o ajuste da distribuição e vejo que meus dados são de, digamos, distribuição Beta ou Gamma e o que devo fazer então? ANOVA que assume a lei gaussiana?
stan
2
(+1) Isso correu bem, exceto no final. Você não precisa escolher entre (a) regressão com base em uma suposição de normalidade e (b) procedimentos não paramétricos. Transformações antes da regressão e / ou modelos lineares generalizados são apenas duas principais alternativas. Reconheço que você não está tentando aqui resumir tudo sobre modelagem estatística, mas a última parte pode ser amplificada um pouco.
Nick Cox
Então, no final, em regressão linear, devemos testar a normalidade dos dados brutos ou a normalidade dos resíduos?
vasili111
7

As suposições gaussianas referem-se aos resíduos do modelo. Não há premissas necessárias sobre os dados originais. Como um exemplo em questão, a distribuição das vendas diárias de cerveja. insira a descrição da imagem aquiApós um modelo razoável, capturar os efeitos do dia da semana, feriados / eventos, mudanças de nível / tendências de tempo que obtemosinsira a descrição da imagem aqui

IrishStat
fonte
Obrigado pela sua resposta. Você quer dizer que podemos transformar nossos dados em distribuição gaussiana ...?
21811 stan
3
Stan, o papel da modelagem é fazer exatamente isso para que a inferência possa ser feita e a hipótese testada.
IrishStat
6

Primeiro, você pode "observar" usando um gráfico QQ para obter um senso geral, aqui é como gerar um em R.

De acordo com o manual R, você pode alimentar seu vetor de dados diretamente na função shapiro.test ().

Se você deseja calcular os resíduos você mesmo, sim, cada resíduo é calculado dessa maneira ao longo do seu conjunto de observações. Você pode ver mais sobre isso aqui .

Chris Simokat
fonte
Então, até onde eu entendi os métodos para Normalidade, na verdade, verifique a normalidade dos resíduos de nossos dados brutos. Eles fazem isso automaticamente e não devemos calcular resíduos e submetê-los ao teste. E na fala cotidiana, geralmente mudamos para "meus dados são normalmente distribuídos", assumindo que resíduos de meus dados são "normais". Por favor me corrija.
stan
6
Eu discordo do seu último ponto. As pessoas que dizem que meus dados são normalmente distribuídos geralmente não estão se referindo aos resíduos. Acho que as pessoas dizem isso porque acham que todo procedimento estatístico exige que todos os dados sejam normais.
Glen
@Glen falando francamente, eu (falsamente) penso o mesmo até agora ... Eu não consigo entender (esse é o meu problema) se eu tenho gama ou beta ou qualquer outro dado distribuído, devo fazer estatísticas para eles da mesma forma que normalmente são distribuídos apesar de sua distribuição verdadeira / natural? E o fato de distribuição é apenas para indicação? Conheço apenas a distribuição Gaussian antes neste site ...
stan