Quais testes eu uso para confirmar que os resíduos são normalmente distribuídos?

Eu tenho alguns dados que parecem traçar um gráfico de resíduos versus tempo quase normal, mas quero ter certeza. Como posso testar a normalidade dos resíduos de erro?

hypothesis-testing normal-distribution assumptions pb1
fonte

Intimamente relacionado: testes de normalidade adequados para amostras pequenas . Aqui estão algumas outras questões de possível interesse: é-teste-normalidade-essencialmente-inútil , para uma discussão sobre o valor do teste-normalidade e resíduos residuais-são-normalmente-distribuídos-mas-y-é- não , para uma discussão / esclarecimento do sentido em que a normalidade é uma suposição de um modelo linear.

gung - Restabelece Monica

Pode-se ver um mal-entendido muito comum da essência de um teste de Shapiro Wilk! O significado correto a favor de H0 é que o H0 não pode ser rejeitado, mas CUIDADO! Isso não significa automaticamente "os dados são normalmente distribuídos" !!! O resultado alternativo é "Os dados normalmente não são distribuídos".

Joe Hallenbeck

Respostas:

Nenhum teste indicará que seus resíduos são normalmente distribuídos. De fato, você pode apostar com segurança que eles não são .
Testes de hipóteses geralmente não são uma boa idéia como verificação de suas suposições. O efeito da falta de normalidade em sua inferência não é geralmente uma função do tamanho da amostra *, mas o resultado de um teste de significância é . Um pequeno desvio da normalidade será óbvio em um grande tamanho de amostra, mesmo que a resposta à questão do interesse real ("até que ponto isso tenha impactado minha inferência?") Possa ser "quase nada". Do mesmo modo, um grande desvio da normalidade em um pequeno tamanho de amostra pode não se aproximar da significância.

* (adicionado na edição) - na verdade, é uma declaração muito fraca. O impacto da não normalidade na verdade diminui com o tamanho da amostra praticamente sempre que o teorema de CLT e Slutsky se mantém, enquanto a capacidade de rejeitar a normalidade (e presumivelmente evitar procedimentos da teoria normal) aumenta com o tamanho da amostra ... então, apenas quando você é mais capaz de identificar a não normalidade quando isso não importa qualquer maneira ... e o teste não ajuda em nada quando realmente importa, em pequenas amostras. $^\dagger$

$\dagger$ bem, pelo menos até o nível de significância. A energia ainda pode ser um problema, se estivermos considerando amostras grandes como aqui, isso também pode ser um problema menor.
O que mais se aproxima da medição do tamanho do efeito é um diagnóstico (uma exibição ou uma estatística) que mede o grau de não normalidade de alguma maneira. Um gráfico QQ é uma exibição óbvia, e um gráfico QQ da mesma população em um tamanho de amostra e em um tamanho de amostra diferente são pelo menos as duas estimativas ruidosas da mesma curva - mostrando aproximadamente a mesma 'não normalidade'; deve, pelo menos aproximadamente, estar relacionado monotonicamente à resposta desejada para a questão de interesse.

Se você deve usar um teste, Shapiro-Wilk provavelmente é tão bom quanto qualquer outra coisa (o teste de Chen-Shapiro geralmente é um pouco melhor em alternativas de interesse comum, mas é mais difícil encontrar implementações de) - mas está respondendo a uma pergunta que você já sabe a resposta para; toda vez que você falha em rejeitar, está dando uma resposta que você pode ter certeza de que está errado.

Glen_b -Reinstate Monica
fonte

+1 Glen_b porque você faz vários bons pontos. No entanto, eu não seria tão negativo quanto ao uso de testes de qualidade. Quando o tamanho da amostra é pequeno ou moderado, o teste não terá energia suficiente para detectar ligeiros desvios da distribuição normal. Diferenças muito grandes podem resultar em valores de p muito pequenos (por exemplo, 0,0001 ou menos). Essas podem ser indicações mais formais do que a observação visual de um gráfico de qq, mas ainda assim muito úteis. Pode-se também olhar para estimativas de assimetria e curtose. É em amostras muito grandes que a qualidade dos testes de ajuste é problemática.

Michael R. Chernick 13/09/12

Nesses casos, pequenas partidas serão detectadas. Desde que o analista reconheça que, na prática, a distribuição da população não será exatamente normal e que rejeitar a hipótese hipotética nula esteja apenas dizendo a ele que sua distribuição é levemente não normal, ele não se perderá. O investigador deve então julgar por si mesmo se a suposição de normalidade é uma preocupação ou não, dada a ligeira partida que o teste detecta. Shapiro-Wilk é realmente um dos testes mais poderosos contra a hipótese de normalidade.

Michael R. Chernick 13/09/12

+1, gosto especialmente do ponto 2; nesse sentido, vale a pena notar que, mesmo que a inclinação ou a curtose seja bastante ruim, com um N realmente grande, o Teorema do Limite Central o cobrirá, então é o momento em que você menos precisa de normalidade.

gung - Restabelece Monica

@gung, existem algumas circunstâncias em que uma boa aproximação à normalidade será importante. Por exemplo, ao construir intervalos de previsão usando suposições normais. Mas eu ainda iria confiar mais em um diagnóstico (um que mostra como não-normal é) do que um teste

Glen_b -Reinstate Monica

Sua opinião sobre os intervalos de previsão é boa.

gung - Restabelece Monica

O teste Shapiro-Wilk é uma possibilidade.

Teste de Shapiro-Wilk

Este teste é implementado em quase todos os pacotes de software estatístico. A hipótese nula é que os resíduos são normalmente distribuídos, portanto, um pequeno valor p indica que você deve rejeitar o nulo e concluir que os resíduos não são normalmente distribuídos.

Observe que, se o tamanho da amostra for grande, você quase sempre rejeitará; portanto, a visualização dos resíduos é mais importante.

Glen
fonte

É "Wilk", não "Wilks".

Michael R. Chernick 13/09/12

Da wikipedia:

Os testes de normalidade univariada incluem o teste do quadrado K de D'Agostino, o teste de Jarque-Bera, o teste de Anderson-Darling, o critério de Cramér-von Mises, o teste de normalidade de Lilliefors (em si uma adaptação do teste de Kolmogorov-Smirnov), o Teste de Shapiro-Wilk, teste de qui-quadrado de Pearson e teste de Shapiro-Francia. Um artigo de 2011 do The Journal of Statistical Modeling and Analytics [1] conclui que Shapiro-Wilk tem o melhor poder para um determinado significado, seguido de perto por Anderson-Darling ao comparar Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors e Anderson- Testes queridos.

Taylor
fonte

-1: convém incluir um link para a página da Wikipedia, remover a nota de rodapé ("[1]") e usar a função de citação em bloco.

Bernd Weiss

A ressalva que Glen_b dá é importante lembrar sempre que qualquer um desses testes de qualidade de ajuste é usado. Eu acho que o resultado que você questiona sobre Shapiro-Wilk não é tão geral quanto você pensa ser. Não acredito que exista um teste globalmente mais poderoso para a normalidade.

Michael R. Chernick 13/09/12

@MichaelChernick Acredito que o SnowsPenultimateNormalityTest (implementado no pacote TeachingDemos para R ( cran.r-project.org/web/packages/TeachingDemos/TeachingDemos.pdf )) possa se encaixar na descrição do teste mais poderoso do mundo (por

n \geq 1

$n \ge 1$

@GregSnow Não tenho tempo para analisar minuciosamente seu pacote e talvez não seja adepto o suficiente do R para acompanhar tudo. Você está dizendo que existe um teste globalmente mais poderoso para a normalidade ou está dizendo que fornece exemplos para mostrar quando vários testes são mais poderosos e, portanto, que não existe um teste global. Tenho minhas dúvidas de que exista e não acho que Shapiro-Wilk seria esse. Se você está afirmando que existe, gostaria de ver uma prova matemática ou uma referência a uma.

Michael R. Chernick

@MichaelChernick, minha afirmação é que meu teste terá tanto poder ou mais (será ou mais provável que rejeite a hipótese nula dos dados provenientes de um normal exato) quanto qualquer outro teste de normalidade. O código R não é difícil de seguir, o código principal para calcular o valor-p é "tmp.p <- se (qualquer (is.rational (x))) {0", a prova de seu poder deve ser óbvia ( Eu apenas afirmei que é poderoso e a documentação pode ser útil, não que o teste em si seja útil, procure pelo "aforismo de Cochrane").

Greg Snow