Por que a normalidade dos resíduos é "pouco importante" com o objetivo de estimar a linha de regressão?

21

Gelman e Hill (2006) escrevem na p46 que:

A suposição de regressão que geralmente é menos importante é que os erros são normalmente distribuídos. De fato, com o objetivo de estimar a linha de regressão (em comparação com a previsão de pontos de dados individuais), a suposição de normalidade é pouco importante. Assim, ao contrário de muitos livros didáticos de regressão, não recomendamos o diagnóstico da normalidade dos resíduos de regressão.

Gelman e Hill parecem não explicar mais esse ponto.

Gelman e Hill estão corretos? Se sim, então:

  1. Por que "pouco importante"? Por que não é importante nem completamente irrelevante?

  2. Por que a normalidade dos resíduos é importante ao prever pontos de dados individuais?

Gelman, A. & Hill, J. (2006). Análise de dados usando regressão e modelos multiníveis / hierárquicos. Cambridge University Press

user1205901 - Restabelecer Monica
fonte

Respostas:

21

Para estimativa, normalidade não é exatamente uma suposição, mas uma consideração importante seria eficiência; em muitos casos, um bom estimador linear se sairá bem e, nesse caso (por Gauss-Markov), a estimativa do LS seria a melhor daquelas coisas que seria aceitável. (Se suas caudas são muito pesadas ou muito leves, pode fazer sentido considerar outra coisa)

No caso de testes e ICs, embora a normalidade seja assumida, geralmente não é tão crítico (novamente, desde que as caudas não sejam realmente pesadas ou leves, ou talvez uma de cada uma), nisso, pelo menos não muito. amostras pequenas, os testes e os ICs típicos tendem a ter quase suas propriedades nominais (não muito longe do nível de significância ou cobertura reivindicada) e têm bom desempenho (potência razoável para situações típicas ou ICs não muito maiores que as alternativas) - conforme você se move mais longe do caso normal, a energia pode ser um problema e, nesse caso, amostras grandes geralmente não melhoram a eficiência relativa; portanto, onde os tamanhos dos efeitos são tais que a energia está mediana em um teste com energia relativamente boa, pode ser muito ruim. para os testes que assumem normalidade.

Essa tendência de se aproximar das propriedades nominais dos ICs e dos níveis de significância nos testes deve-se a vários fatores que operam juntos (um dos quais é a tendência das combinações lineares de variáveis ​​terem distribuição próxima da normal, desde que haja muitos valores envolvidos e nenhum deles contribui com uma grande fração da variação total).

No entanto, no caso de um intervalo de previsão baseado na suposição normal, a normalidade é relativamente mais crítica, pois a largura do intervalo depende fortemente da distribuição de um único valor. No entanto, mesmo lá, para o tamanho de intervalo mais comum (intervalo de 95%), o fato de muitas distribuições unimodais terem muito perto de 95% de sua distribuição em cerca de 2sds da média tende a resultar em desempenho razoável de um intervalo de previsão normal, mesmo quando a distribuição não é normal. [Isso não leva muito bem a intervalos muito mais estreitos ou mais amplos - digamos, um intervalo de 50% ou um intervalo de 99,9% -.]

Glen_b -Reinstate Monica
fonte
"A tendência das combinações lineares de variáveis ​​terem distribuição próxima da normal". - Suponho que isso não esteja conectado ao Teorema do Limite Central. É isso? Caso contrário, que tipo de "teorema" é essa afirmação?
Heisenberg
1
@Heisenberg Tem uma conexão com versões particulares do CLT, sim. (veja as versões Lyapunov e Lindeberg aqui ). Se você deseja que um teorema aplique amostras finitas, estamos analisando uma versão do teorema de Berry-Esseen. Mas a afirmação pretendia mais uma observação (daí o uso da palavra "tendência") do que um teorema.
Glen_b -Reinstate Monica
7

2: Ao prever pontos de dados individuais, o intervalo de confiança em torno dessa previsão assume que os resíduos são normalmente distribuídos.

Isso não é muito diferente do pressuposto geral sobre os intervalos de confiança - para ser válido, precisamos entender a distribuição, e o pressuposto mais comum é a normalidade. Por exemplo, um intervalo de confiança padrão em torno de uma média funciona porque a distribuição da média da amostra se aproxima da normalidade, para que possamos usar a distribuição az ou t

zbicyclist
fonte