De onde vem o equívoco de que Y deve ser normalmente distribuído?

45

Fontes aparentemente respeitáveis ​​afirmam que a variável dependente deve ser normalmente distribuída:

Pressupostos do modelo: Y é normalmente distribuído, erros são normalmente distribuídos, eiN(0,σ2) e independente, e X é fixo e a variação constante σ2 .

Penn State, STAT 504 Análise de dados discretos

Em segundo lugar, a análise de regressão linear exige que todas as variáveis ​​sejam multivariadas normais.

EstatísticaSoluções, Pressupostos de Regressão Linear

Isso é apropriado quando a variável de resposta tem uma distribuição normal

Wikipedia, modelo linear generalizado

Existe uma boa explicação para como ou por que esse equívoco se espalhou? Sua origem é conhecida?

Relacionado

timwiz
fonte
17
Triste. Você está fazendo uma boa ação aqui ...
jbowman
7
Não conheço nenhuma situação usando regressão linear que exija a distribuição marginal de , ou a junção de todas as variáveis ​​seja multivariada normal. Aqueles parecem-me equívocos. Y
Matthew Drury
8
@MichaelChernick "Y é normalmente distribuído" é patentemente falso. Dê uma olhada em R: X <- runif(n=100)depois Y <- 3 + .5*X + rnorm(n=100, mean = 0, sd = .1)brinque com histogramas para se convencer de que nem X nem Y são normalmente distribuídos. Então summary(lm(Y ~ X)), preste muita atenção em quão próxima a interceptação está de 3 e a inclinação de X é de 0,5. A suposição é que os erros são normalmente distribuídos.
Alexis
9
@ Alexis Acredito que o que Michael estava tentando dizer é que as premissas multivariadas de Normalidade são suficientes, mas não necessárias. É claramente assim que se deve ler a citação da Wikipedia. A segunda citação está obviamente errada ao afirmar que essas suposições são necessárias. A primeira citação é ambígua, mas poderia ser lida generosamente no sentido elucidado por Michael.
whuber
6
Tudo o que eu estava dizendo era que a suposição de normalidade implica certas propriedades. Por exemplo, em regressão linear simples, se você assumir que os termos de erro são normais com média zero e variação constante, a estimativa dos mínimos quadrados dos parâmetros de regressão é a probabilidade máxima. Manter todas as suposições, exceto a normalidade, mínimos quadrados, não é mais a probabilidade máxima, mas ainda é a variação mínima imparcial.
Michael Chernick

Respostas:

13

'Y deve ser normalmente distribuído'

devo?


Nos casos em que você menciona que é uma linguagem desleixada (abreviando 'o erro em Y deve ser normalmente distribuído' ), mas eles realmente não dizem (fortemente) que a resposta deve ser normalmente distribuída ou, pelo menos, não parece me que suas palavras foram destinadas assim.

O material do curso da Penn State

YYi

E(Yi)=β0+β1xi
Yi

YiN(β0+β1xi,σ2)

YYi

  • ao explicar alguma variante do GLM (regressão logística binária),

    YBinomial(n,π)

  • em alguma definição

    YYY

YiY

  • Yi

A página de estatísticas

é uma descrição extremamente breve, simplificada e estilizada. Não tenho certeza se você deve levar isso a sério. Por exemplo, fala sobre

.. exige que todas as variáveis ​​sejam multivariadas normais ...

então essa não é apenas a variável de resposta,

e também o descritor 'multivariado' é vago. Não sei como interpretar isso.

O artigo da wikipedia

tem um contexto adicional explicado entre colchetes:

A regressão linear ordinária prevê o valor esperado de uma dada quantidade desconhecida (a variável de resposta, uma variável aleatória) como uma combinação linear de um conjunto de valores observados (preditores) . Isso implica que uma mudança constante em um preditor leva a uma mudança constante na variável de resposta (ou seja, um modelo de resposta linear). Isso é apropriado quando a variável de resposta tem uma distribuição normal (intuitivamente, quando uma variável de resposta pode variar essencialmente indefinidamente em qualquer direção, sem "valor zero" fixo, ou mais geralmente para qualquer quantidade que varia apenas em uma quantidade relativamente pequena, por exemplo, humana alturas).

y+ϵϵN(0,σ)

A linha específica foi adicionada em 8 de março de 2012 , mas observe que a primeira linha do artigo da Wikipedia ainda lê "uma generalização flexível da regressão linear comum que permite variáveis ​​de resposta que possuem modelos de distribuição de erro diferentes de uma distribuição normal" e não é muito (não em toda parte) errado.


Conclusão

Portanto, com base nesses três exemplos (que de fato poderiam gerar conceitos errôneos, ou pelo menos poderiam ser mal compreendidos), eu não diria que "esse equívoco se espalhou" . Ou pelo menos não me parece que a intenção desses três exemplos seja argumentar que Y deve ser normalmente distribuído (embora eu me lembre que esse problema tenha surgido antes aqui no stackexchange, a troca entre erros normalmente distribuídos e a variável de resposta normalmente distribuída é fácil de fazer).

Portanto, a suposição de que 'Y deve ser normalmente distribuído' não me parece uma crença / concepção errônea generalizada (como em algo que se espalha como um arenque vermelho), mas mais como um erro comum (que não é espalhado, mas feito de forma independente a cada vez) )


Comentário adicional

Um exemplo do erro neste site está na seguinte pergunta

E se os resíduos forem normalmente distribuídos, mas y não?

Eu consideraria isso uma pergunta para iniciantes. Ele não está presente em materiais como o material do curso da Penn State, o site da Wikipedia e recentemente observou nos comentários o livro 'Estendendo a Regressão Linear com R'.

Os escritores dessas obras compreendem corretamente o material. De fato, eles usam frases como 'Y deve ser normalmente distribuído', mas com base no contexto e nas fórmulas usadas, você pode ver que todos significam 'Y, condicional em X, deve ser normalmente distribuído' e não 'o marginal Y deve ser normalmente distribuído '. Eles não estão entendendo mal a ideia e, pelo menos, a idéia não é difundida entre estatísticos e pessoas que escrevem livros e outros materiais do curso. Mas interpretar mal suas palavras ambíguas pode realmente causar o equívoco.

Sextus Empiricus
fonte
3
+1 Dito isto: acho que todos nós já vimos muitas perguntas afirmando a normalidade marginal de Y por aqui ... há uma série de equívocos. :)
Alexis
Sim, eu concordo que a suposição de 'y normalmente distribuído' ocorre com frequência (não consegui encontrar exemplos facilmente, mas isso pode ser porque as pessoas descrevem essas coisas nas entrelinhas e não com palavras-chave simples). No entanto, acredito que isso é mais algo que é 'comum' e não algo que está sendo ' espalhado '. E, pelo menos, certamente os três exemplos dados pelo OP não são muito fortes (não são fortes no sentido de indicar a disseminação do equívoco, embora descrevam o uso patológico da linguagem e como os erros podem se originar).
Sextus Empiricus
@ Martijn Weterings: Eu gostaria de discordar da sua afirmação "Eu não diria que esse equívoco se espalhou". Em seu livro Extending the Linear Regression with R, usado como leitura obrigatória em vários programas de estatística de pós-graduação, Julian Faraway afirma na página xi no Prefácio deste livro que "O modelo linear padrão não pode lidar com respostas não-normais, y, tais como contagens ou proporções ".
ColorStatistics
n1(r1)(c1)
1
y=β0+β1x1+...βpxp+ϵϵresposta deve ter a distribuição específica mencionada.
Sextus Empiricus
29

Existe uma boa explicação para como / por que esse equívoco se espalhou? Sua origem é conhecida?

Geralmente ensinamos aos alunos de graduação uma versão "simplificada" das estatísticas em muitas disciplinas. Eu estou na psicologia e, quando tento dizer aos alunos de graduação que os valores- p são "a probabilidade dos dados - ou dados mais extremos - considerando que a hipótese nula é verdadeira", os colegas me dizem que estou cobrindo mais detalhes do que preciso cobrir. Estou dificultando o que tem que ser, etc. Como os alunos nas aulas têm um conforto tão amplo (ou falta deles) com as estatísticas, os instrutores geralmente mantêm a simplicidade: "Consideramos que é um achado confiável se p <.05 ", por exemplo, em vez de fornecer a definição real de um valor- p .

Eu acho que é aqui que está a explicação para o motivo pelo qual o equívoco se espalhou. Por exemplo, você pode escrever o modelo como:

Y=β0+β1X+ϵϵN(0,σϵ2)

Isso pode ser reescrito como:

Y|XN(β0+β1X,σϵ2)

O que significa que "Y, condicional em X, é normalmente distribuído com uma média dos valores previstos e alguma variação".

Isso é difícil de explicar, portanto, como as pessoas de taquigrafia podem dizer: "Y deve ser normalmente distribuído". Ou quando lhes foi explicado originalmente, as pessoas não entenderam a parte condicional - já que é, honestamente, confusa.

Portanto, em um esforço para não tornar as coisas terrivelmente complicadas, os instrutores apenas simplificam o que estão dizendo para não confundir demais a maioria dos alunos. E então as pessoas continuam sua educação estatística ou prática estatística com esse equívoco. Eu mesmo não entendi completamente o conceito até começar a modelagem bayesiana em Stan, o que exige que você escreva suas suposições desta maneira:

model {
  vector[n_obs] yhat;

  for(i in 1:n_obs) {
    yhat[i] = beta[1] + beta[2] * x1[i] + beta[3] * x2[i];
  }

  y ~ normal(yhat, sigma);
}

Além disso, em muitos pacotes estatísticos com uma GUI (olhando para você, SPSS), é mais fácil verificar se a distribuição marginal é normalmente distribuída (histograma simples) do que verificar se os resíduos são normalmente distribuídos (regressão de execução, salvar resíduos, execute o histograma nesses resíduos).

Portanto, acho que o equívoco se deve principalmente aos instrutores que tentam cortar detalhes para impedir que os alunos fiquem confusos, genuínos - e compreensíveis - entre as pessoas aprendendo da maneira correta, e ambos reforçados pela facilidade de verificar a normalidade marginal na escola. pacotes estatísticos mais amigáveis.

Mark White
fonte
2
Eu acho que você está correto. Muitas pessoas não entendem a parte condicional. Eles apenas acham normal distribuído.
SmallChess
3
Concordo que esse pode ser um dos modos pelos quais esse erro ocorre / se espalha. O material do curso da Penn State, no entanto, me parece não ser devido a essa simplificação "intencional" e também à redação de anotações mal feitas. É um pouco como pequenas notas (claro). Ou como comentários para troca de pilha, simplificações no idioma. Em alguns lugares, eles usam as palavras corretas. (pessoalmente, meus esquemas / diagramas são melhores do que as minhas palavras / fórmulas, mas isso não significa que o que eu escrevo, se estiver errado, é necessariamente uma idéia errada)
Sexto Empírico
1
@MartijnWeterings concordou - é muito fácil confundir alguém por não usar um idioma específico. É difícil ser sempre específico com o seu idioma em algo tão abstrato quanto as suposições estatísticas, e muitas pessoas inteligentes cometem erros simples, levando a conceitos errôneos como esse.
Mark White
1
MarkWhite, eu realmente aprecio a atenção que você direciona para a forma como ensinamos ... Eu acho que isso fala de uma maneira importante para o interesse do OP em "disseminação de conceitos errôneos" (além das nuances do que é e do que não é um conceito errado) )
Alexis26
16

A análise de regressão é difícil para iniciantes, porque existem resultados diferentes, implícitos em diferentes suposições iniciais. Pressupostos iniciais mais fracos podem justificar alguns dos resultados, mas você pode obter resultados mais fortes ao adicionar pressupostos mais fortes. As pessoas que não estão familiarizadas com a derivação matemática completa dos resultados geralmente podem entender mal as suposições necessárias para um resultado, seja colocando seu modelo muito fracamente para obter um resultado desejado ou apresentando algumas suposições desnecessárias na crença de que são necessárias para um resultado. .

Embora seja possível adicionar suposições mais fortes para obter resultados adicionais, a análise de regressão se preocupa com a distribuição condicional do vetor de resposta. Se um modelo vai além disso, entra no território da análise multivariada e não é estritamente (apenas) um modelo de regressão. A questão é ainda mais complicada pelo fato de ser comum referir-se a resultados distributivos em regressão sem sempre ter o cuidado de especificar que são distribuições condicionais (dadas as variáveis ​​explicativas na matriz de projeto). Nos casos em que os modelos vão além das distribuições condicionais (assumindo uma distribuição marginal para os vetores explicativos), o usuário deve ter o cuidado de especificar essa diferença; infelizmente as pessoas nem sempre são cuidadosas com isso.


Modelo de regressão linear homocedástico: O ponto de partida mais antigo que geralmente é usado é assumir a forma do modelo e os dois primeiros momentos de erro sem nenhuma suposição de normalidade:

Y=xβ+εE(ε|x)=0V(ε|x)I.

Essa configuração é suficiente para permitir que você obtenha o estimador OLS para os coeficientes, o estimador imparcial para a variação de erro, os resíduos e os momentos de todas essas quantidades aleatórias (condicional às variáveis ​​explicativas na matriz de projeto). Ele não permite que você obtenha a distribuição condicional completa dessas quantidades, mas permite apelar para distribuições assintóticas se for grande e algumas suposições adicionais forem colocadas no comportamento limitador de . Para ir além, é comum assumir uma forma distributiva específica para o vetor de erro.xnx

Erros normais: a maioria dos tratamentos do modelo de regressão linear homosquástico assume que o vetor de erro é normalmente distribuído, o que em combinação com as suposições de momento fornece:

ε|xN(0,σ2I).

Essa suposição adicional é suficiente para garantir que o estimador OLS para os coeficientes seja o MLE para o modelo e também significa que o estimador de coeficiente e os resíduos são normalmente distribuídos e o estimador para a variação de erro tem uma distribuição qui-quadrado em escala (todos dependente das variáveis ​​explicativas na matriz de projeto). Ele também garante que o vetor de resposta seja normalmente distribuído condicionalmente. Isso condiciona os resultados distributivos às variáveis ​​explicativas da análise, o que permite a construção de intervalos de confiança e testes de hipóteses. Se o analista deseja fazer descobertas sobre a distribuição marginal da resposta, ele precisa ir além e assumir uma distribuição para as variáveis ​​explicativas no modelo.

Variáveis ​​explicativas conjuntamente normais: Alguns tratamentos do modelo de regressão linear homoscedástica vão além dos tratamentos padrão e não condicionam variáveis ​​explicativas fixas. (Pode-se argumentar que essa é uma transição da modelagem de regressão para a análise multivariada.) O modelo mais comum desse tipo assume que os vetores explicativos são vetores aleatórios normais da articulação do IID. Permitindo que seja o ésimo vetor explicativo (a ésima linha da matriz de design) que temos: i iX(i)ii

X(1),...,X(n)IID N(μX,ΣX).

Essa suposição adicional é suficiente para garantir que o vetor de resposta seja marginalmente normalmente distribuído. Essa é uma suposição forte e geralmente não é imposta na maioria dos problemas. Como afirmado, isso leva o modelo para fora do território da modelagem de regressão e para a análise multivariada.

Restabelecer Monica
fonte
1
Achei muito esclarecedor o modo como você introduziu suposições mais fortes, uma a uma, e descreveu as implicações.
ColorStatistics