Fontes aparentemente respeitáveis afirmam que a variável dependente deve ser normalmente distribuída:
Pressupostos do modelo: é normalmente distribuído, erros são normalmente distribuídos, e independente, e é fixo e a variação constante .
Em segundo lugar, a análise de regressão linear exige que todas as variáveis sejam multivariadas normais.
Isso é apropriado quando a variável de resposta tem uma distribuição normal
Existe uma boa explicação para como ou por que esse equívoco se espalhou? Sua origem é conhecida?
X <- runif(n=100)
depoisY <- 3 + .5*X + rnorm(n=100, mean = 0, sd = .1)
brinque com histogramas para se convencer de que nem X nem Y são normalmente distribuídos. Entãosummary(lm(Y ~ X))
, preste muita atenção em quão próxima a interceptação está de 3 e a inclinação de X é de 0,5. A suposição é que os erros são normalmente distribuídos.Respostas:
'Y deve ser normalmente distribuído'
devo?
Nos casos em que você menciona que é uma linguagem desleixada (abreviando 'o erro em Y deve ser normalmente distribuído' ), mas eles realmente não dizem (fortemente) que a resposta deve ser normalmente distribuída ou, pelo menos, não parece me que suas palavras foram destinadas assim.
O material do curso da Penn State
ao explicar alguma variante do GLM (regressão logística binária),
em alguma definição
A página de estatísticas
é uma descrição extremamente breve, simplificada e estilizada. Não tenho certeza se você deve levar isso a sério. Por exemplo, fala sobre
então essa não é apenas a variável de resposta,
e também o descritor 'multivariado' é vago. Não sei como interpretar isso.
O artigo da wikipedia
tem um contexto adicional explicado entre colchetes:
A linha específica foi adicionada em 8 de março de 2012 , mas observe que a primeira linha do artigo da Wikipedia ainda lê "uma generalização flexível da regressão linear comum que permite variáveis de resposta que possuem modelos de distribuição de erro diferentes de uma distribuição normal" e não é muito (não em toda parte) errado.
Conclusão
Portanto, com base nesses três exemplos (que de fato poderiam gerar conceitos errôneos, ou pelo menos poderiam ser mal compreendidos), eu não diria que "esse equívoco se espalhou" . Ou pelo menos não me parece que a intenção desses três exemplos seja argumentar que Y deve ser normalmente distribuído (embora eu me lembre que esse problema tenha surgido antes aqui no stackexchange, a troca entre erros normalmente distribuídos e a variável de resposta normalmente distribuída é fácil de fazer).
Portanto, a suposição de que 'Y deve ser normalmente distribuído' não me parece uma crença / concepção errônea generalizada (como em algo que se espalha como um arenque vermelho), mas mais como um erro comum (que não é espalhado, mas feito de forma independente a cada vez) )
Comentário adicional
Um exemplo do erro neste site está na seguinte pergunta
E se os resíduos forem normalmente distribuídos, mas y não?
Eu consideraria isso uma pergunta para iniciantes. Ele não está presente em materiais como o material do curso da Penn State, o site da Wikipedia e recentemente observou nos comentários o livro 'Estendendo a Regressão Linear com R'.
Os escritores dessas obras compreendem corretamente o material. De fato, eles usam frases como 'Y deve ser normalmente distribuído', mas com base no contexto e nas fórmulas usadas, você pode ver que todos significam 'Y, condicional em X, deve ser normalmente distribuído' e não 'o marginal Y deve ser normalmente distribuído '. Eles não estão entendendo mal a ideia e, pelo menos, a idéia não é difundida entre estatísticos e pessoas que escrevem livros e outros materiais do curso. Mas interpretar mal suas palavras ambíguas pode realmente causar o equívoco.
fonte
Geralmente ensinamos aos alunos de graduação uma versão "simplificada" das estatísticas em muitas disciplinas. Eu estou na psicologia e, quando tento dizer aos alunos de graduação que os valores- p são "a probabilidade dos dados - ou dados mais extremos - considerando que a hipótese nula é verdadeira", os colegas me dizem que estou cobrindo mais detalhes do que preciso cobrir. Estou dificultando o que tem que ser, etc. Como os alunos nas aulas têm um conforto tão amplo (ou falta deles) com as estatísticas, os instrutores geralmente mantêm a simplicidade: "Consideramos que é um achado confiável se p <.05 ", por exemplo, em vez de fornecer a definição real de um valor- p .
Eu acho que é aqui que está a explicação para o motivo pelo qual o equívoco se espalhou. Por exemplo, você pode escrever o modelo como:
Isso pode ser reescrito como:
O que significa que "Y, condicional em X, é normalmente distribuído com uma média dos valores previstos e alguma variação".
Isso é difícil de explicar, portanto, como as pessoas de taquigrafia podem dizer: "Y deve ser normalmente distribuído". Ou quando lhes foi explicado originalmente, as pessoas não entenderam a parte condicional - já que é, honestamente, confusa.
Portanto, em um esforço para não tornar as coisas terrivelmente complicadas, os instrutores apenas simplificam o que estão dizendo para não confundir demais a maioria dos alunos. E então as pessoas continuam sua educação estatística ou prática estatística com esse equívoco. Eu mesmo não entendi completamente o conceito até começar a modelagem bayesiana em Stan, o que exige que você escreva suas suposições desta maneira:
Além disso, em muitos pacotes estatísticos com uma GUI (olhando para você, SPSS), é mais fácil verificar se a distribuição marginal é normalmente distribuída (histograma simples) do que verificar se os resíduos são normalmente distribuídos (regressão de execução, salvar resíduos, execute o histograma nesses resíduos).
Portanto, acho que o equívoco se deve principalmente aos instrutores que tentam cortar detalhes para impedir que os alunos fiquem confusos, genuínos - e compreensíveis - entre as pessoas aprendendo da maneira correta, e ambos reforçados pela facilidade de verificar a normalidade marginal na escola. pacotes estatísticos mais amigáveis.
fonte
A análise de regressão é difícil para iniciantes, porque existem resultados diferentes, implícitos em diferentes suposições iniciais. Pressupostos iniciais mais fracos podem justificar alguns dos resultados, mas você pode obter resultados mais fortes ao adicionar pressupostos mais fortes. As pessoas que não estão familiarizadas com a derivação matemática completa dos resultados geralmente podem entender mal as suposições necessárias para um resultado, seja colocando seu modelo muito fracamente para obter um resultado desejado ou apresentando algumas suposições desnecessárias na crença de que são necessárias para um resultado. .
Embora seja possível adicionar suposições mais fortes para obter resultados adicionais, a análise de regressão se preocupa com a distribuição condicional do vetor de resposta. Se um modelo vai além disso, entra no território da análise multivariada e não é estritamente (apenas) um modelo de regressão. A questão é ainda mais complicada pelo fato de ser comum referir-se a resultados distributivos em regressão sem sempre ter o cuidado de especificar que são distribuições condicionais (dadas as variáveis explicativas na matriz de projeto). Nos casos em que os modelos vão além das distribuições condicionais (assumindo uma distribuição marginal para os vetores explicativos), o usuário deve ter o cuidado de especificar essa diferença; infelizmente as pessoas nem sempre são cuidadosas com isso.
Modelo de regressão linear homocedástico: O ponto de partida mais antigo que geralmente é usado é assumir a forma do modelo e os dois primeiros momentos de erro sem nenhuma suposição de normalidade:
Essa configuração é suficiente para permitir que você obtenha o estimador OLS para os coeficientes, o estimador imparcial para a variação de erro, os resíduos e os momentos de todas essas quantidades aleatórias (condicional às variáveis explicativas na matriz de projeto). Ele não permite que você obtenha a distribuição condicional completa dessas quantidades, mas permite apelar para distribuições assintóticas se for grande e algumas suposições adicionais forem colocadas no comportamento limitador de . Para ir além, é comum assumir uma forma distributiva específica para o vetor de erro.xn x
Erros normais: a maioria dos tratamentos do modelo de regressão linear homosquástico assume que o vetor de erro é normalmente distribuído, o que em combinação com as suposições de momento fornece:
Essa suposição adicional é suficiente para garantir que o estimador OLS para os coeficientes seja o MLE para o modelo e também significa que o estimador de coeficiente e os resíduos são normalmente distribuídos e o estimador para a variação de erro tem uma distribuição qui-quadrado em escala (todos dependente das variáveis explicativas na matriz de projeto). Ele também garante que o vetor de resposta seja normalmente distribuído condicionalmente. Isso condiciona os resultados distributivos às variáveis explicativas da análise, o que permite a construção de intervalos de confiança e testes de hipóteses. Se o analista deseja fazer descobertas sobre a distribuição marginal da resposta, ele precisa ir além e assumir uma distribuição para as variáveis explicativas no modelo.
Variáveis explicativas conjuntamente normais: Alguns tratamentos do modelo de regressão linear homoscedástica vão além dos tratamentos padrão e não condicionam variáveis explicativas fixas. (Pode-se argumentar que essa é uma transição da modelagem de regressão para a análise multivariada.) O modelo mais comum desse tipo assume que os vetores explicativos são vetores aleatórios normais da articulação do IID. Permitindo que seja o ésimo vetor explicativo (a ésima linha da matriz de design) que temos: i iX(i) i i
Essa suposição adicional é suficiente para garantir que o vetor de resposta seja marginalmente normalmente distribuído. Essa é uma suposição forte e geralmente não é imposta na maioria dos problemas. Como afirmado, isso leva o modelo para fora do território da modelagem de regressão e para a análise multivariada.
fonte