Como a regressão linear usa a distribuição normal?

26

Na regressão linear, presume-se que cada valor previsto tenha sido escolhido a partir de uma distribuição normal de valores possíveis. Ver abaixo.

Mas por que se supõe que cada valor previsto provém de uma distribuição normal? Como a regressão linear usa essa suposição? E se os valores possíveis não forem normalmente distribuídos?

insira a descrição da imagem aqui

luciano
fonte
2
Somente os erros seguem uma distribuição normal (o que implica que a probabilidade condicional de Y, dado que X também é normal). Provavelmente isso é tradicional devido a razões relacionadas ao teorema do limite central. Mas você pode substituir o normal por qualquer distribuição de probabilidade simétrica e obter as mesmas estimativas de coeficientes por meio de mínimos quadrados. O que difere, porém, seria o erro padrão residual, a qualidade do ajuste e a maneira como você valida as suposições.
Kian
4
As premissas normais entram principalmente em inferência - teste de hipóteses, ICs, PIs. Se você fizer suposições diferentes, elas serão diferentes, pelo menos em pequenas amostras.
Glen_b -Reinstala Monica
7
Aliás, para regressão linear comum, seu diagrama deve desenhar as curvas normais na vertical, e não na diagonal.
Glen_b -Reinstala Monica

Respostas:

29

A regressão linear por si só não precisa da suposição normal (gaussiana), os estimadores podem ser calculados (por mínimos quadrados lineares) sem qualquer necessidade dessa suposição, e faz todo o sentido sem ela.

Mas então, como estatísticos, queremos entender algumas das propriedades desse método, respostas a perguntas como: os estimadores de mínimos quadrados são ótimos em algum sentido? ou podemos fazer melhor com alguns avaliadores alternativos? Então, sob a distribuição normal dos termos de erro, podemos mostrar que esses estimadores são, de fato, ótimos, por exemplo, são "isentos de variação mínima" ou máxima verossimilhança. Nada disso pode ser provado sem a suposição normal.

Além disso, se queremos construir (e analisar propriedades de) intervalos de confiança ou testes de hipóteses, usamos a suposição normal. Mas, em vez disso, poderíamos construir intervalos de confiança por outros meios, como o bootstrap. Então, não usamos a suposição normal, mas, infelizmente, sem isso, poderíamos usar outros estimadores que não os mínimos quadrados, talvez alguns estimadores robustos?

Na prática, é claro, a distribuição normal é no máximo uma ficção conveniente. Portanto, a questão realmente importante é: quão próximo da normalidade precisamos estar para reivindicar o uso dos resultados mencionados acima? Essa é uma pergunta muito mais complicada! Os resultados de otimização não são robustos , portanto, mesmo um desvio muito pequeno da normalidade pode destruir a otimização. Esse é um argumento a favor de métodos robustos. Para outra abordagem a essa pergunta, consulte minha resposta para Por que devemos usar erros t em vez de erros normais?

Outra questão relevante é Por que a normalidade dos resíduos é "pouco importante" com o objetivo de estimar a linha de regressão?

 EDIT

Essa resposta levou a uma grande discussão nos comentários, que novamente levou à minha nova pergunta: Regressão linear: qualquer distribuição não normal dando identidade ao OLS e MLE? que agora finalmente obteve (três) respostas, dando exemplos em que distribuições não normais levam a estimadores de mínimos quadrados.

kjetil b halvorsen
fonte
O erro dos mínimos quadrados é equivalente a uma suposição normal.
Neil G
4
Não existe essa contradição. Por exemplo, o teorema de Gauss-Markov diz que os mínimos quadrados lineares são ótimos (em menor sentido de variância) entre todos os estimadores lineares, sem a necessidade de suposições distributivas (além da variação existente). Os mínimos quadrados são um procedimento numérico que pode ser definido independentemente de qualquer modelo probabilístico! O modelo probabilístico é então usado para analisar este procedimento de uma perspectiva estatística.
Kjetil b halvorsen
2
@NeilG Certamente, o MLE para o normal é de mínimos quadrados, mas isso não implica que os mínimos quadrados devam implicar uma suposição de normalidade. Por outro lado, grandes desvios da normalidade podem fazer com que os mínimos quadrados sejam uma má escolha (quando todos os estimadores lineares são ruins).
Glen_b -Reinstala Monica
11
@ NeilG O que eu disse não implica, de forma alguma, equivalência de LS e normalidade, mas você diz explicitamente que eles são equivalentes, então eu realmente não acho que nossas duas afirmações sejam quase tautológicas.
Glen_b -Reinstala Monica
11
@ Neil Você pode mostrar como sua declaração realmente implica o que eu disse? Eu realmente não vejo isso.
Glen_b -Reinstate Monica
3

Esta discussão E se os resíduos forem normalmente distribuídos, mas y não for?abordou bem esta questão.

Em resumo, para um problema de regressão, assumimos apenas que a resposta é normal condicionada ao valor de x. Não é necessário que as variáveis ​​independentes ou de resposta sejam independentes.

enaJ
fonte
1
  1. Mas por que se supõe que cada valor previsto provém de uma distribuição normal?

Não há motivo profundo para isso, e você é livre para alterar as premissas distributivas, mudar para GLMs ou para uma regressão robusta. O LM (distribuição normal) é popular porque é fácil de calcular, bastante estável e os resíduos são, na prática, geralmente mais ou menos normais.

  1. Como a regressão linear usa essa suposição?

Como qualquer regressão, o modelo linear (= regressão com erro normal) procura os parâmetros que otimizam a probabilidade para a suposição distributiva fornecida. Veja aqui um exemplo de cálculo explícito da probabilidade de um modelo linear. Se você considerar a probabilidade de log de um modelo linear, ele será proporcional à soma dos quadrados, e a otimização disso poderá ser calculada de maneira bastante conveniente.

  1. E se os valores possíveis não forem normalmente distribuídos?

Se você deseja ajustar um modelo com diferentes distribuições, as próximas etapas do livro serão modelos lineares generalizados (GLM), que oferecem diferentes distribuições ou modelos lineares gerais, que ainda são normais, mas relaxam a independência. Muitas outras opções são possíveis. Se você apenas deseja reduzir o efeito de valores discrepantes, pode, por exemplo, considerar uma regressão robusta.

Florian Hartig
fonte
0

Depois de revisar a pergunta novamente, acho que não há razão para usar a distribuição normal, a menos que você queira fazer algum tipo de inferência sobre o parâmetro de regressão. E você pode aplicar a regressão linear e ignorar a distribuição do termo de ruído.

Yu Zhang
fonte
2
Não faz muito sentido para mim.
SmallChess
0

(xi,yi)y=βx+cβi(yiiβxic)2ηi=yi(βxi+c)ββββé zero. Portanto, as estatísticas surgem como informações sobre a precisão da estimativa pontualβ

aginensky
fonte