Na regressão linear, presume-se que cada valor previsto tenha sido escolhido a partir de uma distribuição normal de valores possíveis. Ver abaixo.
Mas por que se supõe que cada valor previsto provém de uma distribuição normal? Como a regressão linear usa essa suposição? E se os valores possíveis não forem normalmente distribuídos?
Respostas:
A regressão linear por si só não precisa da suposição normal (gaussiana), os estimadores podem ser calculados (por mínimos quadrados lineares) sem qualquer necessidade dessa suposição, e faz todo o sentido sem ela.
Mas então, como estatísticos, queremos entender algumas das propriedades desse método, respostas a perguntas como: os estimadores de mínimos quadrados são ótimos em algum sentido? ou podemos fazer melhor com alguns avaliadores alternativos? Então, sob a distribuição normal dos termos de erro, podemos mostrar que esses estimadores são, de fato, ótimos, por exemplo, são "isentos de variação mínima" ou máxima verossimilhança. Nada disso pode ser provado sem a suposição normal.
Além disso, se queremos construir (e analisar propriedades de) intervalos de confiança ou testes de hipóteses, usamos a suposição normal. Mas, em vez disso, poderíamos construir intervalos de confiança por outros meios, como o bootstrap. Então, não usamos a suposição normal, mas, infelizmente, sem isso, poderíamos usar outros estimadores que não os mínimos quadrados, talvez alguns estimadores robustos?
Na prática, é claro, a distribuição normal é no máximo uma ficção conveniente. Portanto, a questão realmente importante é: quão próximo da normalidade precisamos estar para reivindicar o uso dos resultados mencionados acima? Essa é uma pergunta muito mais complicada! Os resultados de otimização não são robustos , portanto, mesmo um desvio muito pequeno da normalidade pode destruir a otimização. Esse é um argumento a favor de métodos robustos. Para outra abordagem a essa pergunta, consulte minha resposta para Por que devemos usar erros t em vez de erros normais?
Outra questão relevante é Por que a normalidade dos resíduos é "pouco importante" com o objetivo de estimar a linha de regressão?
Essa resposta levou a uma grande discussão nos comentários, que novamente levou à minha nova pergunta: Regressão linear: qualquer distribuição não normal dando identidade ao OLS e MLE? que agora finalmente obteve (três) respostas, dando exemplos em que distribuições não normais levam a estimadores de mínimos quadrados.
fonte
Esta discussão E se os resíduos forem normalmente distribuídos, mas y não for?abordou bem esta questão.
Em resumo, para um problema de regressão, assumimos apenas que a resposta é normal condicionada ao valor de x. Não é necessário que as variáveis independentes ou de resposta sejam independentes.
fonte
Não há motivo profundo para isso, e você é livre para alterar as premissas distributivas, mudar para GLMs ou para uma regressão robusta. O LM (distribuição normal) é popular porque é fácil de calcular, bastante estável e os resíduos são, na prática, geralmente mais ou menos normais.
Como qualquer regressão, o modelo linear (= regressão com erro normal) procura os parâmetros que otimizam a probabilidade para a suposição distributiva fornecida. Veja aqui um exemplo de cálculo explícito da probabilidade de um modelo linear. Se você considerar a probabilidade de log de um modelo linear, ele será proporcional à soma dos quadrados, e a otimização disso poderá ser calculada de maneira bastante conveniente.
Se você deseja ajustar um modelo com diferentes distribuições, as próximas etapas do livro serão modelos lineares generalizados (GLM), que oferecem diferentes distribuições ou modelos lineares gerais, que ainda são normais, mas relaxam a independência. Muitas outras opções são possíveis. Se você apenas deseja reduzir o efeito de valores discrepantes, pode, por exemplo, considerar uma regressão robusta.
fonte
Depois de revisar a pergunta novamente, acho que não há razão para usar a distribuição normal, a menos que você queira fazer algum tipo de inferência sobre o parâmetro de regressão. E você pode aplicar a regressão linear e ignorar a distribuição do termo de ruído.
fonte
fonte