Na regressão linear, fazemos as seguintes suposições
Uma das maneiras pelas quais podemos resolver a regressão linear é através de equações normais, que podemos escrever como
Do ponto de vista matemático, a equação acima só precisa que seja invertível. Então, por que precisamos dessas suposições? Perguntei a alguns colegas e eles mencionaram que é para obter bons resultados e as equações normais são um algoritmo para conseguir isso. Mas, nesse caso, como essas suposições ajudam? Como defendê-los ajuda a obter um modelo melhor?
regression
assumptions
Clock Slave
fonte
fonte
Respostas:
Você está correto - não é necessário satisfazer essas suposições para ajustar uma linha de mínimos quadrados aos pontos. Você precisa dessas suposições para interpretar os resultados. Por exemplo, supondo que não houvesse relação entre uma entrada e , qual é a probabilidade de obter um coeficiente pelo menos tão grande quanto o que vimos na regressão?X1 Y β1
fonte
Experimente a imagem do quarteto de Anscombe da Wikipedia para ter uma idéia de alguns dos possíveis problemas com a interpretação da regressão linear quando algumas dessas suposições são claramente falsas: a maioria das estatísticas descritivas básicas é a mesma em todas as quatro (e os valores individuais de são idêntico em todos, exceto no canto inferior direito)xi
fonte
Você não precisa dessas suposições para ajustar-se a um modelo linear. No entanto, suas estimativas de parâmetros podem ser tendenciosas ou não ter a variação mínima. Violar as suposições tornará mais difícil interpretar os resultados da regressão, por exemplo, construindo um intervalo de confiança.
fonte
Ok, as respostas até agora são assim: se violarmos as suposições, coisas ruins podem acontecer. Acredito que a direção interessante é: quando todas as premissas de que precisamos (na verdade um pouco diferentes das anteriores) são atendidas, por que e como podemos ter certeza de que a regressão linear é o melhor modelo?
Penso que a resposta para essa pergunta é a seguinte: se fizermos as suposições como na resposta dessa pergunta , podemos calcular a densidade condicional . A partir disso, podemos calcular (a fatoração da expectativa condicional em ) e ver que é de fato a função de regressão linear. Em seguida, usamos isso para verificar se essa é a melhor função em relação ao risco real.p(yi|xi) E[Yi|Xi=xi] xi
fonte
As duas principais premissas são
Veja A discussão no livro de Julian Faraway .
Se ambos são verdadeiros, o OLS é surpreendentemente resistente a violações nas outras suposições listadas.
fonte