Pressupostos da regressão linear

7

Em termos simples, quais são os pressupostos da regressão linear?

Eu só quero saber quando posso aplicar um modelo de regressão linear ao nosso conjunto de dados.

Anvay Joshi
fonte
você pode marcar a resposta aceita, se ela for boa o suficiente para você. Está aqui há algum tempo e você ainda não o marcou.
TwinPenguins

Respostas:

14

Existem três premissas principais (estatisticamente falando estatisticamente):

  1. Existe uma relação linear entre as variáveis ​​dependentes e os regressores (figura abaixo), o que significa que o modelo que você está criando realmente se ajusta aos dados. insira a descrição da imagem aqui

  2. Os erros ou resíduos dos dados são normalmente distribuídos e independentes um do outro. insira a descrição da imagem aqui

  3. Homocedasticidade. Isso significa que a variação em torno da linha de regressão é a mesma para todos os valores da variável preditora. insira a descrição da imagem aqui

Atualização 2: A multicolinearidade não é uma suposição, mas sim uma verificação de sanidade, especialmente se a interpretabilidade do modelo for importante (obrigado Ricardo Cruz pelo comentário). A multicolinearidade ocorre quando as variáveis ​​independentes não são independentes uma da outra. Multicolinearidade entre variáveis ​​explicativas que podem levar a ajustes de parâmetros menos estáveis ​​(obrigado KT. Por apontar isso)). Existem testes como matriz de correlação (correlação bivariada de Pearson), fator de inflação de variância que podem ser usados ​​para verificar isso.

TwinPenguins
fonte
11
A rigor, 3 não é uma suposição direta do modelo. No entanto, pode ser um incômodo, pois a colinearidade das entradas leva a ajustes de parâmetros menos estáveis.
KT.
Não poderia concordar mais!
TwinPenguins
Em seguida, você pode reunir 2. e 4. em uma única declaração simples de que "os erros são independentes da entrada, e são variáveis ​​aleatórias normais". Isso deixa duas suposições, que correspondem exatamente à fórmula probabilística do modelo linear.
KT.
11
"o que pode levar a ajustes de parâmetros menos estáveis" - para os novatos, vocês devem adicionar que isso é apenas uma preocupação se você deseja interpretar os parâmetros. Só porque os parâmetros não são estáveis, isso não significa que o modelo em si não seja estável e que suas previsões sejam imprecisas. Muitas pessoas estão preocupadas apenas com previsibilidade, não interpretabilidade, caso em que a multicolinearidade não é uma preocupação.
Ricardo Cruz
Você pode explicar Homoscedasticityum pouco melhor com um exemplo? Não está claro. Você marcou uma de minhas perguntas como uma duplicata, na qual eu estava procurando uma melhor visualização dela. Você pode explicar?
Sai Kumar