O que a fórmula y ~ x + 0 em R realmente calcula?

11

Qual é a diferença estatística entre fazer uma regressão linear em R com o formulaconjunto para em y ~ x + 0vez de y ~ x? Como interpreto esses dois resultados diferentes?

JimBoy
fonte

Respostas:

18

Adicionar +0(ou -1) a uma fórmula de modelo (por exemplo, in lm()) em R suprime a interceptação. Isso geralmente é considerado uma coisa ruim a se fazer; Vejo:

A inclinação estimada é calculada de maneira diferente, dependendo se a interceptação também é estimada, a saber:

(com interceptação)β^1 1=xEuyEu-(xEu)(yEu)NxEu2-(xEu)2N(sem interceptação)β^1 1=xEuyEuxEu2

Como a quantidade a ser subtraída (o "subtraendo") no numerador e no denominador não é necessariamente , a estimativa da inclinação é enviesada quando a interceptação é suprimida. 0 0

O valor para também é calculado de maneira diferente; Vejo: R2

Aqui estão as fórmulas subjacentes:

(com interceptação)R2=1 1-(yEu-y^Eu)2(yEu-y¯)2(sem interceptação)R2=1 1-(yEu-y^Eu)2yEu2
- Reinstate Monica
fonte
Obrigado, gung! Se eu suprimir o Intercepto, meus múltiplos R ao quadrado melhoram, de repente. Você pode me ajudar aqui?
Jimboy
6
Não existe uma maneira acordada de calcular r ao quadrado sem interceptar. OR ao quadrado não tem sua interpretação usual. Fazendo regressão sem uma interceptação é quase sempre uma idéia muito ruim
Repmat
5

Depende do contexto (é claro), no lm(...)comando em R suprimirá a interceptação. Ou seja, você faz regressão através da origem.

Observe que a maioria dos livros sobre o assunto da regressão dirá que forçar a interceptação (a qualquer valor) é uma má idéia.

A interpretação de x não muda, mas o valor (comparando com e sem interceptação) muda, às vezes de maneira muito significativa.

Repmat
fonte
Obrigado, Repmat! Recebo estimativas muito diferentes se suprimir a interceptação em comparação com quando não o faço. Além disso, todos os testes t se tornam altamente significativos. Você sabe por que isso é?
Jimboy
2
A interceptação absorverá quaisquer variáveis ​​que não sejam 0 não contidas no modelo. Sem a interceptação, a variação precisa ir a algum lugar. É por isso que a maioria dos livros, como regra geral, afirma que a regressão sem interceptação está sempre errada. Ou seja, o OLS é sempre tendencioso e consistente nesse caso (com algumas exceções).
Repmat