Por que essas tabelas de regressão anova são idênticas?

11

Eu tenho duas regressões do mesmo Y e X de três níveis. No geral n = 15, com n = 5 em cada grupo ou nível de X. A primeira regressão trata o X como categórico, atribuindo variáveis ​​indicadoras aos níveis 2 e 3 com o nível um sendo a referência. Os indicadores / manequins são assim: X1 = 1 se nível = 2, 0 se não X2 = 1 se nível = 3, 0 se não

Como resultado, meu modelo ajustado é mais ou menos assim: y = b0 + b1 (x1) + b2 (x2)

Eu executo a regressão e a saída inclui esta tabela de Análise de variância:

tabela

O restante da produção é irrelevante aqui.

Ok, então agora eu corro uma regressão diferente nos mesmos dados. Afasto a análise categórica e trato X como contínuo, mas adiciono uma variável à equação: X ^ 2, o quadrado de X. Então agora tenho o seguinte modelo: y = b0 + b1 (X) + b2 (X) ^ 2

Se eu executá-lo, ele cospe a mesma tabela exata de Análise de Variância que mostrei acima. Por que essas duas regressões dão origem às mesmas tabelas?

[O crédito por este pequeno dilema é dado a Thomas Belin no Departamento de Bioestatística da Universidade da Califórnia em Los Angeles.]

logjammin
fonte
Acho que você terá que nos mostrar o código que "faz a regressão" e, possivelmente, a etapa de dados (parece-me a saída SAS) que você usa para criar a tabela de dados na qual está operando.
Brad S.
1
@ Brad, não acho que seja necessário: a situação está claramente descrita e não é necessária mais informação para explicar o que está acontecendo.
whuber
@whuber Talvez. Eu acho, se você diz, mas parece um erro de programação para mim. Aguardo a sua resposta.
Brad S.
1
@ Brad Não é um erro de programação: postei minha explicação. É uma boa pergunta, com interesse estatístico genuíno (e aplicabilidade).
whuber
Ei, Brad, na verdade, é de um conjunto de problemas - a situação foi dada a mim da mesma maneira que eu dei a vocês, e a pergunta meio que colocou da mesma maneira: "por que eles seriam a mesma coisa?". É exatamente como eu expus: dois modelos, as mesmas tabelas ANOVA, o restante dos resultados nem sequer foram fornecidos (eu deveria ter deixado isso claro em vez de dizer "irrelevante").
logjammin 6/12/19

Respostas:

22

Em termos de matriz, seus modelos estão na forma usual . E[Y]=Xβ

O primeiro modelo representa um elemento do primeiro grupo pela linha em , correspondente à interceptação, o indicador para a categoria 2 e o indicador para a categoria 3. Representa um elemento do segundo grupo por a linha e um elemento do terceiro grupo por .(1,0,0)X(1,1,0)(1,0,1)

O segundo modelo usa linhas , e , respectivamente.(1,1,12)=(1,1,1)(1,2,22)=(1,2,4)(1,3,32)=(1,3,9)

Vamos chamar as matrizes de modelo resultantes e . Eles estão simplesmente relacionados: as colunas de um são combinações lineares das colunas do outro. Por exemplo, deixeX1X2

V=(111013028).

Então desde

(100110101)V=(111124139),

segue que

X1V=X2.

Os modelos em si são, portanto, relacionados por

X1β1=E[Y]=X2β2=(X1V)β2=X1(Vβ2).

Ou seja, os coeficientes para o segundo modelo devem estar relacionados aos do primeiro modelo viaβ2

β1=Vβ2.

Portanto, o mesmo relacionamento vale para suas estimativas de mínimos quadrados. Isso mostra que os modelos têm ajustes idênticos : eles apenas os expressam de maneira diferente.

Como as primeiras colunas das duas matrizes de modelo são iguais, qualquer tabela ANOVA que decompõe a variação entre a primeira coluna e as colunas restantes não será alterada. Uma tabela ANOVA que distingue entre a segunda e a terceira coluna, no entanto, dependerá de como os dados são codificados.

Geometricamente (e um pouco mais abstratamente), o subespaço tridimensional de gerado pelas colunas de coincide com o subespaço gerado pelas colunas de . Portanto, os modelos terão ajustes idênticos. Os ajustes são expressos de maneira diferente apenas porque os espaços são descritos com duas bases diferentes. X 1 X 2R15X1X2


Para ilustrar, são aqui dados como a sua (mas com diferentes respostas) e as análises correspondentes como gerados no R.

set.seed(17)
D <- data.frame(group=rep(1:3, each=5), y=rnorm(3*5, rep(1:3, each=5), sd=2))

Encaixe os dois modelos:

fit.1 <- lm(y ~ factor(group), D)
fit.2 <- lm(y ~ group + I(group^2), D)

Exiba suas tabelas ANOVA:

anova(fit.1)
anova(fit.2)

A saída para o primeiro modelo é

              Df Sum Sq Mean Sq F value   Pr(>F)    
factor(group)  2 51.836  25.918  14.471 0.000634 ***
Residuals     12 21.492   1.791 

Para o segundo modelo, é

           Df Sum Sq Mean Sq F value    Pr(>F)    
group       1 50.816  50.816 28.3726 0.0001803 ***
I(group^2)  1  1.020   1.020  0.5694 0.4650488    
Residuals  12 21.492   1.791  

Você pode ver que as somas residuais de quadrados são as mesmas. Adicionando as duas primeiras linhas no segundo modelo, você obterá o mesmo DF e a soma dos quadrados, a partir dos quais o mesmo quadrado médio, valor F e valor p podem ser calculados.

Por fim, vamos comparar as estimativas do coeficiente.

beta.1.hat <- coef(fit.1)
beta.2.hat <- coef(fit.2)

A saída é

(Intercept) factor(group)2 factor(group)3 
  0.4508762      2.8073697      4.5084944 

(Intercept)       group  I(group^2) 
 -3.4627385   4.4667371  -0.5531225 

Até as interceptações são completamente diferentes. Isso ocorre porque as estimativas de qualquer variável em uma regressão múltipla dependem das estimativas de todas as outras variáveis ​​(a menos que sejam todas mutuamente ortogonais, o que não é o caso de nenhum dos modelos). No entanto, observe o que a multiplicação por realiza:V

(111013028)(3.46273854.46673710.5531225)=(0.45087622.80736974.5084944).

Os ajustes são realmente os mesmos, conforme reivindicado.

whuber
fonte
6
Caramba, cara. Eu nunca recebi uma resposta mais completa e completa ao fazer uma pergunta à Internet. Obrigado x1000, a sério.
logjammin
Bem vindo ao nosso site! Espero que você continue usando e aguarde suas contribuições.
whuber
1
Eu aprendi algo hoje! (upvoted)
Brad S.
Resposta incrível. Mente explodida!
Kdarps
5

Resumidamente, ambos os modelos estão saturados no sentido de fornecer previsões empíricas únicas da resposta em todos os três níveis de X. Pode ser óbvio para a variável de fator que codifica no modelo 1. Para uma tendência quadrática, é interessante notar que um fórmula quadrática pode interpolar quaisquer 3 pontos. Embora os contrastes sejam diferentes, em ambos os modelos, o teste global contra um modelo nulo de interceptação fornece inferência idêntica.

AdamO
fonte