Eu tenho duas regressões do mesmo Y e X de três níveis. No geral n = 15, com n = 5 em cada grupo ou nível de X. A primeira regressão trata o X como categórico, atribuindo variáveis indicadoras aos níveis 2 e 3 com o nível um sendo a referência. Os indicadores / manequins são assim: X1 = 1 se nível = 2, 0 se não X2 = 1 se nível = 3, 0 se não
Como resultado, meu modelo ajustado é mais ou menos assim: y = b0 + b1 (x1) + b2 (x2)
Eu executo a regressão e a saída inclui esta tabela de Análise de variância:
O restante da produção é irrelevante aqui.
Ok, então agora eu corro uma regressão diferente nos mesmos dados. Afasto a análise categórica e trato X como contínuo, mas adiciono uma variável à equação: X ^ 2, o quadrado de X. Então agora tenho o seguinte modelo: y = b0 + b1 (X) + b2 (X) ^ 2
Se eu executá-lo, ele cospe a mesma tabela exata de Análise de Variância que mostrei acima. Por que essas duas regressões dão origem às mesmas tabelas?
[O crédito por este pequeno dilema é dado a Thomas Belin no Departamento de Bioestatística da Universidade da Califórnia em Los Angeles.]
fonte
Respostas:
Em termos de matriz, seus modelos estão na forma usual .E[Y]=Xβ
O primeiro modelo representa um elemento do primeiro grupo pela linha em , correspondente à interceptação, o indicador para a categoria 2 e o indicador para a categoria 3. Representa um elemento do segundo grupo por a linha e um elemento do terceiro grupo por .(1,0,0) X (1,1,0) (1,0,1)
O segundo modelo usa linhas , e , respectivamente.(1,1,12)=(1,1,1) (1,2,22)=(1,2,4) (1,3,32)=(1,3,9)
Vamos chamar as matrizes de modelo resultantes e . Eles estão simplesmente relacionados: as colunas de um são combinações lineares das colunas do outro. Por exemplo, deixeX1 X2
Então desde
segue que
Os modelos em si são, portanto, relacionados por
Ou seja, os coeficientes para o segundo modelo devem estar relacionados aos do primeiro modelo viaβ2
Portanto, o mesmo relacionamento vale para suas estimativas de mínimos quadrados. Isso mostra que os modelos têm ajustes idênticos : eles apenas os expressam de maneira diferente.
Como as primeiras colunas das duas matrizes de modelo são iguais, qualquer tabela ANOVA que decompõe a variação entre a primeira coluna e as colunas restantes não será alterada. Uma tabela ANOVA que distingue entre a segunda e a terceira coluna, no entanto, dependerá de como os dados são codificados.
Geometricamente (e um pouco mais abstratamente), o subespaço tridimensional de gerado pelas colunas de coincide com o subespaço gerado pelas colunas de . Portanto, os modelos terão ajustes idênticos. Os ajustes são expressos de maneira diferente apenas porque os espaços são descritos com duas bases diferentes. X 1 X 2R15 X1 X2
Para ilustrar, são aqui dados como a sua (mas com diferentes respostas) e as análises correspondentes como gerados no
R
.Encaixe os dois modelos:
Exiba suas tabelas ANOVA:
A saída para o primeiro modelo é
Para o segundo modelo, é
Você pode ver que as somas residuais de quadrados são as mesmas. Adicionando as duas primeiras linhas no segundo modelo, você obterá o mesmo DF e a soma dos quadrados, a partir dos quais o mesmo quadrado médio, valor F e valor p podem ser calculados.
Por fim, vamos comparar as estimativas do coeficiente.
A saída é
Até as interceptações são completamente diferentes. Isso ocorre porque as estimativas de qualquer variável em uma regressão múltipla dependem das estimativas de todas as outras variáveis (a menos que sejam todas mutuamente ortogonais, o que não é o caso de nenhum dos modelos). No entanto, observe o que a multiplicação por realiza:V
Os ajustes são realmente os mesmos, conforme reivindicado.
fonte
Resumidamente, ambos os modelos estão saturados no sentido de fornecer previsões empíricas únicas da resposta em todos os três níveis de X. Pode ser óbvio para a variável de fator que codifica no modelo 1. Para uma tendência quadrática, é interessante notar que um fórmula quadrática pode interpolar quaisquer 3 pontos. Embora os contrastes sejam diferentes, em ambos os modelos, o teste global contra um modelo nulo de interceptação fornece inferência idêntica.
fonte