Comparando dois modelos de regressão linear

12

Gostaria de comparar dois modelos de regressão linear que representam taxas de degradação de um mRNA ao longo do tempo sob duas condições diferentes. Os dados para cada modelo coletados independentemente.

Aqui está o conjunto de dados.

Log de tempo (horas) (tratamento A) log (tratamento B)
0 2,02 1,97
0 2,04 2,06
0 1,93 1,96
2 2,02 1,91
2 2,00 1,95
2 2,07 1,82
4 1,96 1,97
4 2,02 1,99
4 2,02 1,99
6 1,94 1,90
6 1,94 1,97
6 1,86 1,88
8 1,93 1,97
8 2,12 1,99
8 2,06 1,93
12 1,71 1,70
12 1,96 1,73
12 1,71 1,76
24 1,70 1,46
24 1,83 1,41
24 1,62 1,42

Estes são os meus modelos:

Exp1.A.lm<-lm(Exp1$Time~Exp1$(Treatment A))
Exp1.B.lm<-lm(Exp1$Time~Exp1$(Treatment B))
Ligar:
lm (fórmula = Exp1 $ Tempo ~ Exp1 $ (Tratamento A))

Residuais:
    Mín. 1T Mediana 3T Max 
-6,8950 -1,2322 0,2862 1,2494 5,2494 

Coeficientes:
                   Estimativa Std. Erro t valor Pr (> | t |)    
(Interceptação) 74,68 6,27 11,91 2,94e-10 ***
Exp1 $ (Tratamento A) -36,14 3,38 -10,69 1,77e-09 ***
---
Signif. códigos: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1

Erro padrão residual: 2,97 em 19 graus de liberdade
R-quadrado múltiplo: 0,8575, R-quadrado ajustado: 0,85 
Estatística F: 114,3 em 1 e 19 DF, valor de p: 1.772e-09

Ligar:
lm (fórmula = Exp1 $ Tempo ~ Exp1 $ (Tratamento B))

Residuais:
   Mín. 1T Mediana 3T Max 
-7,861 -3,278 -1,444 3,222 11,972 

Coeficientes:
                      Estimativa Std. Erro t valor Pr (> | t |)    
(Interceptação) 88.281 16.114 5.478 2,76e-05 ***
Exp1 $ (Tratamento B) -41,668 8,343 -4,994 8,05e-05 ***
---
Signif. códigos: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1

Erro padrão residual: 5.173 em 19 graus de liberdade
R-quadrado múltiplo: 0,5676, R-quadrado ajustado: 0,5449 
Estatística F: 24,94 em 1 e 19 DF, valor de p: 8.052e-05

Para comparar esses dois modelos, usei o seguinte código.

anova(Exp1.A.lm,Exp1.B.lm)
Tabela de Análise de Variância

Modelo 1: Exp1 $ Time ~ Exp1 $ Exp1 $ (Tratamento A)
Modelo 2: Exp1 $ Time ~ Exp1 $ Exp1 $ (Tratamento B)
  Res.Df RSS Df Soma de pés quadrados Pr (> F)
1 19 167,60                      
2 19 508,48 0 -340,88

Minha pergunta é por que a análise ANOVA não mostra uma estatística F e um p.val. Peço desculpas se esta é uma pergunta ingênua.

Com base em diferentes inclinações, a taxa de degradação é diferente nesses dois modelos, mas eu gostaria de saber o quão estatisticamente significativa é essa diferença. Espero que isso faça sentido.

Rooz
fonte
2
Você pode perceber que a tabela ANOVA lista os graus de liberdade associados à análise como 0 ; você tem o mesmo número de variáveis ​​nos dois modelos, é por isso que nenhum valor F ou p pode ser calculado.
gung - Restabelece Monica
5
Eu não me incomodaria em comparar esses modelos até depois de verificar sua qualidade de ajuste. Eu acho que você encontrará no segundo que nem a resposta nem seu logaritmo são funções lineares do tempo. Isso questiona (seriamente) qualquer comparação das estimativas de inclinação.
whuber

Respostas:

11

Se você configurar os dados em uma coluna longa com A e B como uma nova coluna, poderá executar seu modelo de regressão como um GLM com uma variável de tempo contínua e uma variável nominal de "experimento" (A, B). A saída da ANOVA fornecerá o significado da diferença entre os parâmetros. "interceptação" é a interceptação comum e o fator "experimento" refletirá diferenças entre as interceptações (na verdade médias globais) entre os experimentos. o fator "Tempo" será a inclinação comum e a interação é a diferença entre os experimentos em relação para a encosta.

Eu tenho que admitir que trapaceio (?) E execute os modelos separadamente primeiro para obter os dois conjuntos de parâmetros e seus erros e, em seguida, execute o modelo combinado para adquirir as diferenças entre os tratamentos (no seu caso A e B) ...

user24187
fonte
3
Esta é uma abordagem inteligente. Quando você "trapaceia", verifica se as variações de erro são aproximadamente as mesmas em cada modelo? E se eles parecerem substancialmente diferentes, como isso afeta suas recomendações?
whuber
O GLM é uma boa abordagem e, para explorar os dados, ajustar modelos separados é uma boa maneira de avaliar a variação de erros entre as experiências. Se alguém estivesse realmente preocupado, eles poderiam estender o modelo GLM para incluir variações de erro específicas do grupo, em vez da suposição implícita de uma variação de erro comum para todos os dados experimentais.
Prince_of_pears 22/09
Outra coisa que vem à mente é se o OP está interessado em negociar se as taxas de degradação entre os experimentos são simplesmente diferentes umas das outras (ignorando a taxa absoluta) ou se essas taxas também são estatisticamente (ou praticamente) diferentes de zero. O primeiro equivale a um teste da hipótese de que o coeficiente de interação entre tratamento e tempo é igual a zero. O segundo é realizar dois testes separados (ou um teste de hipótese conjunta) em que cada taxa é diferente de zero. Eu poderia estar mais interessado em testar o segundo antes do primeiro.
Prince_of_pears 22/09
5

A análise ANOVA não mostra uma estatística F e um valor de p, pois os dois modelos têm os mesmos graus de liberdade residual (ou seja, 19) e, se você fizer a diferença, seria zero! Depois de fazer a diferença, deve haver pelo menos um grau de liberdade para realizar o teste F.

Estado
fonte
Não tenho certeza se entendi sua resposta. Existe uma razão para que os graus residuais de liberdade sejam iguais? Alguma sugestão sobre uma abordagem alternativa para comparar as inclinações?
Rooz
n=21(TreatmentA)orExp1dfT=n1=20dfT=dferror+dfregressorsdferror=19
Existem várias maneiras de compará-las, exceto o teste F. O mais fácil é usar o quadrado múltiplo R e o quadrado R ajustado como você faz nos resumos. O modelo com quadrado R maior ou quadrado R ajustado é melhor. Aqui, o melhor modelo parece ser aquele com Exp1 $ (Tratamento A). Mas lembre-se de que você deve verificar os resíduos do seu modelo para verificar a adequação do modelo ajustado. Pessoalmente, não recomendo confiar apenas nos critérios do quadrado R e você também deve verificar outras suposições no modelo linear. Veja especialmente se os resíduos são autocorrelacionados ou não.
Stat