Comparando dois modelos usando a função anova () em R

32

A partir da documentação para anova():

Quando dada uma sequência de objetos, 'anova' testa os modelos um contra o outro na ordem especificada ...

O que significa testar os modelos um contra o outro? E por que o pedido importa?

Aqui está um exemplo do tutorial GenABEL :

    >  modelAdd = lm(qt~as.numeric(snp1))
    >  modelDom = lm(qt~I(as.numeric(snp1)>=2))
    >  modelRec = lm(qt~I(as.numeric(snp1)>=3))
     anova(modelAdd, modelGen, test="Chisq")
    Analysis of Variance Table

    Model 1: qt ~ as.numeric(snp1)
    Model 2: qt ~ snp1
      Res.Df  RSS Df Sum of Sq Pr(>Chi)
    1   2372 2320                      
    2   2371 2320  1    0.0489     0.82
     anova(modelDom, modelGen, test="Chisq")
    Analysis of Variance Table

    Model 1: qt ~ I(as.numeric(snp1) >= 2)
    Model 2: qt ~ snp1
      Res.Df  RSS Df Sum of Sq Pr(>Chi)
    1   2372 2322                      
    2   2371 2320  1      1.77     0.18
     anova(modelRec, modelGen, test="Chisq")
    Analysis of Variance Table

    Model 1: qt ~ I(as.numeric(snp1) >= 3)
    Model 2: qt ~ snp1
      Res.Df  RSS Df Sum of Sq Pr(>Chi)  
    1   2372 2324                        
    2   2371 2320  1      3.53    0.057 .
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Como interpreto essa saída?

qed
fonte

Respostas:

31

Quando você usa anova(lm.1,lm.2,test="Chisq"), ele executa o teste do qui-quadrado para comparar lm.1e lm.2(ou seja, testa se a redução na soma residual dos quadrados é estatisticamente significativa ou não). Observe que isso faz sentido apenas se lm.1e lm.2são modelos aninhados.

Por exemplo, na 1ª anova que você usou, o valor de p do teste é 0,82. Isso significa que o modelo ajustado "modelAdd" não é significativamente diferente de modelGen no nível . No entanto, usando o valor-p na terceira anova, o modelo "modelRec" é significativamente diferente do modelo "modelGen" em .α=0.05α=0.1

Confira ANOVA para modelos lineares também.

Stat
fonte
1
Mas isso implica alguma coisa sobre se um dos dois é melhor? Obrigado!
precisa
5
Depende de como você define o termo "melhor". Se você defini-lo como o modelo que fornece menos soma residual de quadrados, a resposta é sim. Isso ocorre porque esse teste compara a redução na soma residual dos quadrados.
Stat
3
Por outro lado, se os dois modelos não forem significativamente diferentes, alguém poderia argumentar que o modelo mais simples é "melhor"? Estou pensando em parcimônia aqui.
Sininho
1
e se a anova (mod1, mod2, test = "LRT") qual é a diferença que isso faz?
precisa saber é o seguinte