Interpretando a média dos resultados do modelo em R

11

Estou tentando entender e saber o que relatar da minha análise de alguns dados usando a média do modelo em R.

Estou usando o script a seguir para analisar o efeito do método de medição sobre uma determinada variável: Aqui está o conjunto de dados: https://www.dropbox.com/s/u9un273gzw9o30u/VMT4.csv?dl=0

Modelo a ser montado:

LM.1 <- gls(VMTf ~ turn+sex+method, na.action="na.fail", method = "ML",VMT4)

draga modelo completo

require(MuMIn)
d=dredge(LM.1)
print(d)
coefficients(d)

Obtenha informações resumidas de todos os modelos para obter estimativas de parâmetros

summary(model.avg(d))

Eu sei que todos os modelos podem ter média (média do modelo completo) ou apenas um subconjunto deles (média condicional). Agora, eu gostaria de saber: quando é melhor usar a média completa ou condicional para fazer inferências. O que devo relatar sobre tudo isso para um artigo científico? O que significa exatamente o valor Z e p associado a uma situação de média do modelo?

Para facilitar a visualização de minhas perguntas. Aqui está a tabela de resultados,

> summary(model.avg(d))# now, there are effects

Call:
model.avg(object = d)

Component model call: 
gls(model = VMT ~ <8 unique rhs>, data = VMT4, method = ML, na.action = 
 na.fail)

Component models: 
       df  logLik   AICc delta weight
1       4 -247.10 502.52  0.00   0.34
12      5 -246.17 502.83  0.31   0.29
13      5 -246.52 503.52  1.01   0.20
123     6 -245.60 503.88  1.36   0.17
(Null)  2 -258.62 521.33 18.81   0.00
3       3 -258.38 522.95 20.43   0.00
2       3 -258.60 523.39 20.88   0.00
23      4 -258.36 525.05 22.53   0.00

Term codes: 
method    sex   turn 
     1      2      3 

Model-averaged coefficients:  
(full average) 
                       Estimate Std. Error Adjusted SE z value Pr(>|z|)    
(Intercept)            42.63521    0.37170     0.37447 113.856  < 2e-16 ***
methodlight chamber    -1.05276    0.36098     0.36440   2.889  0.00386 ** 
methodthermal gradient -1.80567    0.36103     0.36445   4.955    7e-07 ***
sex2                    0.19023    0.29403     0.29548   0.644  0.51970    
turn                    0.05005    0.10083     0.10141   0.494  0.62165    

(conditional average) 
                       Estimate Std. Error Adjusted SE z value Pr(>|z|)    
(Intercept)             42.6352     0.3717      0.3745 113.856  < 2e-16 ***
methodlight chamber     -1.0528     0.3609      0.3643   2.890  0.00386 ** 
methodthermal gradient  -1.8058     0.3608      0.3642   4.958  7.1e-07 ***
sex2                     0.4144     0.3089      0.3119   1.328  0.18402    
turn                     0.1337     0.1264      0.1276   1.047  0.29492    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Relative variable importance: 
                     method sex  turn
Importance:          1.00   0.46 0.37
N containing models:    4      4    4
Agus Camacho
fonte

Respostas:

5

Veja Grueber et al. 2011, "Inferência multimodal em ecologia e evolução: desafios e soluções" Evolutionary Biology 24: 699-711.

Realmente depende de objetivos sobre se você deseja usar dados completos ou condicionais. No meu campo, usaríamos critérios, como o AICC, para determinar quais modelos são mais suportados, e depois usá-los como seu subconjunto condicional. Esta informação seria então reportada. Por exemplo, seus quatro primeiros modelos estão todos dentro de 2 unidades AIC uma da outra, portanto, todos seriam incluídos no seu subconjunto. Os outros estão lá fora (AIC mais alto), portanto, incluir informações deles realmente reduziria a qualidade de suas estimativas beta.

AUDeer
fonte
2
Mesmo no seu exemplo sugerido, alguns termos aparecerão talvez em dois dos quatro "melhores" modelos. Você faz uma média desses dois valores de coeficiente ou dos dois valores e dois valores zero para os dois modelos em que eles não aparecem?
user2390246
5

Penso que a premissa sobre a diferença entre o que exatamente são as médias completas e condicionais está errada. Um é uma média que inclui zeros (completo) e um não inclui zeros (condicional). do arquivo de ajuda para o comando model.avg ():

Nota

A média do 'subconjunto' (ou 'condicional') calcula a média apenas dos modelos em que o parâmetro aparece. Como alternativa, a média 'completa' assume que uma variável é incluída em todos os modelos, mas em alguns modelos o coeficiente correspondente (e sua respectiva variação) é definido como zero. Ao contrário da 'média do subconjunto', ela não tem uma tendência de desviar o valor de zero. A média 'cheia' é um tipo de estimador de retração e, para variáveis ​​com um relacionamento fraco com a resposta, elas são menores que os estimadores de 'subconjunto'.

Se você deseja usar apenas um subconjunto de modelos (com base no delta AIC, por exemplo), use o argumento de subconjunto em model.avg (). Você ainda obterá estimativas condicionais e completas, desde que alguns dos modelos incluídos tenham algumas variáveis ​​ausentes.

Joe Sapp
fonte
Sim. Concordo. Essa é a interpretação correta.
ecologist1234