Ordem variável e variabilidade contabilizada na modelagem linear de efeitos mistos

9

Suponha que, em um estudo de 15 sujeitos, a variável resposta (res) seja modelada com duas variáveis ​​explicativas, uma (nível) é categórica com 5 níveis e a outra (tempo de resposta: TR) é contínua. Com o lmer no pacote lme4 do R, tenho:

fm1 <- lmer(res ~ level * RT + (level-1 | subject), data=mydata)
anova(fm1)

             Df  Sum Sq Mean Sq  F value
level        4  3974.9   993.7   9.2181
RT           1  1953.5  1953.5  18.1209
level:RT     4  5191.4  1297.9  12.0393

Se eu mudar a ordem das duas variáveis, obtenho resultados ligeiramente diferentes para os principais efeitos:

fm2 <- lmer(res ~ RT * level + (level-1 | subject), data=mydata)
anova(fm2)

             Df  Sum Sq Mean Sq  F value
RT           1  1671.8  1671.8  15.5077
level        4  4256.7  1064.2   9.8715
RT:level     4  5191.4  1297.9  12.0393

Essa diferença vem da abordagem seqüencial (em vez de marginal) no lme4, na contabilização da variabilidade dos dados? Nesse caso, a alteração na ordem das variáveis ​​não leva a uma grande diferença, mas anteriormente eu já vi diferenças drásticas. O que significa uma diferença tão grande? Isso significa que o modelo precisa de mais ajustes até que a grande diferença desapareça?

Minha segunda pergunta é que, se eu quiser saber qual variável entre as duas (RT e nível) é responsável por mais variabilidade de dados, qual seria uma abordagem razoável? Com base na magnitude relativa de Sq Sq (ou Sq Médio) das duas variáveis? Algum método de teste estatístico para comparar a variabilidade entre variáveis ​​explicativas?

pólo azul
fonte
Se você não pode postar dados, pode pelo menos colocar a saída do modelo em vez de apenas a ANOVA?
John

Respostas:

5

Vou tentar responder suas perguntas um por um:

Essa diferença vem da abordagem seqüencial (em vez de marginal) do lme4, na contabilização da variabilidade dos dados?

Corrigir. Como você pode ver, apenas para a interação os resultados são os mesmos. A interação é inserida por último no modelo nos dois casos, portanto, os resultados para esse termo são os mesmos. No entanto, se você digitar "nível" primeiro e depois "RT", os resultados para "RT" informarão se "RT" é significativo após o "nível" já estar no modelo (e vice-versa). Esses resultados dependem da ordem.

O que significa uma diferença tão grande?

Suponha que ambas as variáveis ​​por si mesmas estejam fortemente relacionadas à variável de resposta, mas também estão fortemente correlacionadas. Nesse caso, pode não haver muita variabilidade na variável de resposta deixada de ser explicada pela variável que é inserida em segundo no modelo. Portanto, você tenderá a ver diferenças mais dramáticas quando as variáveis ​​explicativas estiverem correlacionadas.

Isso significa que o modelo precisa de mais ajustes até que a grande diferença desapareça?

Não sei ao certo o que você quer dizer com "ajuste". O fenômeno que você está observando não é um problema em si, embora complique a interpretação dos resultados (veja abaixo).

Talvez uma maneira de "ajustar" seja essa. Se as variáveis ​​explicativas são altamente correlacionadas, elas podem estar essencialmente medindo a mesma coisa. Nesse caso, é possível "ajustar" o modelo removendo uma das variáveis ​​ou combinando-as em uma única variável.

Minha segunda pergunta é que, se eu quiser saber qual variável entre as duas (RT e nível) é responsável por mais variabilidade de dados, qual seria uma abordagem razoável? Com base na magnitude relativa de Sq Sq (ou Sq Médio) das duas variáveis? Algum método de teste estatístico para comparar a variabilidade entre variáveis ​​explicativas?

Quando as variáveis ​​explicativas são correlacionadas, é bastante difícil determinar sua importância relativa. Esse problema surge com bastante frequência no contexto de regressão múltipla, e dezenas de artigos foram escritos sobre esse tópico e muitos métodos para atingir esse objetivo foram sugeridos. Certamente não há consenso sobre a maneira mais apropriada e algumas pessoas podem até sugerir que não há maneira adequada de fazer isso.

As somas de quadrados não vão ajudá-lo, porque não são baseadas no mesmo número de graus de liberdade. Os quadrados médios essencialmente corretos para isso, mas se você usar os quadrados médios, isso nada mais é do que usar os valores F correspondentes (ou valores p) para determinar a importância relativa. Acho que a maioria das pessoas não consideraria isso uma maneira apropriada de determinar a importância relativa.

Infelizmente, não tenho uma solução fácil. Em vez disso, posso sugerir um site para você, do autor do relaimpopacote. Não acho que o pacote o ajude a ajustar modelos de efeitos mistos, mas há muitas referências a artigos sobre o assunto com o qual você está lidando.

http://prof.beuth-hochschule.de/groemping/relaimpo/

Você também pode procurar no AICcmodavgpacote:

http://cran.r-project.org/web/packages/AICcmodavg/index.html

Wolfgang
fonte
Realmente aprecio os esclarecimentos e ajuda! Em relação à importância relativa de cada variável em um modelo de efeito misto, é razoável considerar a diferença AIC / BIC fornecida por lme ()? Por exemplo, com meus dados, defina três modelos: res ~ RT, res ~ level, res ~ RT * level. Em seguida, use anova () para avaliar a importância relativa com base em suas AIC / BIC?
precisa saber é o seguinte
Os valores AIC / BIC são frequentemente usados ​​para a seleção do modelo. Se esse seria seu objetivo, então sim, essa é uma abordagem. Se seu objetivo é determinar a importância relativa das variáveis, você pode usar os pesos da Akaike. Uma apresentação muito agradável e clara sobre essa idéia pode ser encontrada aqui: bit.ly/pDQ7eq
Wolfgang
Muito obrigado por toda a ajuda. Eu realmente aprecio isso ...
bluepole