Suponha que, em um estudo de 15 sujeitos, a variável resposta (res) seja modelada com duas variáveis explicativas, uma (nível) é categórica com 5 níveis e a outra (tempo de resposta: TR) é contínua. Com o lmer no pacote lme4 do R, tenho:
fm1 <- lmer(res ~ level * RT + (level-1 | subject), data=mydata)
anova(fm1)
Df Sum Sq Mean Sq F value
level 4 3974.9 993.7 9.2181
RT 1 1953.5 1953.5 18.1209
level:RT 4 5191.4 1297.9 12.0393
Se eu mudar a ordem das duas variáveis, obtenho resultados ligeiramente diferentes para os principais efeitos:
fm2 <- lmer(res ~ RT * level + (level-1 | subject), data=mydata)
anova(fm2)
Df Sum Sq Mean Sq F value
RT 1 1671.8 1671.8 15.5077
level 4 4256.7 1064.2 9.8715
RT:level 4 5191.4 1297.9 12.0393
Essa diferença vem da abordagem seqüencial (em vez de marginal) no lme4, na contabilização da variabilidade dos dados? Nesse caso, a alteração na ordem das variáveis não leva a uma grande diferença, mas anteriormente eu já vi diferenças drásticas. O que significa uma diferença tão grande? Isso significa que o modelo precisa de mais ajustes até que a grande diferença desapareça?
Minha segunda pergunta é que, se eu quiser saber qual variável entre as duas (RT e nível) é responsável por mais variabilidade de dados, qual seria uma abordagem razoável? Com base na magnitude relativa de Sq Sq (ou Sq Médio) das duas variáveis? Algum método de teste estatístico para comparar a variabilidade entre variáveis explicativas?
fonte
Respostas:
Vou tentar responder suas perguntas um por um:
Corrigir. Como você pode ver, apenas para a interação os resultados são os mesmos. A interação é inserida por último no modelo nos dois casos, portanto, os resultados para esse termo são os mesmos. No entanto, se você digitar "nível" primeiro e depois "RT", os resultados para "RT" informarão se "RT" é significativo após o "nível" já estar no modelo (e vice-versa). Esses resultados dependem da ordem.
Suponha que ambas as variáveis por si mesmas estejam fortemente relacionadas à variável de resposta, mas também estão fortemente correlacionadas. Nesse caso, pode não haver muita variabilidade na variável de resposta deixada de ser explicada pela variável que é inserida em segundo no modelo. Portanto, você tenderá a ver diferenças mais dramáticas quando as variáveis explicativas estiverem correlacionadas.
Não sei ao certo o que você quer dizer com "ajuste". O fenômeno que você está observando não é um problema em si, embora complique a interpretação dos resultados (veja abaixo).
Talvez uma maneira de "ajustar" seja essa. Se as variáveis explicativas são altamente correlacionadas, elas podem estar essencialmente medindo a mesma coisa. Nesse caso, é possível "ajustar" o modelo removendo uma das variáveis ou combinando-as em uma única variável.
Quando as variáveis explicativas são correlacionadas, é bastante difícil determinar sua importância relativa. Esse problema surge com bastante frequência no contexto de regressão múltipla, e dezenas de artigos foram escritos sobre esse tópico e muitos métodos para atingir esse objetivo foram sugeridos. Certamente não há consenso sobre a maneira mais apropriada e algumas pessoas podem até sugerir que não há maneira adequada de fazer isso.
As somas de quadrados não vão ajudá-lo, porque não são baseadas no mesmo número de graus de liberdade. Os quadrados médios essencialmente corretos para isso, mas se você usar os quadrados médios, isso nada mais é do que usar os valores F correspondentes (ou valores p) para determinar a importância relativa. Acho que a maioria das pessoas não consideraria isso uma maneira apropriada de determinar a importância relativa.
Infelizmente, não tenho uma solução fácil. Em vez disso, posso sugerir um site para você, do autor do
relaimpo
pacote. Não acho que o pacote o ajude a ajustar modelos de efeitos mistos, mas há muitas referências a artigos sobre o assunto com o qual você está lidando.http://prof.beuth-hochschule.de/groemping/relaimpo/
Você também pode procurar no
AICcmodavg
pacote:http://cran.r-project.org/web/packages/AICcmodavg/index.html
fonte