Estou usando um modelo misto em R
( lme4
) para analisar alguns dados de medidas repetidas. Eu tenho uma variável de resposta (teor de fibras nas fezes) e 3 efeitos fixos (massa corporal, etc.). Meu estudo tem apenas 6 participantes, com 16 medidas repetidas para cada um (embora dois tenham apenas 12 repetições). Os sujeitos são lagartos que receberam diferentes combinações de alimentos em diferentes 'tratamentos'.
Minha pergunta é: posso usar o ID do assunto como um efeito aleatório?
Sei que esse é o curso de ação usual em modelos longitudinais de efeitos mistos, para levar em consideração a natureza amostrada aleatoriamente dos sujeitos e o fato de que as observações dentro dos sujeitos serão mais intimamente correlacionadas do que as entre os sujeitos. Mas, tratar o ID do sujeito como um efeito aleatório envolve estimar uma média e uma variação para essa variável.
Como eu tenho apenas 6 sujeitos (6 níveis desse fator), isso é suficiente para obter uma caracterização precisa da média e variância?
O fato de eu ter várias medidas repetidas para cada assunto ajuda nesse sentido (não vejo como isso importa)?
Por fim, se eu não puder usar o ID do assunto como um efeito aleatório, incluí-lo como um efeito fixo permitirá que eu controle o fato de ter repetido medidas?
Edit: Eu gostaria de esclarecer que quando digo "posso" usar a ID do assunto como um efeito aleatório, quero dizer "é uma boa idéia". Eu sei que posso ajustar o modelo com um fator com apenas 2 níveis, mas certamente isso seria in defensável? Estou perguntando em que momento é sensato pensar em tratar assuntos como efeitos aleatórios? Parece que a literatura recomenda que 5-6 níveis sejam um limite inferior. Parece-me que as estimativas da média e variância do efeito aleatório não seriam muito precisas até que houvesse mais de 15 níveis de fatores.
fonte
A "Econometria Principalmente Inofensiva" de Angrist e Pischke tem uma seção intitulada "Menos de 42 aglomerados", na qual eles dizem sem brincadeira:
Portanto, seguindo o ditado de que a resposta para a vida, o universo e tudo é 42, acreditamos que a pergunta é: quantos clusters são suficientes para inferência confiável usando o ajuste de cluster padrão [semelhante ao estimador de variância no GEE]?
A maneira como meu instrutor de econometria costumava responder perguntas como a sua é: "Os Estados Unidos são um país livre, você pode fazer o que quiser. Mas, se você quiser publicar seu trabalho, precisará defender o que fez. " Em outras palavras, você provavelmente poderá executar o código R ou Stata ou HLM ou Mplus ou SAS PROC GLIMMIX com 6 indivíduos (e alternar para esses pacotes alternativos se o de sua escolha não executar isso), mas provavelmente terá muito difícil defender essa abordagem e justificar testes assintóticos.
Acredito que, por padrão, incluir uma variável como uma inclinação aleatória implica incluir isso também como um efeito fixo, e você precisa passar por muitos obstáculos na sintaxe se quiser ter isso como um efeito aleatório com a média de zero. Essa é uma escolha sensata que os desenvolvedores de software fizeram para você.
fonte
Você também pode usar um modelo misto bayesiano - nesse caso, a incerteza na estimativa dos efeitos aleatórios é totalmente resolvida no cálculo dos intervalos credíveis de previsão de 95%. O novo pacote
brms
e função Rbrm
, por exemplo, permite uma transição muito fácil de umlme4
modelo misto freqüentista para um modelo bayesiano, pois possui uma sintaxe quase idêntica.fonte
Eu não usaria um modelo de efeitos aleatórios com apenas 6 níveis. Os modelos que usam um efeito aleatório de 6 níveis podem, em algum momento, ser executados usando muitos programas estatísticos e, às vezes, fornecem estimativas imparciais, mas:
Esse problema foi solucionado na maioria dos livros-padrão do campo e você os abordou na sua pergunta. Acho que não estou lhe dando nenhuma informação nova.
fonte
lme4
modelos mistos e geralmente os executo em tamanhos de amostra semelhantes aos do OP (também estou trabalhando com conjuntos de dados de biologia).Já faz muito tempo desde a pergunta original, mas pensei em acrescentar alguns pontos pertinentes à seleção de modelos.
1 - Desde que o modelo seja identificado (ou seja, você tenha graus de liberdade no espaço de parâmetros), você poderá TENTAR ajustar-se ao modelo. Dependendo do método de otimização, o modelo pode ou não convergir. De qualquer forma, eu não tentaria incluir mais de 1 ou 2 efeitos aleatórios e, definitivamente, não mais que 1 interação de nível cruzado. No caso específico do problema apresentado aqui, se suspeitarmos de uma interação entre características específicas do lagarto (por exemplo, idade, tamanho, etc.) e características do tratamento / medida, o tamanho do grupo 6 pode não ser suficiente para fazer estimativas suficientemente precisas.
2 - Como mencionam algumas respostas, a convergência pode ser um problema. No entanto, minha experiência é que, embora os dados das ciências sociais tenham um enorme problema de convergência devido a problemas de medição, as ciências da vida e especialmente as medidas repetidas bioquímicas têm erros padrão muito menores. Tudo depende do processo de geração de dados. Em dados sociais e econômicos, temos que trabalhar em vários níveis de abstração. Em dados biológicos e químicos e, certamente, astronômicos, o erro de medição é um problema menor.
fonte