Quando * não * devo permitir que um efeito fixo varie os níveis de um efeito aleatório em um modelo de efeitos mistos?

16

Dada uma variável prevista (P), um efeito aleatório (R) e um efeito fixo (F), pode-se ajustar dois * modelos de efeitos mistos ( sintaxe lme4 ):

m1 = lmer( P ~ (1|R) + F )
m2 = lmer( P ~ (1+F|R) + F)

Pelo que entendi, o segundo modelo é aquele que permite que o efeito fixo varie entre os níveis do efeito aleatório.

Em minha pesquisa, normalmente uso modelos de efeitos mistos para analisar dados de experimentos realizados em vários participantes humanos. Eu modelo participante como efeito aleatório e manipulações experimentais como efeitos fixos. Eu acho que faz sentido a priori permitir que o grau em que os efeitos fixos afetem o desempenho no experimento varie entre os participantes. No entanto, tenho problemas para imaginar circunstâncias em que não devo permitir que os efeitos fixos variem nos níveis de um efeito aleatório, portanto, minha pergunta é:

Quando não se deve permitir que um efeito fixo varie entre os níveis de um efeito aleatório?

Mike Lawrence
fonte
Ainda não entendo completamente a sintaxe do lme4, por isso estou curioso para ver a resposta. Mas tenho um palpite de que está relacionada à seguinte diferença: P é a quantidade de tempo que um aluno passa fazendo a lição de casa, R é um tratamento na classe e F é o aluno. (Nós também deveríamos ter um efeito aleatório para a própria aula.) Se todos os alunos estiverem sujeitos a todos os tratamentos R em momentos diferentes, os níveis de F são comparáveis ​​entre as classes. Se medirmos uma escola inteira de uma só vez, teremos alunos diferentes em cada turma, para que os níveis de F em turmas diferentes não tenham nada a ver um com o outro.
Thomas Levine

Respostas:

11

Não sou especialista em modelagem de efeitos mistos, mas a pergunta é muito mais fácil de responder se ela for reformulada no contexto da modelagem de regressão hierárquica. Portanto, nossas observações têm dois índices e F i j com o índice iPijFiji representando a classe membros da classe. Os modelos hierárquicos permitem ajustar a regressão linear, onde os coeficientes variam entre as classes:j

Yij=β0i+β1iFij

Esta é a nossa regressão de primeiro nível. A regressão de segundo nível é feita nos primeiros coeficientes de regressão:

β0i=γ00+u0iβ1i=γ01+u1i

quando substituímos isso na regressão de primeiro nível, obtemos

Yij=(γ0+u0i)+(γ01+u1i)Fij=γ0+u0i+u1iFij+γ01Fij

Aqui são efeitos fixos e u são efeitos aleatórios. Modelo misto estima γ e variâncias de u .γuγu

O modelo que escrevi corresponde à lmersintaxe

P ~ (1+F|R) + F

Agora, se colocarmos sem o termo aleatório, obtemosβ1i=γ01

Yij=γ0+u0i+γ01Fij

que corresponde à lmersintaxe

P ~ (1|R) + F

Portanto, a questão agora é quando podemos excluir o termo de erro da regressão de segundo nível? A resposta canônica é que, quando temos certeza de que os regressores (aqui não temos nenhum, mas podemos incluí-los, eles naturalmente são constantes nas classes) na regressão de segundo nível, explicamos completamente a variação dos coeficientes entre as classes.

Portanto, neste caso em particular, se o coeficiente de não variar, ou alternativamente a variação de u 1 iFiju1Eu é muito pequena, devemos ter a ideia de que provavelmente somos melhores no primeiro modelo.

Nota . Eu só dei explicações algébricas, mas acho que, tendo isso em mente, é muito mais fácil pensar em um exemplo aplicado particular.

mpiktas
fonte
No caso da primeira equação tem um termo de erro, bem como: Yij=β0i+β1iFij+eij
Nikita Samoylov
sim, mas eu o omiti por clareza, eu acho.
Mpgtas
10

Você pode pensar em um "efeito fixo" como um "efeito aleatório" com um componente de variação zero.

Portanto, uma resposta simples para o motivo de você não permitir que o efeito fixo varie é evidência insuficiente para um componente de variação "grande o suficiente". A evidência deve vir das informações anteriores e dos dados. Isso está de acordo com o princípio básico do "occam's razor": não torne seu modelo mais complexo do que o necessário.

Tendo a pensar em modelos mistos lineares da seguinte maneira, escreva uma regressão múltipla da seguinte maneira:

Y=Xβ+Zu+e

XβZueuN(0,D(θ))θeN(0,σ2I)(Zu+e)N(0,ZD(θ)ZT+σ2I)

YN(Xβ,ZD(θ)ZT+σ2I)

Z=0

YN(Xβ,σ2I)

Portanto, a parte "aleatória" do modelo pode ser vista como uma maneira de especificar informações anteriores sobre a estrutura de correlação do componente de ruído ou erro no modelo. O OLS pressupõe basicamente que qualquer erro da parte fixa do modelo em um caso é inútil para prever qualquer outro erro, mesmo se conhecêssemos a parte fixa do modelo com certeza. Adicionar um efeito aleatório significa basicamente que você acha que alguns erros provavelmente serão úteis na previsão de outros erros.

probabilityislogic
fonte
5

Essa é uma pergunta bastante antiga, com algumas respostas muito boas, mas acho que ela pode se beneficiar de uma nova resposta para abordar uma perspectiva mais pragmática.

Quando não se deve permitir que um efeito fixo varie entre os níveis de um efeito aleatório?

Não irei abordar as questões já descritas nas outras respostas; em vez disso, vou me referir ao agora famoso, embora prefiro dizer um artigo "infame" de Barr et al (2013), frequentemente chamado de "Mantenha-o máximo".

Barr, DJ, Levy, R., Scheepers, C. e Tily, HJ, 2013. Estrutura de efeitos aleatórios para teste de hipótese confirmatória: Mantenha-o máximo. Journal of memory and language, 68 (3), pp.255-278.

Neste artigo, os autores argumentam que todos os efeitos fixos devem variar entre os níveis dos fatores de agrupamento (interceptações aleatórias). O argumento deles é bastante convincente - basicamente, ao não permitir que eles variem, está impondo restrições ao modelo. Isso está bem descrito nas outras respostas. No entanto, existem problemas potencialmente graves com essa abordagem, descritos por Bates el al (2015):

Bates, D., Kliegl, R., Vasishth, S. e Baayen, H., 2015. Modelos mistos parcimoniosos. pré-impressão do arXiv arXiv: 1506.04967

Vale a pena notar aqui que Bates é o principal autor do lme4pacote para a montagem de modelos mistos em R, que é provavelmente o pacote mais usado para esses modelos. Bates et al. Observam que em muitas aplicações do mundo real, os dados simplesmente não suportam uma estrutura máxima de efeitos aleatórios, geralmente porque há um número insuficiente de observações em cada cluster para as variáveis ​​relevantes. Isso pode se manifestar em modelos que não convergem ou são singulares nos efeitos aleatórios. O grande número de perguntas neste site sobre esses modelos atesta isso. Eles também observam que Barr et al usaram uma simulação relativamente simples, com efeitos aleatórios "bem comportados" como base para o trabalho. Em vez disso, Bates et al sugerem a seguinte abordagem:

Propusemos (1) usar o PCA para determinar a dimensionalidade da matriz de variância-covariância da estrutura de efeitos aleatórios, (2) restringir inicialmente os parâmetros de correlação a zero, especialmente quando uma tentativa inicial de ajustar um modelo máximo não converge, e (3) remover componentes de variação não significativos e seus parâmetros de correlação associados do modelo

No mesmo artigo, eles também observam:

É importante ressaltar que a falha na convergência não se deve a defeitos do algoritmo de estimativa, mas é uma conseqüência direta da tentativa de ajustar um modelo que é muito complexo para ser adequadamente suportado pelos dados.

E:

modelos máximos não são necessários para proteger contra conclusões anti-conservadoras. Essa proteção é totalmente fornecida por modelos abrangentes, guiados por expectativas realistas sobre a complexidade que os dados podem suportar. Nas estatísticas, como em outras partes da ciência, a parcimônia é uma virtude, não um vício.

Bates et al. (2015)

De uma perspectiva mais aplicada, uma consideração adicional que deve ser feita é se o processo de geração de dados, a teoria biológica / física / química subjacente aos dados, deve orientar o analista na especificação da estrutura de efeitos aleatórios.

Robert Long
fonte
"geralmente porque há um número insuficiente de observações em cada cluster" você pode elaborar isso? Eu pensei, o número mínimo necessário por cluster é 1? Esta é até a sua resposta aceita aqui: stats.stackexchange.com/questions/388937/…
LuckyPal
@LuckyPal, a pergunta que você vinculou é sobre interceptações aleatórias, essa é sobre pistas aleatórias. Como você estimaria uma inclinação para um tamanho de amostra de 1?
Robert Long
Ponto tomado. Obrigado! +1 Mas podemos estimar uma inclinação fixa com apenas uma observação por cluster, se houver clusters suficientes, certo? Isso parece um pouco estranho. Talvez, quando houver problemas de convergência com uma inclinação aleatória devido ao tamanho da amostra, a estimativa da inclinação - seja aleatória ou não - possa ser questionável em geral?
LuckyPal
@LuckyPal sim, a estimativa de uma inclinação fixa está presente em todos os clusters, portanto isso geralmente não é um problema. Concordo que estimar uma inclinação aleatória com pequenos aglomerados pode resultar em problemas de convergência, mas não deve afetar a estimativa de uma inclinação fixa.
Robert Long