Interpretando três formas de um "modelo misto"

Há uma distinção que está me atrapalhando com modelos mistos, e eu estou me perguntando se eu poderia ter alguma clareza sobre isso. Vamos supor que você tenha um modelo misto de dados de contagem. Há uma variável que você sabe que deseja como efeito fixo (A) e outra variável para o tempo (T), agrupada por uma variável "Site".

Como eu entendo:

glmer(counts ~ A + T, data=data, family="Poisson") é um modelo de efeitos fixos.

glmer(counts ~ (A + T | Site), data=data, family="Poisson") é um modelo de efeito aleatório.

Minha pergunta é quando você tem algo como:

glmer(counts ~ A + T + (T | Site), data=data, family="Poisson")o que é isso? É um efeito aleatório? Um efeito fixo? O que realmente está sendo realizado colocando T nos dois lugares?

Quando algo deve aparecer apenas na seção de efeitos aleatórios da fórmula do modelo?

r mixed-model lme4-nlme Fomite
fonte

Respostas:

Isso pode se tornar mais claro, escrevendo a fórmula do modelo para cada um desses três modelos. Seja $Y_{ij}$ a observação da pessoa $i$ no local $j$ em cada modelo e defina $A_{ij}, T_{ij}$ analogicamente para se referir às variáveis em seu modelo.

glmer(counts ~ A + T, data=data, family="Poisson") é o modelo

\log (E (Y_{i j})) = β_{0} + β_{1} A_{i j} + β_{2} T_{i j}

$\log \big( E(Y_{ij}) \big) = \beta_0 + \beta_1 A_{ij} + \beta_2 T_{ij}$

que é apenas um modelo de regressão de poisson comum.

glmer(counts ~ (A + T|Site), data=data, family="Poisson") é o modelo

registro (E (Y_{Eu j})) = α_{0 0} + η_{j 0 0} + η_{j 1} {UMA}_{Eu j} + η_{j 2} T_{Eu j}

$\log \big( E(Y_{ij}) \big) = \alpha_0 + \eta_{j0} + \eta_{j1} A_{ij} + \eta_{j2} T_{ij}$

onde são efeitos aleatórios que são compartilhados por cada observação feita por indivíduos do local . Esses efeitos aleatórios podem ser correlacionados livremente (ou seja, nenhuma restrição é feita em ) no modelo especificado. Para impor independência, você deve colocá-los dentro de colchetes diferentes, por exemplo , faria isso. Este modelo assume que o $\eta_{j} = (\eta_{j0}, \eta_{j1}, \eta_{j2}) \sim N(0, \Sigma)$ $j$ $\Sigma$ (A-1|Site) + (T-1|Site) + (1|Site) é para todos os sites, mas cada site tem um deslocamento aleatório ( ) e tem uma relação linear aleatória com ambos . $\log \big( E(Y_{ij}) \big)$ $\alpha_0$ $\eta_{j0}$ $A_{ij}, T_{ij}$

glmer(counts ~ A + T + (T|Site), data=data, family="Poisson") é o modelo

registro (E (Y_{Eu j})) = (θ_{0 0} + γ_{j 0 0}) + θ_{1} {UMA}_{Eu j} + (θ_{2} + γ_{j 1}) T_{Eu j}

$\log \big( E(Y_{ij}) \big) = (\theta_0 + \gamma_{j0}) + \theta_1 A_{ij} + (\theta_2 + \gamma_{j1}) T_{ij}$

Então agora o tem algum relacionamento "médio" com , dado pelos efeitos fixos mas esse relacionamento é diferente para cada site e essas diferenças são capturados pelos efeitos aleatórios, $\log \big( E(Y_{ij}) \big)$ $A_{ij}, T_{ij}$ $\theta_0, \theta_1, \theta_2$ $\gamma_{j0}, \gamma_{j1}, \gamma_{j2}$ . Ou seja, a linha de base é deslocada aleatoriamente e as inclinações das duas variáveis são deslocadas aleatoriamente e todos do mesmo site compartilham o mesmo deslocamento aleatório.

o que é isso? É um efeito aleatório? Um efeito fixo? O que realmente está sendo realizado colocando T nos dois lugares?

é uma das suas covariáveis. Não é um efeito aleatório -é um efeito aleatório. Existe um efeito fixo de que é diferente dependendo do efeito aleatório conferido por- no modelo acima. O que é conseguido com a inclusão desse efeito aleatório é permitir a heterogeneidade entre os locais na relação entre e . $T$ Site $T$ Site $\gamma_{j1}$ $T$ $\log \big( E(Y_{ij}) \big)$

Quando algo deve aparecer apenas na seção de efeitos aleatórios da fórmula do modelo?

É uma questão do que faz sentido no contexto do aplicativo.

Em relação à interceptação - você deve manter a interceptação fixa por várias razões (veja, por exemplo, aqui ); re: a interceptação aleatória, , atua principalmente para induzir correlação entre as observações feitas no mesmo local. Se não faz sentido que essa correlação exista, o efeito aleatório deve ser excluído. $\gamma_{j0}$

Em relação às pistas aleatórias, um modelo com apenas pistas aleatórias e sem pistas fixas reflete a crença de que, para cada site, existe alguma relação entre o e suas covariáveis para cada site, mas se você fizer a média dessas efeitos sobre todos os sites, então não há relacionamento. Por exemplo, se você tivesse uma inclinação aleatória em mas nenhuma inclinação fixa, seria como dizer que o tempo, em média, não tem efeito (por exemplo, nenhuma tendência secular nos dados), mas cada um está caminhando em uma direção aleatória ao longo do tempo, o que poderia fazer sentido. Novamente, isso depende da aplicação. $\log \big( E(Y_{ij}) \big)$ $T$ Site

Observe que você pode ajustar o modelo com e sem efeitos aleatórios para ver se isso está acontecendo - você não verá efeito no modelo fixo, mas efeitos aleatórios significativos no modelo subseqüente. Devo advertir que decisões como essa geralmente são melhor tomadas com base no entendimento do aplicativo e não na seleção de modelos.

Macro
fonte

(+1): escrever a fórmula do modelo para cada modelo é realmente a melhor maneira de tornar as notações R mais transparentes; bom trabalho!

Ocram 01/10

@ Macro Uma pergunta sobre as equações acima (obrigado por eles btw) - eles também têm o termo de erro usual neles? Em caso afirmativo, qual é o subscrito desse termo?

Fomite 2/10/12

Oi, uma maneira de escrever um GLM é como um modelo para

(ou uma versão 'vinculada'), como fiz aqui. Não há termo de erro para o valor esperado, se o modelo estiver especificado corretamente. Para responder sua pergunta, nos GLMs estamos especificando a distribuição de

. A aleatoriedade "restante" em um modelo linear é manifestada por um termo de erro normalmente distribuído. Porém, em GLMs não lineares (por exemplo, poisson, logística), há aleatoriedade "incorporada", pois conhecer a taxa de um poisson ou um prob de sucesso de um estudo de bernoulli não permite prever uma realização sem erros. Espero que isto ajude.

E (Y_{i j} | X)

$E(Y_{ij}|X)$

Y_{i j} | X

$Y_{ij}|X$

Macro

Você deve observar que Tnenhum dos termos de efeitos aleatórios do seu modelo é um efeito fixo. Efeitos aleatórios são apenas os efeitos que aparecem após o |em umlmer fórmula!

Uma discussão mais aprofundada sobre o que essa especificação faz você pode encontrar nesta última pergunta do faq .

A partir dessas perguntas, seu modelo deve fornecer o seguinte (para seu efeito fixo T):

Uma inclinação global
Um termo de declives aleatórios especificando o desvio da inclinação geral para cada nível de Site
A correlação entre as inclinações aleatórias.

E como dito por @ mark999, essa é realmente uma especificação comum. Em projetos de medidas repetidas, geralmente você deseja ter inclinações e correlações aleatórias para todos os fatores de medidas repetidas (dentro dos sujeitos).

Veja o documento a seguir para alguns exemplos (que eu sempre cito aqui):

Judd, CM, Westfall, J. & Kenny, DA (2012). Tratar estímulos como um fator aleatório na psicologia social: uma solução nova e abrangente para um problema generalizado, mas amplamente ignorado. Jornal de Personalidade e Psicologia Social , 103 (1), 54-69. doi: 10.1037 / a0028347

Henrik
fonte

Uma referência semelhante da ecologia: Schielzeth, Holger e Wolfgang Forstmeier. 2009. “Conclusões Além do Suporte: Estimativas Excesso de Confiança em Modelos Mistos”. Ecologia Comportamental 20 (2) (1 de março): 416–420. doi: 10.1093 / beheco / arn145. beheco.oxfordjournals.org/content/20/2/416 .

Ben Bolker 01/10/12

Algo deve aparecer apenas na parte aleatória quando você não estiver particularmente interessado em seu parâmetro, por si só, mas precisar incluí-lo para evitar dados dependentes. Por exemplo, se os filhos são aninhados nas classes, você geralmente deseja filhos apenas como um efeito aleatório.

Peter Flom - Restabelece Monica
fonte

Talvez eu esteja entendendo mal você, mas eu pensaria que ter efeitos fixos e aleatórios para a mesma variável era mais comum do que uma variável com apenas um efeito aleatório. Ter efeitos fixos e aleatórios para a mesma variável não é incomum no livro de Pinheiro e Bates.

Mark12

@MichaelChernick como eu o entendo, se você tem um efeito fixo e um efeito aleatório para a mesma variável, então o efeito fixo é o efeito geral na população, enquanto o efeito aleatório permite um efeito diferente da variável para cada sujeito. Existem vários exemplos em Pinheiro & Bates.

Mark12

@ PeterFlom, re: "se as crianças são aninhadas nas classes, você geralmente quer filhos apenas como um efeito aleatório". Eu acho que você quer dizer que classe é o efeito aleatório. A menos que haja aninhamento adicional nos dados (por exemplo, medições repetidas em crianças), os efeitos aleatórios no nível infantil não são identificados.

macro

@ Macro Sim, foi isso que eu quis dizer, desculpe. A terminologia fica muito confusa! Talvez seja por isso que Gelman evite os termos 'fixo' e 'aleatório'

Peter Flom - Reinstate Monica

@ Michael, eu concordo com você. Nesses tipos de modelos hierárquicos, os efeitos aleatórios são definidos por uma variável de agrupamento (em oposição a outros modelos multivariados, como conjuntos de dados indexados espacialmente, em que a variável 'agrupamento' varia continuamente). Na pergunta do OP, Siteseria referido como efeito aleatório, não Tou Aou qualquer outra coisa. Pensando dessa maneira, Siteo efeito de claramente não poderia ser fixo e aleatório, pois os dois não seriam identificados um do outro. Você pode ter coeficientes fixos e aleatórios para uma variável, mas essa é uma pergunta diferente.

Macro