Por que é difícil incorporar incerteza em efeitos aleatórios ao fazer previsões a partir de modelos mistos?

10

Há vários tópicos no R-sig-ME sobre a obtenção de intervalos de confiança para previsões usando lme4e nlmeem R. Por exemplo, aqui e aqui em 2010, incluindo alguns comentários de Dougals Bates, um dos autores de ambos os pacotes. Hesito em citá-lo literalmente, por medo de serem retirados do contexto, mas de qualquer maneira, um comentário que ele faz é

"Você está combinando parâmetros e variáveis ​​aleatórias em suas previsões e não sei ao certo o que significaria avaliar a variabilidade dessas previsões. Um bayesiano pode ser capaz de entender isso, mas não consigo entender. " https://stat.ethz.ch/pipermail/r-sig-mixed-models/2010q1/003447.html

Eu sei que o pacote gles Bayesiano MCMCglmmpode produzir intervalos confiáveis ​​para previsões.

Ultimamente, a versão de desenvolvimento do lme4on github recebeu um predictmétodo, mas é acompanhada pelo seguinte comentário:

"@note Não há opção para calcular erros padrão de previsões porque é difícil definir um método eficiente que incorpore incerteza nos parâmetros de variação; recomendamos \ code {\ link {bootMer}} para esta tarefa." https://github.com/lme4/lme4/blob/master/R/predict.R

Então, por que é difícil incorporar incerteza em efeitos aleatórios ao fazer previsões de modelos mistos em um ambiente freqüentista?

P Sellaz
fonte

Respostas:

4

Não tenho certeza sobre o comentário do método de previsão, mas um problema primário está relacionado à geração de medidas de variação facilmente interpretáveis, não medidas de variação por si só. Bates não está comentando na primeira citação se você pode fazê-lo, exatamente o que isso significa.

Tome um modelo simples de vários níveis de um projeto de medidas repetidas de dois níveis. Digamos que você tenha os seguintes dados em que cada linha é um assunto:

insira a descrição da imagem aqui

No lmermodelo pode ser expresso como:

y ~ x + (1|subject)

Você está prevendo o valor y de x como um efeito fixo (a diferença entre A e B); e interceptar um efeito aleatório **. Observe atentamente o gráfico e observe que, embora exista variabilidade no efeito x para cada sujeito (inclinação de cada linha), é relativamente pequeno comparado à variabilidade entre os sujeitos (a altura de cada linha).

O modelo analisa esses dois conjuntos de variabilidade e cada um é significativo. Você pode usar os efeitos aleatórios para prever alturas de linhas e efeitos fixos de x para prever inclinações. Você pode até usar os dois combinados para trabalhar nossos valores y individuais. Mas o que você não pode fazer é realmente dizer algo significativo em relação ao seu modelo quando você combina a variabilidade de inclinações e alturas de linhas. Você precisa falar sobre a variabilidade de suas inclinações e alturas de linhas separadamente. Essa é uma característica do modelo, não um passivo.

Você terá uma variabilidade do efeito de x estimada com relativa facilidade. Você poderia dizer algo sobre um intervalo de confiança em torno disso. Mas observe que esse intervalo de confiança terá uma pequena relação com a previsão de qualquer valor y em particular, porque o valor y é influenciado por uma combinação de efeito e variação de assunto, diferente da variabilidade do efeito.

Quando Bates escreve coisas como você citou, imagino que ele esteja pensando em projetos multinível muito mais complexos que isso nem se aproxima. Mas mesmo que você considere esse exemplo simples, você começa a se perguntar que tipo de significado real pode ser extraído da combinação de todas as medidas de variação.

** Ignorei o efeito fixo da interceptação por simplicidade e apenas o tratei como um efeito aleatório. Você poderia extrair conclusões semelhantes de um modelo ainda mais simples, apenas com uma interceptação aleatória e fixa, mas acho que seria mais difícil de transmitir. Nesse caso, novamente, o efeito fixo e o efeito aleatório são analisados ​​por uma razão e significam coisas diferentes, e reunir sua variabilidade novamente para valores previstos faz com que essa variabilidade faça pouco sentido em relação ao modelo.

John
fonte
Então, o que eu ouço você dizendo é que isso se resume à mesma velha opinião de não ter certeza se queremos tratar a variação de assunto como erro ou particioná-la separadamente e fingir que não existe? Isso está certo?
russellpierce
Eu nunca ouvi aquela serra velha. Nunca ouvi dizer que você deveria fingir que a variação de assunto não existe. Mas suponho que esteja relacionado a este exemplo em particular. O modelo analisa a variação. Esse recurso do processo de modelagem é como você pode entender o modelo. Se você recombinar a variação novamente, estará derrotando o objetivo do modelo. Não estou dizendo para ignorar a variação do assunto, apenas que o efeito aleatório do assunto é separado. Você pode ler Blouin & Riopelle (2005) e ver como o significado dos SE muda quando você combina a variação.
John
Talvez esteja faltando alguma coisa, mas isso parece muito com as pessoas que andam de um lado para o outro sobre qual tamanho de efeito é melhor usar para ANOVA Dentro de Assuntos / Medidas Repetidas e como esses intervalos de confiança são melhor plotados ... mas suponho que depois de eu leia o que você me indicou, não sentirei falta do que quer que esteja sentindo falta. :) Obrigado.
russellpierce
Como eu disse, eles estão relacionados. Eu não sabia que havia um idas e vindas, adoraria ver uma referência. O fato é que os dois ICs e efeitos de que você está falando significam coisas diferentes. Então, você usa aquele que transmite o que você quer dizer. E você tem que fazê-los parecer sensatos. [É difícil argumentar (embora alguns o tenham) que colocar um IC incorporando variação de assunto em torno de uma média em um design de medidas repetidas e usá-lo para dizer algo sobre o efeito de medidas repetidas é sensato.]
John
Não vi nada na literatura, apenas muitas torções informais e tentativas de adivinhar o que o revisor do dia pensará.
russellpierce
1

Durante muito tempo, me perguntei sobre a crença aparentemente comum de que há alguma diferença fundamental em efeitos fixos e aleatórios para modelos de efeitos mistos (geralmente não-lineares). Essa crença é, por exemplo, afirmada por Bates na seguinte resposta

https://stat.ethz.ch/pipermail/r-sig-mixed-models/2010q1/003447.html

Bates afirma claramente que ele acredita que há uma diferença fundamental entre efeitos fixos e aleatórios, para que não possam ser combinados. Acho que ele está errado e espero convencer alguns leitores de um ponto de vista alternativo. Eu adoto uma abordagem freqüentista, então o que eu quero fazer é definir uma noção de probabilidade de perfil para uma função dos efeitos fixos e aleatórios. Para motivar a discussão, suponha que tenhamos um modelo de dois parâmetros com os parâmetros x e u (nada sobre efeitos aleatórios até agora). Seja a função de probabilidade em que suprimimos qualquer referência aos dados. Seja qualquer função (agradável) de x e u. A probabilidade do perfil para a função é dada porg ( x , u ) P g ( t ) gL(x,u)g(x,u)Pg(t)g

Pg(t)=maxx,u{L(x,u) | g(x,u)=t}\eqno(1)

Eu acredito que ninguém iria discutir com isso. Agora, suponha que tenhamos uma distribuição de probabilidade anterior para u. Então, eu afirmaria que a probabilidade de perfil para ainda faz sentido, mas devemos modificar (1) incluindo o anterior.p(u)g

Pg(t)=maxx,u{L(x,u)p(u) | g(x,u)=t}\eqno(2)
Observe que, como é um parâmetro com a priori, é exatamente o mesmo que se chama efeito aleatório. Então, por que muitas pessoas pensam que os parâmetros de efeito aleatório são de alguma forma diferentes. Acho que a diferença vem da prática usual de estimativa de parâmetros para eles. O que torna os efeitos aleatórios `` diferentes '' é que existem muitos deles em muitos modelos. Como resultado, para obter estimativas úteis para os efeitos fixos (ou outros parâmetros), é necessário tratar os efeitos aleatórios de uma maneira diferente. O que fazemos é integrá-los fora do modelo. No modelo acima, formaríamos a probabilidade onde Agora, auF(x)
F(x)=L(x,u)p(u)du
use foram. Portanto, se tudo o que temos é , parece não fazer sentido falar sobre a probabilidade do perfil para alguma função .F(x)g(x,u)

Portanto, para obter informações sobre a função , não devemos integrar o parâmetro . Mas o que acontece no caso em que existem muitos parâmetros de efeito aleatório. Em seguida, afirmo que devemos integrar a `` maioria '', mas não todos, em um sentido que tornarei preciso. Para motivar a construção, haja efeitos aleatórios . Considere o caso especial em que a função depende apenas de e, de fato, é a função mais simples que se pode imaginar, . Integre-se nos efeitos aleatórios para obter g(x,u)unu=(u1,u2,...,un1,un)g(x,u)ung(x,u)=unu1,u2,...,un1

F(x,un)=L(x,u1,...,un)p(u1,...,un))du1du2...dun1\eqno(4)
como antes podemos formar a probabilidade do perfil Como generalizar para que faça sentido para uma função arbitrária . Observe bem que a definição de em é a mesma que Para ver esta nota, para o caso simples , é o mesmo que
Pg(t)=maxx,un{F(x,un)|un=t}\eqno(3)
(3)g(x,u)F(x,un)(4)
F(x,s)=limϵ01ϵ{(x,un)|sϵ/2<g(x,un)<s+ϵ/2}L(x,u1,...,un)p(u1,...,un))du1du2...dun\eqno(5)
g(x,u)=un(5)
F(x,s)=limϵ01ϵ{(x,un)|sϵ/2<un<s+ϵ/2}F(x,un)dun\eqno(6)

Para uma função geral , formamos a função definida por e calculamos a probabilidade do perfil g(x,u)F(x,s)(5)

Pg(s)=maxx,u{F(x,s)|g(x,u)=s}\eqno(3)

Essa probabilidade de perfil é um conceito bem definido e permanece por si só. No entanto, para ser útil na prática, é preciso poder calcular seu valor, pelo menos aproximadamente. Acredito que para muitos modelos a função pode ser aproximada suficientemente bem usando uma variante da aproximação de Laplace. Defina por Seja H o hessiano do log da função com relação aos parâmetros e .F(x,s)x^(s),u^(s)

x^(s),u^(s)=maxx,u{L(x,u)p(u) | g(x,u)=s}
L(x,u)p(u)xu

Os conjuntos de níveis de são subvariedades dimensionais de um espaço dimensional , onde existem efeitos fixos e efeitos aleatórios. Precisamos integrar um formulário sobre esse coletor, onde tudo é linearizado em Isso envolve um pouco de geometria diferencial elementar. Suponha que Ao reparameterizarmos, podemos assumir que e . Então considere o mapa gm+n1n+mmnndu1du2dunx^(s),u^(s)gxn(x^(s),u^(s))0x^(s)=0u^(s)=0

(x1,x2,,xm1,u1,u2,,un)(x1,x2,,xm1,i=1m1gxixii=1nguiuigxm,u1,u2,,un)
onde é usado para denotar a derivada parcial de em relação a avaliada no ponto máximo. Este é um mapa linear do espaço dimensional para o espaço tangente do conjunto de níveis de . Podemos usá-lo para calcular a integral desejada. Primeiro, a retração das 1 formas são simplesmente elas mesmas.gxigxim+n1gdui

O recuo do hessiano é a forma quadrática

Ti,j=Hi+m,j+m+guigujgxm2Hm,m\rm for 1<=i,j<=n

Portanto, a integral pode ser calculada (ou aproximada) através da aproximação de Laplace, que é a fórmula usual que envolve o logaritmo do determinante de , que é calculado pela decomposição de Cholesky. O valor da aproximação de Laplace da integral é queé o determinante. ainda precisamos lidar com a largura do conjunto de níveis de como Para a primeira ordem, isso tem o valor onde é o vetor de derivadas parciais de T

L(x^(s),u^(s))|T|12
||gϵ0ϵ/g(x^(s),u^(s))g(x^(s),u^(s)))g (gx1,gx2,,gxm,gu1,gu2,,gun) para que o valor da probabilidade no nível definido de seja fornecido por Essa é a aproximação correta a ser usada para calcular a probabilidade do perfil.g
L(x^(s),u^(s))|T|12g(x^(s),u^(s))
Dave Fournier
fonte