Não tenho certeza sobre o comentário do método de previsão, mas um problema primário está relacionado à geração de medidas de variação facilmente interpretáveis, não medidas de variação por si só. Bates não está comentando na primeira citação se você pode fazê-lo, exatamente o que isso significa.
Tome um modelo simples de vários níveis de um projeto de medidas repetidas de dois níveis. Digamos que você tenha os seguintes dados em que cada linha é um assunto:
No lmer
modelo pode ser expresso como:
y ~ x + (1|subject)
Você está prevendo o valor y de x como um efeito fixo (a diferença entre A e B); e interceptar um efeito aleatório **. Observe atentamente o gráfico e observe que, embora exista variabilidade no efeito x para cada sujeito (inclinação de cada linha), é relativamente pequeno comparado à variabilidade entre os sujeitos (a altura de cada linha).
O modelo analisa esses dois conjuntos de variabilidade e cada um é significativo. Você pode usar os efeitos aleatórios para prever alturas de linhas e efeitos fixos de x para prever inclinações. Você pode até usar os dois combinados para trabalhar nossos valores y individuais. Mas o que você não pode fazer é realmente dizer algo significativo em relação ao seu modelo quando você combina a variabilidade de inclinações e alturas de linhas. Você precisa falar sobre a variabilidade de suas inclinações e alturas de linhas separadamente. Essa é uma característica do modelo, não um passivo.
Você terá uma variabilidade do efeito de x estimada com relativa facilidade. Você poderia dizer algo sobre um intervalo de confiança em torno disso. Mas observe que esse intervalo de confiança terá uma pequena relação com a previsão de qualquer valor y em particular, porque o valor y é influenciado por uma combinação de efeito e variação de assunto, diferente da variabilidade do efeito.
Quando Bates escreve coisas como você citou, imagino que ele esteja pensando em projetos multinível muito mais complexos que isso nem se aproxima. Mas mesmo que você considere esse exemplo simples, você começa a se perguntar que tipo de significado real pode ser extraído da combinação de todas as medidas de variação.
** Ignorei o efeito fixo da interceptação por simplicidade e apenas o tratei como um efeito aleatório. Você poderia extrair conclusões semelhantes de um modelo ainda mais simples, apenas com uma interceptação aleatória e fixa, mas acho que seria mais difícil de transmitir. Nesse caso, novamente, o efeito fixo e o efeito aleatório são analisados por uma razão e significam coisas diferentes, e reunir sua variabilidade novamente para valores previstos faz com que essa variabilidade faça pouco sentido em relação ao modelo.
Durante muito tempo, me perguntei sobre a crença aparentemente comum de que há alguma diferença fundamental em efeitos fixos e aleatórios para modelos de efeitos mistos (geralmente não-lineares). Essa crença é, por exemplo, afirmada por Bates na seguinte resposta
https://stat.ethz.ch/pipermail/r-sig-mixed-models/2010q1/003447.html
Bates afirma claramente que ele acredita que há uma diferença fundamental entre efeitos fixos e aleatórios, para que não possam ser combinados. Acho que ele está errado e espero convencer alguns leitores de um ponto de vista alternativo. Eu adoto uma abordagem freqüentista, então o que eu quero fazer é definir uma noção de probabilidade de perfil para uma função dos efeitos fixos e aleatórios. Para motivar a discussão, suponha que tenhamos um modelo de dois parâmetros com os parâmetros x e u (nada sobre efeitos aleatórios até agora). Seja a função de probabilidade em que suprimimos qualquer referência aos dados. Seja qualquer função (agradável) de x e u. A probabilidade do perfil para a função é dada porg ( x , u ) P g ( t ) gL(x,u) g(x,u) Pg(t) g
Eu acredito que ninguém iria discutir com isso. Agora, suponha que tenhamos uma distribuição de probabilidade anterior para u. Então, eu afirmaria que a probabilidade de perfil para ainda faz sentido, mas devemos modificar (1) incluindo o anterior.p(u) g
Portanto, para obter informações sobre a função , não devemos integrar o parâmetro . Mas o que acontece no caso em que existem muitos parâmetros de efeito aleatório. Em seguida, afirmo que devemos integrar a `` maioria '', mas não todos, em um sentido que tornarei preciso. Para motivar a construção, haja efeitos aleatórios . Considere o caso especial em que a função depende apenas de e, de fato, é a função mais simples que se pode imaginar, . Integre-se nos efeitos aleatórios para obterg(x,u) u n u=(u1,u2,...,un−1,un) g(x,u) un g(x,u)=un u1,u2,...,un−1
Para uma função geral , formamos a função definida por e calculamos a probabilidade do perfilg(x,u) F(x,s) (5)
Essa probabilidade de perfil é um conceito bem definido e permanece por si só. No entanto, para ser útil na prática, é preciso poder calcular seu valor, pelo menos aproximadamente. Acredito que para muitos modelos a função pode ser aproximada suficientemente bem usando uma variante da aproximação de Laplace. Defina por Seja H o hessiano do log da função com relação aos parâmetros e .F(x,s) x^(s),u^(s)
Os conjuntos de níveis de são subvariedades dimensionais de um espaço dimensional , onde existem efeitos fixos e efeitos aleatórios. Precisamos integrar um formulário sobre esse coletor, onde tudo é linearizado em Isso envolve um pouco de geometria diferencial elementar. Suponha que Ao reparameterizarmos, podemos assumir que e . Então considere o mapag m+n−1 n+m m n n du1∧du2∧…∧dun x^(s),u^(s) gxn(x^(s),u^(s))≠0 x^(s)=0 u^(s)=0
O recuo do hessiano é a forma quadrática
Portanto, a integral pode ser calculada (ou aproximada) através da aproximação de Laplace, que é a fórmula usual que envolve o logaritmo do determinante de , que é calculado pela decomposição de Cholesky. O valor da aproximação de Laplace da integral é queé o determinante. ainda precisamos lidar com a largura do conjunto de níveis de como Para a primeira ordem, isso tem o valor onde é o vetor de derivadas parciais deT
fonte