Antecedentes: Atualmente, estou trabalhando para comparar vários modelos hierárquicos bayesianos. Os dados são medidas numéricas de bem-estar do participante ie tempo j . Eu tenho cerca de 1000 participantes e 5 a 10 observações por participante.
Como na maioria dos conjuntos de dados longitudinais, espero ver alguma forma de correlação automática, na qual as observações mais próximas no tempo tenham uma correlação maior do que as que estão mais distantes. Simplificando algumas coisas, o modelo básico é o seguinte:
onde estou comparando um modelo sem atraso:
com um modelo de atraso:
onde é uma média no nível da pessoa e β 1 é o parâmetro lag (ou seja, o efeito lag adiciona um múltiplo do desvio da observação do ponto de tempo anterior do valor previsto desse ponto de tempo). Eu também tive que fazer algumas coisas para estimar y i 0 (ou seja, a observação antes da primeira observação).
Os resultados que estou obtendo indicam que:
- O parâmetro lag está em torno de 0,18, IC 95% [0,14, 0,21]. Ou seja, é diferente de zero
- O desvio médio e o DIC aumentam várias centenas quando o atraso é incluído no modelo
- As verificações preditivas posteriores mostram que, ao incluir o efeito de atraso, o modelo pode recuperar melhor a correlação automática nos dados
Portanto, em resumo, o parâmetro de atraso diferente de zero e as verificações preditivas posteriores sugerem que o modelo de atraso é melhor; no entanto, desvio médio e DIC sugerem que o modelo sem atraso é melhor. Isso me intriga.
Minha experiência geral é que, se você adicionar um parâmetro útil, ele deverá pelo menos reduzir o desvio médio (mesmo se após uma penalidade de complexidade o DIC não for aprimorado). Além disso, um valor zero para o parâmetro lag alcançaria o mesmo desvio que o modelo sem atraso.
Questão
Por que adicionar um efeito de lag aumenta o desvio médio em um modelo hierárquico bayesiano, mesmo quando o parâmetro lag é diferente de zero e melhora as verificações preditivas posteriores?
Pensamentos iniciais
- Eu fiz muitas verificações de convergência (por exemplo, olhando traços; examinando a variação nos resultados de desvio através de cadeias e execuções) e ambos os modelos parecem ter convergido para o posterior.
- Fiz uma verificação de código em que forcei o efeito de atraso a zero, e isso recuperou os desvios do modelo sem atraso.
- Também observei o desvio médio menos a penalidade que deveria gerar o desvio nos valores esperados, e isso também fez o modelo de atraso parecer pior.
- Talvez haja algum problema com a forma como estimei o ponto de tempo implícito antes da primeira observação.
- Talvez o efeito do atraso seja apenas fraco nesses dados
- Tentei estimar o modelo usando uma probabilidade máxima usando
lme
comcorrelation=corAR1()
. A estimativa do parâmetro lag foi muito semelhante. Nesse caso, o modelo de lag teve uma maior probabilidade logarítmica e um AIC menor (em cerca de 100) do que um sem lag (ou seja, sugeriu que o modelo de lag era melhor). Portanto, isso reforçou a ideia de que a adição do atraso também deveria diminuir o desvio no modelo bayesiano. - Talvez haja algo de especial nos resíduos bayesianos. Se o modelo de atraso usar a diferença entre y previsto e real no momento anterior, essa quantidade será incerta. Assim, o efeito do atraso estará operando em um intervalo confiável desses valores residuais.
fonte
Respostas:
Aqui estão os meus pensamentos:
Vamos dar um passo adiante: pegue o modelo que não considera o efeito de atraso (c) e calcule sua probabilidade marginal . Em seguida, pegue sua classe de modelo (d) que incorpora o efeito lag e tem um prior no parâmetro lag; calcular a probabilidade marginal de (d). Você esperaria que (d) tenha uma maior probabilidade marginal . E daí, se não o fizer ?:
(1) A probabilidade marginal considera a classe do modelo como um todo. Isso inclui o efeito de atraso, o número de parâmetros, a probabilidade, o anterior.
(2) A comparação de modelos com um número diferente de parâmetros é sempre delicada, se houver uma incerteza considerável antes dos parâmetros adicionais.
(3) Se você especificar a incerteza no anterior do seu parâmetro de atraso excessivamente grande, penalizará toda a classe de modelo.
(4) Qual é a informação que suporta probabilidades iguais para defasagens negativas e para um atraso positivo? Eu acredito que é muito improvável observar um atraso negativo, e isso deve ser incorporado no anterior.
(5) O anterior que você escolheu no seu parâmetro lag é uniforme. Isso geralmente nunca é uma boa escolha: você tem certeza absoluta de que seus parâmetros devem estar dentro dos limites especificados? Cada valor de atraso dentro dos limites realmente tem igual probabilidade? Minha sugestão: vá com uma distribuição beta (se tiver certeza de que o atraso está limitado; ou com o log-normal, se você puder excluir valores menores que zero .
(6) Este é um exemplo particular, em que o uso de priores não informativos não é bom (observando a probabilidade marginal ): você sempre favorecerá o modelo que possui um número menor de parâmetros incertos; não importa o quão bom ou ruim o modelo com mais parâmetros poderia fazer.
Espero que meus pensamentos lhe dêem novas idéias, dicas ?!
fonte