Várias descrições na seleção de modelos sobre efeitos aleatórios de Modelos Mistos Lineares instruem a usar REML. Conheço a diferença entre REML e ML em algum nível, mas não entendo por que REML deve ser usado porque ML é tendencioso. Por exemplo, é errado realizar um LRT em um parâmetro de variação de um modelo de distribuição normal usando ML (veja o código abaixo)? Não entendo por que é mais importante ser imparcial do que ser ML, na seleção de modelos. Acho que a resposta final deve ser "porque a seleção de modelos funciona melhor com REML do que com ML", mas eu gostaria de saber um pouco mais do que isso. Não li as derivações de LRT e AIC (não sou bom o suficiente para entendê-las completamente), mas se REML for usado explicitamente nas derivações, apenas sabendo que será realmente suficiente (por exemplo,
n <- 100
a <- 10
b <- 1
alpha <- 5
beta <- 1
x <- runif(n,0,10)
y <- rnorm(n,a+b*x,alpha+beta*x)
loglik1 <- function(p,x,y){
a <- p[1]
b <- p[2]
alpha <- p[3]
-sum(dnorm(y,a+b*x,alpha,log=T))
}
loglik2 <- function(p,x,y){
a <- p[1]
b <- p[2]
alpha <- p[3]
beta <- p[4]
-sum(dnorm(y,a+b*x,alpha+beta*x,log=T))
}
m1 <- optim(c(a,b,alpha),loglik1,x=x,y=y)$value
m2 <- optim(c(a,b,alpha,beta),loglik2,x=x,y=y)$value
D <- 2*(m1-m2)
1-pchisq(D,df=1) # p-value
Respostas:
Uma resposta muito curta: o REML é um ML; portanto, o teste baseado no REML está correto de qualquer maneira. Como a estimativa dos parâmetros de variação com REML é melhor, é natural usá-lo.
Por que REML é um ML? Considere, por exemplo, um modelo com X ∈ R n × p , Z ∈ R n × q e β ∈ R p é o vetor dos efeitos fixos, u ∼ N ( 0 , τ I q ) é o vetor de efeitos aleatórios e e ∼ N ( 0 , σ 2 I n )
fonte
Os testes de razão de verossimilhança são testes estatísticos de hipóteses baseados em uma razão de duas verossimilhanças. Suas propriedades estão ligadas à estimativa de máxima verossimilhança (MLE). (ver, por exemplo, estimativa de máxima verossimilhança (MLE) em termos leigos ).
No seu caso (consulte a pergunta), você deseja '' escolher '' entre dois modelos var-covar aninhados, digamos que você queira escolher entre um modelo em que o var-covar é e um modelo em que o var-covar é Σ s onde o segundo (modelo simples) é um caso especial do primeiro (o geral).Σg Σs
O teste baseia-se na probabilidade proporção . Onde Σ s e Σ g são o estimadores de probabilidade máxima.LR=−2(log(Ls(Σ^s))−log(Lg(Σ^g)) Σ^s Σ^g
A estatística é, assintoticamente (!) × 2 .LR χ2
Sabe-se que os estimadores de probabilidade máxima são consistentes; no entanto, em muitos casos, eles são tendenciosos. Este é o caso para os estimadores MLE para a e Σ g, pode ser mostrar que eles são tendenciosos. Isso ocorre porque eles são calculados usando uma média derivada dos dados, de modo que a dispersão em torno dessa "média estimada" é menor que a dispersão em torno da média verdadeira (consulte Por exemplo,explicação intuitiva para dividir porn-1ao calcular o desvio padrão ?)Σ^s Σ^g n−1
A estatística acima é χ 2LR χ2 em amostras de grandes dimensões, isto é só por causa do facto de que, em grandes e Σ g convergem para os verdadeiros valores (MLE são consistentes). (Nota: no link acima, para amostras muito grandes, dividindo por n ou por (n-1), não fará diferença)Σ^s Σ^g
Para amostras mais pequenas, a MLE estima de Σ s e Σ g serão polarizados e, por conseguinte, a distribuição de L R irá desviar-se do χ 2Σ^s Σ^g LR χ2 , enquanto que as estimativas REML vai dar estimativas imparciais para e Σ g , de modo que se estiver a utilizar , para a selecção do modelo var-covar, o REML calcula, em seguida, o L I vai para amostras menores ser melhor aproximada pela χ 2 .Σs Σg LR χ2
Observe que REML deve ser usado apenas para escolher entre estruturas var-covar aninhadas de modelos com a mesma média; para modelos com médias diferentes, a REML não é apropriada; para modelos com diferentes formas, deve-se usar ML.
fonte
Eu tenho uma resposta que tem mais a ver com senso comum do que com estatística. Se você der uma olhada no PROC MIXED no SAS, a estimativa poderá ser realizada com seis métodos:
http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_mixed_sect008.htm
mas REML é o padrão. Por quê? Aparentemente, a experiência prática mostrou que tem o melhor desempenho (por exemplo, a menor chance de problemas de convergência). Portanto, se seu objetivo for atingível com o REML, faz sentido usar o REML em oposição aos outros cinco métodos.
fonte