que, máxima verossimilhança
encontre β e θ que maximize L (β, θ | dados).
Enquanto, Probabilidade marginal
Nós integramos θ da equação de probabilidade explorando o fato de que podemos identificar a distribuição de probabilidade de θ condicional em β.
Qual é a melhor metodologia para maximizar e por quê?
Cada um deles dará resultados diferentes com uma interpretação diferente. O primeiro encontra o par , θ que é mais provável, enquanto o segundo encontra o β que é (marginalmente) mais provável. Imagine que sua distribuição fique assim:βθβ
β=1β=2 θ=10.0 0.2 θ=20.1 0.2 θ=30.3 0.2
Então a resposta de máxima verossimilhança é ( θ = 3 ), enquanto a resposta de máxima verossimilhança marginal é β = 2 (já que, marginalizando sobre θ , P ( ββ=1θ=3β=2θ ).P(β=2)=0.6
Eu diria que, em geral, a probabilidade marginal geralmente é o que você deseja - se você realmente não se importa com os valores dos parâmetros , então você deve apenas colapsar sobre eles. Mas, provavelmente, na prática, esses métodos não produzirão resultados muito diferentes - se o fizerem, isso pode apontar para alguma instabilidade subjacente em sua solução, por exemplo, vários modos com diferentes combinações de β , θ que fornecem previsões semelhantes.θβθ
Eu encontrei resultados diferentes para métodos de probabilidade máxima / marginal e, portanto, a questão. Eu diria que os dois resultados no meu caso fornecem interpretações diferentes, mas são possíveis.
Ankit Chiplunkar
5
Estou lidando com essa pergunta agora mesmo. Aqui está um resultado que pode ser útil. Considere o modelo linear
y=Xβ+ϵ,ϵ∼N(0,σ2)
onde e β e σ 2y∈Rn,β∈Rp,βσ2 são os parâmetros de interesse. A probabilidade conjunta é
L(β,σ2)=(2πσ2)−n/2exp(−||y−Xβ||22σ2)
Otimizando os rendimentos da probabilidade conjunta
β^=X+y
σ^2=1n||r||2
onde é a pseudo-inversa de X e r = y - X β é o vector residual ajuste. Note-se que em σ 2 temos 1 / n em vez dos graus de liberdade familiares corrigido relação de 1 / ( n - pX+Xr=y−Xβ^σ^21/n . Sabe-se que esse estimador é enviesado no caso de amostra finita.1/(n−p)
Agora, suponha que, em vez de otimizar sobre e σ 2 , integramos β out e estimamos σ 2 a partir da probabilidade integrada resultante:βσ2βσ2
σ^2=maxσ2∫RpL(β,σ2)dβ
Usando álgebra linear elementar e a fórmula integral gaussiana, você pode mostrar que
σ^2=1n−p||r||2
Isso tem a correção do grau de liberdade, o que a torna imparcial e geralmente favorecida em relação à estimativa conjunta de ML.
A partir desse resultado, pode-se perguntar se há algo inerentemente vantajoso na probabilidade integrada, mas não conheço nenhum resultado geral que responda a essa pergunta. O consenso parece ser que o ML integrado é melhor para explicar a incerteza na maioria dos problemas de estimativa. Em particular, se você estiver estimando uma quantidade que depende de outras estimativas de parâmetros (mesmo implicitamente), a integração sobre os outros parâmetros será mais responsável por suas incertezas.
Isto é interessante. Estou, no entanto, um pouco preocupado com o fato de que "integrar " usa uma distribuição marginal inválida, bem como com a ausência de qualquer justificativa aparente para usar essa marginal (imprópria) em comparação com qualquer outra. Que pensamentos você tem sobre esses problemas? β
whuber
1
@whuber Compartilho suas preocupações e não tenho uma resposta pronta, mas observe que a probabilidade de ser marginalizado é apenas uma posterior com um uniforme impróprio antes de , então acho que isso está relacionado à abordagem "objetiva bayesiana". Não se importa quando um parâmetro como β tem uma distribuição prévia inadequada, desde que o posterior seja integrável. ββ
Paul
Na verdade, com base neste post e comentários, acho que o ML integrado, e não o marginal, é o termo certo para o que estamos fazendo aqui. Editado de acordo.
Paul
1
+1 Eu sei que estou muito atrasado para esta parte, mas não estou integrando efeitos fixos colocando um uniforme impróprio antes deles exatamente o que REML faz, então você acabou de obter a estimativa REML e essa correção df é exatamente a Por que o REML é melhor para amostras menores?
JLD
@ Chaconne sim, este post foi motivado ao tentar entender o REML! Não tenho (quase) nenhum ensino formal de estatística, portanto derivar tudo isso era novo para mim.
Paul
4
ββθθθθθi ponderados por sua densidade de probabilidadep ( θEu). Agora issoθ desapareceu, usando amostras de treinamento como da t a, você pode otimizar a probabilidade marginal wrt β.
Estou lidando com essa pergunta agora mesmo. Aqui está um resultado que pode ser útil. Considere o modelo linear
onde e β e σ 2y∈Rn,β∈Rp, β σ2 são os parâmetros de interesse. A probabilidade conjunta é
Otimizando os rendimentos da probabilidade conjunta
onde é a pseudo-inversa de X e r = y - X β é o vector residual ajuste. Note-se que em σ 2 temos 1 / n em vez dos graus de liberdade familiares corrigido relação de 1 / ( n - pX+ X r=y−Xβ^ σ^2 1/n . Sabe-se que esse estimador é enviesado no caso de amostra finita.1/(n−p)
Agora, suponha que, em vez de otimizar sobre e σ 2 , integramos β out e estimamos σ 2 a partir da probabilidade integrada resultante:β σ2 β σ2
Usando álgebra linear elementar e a fórmula integral gaussiana, você pode mostrar que
Isso tem a correção do grau de liberdade, o que a torna imparcial e geralmente favorecida em relação à estimativa conjunta de ML.
A partir desse resultado, pode-se perguntar se há algo inerentemente vantajoso na probabilidade integrada, mas não conheço nenhum resultado geral que responda a essa pergunta. O consenso parece ser que o ML integrado é melhor para explicar a incerteza na maioria dos problemas de estimativa. Em particular, se você estiver estimando uma quantidade que depende de outras estimativas de parâmetros (mesmo implicitamente), a integração sobre os outros parâmetros será mais responsável por suas incertezas.
fonte
fonte