Qual é a melhor probabilidade máxima ou probabilidade marginal e por quê?

13

Ao executar a regressão, se seguirmos a definição de: Qual é a diferença entre uma probabilidade parcial, uma probabilidade de perfil e uma probabilidade marginal?

que, máxima verossimilhança
encontre β e θ que maximize L (β, θ | dados).

Enquanto, Probabilidade marginal
Nós integramos θ da equação de probabilidade explorando o fato de que podemos identificar a distribuição de probabilidade de θ condicional em β.

Qual é a melhor metodologia para maximizar e por quê?

Ankit Chiplunkar
fonte

Respostas:

14

Cada um deles dará resultados diferentes com uma interpretação diferente. O primeiro encontra o par , θ que é mais provável, enquanto o segundo encontra o β que é (marginalmente) mais provável. Imagine que sua distribuição fique assim:βθβ

    β=1β=2
θ=10.0 0.2 
θ=20.1 0.2 
θ=30.3 0.2 

Então a resposta de máxima verossimilhança é ( θ = 3 ), enquanto a resposta de máxima verossimilhança marginal é β = 2 (já que, marginalizando sobre θ , P ( ββ=1θ=3β=2θ ).P(β=2)=0.6

Eu diria que, em geral, a probabilidade marginal geralmente é o que você deseja - se você realmente não se importa com os valores dos parâmetros , então você deve apenas colapsar sobre eles. Mas, provavelmente, na prática, esses métodos não produzirão resultados muito diferentes - se o fizerem, isso pode apontar para alguma instabilidade subjacente em sua solução, por exemplo, vários modos com diferentes combinações de β , θ que fornecem previsões semelhantes.θβθ

Chris
fonte
Eu encontrei resultados diferentes para métodos de probabilidade máxima / marginal e, portanto, a questão. Eu diria que os dois resultados no meu caso fornecem interpretações diferentes, mas são possíveis.
Ankit Chiplunkar
5

Estou lidando com essa pergunta agora mesmo. Aqui está um resultado que pode ser útil. Considere o modelo linear

y=Xβ+ϵ,ϵN(0,σ2)

onde e β e σ 2yRn,βRp,βσ2 são os parâmetros de interesse. A probabilidade conjunta é

L(β,σ2)=(2πσ2)n/2exp(||yXβ||22σ2)

Otimizando os rendimentos da probabilidade conjunta

β^=X+y

σ^2=1n||r||2

onde é a pseudo-inversa de X e r = y - X β é o vector residual ajuste. Note-se que em σ 2 temos 1 / n em vez dos graus de liberdade familiares corrigido relação de 1 / ( n - pX+Xr=yXβ^σ^21/n . Sabe-se que esse estimador é enviesado no caso de amostra finita.1/(np)

Agora, suponha que, em vez de otimizar sobre e σ 2 , integramos β out e estimamos σ 2 a partir da probabilidade integrada resultante:βσ2βσ2

σ^2=maxσ2RpL(β,σ2)dβ

Usando álgebra linear elementar e a fórmula integral gaussiana, você pode mostrar que

σ^2=1np||r||2

Isso tem a correção do grau de liberdade, o que a torna imparcial e geralmente favorecida em relação à estimativa conjunta de ML.

A partir desse resultado, pode-se perguntar se há algo inerentemente vantajoso na probabilidade integrada, mas não conheço nenhum resultado geral que responda a essa pergunta. O consenso parece ser que o ML integrado é melhor para explicar a incerteza na maioria dos problemas de estimativa. Em particular, se você estiver estimando uma quantidade que depende de outras estimativas de parâmetros (mesmo implicitamente), a integração sobre os outros parâmetros será mais responsável por suas incertezas.

Paulo
fonte
1
Isto é interessante. Estou, no entanto, um pouco preocupado com o fato de que "integrar " usa uma distribuição marginal inválida, bem como com a ausência de qualquer justificativa aparente para usar essa marginal (imprópria) em comparação com qualquer outra. Que pensamentos você tem sobre esses problemas? β
whuber
1
@whuber Compartilho suas preocupações e não tenho uma resposta pronta, mas observe que a probabilidade de ser marginalizado é apenas uma posterior com um uniforme impróprio antes de , então acho que isso está relacionado à abordagem "objetiva bayesiana". Não se importa quando um parâmetro como β tem uma distribuição prévia inadequada, desde que o posterior seja integrável. ββ
Paul
Na verdade, com base neste post e comentários, acho que o ML integrado, e não o marginal, é o termo certo para o que estamos fazendo aqui. Editado de acordo.
Paul
1
+1 Eu sei que estou muito atrasado para esta parte, mas não estou integrando efeitos fixos colocando um uniforme impróprio antes deles exatamente o que REML faz, então você acabou de obter a estimativa REML e essa correção df é exatamente a Por que o REML é melhor para amostras menores?
JLD
@ Chaconne sim, este post foi motivado ao tentar entender o REML! Não tenho (quase) nenhum ensino formal de estatística, portanto derivar tudo isso era novo para mim.
Paul
4

ββθθθθθi ponderados por sua densidade de probabilidadep(θEu). Agora issoθ desapareceu, usando amostras de treinamento como dumatuma, você pode otimizar a probabilidade marginal wrt β.

Seeda
fonte