Pergunta sobre como usar o EM para estimar parâmetros deste modelo

8

Estou tentando entender o EM e tentando inferir parâmetros desse modelo usando essa técnica, mas estou tendo problemas para entender como começar:

Então, eu tenho um modelo de regressão linear ponderada da seguinte forma, onde tenho observações e as observações correspondentes . O modelo da relação entre e é um modelo de regressão linear ponderada e as premissas de distribuição são as seguintes:X=(xi,x2....xn)Y=(y1,y2....yn)XY

yiN(βTxi,σ2wi)
βN(0,Σβ)
wiG(a,b)

Aqui são os parâmetros de regressão e o modelo permite variações desiguais, fazendo com que as variáveis ​​de resposta tenham pesos individuais na variação. Meu objetivo é encontrar a relação linear mais provável fornecida pelos parâmetros .ββ

Então, agora posso escrever o log-posterior da seguinte maneira:

logP(Y,β,w|X)=i=1n(logP(yi|xi,β,wi)+logP(wi))+logP(β)

Agora, eu tenho tentado entender EM e não tenho certeza de que meu entendimento ainda esteja completo, mas como eu o entendo, para começar a estimar os parâmetros, começo assumindo a expectativa da distribuição log-posterior em relação aos parâmetros latentes / ocultos que, no meu caso, são e . Portanto, esse valor esperado exigido será:logP(Y,β,w|X)βw

P(β,w|X)logP(Y,β,w|X)dwdβ

No entanto, não tenho idéia de como proceder a partir daqui para calcular essa expectativa. Gostaria muito de receber sugestões sobre qual deve ser o próximo passo. Não estou procurando alguém para me obter todas as coisas necessárias, mas apenas um empurrão na direção certa sobre o que devo procurar resolver nas próximas etapas.

Luca
fonte
você tem certeza de que o EM, como em Expectation-Maximization, se aplica ao seu problema?
Xian
Acho que sim. Estou tentando entender um artigo e eles usam EM para resolver esse problema de regressão linear bayesiana ponderada.
Luca
As variáveis ​​latentes não podem ser β e a wi's. Se você estiver interessado emβ, as variáveis ​​latentes são presumivelmente as wi's. Nesse caso, você deve encontrar a probabilidade completa de log esperadaQ(β|β0) função da etapa E e otimize-a em βna etapa M.
Xian
Obrigado por seu comentário. Se posso tentar esclarecer, o documento menciona que estamos interessados ​​em maximizar a probabilidade incompleta de loglogp(Y|X) mas trabalhamos com a probabilidade de dados completa fornecida por: logP(y,w,β|X), que para mim parecia a distribuição posterior nesta configuração. Então, eu assumiβestá sendo tratado como uma variável oculta nesta configuração.
Luca
2
Quanto você já sabe sobre o algoritmo EM? Que livro ou artigo você estudou sobre isso? Começar do zero em um fórum como esse parece uma má ideia.
Xi'an

Respostas:

3

Deixe-me relembrar o básico do algoritmo EM primeiro. Ao procurar a estimativa de probabilidade máxima de uma probabilidade do formulário

f(x,z|β)dz,
o algoritmo prossegue maximizando iterativamente (M) as esperadas (E) probabilidades completas de log, o que resulta na maximização (em β) na iteração t a função
Q(β|βi)=logf(x,z|β)f(z|x,βt)dz
O algoritmo deve, portanto, começar identificando a variável latente z e sua distribuição condicional.

No seu caso, parece que a variável latente é ϖ feito do wienquanto o parâmetro de interesse é β. Se você processar ambosβ e ϖcomo variáveis ​​latentes, não há nenhum parâmetro a ser otimizado. No entanto, isso também significa que o anteriorβ não é usado.

Se olharmos mais precisamente para o caso de wi, sua distribuição condicional é dada por

f(wi|xi,yi,β)wiexp{wi(yiβTxi)2/2σ2}×wia1exp{bwi}
qualificada como
G(a+1/2,b+(yiβTxi)2/2σ2)
distribuição.

A probabilidade de log concluída é

i12{log(wi)wi(yiβTxi)2/σ2}
a parte que depende β simplifica como
iwi(yiβTxi)2/2σ2
e a função Q(β|βt) é proporcional a
E[iwi(yiβTxi)2|X,Y,βt]=iE[wi|X,Y,βt](yiβTxi)2=ia+1/2b+(yiβtTxi)2/2σ2(yiβTxi)2
Maximizar esta função em β equivale a uma regressão linear ponderada, com pesos
a+1/2b+(yiβtTxi)2/2σ2
Xi'an
fonte
Obrigado por isso e vou passar por isso rigorosamente. No entanto, este trabalho que estou tratando trataβcomo uma variável oculta também. Eles mencionam que assumem a expectativa com a forma aproximada de posteriorQ(β,w) aproximando-o como Q(w)Q(β). Então, isso pouco me realmente confuso ...
Luca
1
Se você tratar ambos β e wcomo variáveis ​​latentes, não resta nenhum parâmetro ...
Xian
1
Talvez o que eles tenham domo seja a estimativa do MAP em vez da estimativa do ML. Se eu tentar reformular isso como a estimativa do MAP, acho que a distribuição anterior deβentraria em jogo?
Luca
1
Uma coisa muito rápida ... Não tenho certeza se você vê isso, mas quando você tem a equação para a probabilidade completa do log, é o primeiro termo não log(wi)? Além disso, acho que o termo que você mostra é a probabilidade de log proporcional a uma constante. Sempre fico confuso com isso quando as coisas são enroladas em constantes.
Luca
1
correção feita: eu coloquei 1/2na frente de toda a expressão.
Xian