Estimativa de máxima verossimilhança EM para distribuição Weibull

24

Nota: Estou postando uma pergunta de um ex-aluno meu incapaz de postar por conta própria por motivos técnicos.

Dada uma amostra iid de uma distribuição Weibull com pdf existe uma representação variável ausente útil e, portanto, um algoritmo EM (maximização de expectativa) associado que pode ser usado para encontrar o MLE de , em vez de usar diretamente otimização numérica?f k ( x ) = k x k - 1 e - x kx1,,xnf k ( x ) = Z g k ( x , z )

fk(x)=kxk1exkx>0
k
fk(x)=Zgk(x,z)dz
k
Xi'an
fonte
2
Existe alguma censura?
Ocram
2
O que há de errado com newton rhapson?
probabilityislogic
2
@probabilityislogic: nada está errado com nada! Meu aluno gostaria de saber se existe uma versão EM, isso é tudo ...
Xi'an
11
Você poderia dar um exemplo do que está procurando em um contexto diferente e mais simples, por exemplo, talvez com observações de uma variável aleatória gaussiana ou uniforme? Quando todos os dados são observados, eu (e alguns dos outros pôsteres, com base em seus comentários) não vejo como o EM é relevante para sua pergunta.
ahfoss 15/01
11
@probabilityislogic Acho que você deveria ter dito: "Oh, você quer dizer que deseja usar Newton Raphson?". Weibulls são famílias regulares ... Eu acho, então as soluções ML são únicas. Portanto, EM não tem nada para "E" terminar, então você está apenas "M" ing ... e encontrar raízes das equações de pontuação é a melhor maneira de fazer isso!
AdamO 20/08/14

Respostas:

7

Eu acho que a resposta é sim, se eu entendi a pergunta corretamente.

Escreva . Em seguida, um tipo de iteração do algoritmo EM, começando com, por exemplo, , ék = 1zi=xikk^=1

  • E passo: z^i=xik^

  • Etapa M: k^=n[(z^i1)logxi]

Este é um caso especial (o caso sem censura e sem covariáveis) da iteração sugerida para modelos de riscos proporcionais de Weibull por Aitkin e Clayton (1980). Também pode ser encontrado na Seção 6.11 de Aitkin et al (1989).

  • Aitkin, M. e Clayton, D., 1980. O ajuste de distribuições exponenciais, Weibull e de valor extremo a dados complexos de sobrevivência censurada usando GLIM. Estatística Aplicada , pp.156-163.

  • Aitkin, M., Anderson, D., Francis, B. e Hinde, J., 1989. Statistical Modeling in GLIM . Imprensa da Universidade de Oxford. Nova york.

DavidF
fonte
Muito obrigado David! Tratar como a variável que faltava nunca passou pela minha cabeça ...! xik
Xi'an
7

O Weibull MLE é apenas numericamente solucionável:

Deixe com .

fλ,β(x)={βλ(xλ)β1e(xλ)β,x00,x<0
β,λ>0

1) Função de probabilidade :

Lx^(λ,β)=i=1Nfλ,β(xi)=i=1Nβλ(xiλ)β1e(xiλ)β=βNλNβei=1N(xiλ)βi=1Nxiβ1

função log-Probabilidade :

x^(λ,β):=lnLx^(λ,β)=NlnβNβlnλi=1N(xiλ)β+(β1)i=1Nlnxi

2) Problema no MLE : 3) Maximização por alunos: Segue-se:

max(λ,β)R2x^(λ,β)s.t.λ>0β>0
0
lλ=Nβ1λ+βi=1Nxiβ1λβ+1=!0lβ=NβNlnλi=1Nln(xiλ)eβln(xiλ)+i=1Nlnxi=!0
Nβ1λ+βi=1Nxiβ1λβ+1=0β1λN+β1λi=1Nxiβ1λβ=01+1Ni=1Nxiβ1λβ=01Ni=1Nxiβ=λβ
λ=(1Ni=1Nxiβ)1β

Conectando na segunda condição de gradiente 0:λ

β=[i=1Nxiβlnxii=1Nxiβlnx¯]1

Essa equação é apenas numericamente solucionável, por exemplo, algoritmo de Newton-Raphson. pode então ser colocado em para concluir o estimador de ML para a distribuição Weibull.λ*β^λ

emcor
fonte
11
Infelizmente, isso não parece responder à pergunta de maneira discernível. O OP está muito ciente de Newton-Raphson e abordagens relacionadas. A viabilidade da NR de forma alguma impede a existência de uma representação de variável ausente ou algoritmo EM associado. Na minha opinião, a questão não se preocupa em nada com soluções numéricas, mas sim em busca de insights que podem se tornar aparentes se uma abordagem interessante de variável ausente for demonstrada.
cardeal
@ cardinal Uma coisa é dizer que havia apenas solução numérica e outra é mostrar que há apenas solução numérica.
Emcor
5
Caro @emcor, acho que você pode estar entendendo mal o que a pergunta está fazendo. Talvez revisar a outra resposta e o fluxo de comentários associado seja útil. Felicidades.
cardeal
@ cardinal Concordo que não é uma resposta direta, mas são as expressões exatas para o MLE, por exemplo, podem ser usadas para verificar o EM.
emcor 22/09/14
4

Embora essa seja uma pergunta antiga, parece que há uma resposta em um artigo publicado aqui: http://home.iitk.ac.in/~kundu/interval-censoring-REVISED-2.pdf

Neste trabalho, a análise de dados censurados por intervalos, com a distribuição Weibull como a distribuição vitalícia subjacente, foi considerada. Supõe-se que o mecanismo de censura seja independente e não informativo. Como esperado, os estimadores de probabilidade máxima não podem ser obtidos de forma fechada. Em nossos experimentos de simulação, observa-se que o método de Newton-Raphson pode não convergir muitas vezes. Um algoritmo de maximização de expectativa foi sugerido para calcular os estimadores de probabilidade máxima e converge quase o tempo todo.

user3204720
fonte
11
Você pode postar uma citação completa do artigo no link, caso ele morra?
gung - Restabelece Monica
11
Este é um algoritmo EM, mas não faz o que acredito que o OP deseja. Em vez disso, a etapa E imputa os dados censurados, após o que a etapa M usa um algoritmo de ponto fixo com o conjunto de dados completo. Portanto, o M-step não está no formato fechado (que eu acho que é o que o OP está procurando).
Cliff AB
11
@CliffAB: obrigado pelo link (+1), mas na verdade o EM é naturalmente induzido neste artigo pela parte de censura. Meu ex-aluno estava procurando uma otimização de probabilidade simples, sem censura, do Weibull via EM.
Xi'an
-1

Nesse caso, os estimadores MLE e EM são equivalentes, já que o estimador MLE é na verdade apenas um caso especial do estimador EM. (Estou assumindo uma estrutura freqüentista em minha resposta; isso não é verdade para EM em um contexto bayesiano em que estamos falando sobre os MAPs). Como não há dados ausentes (apenas um parâmetro desconhecido), a etapa E simplesmente retorna a probabilidade do log, independentemente da sua escolha de . A etapa M maximiza a probabilidade do log, produzindo o MLE.k(t)

O EM seria aplicável, por exemplo, se você tivesse observado dados de uma mistura de duas distribuições Weibull com os parâmetros e , mas você não sabia de qual dessas duas distribuições vinha cada observação.k1k2

ahfoss
fonte
6
Eu acho que você pode ter interpretado mal o ponto da pergunta, que é: Existe alguma interpretação de variável ausente da qual se obteria a probabilidade Weibull dada (e que permitiria a aplicação de um algoritmo semelhante ao EM)?
cardeal
4
A declaração da pergunta no post de @ Xi'an é bastante clara. Acho que a razão pela qual não foi respondida é porque qualquer resposta provavelmente não é trivial. (É interessante, então eu gostaria de ter mais tempo para pensar sobre isso.) De qualquer forma, seu comentário parece trair um mal-entendido do algoritmo EM. Talvez o seguinte sirva de antídoto:
cardeal
6
Seja que é a função de densidade normal padrão. Seja . Com iid uniforme padrão, pegue . Então, é uma amostra de um modelo de mistura gaussiano. Podemos estimar os parâmetros por (força bruta) máxima verossimilhança. Faltam dados no nosso processo de geração de dados? Não . Possui uma representação de variável latente, permitindo o uso de um algoritmo EM? Sim absolutamente . f(x)=πφ(xμ1)+(1π)φ(xμ2)φF(x)=xf(u)duU1,,UnXi=F1(Ui)X1,,Xn
cardeal
4
Minhas desculpas @cardinal; Acho que não entendi duas coisas sobre o seu último post. Sim, no problema do GMM, você pode pesquisar por meio de uma abordagem ML de força bruta. Além disso, agora vejo que o problema original procura uma solução que envolva a introdução de uma variável latente que permita uma abordagem EM para estimar o parâmetro na densidade fornecida . Um problema interessante. Existem exemplos de uso de EM como este em um contexto tão simples? A maior parte da minha exposição ao EM foi no contexto de problemas de mistura e imputação de dados. kk x k - 1 e - x kR2×[0,1]kkxk1exk
ahfoss 23/01
3
@ahfoss: (+1) ao seu último comentário. Sim! Você entendeu. Como exemplos: (i) aparece em problemas de dados censurados, (ii) aplicações clássicas como modelos ocultos de Markov, (iii) modelos simples de limiares como modelos probit (por exemplo, imagine observar o latente em vez de Bernoulli ), (iv) estimando componentes de variância em modelos de efeitos aleatórios unidirecionais (e modelos mistos muito mais complexos) e (v) encontrando o modo posterior em um modelo hierárquico bayesiano. O mais simples é provavelmente (i) seguido por (iii). X i = 1 ( Z i > μ )ZiXi=1(Zi>μ)
cardeal