Estimativa de distribuição exponencial de ML (com dados censurados)

9

Na Análise de Sobrevivência, você assume que o tempo de sobrevivência de um rv seja distribuído exponencialmente. Considerando agora que eu tenho "resultados" do do iid rv . Apenas uma parte desses resultados é de fato "plenamente realizada", ou seja, as demais observações ainda estão "vivas".x 1 , , x n X iXix1,,xnXi

Se eu quisesse realizar uma estimativa de ML para o parâmetro de taxa da distribuição, como posso utilizar as observações não realizadas de maneira coerente / apropriada? Eu acredito que eles ainda contêm informações úteis para a estimativa.λ

Alguém poderia me guiar para a literatura sobre esse tópico? Tenho certeza que existe. No entanto, estou tendo problemas para encontrar boas palavras-chave / termos de pesquisa para o tópico.

Good Guy Mike
fonte
3
Então você está dizendo que, das variáveis ​​aleatórias das quais você tem uma medida, digamos que observações representam a duração "finalizada" (porque, as variáveis ​​aleatórias associadas estavam "mortas" no momento da medição), enquanto as demais observações são comprimentos de sobrevivência de variáveis ​​aleatórias que "ainda estavam vivas" no momento da medição? ( )n 1 < n n 2 < n n 1 + n 2 = nnn1<nn2<nn1+n2=n
Alecos Papadopoulos
11
este é um modelo truncado, as variáveis ​​aleatórias "vivas" sendo truncadas no momento em que a observação para.
Xi'an
11
Confira os modelos do Tobit para obter dados truncados e fontes relacionadas (por exemplo, aqui ).
Richard Hardy
2
Você parece ter dados censurados, como vidas úteis, em que algumas pessoas morreram, mas algumas ainda estão vivas, de tal maneira que você sabe apenas que, digamos, para alguma constante conhecida . t ixi>titi
precisa saber é o seguinte
3
Cuidado com a diferença algumas vezes sutil entre as duas situações. Não é incomum que o truncamento seja confundido com censura e vice-versa.
Alecos Papadopoulos

Respostas:

16

Você ainda pode estimar parâmetros usando a probabilidade diretamente. Seja as observações com a distribuição exponencial com rate e desconhecida. A função densidade é , função de distribuição cumulativa e a função de cauda . Suponha que as primeiras observações sejam totalmente observadas, enquanto que para sabemos apenas que para algumas constantes positivas conhecidas λ > 0 f ( x ; λ ) = λ e - λ x F ( x ; λ ) = 1 - e - λ x G ( x ; λ ) = 1 - F ( x ; λ ) = e - λ x r x r + 1 ,x1,,xnλ>0f(x;λ)=λeλxF(x;λ)=1eλxG(x;λ)=1F(x;λ)=eλxrx j > t j t j P ( X j > t j ) = G ( t j ; λ ) L ( λ ) = r i = 1 f ( x i ; λ ) n i = r + 1 G ( t j ; λ ) l (xr+1,,xnxj>tjtj. Como sempre, a probabilidade é a "probabilidade dos dados observados", para as observações censuradas, que são dadas por , então a função de probabilidade total é A função de probabilidade de log torna-se que tem a mesma forma da probabilidade de log para o caso usual e totalmente observado, exceto no primeiro termo em local de . Escrevendo para a média de observações e tempos de censura, o estimador de probabilidade máxima de se tornaP(Xj>tj)=G(tj;λ)

L(λ)=i=1rf(xi;λ)i=r+1nG(tj;λ)
l(λ)=rlogλλ(x1++xr+tr+1++tn)
rlogλnlogλTλλ^=rnT , que você mesmo pode comparar com o caso totalmente observado.
 EDIT   

Para tentar responder à pergunta nos comentários: se todas as observações foram censuradas, ou seja, não esperamos o tempo suficiente para observar qualquer evento (morte), o que podemos fazer? Nesse caso, , então a probabilidade de logar torna-se ou seja, é uma diminuição linear em . Portanto, o máximo deve ser para ! Porém, zero não é um valor válido para o parâmetro de taxa pois não corresponde a nenhuma distribuição exponencial. Devemos concluir que, neste caso, o estimador de probabilidade máxima não existe! Talvez alguém possa tentar construir algum tipo de intervalo de confiança parar=0

l(λ)=nTλ
λλ=0λλcom base nessa função de probabilidade de log? Para isso, veja abaixo.

Mas, em qualquer caso, a conclusão real dos dados nesse caso é que devemos esperar mais tempo até obter alguns eventos ...

Aqui está como podemos construir um intervalo de confiança (unilateral) para , caso todas as observações sejam censuradas. A função de probabilidade nesse caso é , que tem a mesma forma que a função de probabilidade de um experimento binomial em que obtivemos todos os sucessos, que é (consulte também Intervalo de confiança em torno da estimativa binomial de 0 ou 1 ). Nesse caso, queremos um intervalo de confiança unilateral para no formato . Então, temos um intervalo para , resolvendo .e - λ n T p n p [ p ¯λeλnTpnpλ log p = - λ T[p¯,1]λlogp=λT

Obtemos o intervalo de confiança para resolvendo para que . Finalmente, isso fornece o intervalo de confiança para : P ( X = n ) = p n0,95 (digamos) n log p log 0,95 λ λ - log 0,95p

P(X=n)=pn0.95    (say)
nlogplog0.95λ
λlog0.95nT.
kjetil b halvorsen
fonte
11
Ao ler a pergunta e a resposta, pensei: "E se todas as observações forem do segundo tipo, para as quais sabemos apenas que , e nenhuma observação foi totalmente observada?" Seria realmente útil incluir este caso também na sua resposta, como uma extensão. xj>tj
Alecos Papadopoulos