Eu tenho um conjunto de dados que não é fornecido como mas como pares Para cada par o verdadeiro está no intervalo mas não se sabe onde.
No contexto, isso significa que temos intervalos nos quais sabemos que um evento ocorreu, o que nos diz que ocorreu após mas antes de .
O objetivo da análise é modelar esses dados ou, de alguma forma, aproximar a distribuição. Inicialmente, começarei tentando usar as informações contidas nos intervalos para ajustar uma distribuição normal à distribuição dos eventos não observados .
Estou com muita dificuldade em encontrar informações sobre esse tipo de problema. Esse é um campo conhecido de pesquisa, de análise estatística de intervalos?
probability
interval-censoring
Kees Mulder
fonte
fonte
Respostas:
Os dados são censurados , especificamente censurados por intervalo . A censura, especialmente a censura à direita (início, mas sem fim), é um recurso comum dos dados de tempo até o evento e tratados sob análise de sobrevivência (Medicina) ou análise de confiabilidade (Engenharia).
Para a modelagem paramétrica de tais dados, o insight principal é que as contribuições para a probabilidade conjunta de dados sem censura são da forma enquanto as dos dados censurados são da forma onde é a densidade & a função de distribuição. Sob a hipótese de censura independente - para a qual você não deve pular -, essa é a única parte da probabilidade necessária para inferência, pois os tempos de censura não contêm informações adicionais sobre os parâmetros. Se uma distribuição normal parecer apropriada, comece com um gráfico de contorno da probabilidade em relação aos parâmetros de média e variância, e melhore as estimativas iniciais de máxima verossimilhança numericamente.
fonte
Um bom começo para examinar a distribuição univariada seria examinar o Estimador de máxima verossimilhança não paramétrico (NPMLE). Essa é uma generalização das curvas de Kaplan-Meier (que por si só é uma generalização da Função de Distribuição Empírica), que fornecerá uma estimativa não paramétrica da função de distribuição cumulativa. Curiosamente, essa estimativa não é única (diferente das curvas EDF ou Kaplan Meier), mas é conhecida até um intervalo. Portanto, você obterá um par de funções de etapa que vinculam o NPMLE, em vez de uma função de etapa única.
Embora esse estimador seja bom para examinar a forma de uma distribuição, pode ser um pouco instável, ou seja, alta variação nas estimativas. Pode-se ajustar modelos paramétricos padrão, mas ainda é recomendável usar o NPMLE pelo menos para a verificação do modelo.
Muitos dos modelos de regressão de sobrevivência padrão estão disponíveis (riscos proporcionais, tempo de falha acelerado e chances proporcionais, por exemplo). Curiosamente, embora o NPMLE possua alta variação para as estimativas da curva de sobrevida, os parâmetros de regressão em um modelo semi-paramétrico que utiliza o NPMLE para a distrubição da linha de base não sofrem com a instabilidade. Portanto, os métodos de regressão semi-paramétricos são bastante populares para inferência.
@ Scortchi e @whuber trazem pontos importantes sobre a geração do início e do fim dos intervalos de observação ( conforme definido pelo OP). Uma suposição simplificadora padrão (que deve ser cuidadosamente considerada) é que há um conjunto de tempos de inspeção que são gerados independentemente do tempo real do evento / resultado de interesse (igualdade ocorre quando observamos exatamente o horário do evento). Então, tudo o que observamos é o intervalo tal quexstarti,xendi C0≤C1≤,...,≤Ck t Cj,Cj+1 t∈Cj,Cj+1 . Mas, se parecer plausível que o tempo do evento possa influenciar fortemente o tempo da inspeção, é necessário tomar cuidado na análise. Como exemplo, suponha que nosso evento de interesse tenha sido o início da cárie dentária e que nossas inspeções fossem visitas ao dentista. Se formos ao dentista regularmente, a suposição de independência parece razoável. Mas se raramente formos ao dentista, exceto quando nosso dente dói muito, então definitivamente está influenciando !t Cj
Um breve tutorial para usar esses modelos no meu pacote R
icenReg
pode ser encontrado aqui .fonte