Perguntas básicas sobre análise discreta de sobrevivência em tempo

Estou tentando realizar uma análise discreta de sobrevivência no tempo usando um modelo de regressão logística, e não tenho certeza se entendi completamente o processo. Eu gostaria muito de receber ajuda com algumas perguntas básicas.

Aqui está a configuração:

Estou analisando a participação em um grupo dentro de uma janela de cinco anos. Cada membro tem um registro mensal de associação para cada mês em que está no grupo. Estou considerando todos os membros cuja associação começou durante a janela de cinco anos (para evitar problemas de "censura à esquerda" com membros que ingressaram anteriormente). Cada registro será indexado por hora, sendo a hora um o mês em que o membro ingressou. Portanto, um membro que permanecer por dois anos e meio terá trinta registros mensais, numerados de um a trinta. Cada registro também receberá uma variável binária, que terá um valor de um para o último mês de associação e zero caso contrário; um valor de um para a variável binária marca o evento em que o membro saiu do grupo. Para cada membro cuja associação continua além da janela de análise de cinco anos,

Portanto, o modelo de regressão logística é construído para prever os valores da variável de evento binário. Por enquanto, tudo bem. Uma das maneiras típicas de avaliar um modelo preditivo binário é medir o aumento em uma amostra de validação. Para o modelo de regressão logística que criei para prever o evento de término da associação, calculei o aumento em um conjunto de dados de validação com uma proporção de cinco para um de não eventos para eventos. Eu classifiquei os valores previstos em decis. O decil com os valores preditos mais altos contém setenta por cento, um aumento de mais de quatro. Os dois primeiros deciles combinados contêm sessenta e cinco por cento de todos os do restante. Em certos contextos, isso seria considerado um modelo preditivo bastante decente, mas me pergunto se é bom o suficiente para realizar uma análise de sobrevivência.

Seja a função de risco para o indivíduo no mês , e seja a probabilidade de que o indivíduo sobreviva até o mês . $h[j,k]$ $j$ $k$ $S[j,k]$ $j$ $k$

Aqui estão minhas perguntas fundamentais:

A função de risco discreto, , é a probabilidade condicional de não sobrevivência (deixando o grupo) em cada mês? $h[j,k]$
Os valores previstos das estimativas do modelo de regressão logística da função de risco? (ou seja, igual ao valor previsto do modelo para o indivíduo no mês , ou é necessário fazer algo mais para obter estimativas da função de risco?) $h[j,k]$ $j$ $k$
A probabilidade de sobrevivência até o mês q para o indivíduo igual ao produto de um menos a função de risco do mês um até o , ou seja, ? $j$ $q$ $S[j,q] = (1 - h[j,1]) \cdot (1 - h[j,2]) \cdot \ldots \cdot (1 - h[j,q])$
O valor médio de em todos os indivíduos para cada tempo uma estimativa razoável da probabilidade média de sobrevivência da população geral? $S[j,k]$ $j$ $k$
Um gráfico da população em geral deve significar probabilidade de sobrevivência por mês, semelhante ao gráfico mensal de Kaplan-Meier?

Se a resposta para qualquer uma dessas perguntas for negativa, tenho um sério mal-entendido e poderia realmente usar alguma assistência / explicação. Além disso, existe alguma regra prática sobre o quão bom o modelo preditivo binário precisa ser para produzir um perfil de sobrevivência preciso?

survival discrete-data hazard kaplan-meier Talbot Katz
fonte

Talvez o presente pode ajudá-lo com algumas de suas perguntas

jujae

Respostas:

Suponha que é o maior valor de (ou seja, o maior mês / período observado em seus dados). $K$ $k$

Aqui está a função de risco com uma parametrização totalmente discreta do tempo e, com um vetor de parâmetros um vetor de variáveis condicionantes : . A função de risco também pode ser construída em torno de parametrizações alternativas de tempo (por exemplo, incluir ou funções dele como uma variável no modelo) ou em torno de um híbrido de ambos. $\mathbf{B}$ $\mathbf{X}$ $h_{j,k} = \frac{e^{\alpha_{k} + \mathbf{BX}}}{1 + e^{\alpha_{k} + \mathbf{BX}}}$ $k$

A função de risco de logit da linha de base descreve a probabilidade de ocorrência de eventos no tempo , condicionada à sobrevivência do tempo . A adição de preditores ( ) ao modelo restringe ainda mais essa condicionalidade. $k$ $k$ $\mathbf{X}$
Não, as estimativas de regressão logística (por exemplo, , , , ) não são as funções de perigo em si. Os modelos de regressão logística: logit , e você precisa executar a transformação anti-logit em (1) acima para obter as estimativas de risco. $\hat{\alpha}_{1}$ $\dots$ $\hat{\alpha}_{K}$ $\mathbf{\hat{B}}$ $(h_{j,k}) = \alpha_{k} + \mathbf{BX}$
Sim. Embora eu não o anotasse . A função de sobrevivência é a probabilidade de não ocorrer o evento pelo tempo e, é claro, também pode estar condicionada a . $\hat{S}_{j,q} = \prod_{i=1}^{q}{(1-h_{j,i})}$ $k$ $\mathbf{X}$
Esta é uma pergunta sutil, não tenho certeza se tenho respostas. Eu tenho perguntas, no entanto. :) O tamanho da amostra em cada período diminui ao longo do tempo devido à censura à direita e à ocorrência de eventos: você consideraria isso no cálculo do tempo médio de sobrevivência? Quão? O que você quer dizer com "população"? Para qual população os indivíduos recrutados para o seu estudo estão generalizando? Ou você quer dizer algum conceito estatístico de "superpopulação"? A inferência é um grande desafio nesses modelos, porque estimamos seus erros padrão, mas precisamos fazer retrocessos no método delta para obter erros padrão para e (de meu próprio trabalho) derivando erros padrão válidos para $\beta$ $\hat{h}_{j,k}$ $\hat{S}_{j,k}$ funciona apenas em papel (não consigo obter coberturas de IC corretas para em modelos condicionais). $\hat{S}_{j,k}$
Você pode usar gráficos de função de etapa do tipo Kaplan-Meier e também gráficos de linhas retas (por exemplo, conectar os pontos entre os períodos de tempo com uma linha). Você deve usar o último caso apenas quando o próprio conceito de "tempo discreto" admitir a possibilidade de períodos subdivididos. Você também pode desenhar / comunicar estimativas de incidência cumulativa (que é ... pelo menos epidemiologistas, muitas vezes, definir "incidência cumulativa" Desta forma, o termo é usado de forma diferente em modelos riscos competitivos O termo. Captação também pode ser usado aqui.). $1 - S_{j,k}$

Alexis
fonte

Penso que na pergunta 2, o OP está perguntando sobre o valor previsto do modelo logístico, não as estimativas dos coeficientes de regressão. Isto pode ser relevante

jujae

@jujae Eu expliquei explicitamente a função logística na minha resposta ao item 2 e direcionei a atenção do OP para o uso do anti-logit para transformar as estimativas dos parâmetros do logit em , por isso não entendo seu comentário.

\hat{h} (t)

$\hat{h}(t)$

Alexis

Não é o valor previsto de um modelo logístico a probabilidade de sucesso do rv binário, de modo que não seja necessário ant-logit. Isso é ?

y_{p r e d} = \exp (β^{T} x) / (1 + \exp (β^{T} x))

$y_\mathrm{pred}= \exp(\beta^Tx)/(1+\exp(\beta^Tx))$

jujae

De volta à pergunta original 2, o OP perguntou: "Os valores previstos das estimativas do modelo de regressão logística da função de perigo?" Eu diria que sim (se meu entendimento do valor previsto estiver correto). E você está dizendo não e argumenta que os coeficientes estimados não são iguais à estimativa de risco. Concordo com sua afirmação, eles estão corretos, mas não foi o que o OP pediu do meu entendimento.

28617 jujue

k

$k$

{\hat{S}}_{j} (k)

$\hat{S}_j(k)$

S (k)

$S(k)$