Aplicação Apropriada da Análise de Sobrevivência

8

Eu tenho um experimento que produzirá observações do tempo até que um evento ocorra. Algumas propriedades básicas são que

  1. Contamos o número de eventos que ocorreram em algum momento .t1,...,tn
  2. Os horários dos eventos são censurados por intervalo, entre ,(t1,t]
  3. Os indivíduos não deixarão a avaliação entre , ou seja, um indivíduo experimenta o evento por ou não, quando é censurado,t1,...tnt1
  4. Uma grande proporção dos indivíduos não receberá o evento por , quando encerrarmos o experimento, etn
  5. Não posso assumir nenhum modelo de decaimento paramétrico subjacente.

Parece ser uma aplicação natural para análise de sobrevivência. No entanto, é complicado pelo fato de ser trivial repetir o experimento da mesma configuração inicial várias vezes. Com efeito, teremos um conjunto de contagens de eventos (onde é o número de amostras) para cada tempo de observação . Sou relativamente novo em estatística e estou lutando para ver como aplicar a análise de sobrevivência a esses dados (se é que é aplicável e se não existem métodos mais apropriados para medir esse tipo de dados de tempo até o evento). Minha inclinação é construir a função de sobrevivência em torno do número médio de eventos observados em cada intervalo (por exemplo,m1,...,sstim¯1,...,n), que deve aproximar melhor o número esperado de eventos em cada intervalo da população; no entanto, não tenho idéia se isso é apropriado ou suas implicações.

Eu procurei sem sucesso no Google Scholar, se alguém pudesse me indicar mais material (ou me fornecer a nomenclatura correta para o que estou tentando fazer), isso seria apreciado.

Editar

Dado que os intervalos são uniformes em todas as amostras, digamos que eu tenha a seguinte matriz descrevendo o número cumulativo de indivíduos para os quais um evento ocorreu em cada intervalo(t1,t]

M=(02435526071022385764750263455627202132526173)

onde cada linha fornece a contagem de eventos para o mesmo conjunto de indivíduos em risco em em todas as amostras (ou seja, várias instâncias do experimento) e cada coluna é um intervalo de observação. Suponho que, tomando o número médio de eventos para cada intervalo, eu possa obter uma melhor estimativa da sobrevivência esperada da população, portanto, denote o número de intervalos de tempo, denote o número de amostras (instâncias do experimento) e, em seguida, o vetorn st=0ns

M¯=[i=1sMits]t=1...n

será o número médio de eventos observados para cada intervalo de tempo.

Meu objetivo, então, é usar isso como entrada para a estimativa de sobrevivência. Seja o número de indivíduos em risco quando . Usando o estimador ingênuo (por enquanto, considerando que os intervalos de eventos são uniformes em todas as amostras e não há censura até ), a função sobrevivente pode ser estimada como:t = 0 t nft=0tn

S(t)=fM¯tf

O que (espero) seria uma estimativa melhor da sobrevivência da população do que qualquer amostra individual (uma única linha de ). Para reformular minha pergunta:M

  1. É uma entrada apropriada a uma estimativa de função de sobrevivência? Não vi essa abordagem em nenhum dos materiais que li.M¯
  2. Como sou realmente um novato em estatística, alguém pode me indicar algum material (trabalhos acadêmicos, livros didáticos, wikis etc. seria bom) para estimar o intervalo de confiança e a variação para essa estimativa da função de sobrevivência? Presumo que não será idêntico às formulações padrão.

Desculpas se minha pergunta original foi confusa, provavelmente não incluí informações suficientes.

Joachim Ziemssen
fonte
Não estou entendendo direito o que está confundindo você. Por que você está preocupado que a análise de sobrevivência possa não ser apropriada aqui? Você está olhando apenas em intervalos de tempo discretos?
gung - Restabelece Monica
Estou realmente confuso por ter várias contagens de eventos observados para cada intervalo. Todos os livros que li, em particular (Kleinbaum e Klein, 2012), esperam que você construa sua função de sobrevivência para uma única amostra. Na verdade, estou colhendo várias amostras da população e tentando estimar a verdadeira função de sobrevivência da população, que compararei entre populações sob diferentes tratamentos usando o teste logrank (como ainda não estou introduzindo variáveis ​​explicativas). Para cada amostra, mostrará taxas de deterioração ligeiramente diferentes para os mesmos indivíduos. m1,...,s
Joachim Ziemssen

Respostas:

5

Recentemente, tive um conjunto de dados de sobrevivência censurados por intervalo, então sei exatamente o que você precisa. Se você já usou R, isso deve ajudar.

Se você não quer assumir uma forma paramétrica, que tal um modelo de riscos proporcionais de Cox censurado por intervalo? O intcoxpacote que faria isso não está mais no Rrepositório. Eu sugeriria a imputação dos tempos de sobrevivência e o uso da coxphfunção da survivalbiblioteca. Lembre-se de que seus erros padrão serão muito baixos usando esse método; você não respondeu pela incerteza de não saber o tempo exato de sobrevivência. Se você deseja estimativas de sobrevida com intervalo de censura, use a icfitfunção do intervalpacote.

Outra maneira de analisar o efeito das covariáveis ​​no tempo de sobrevivência é usando regressão não paramétrica, com censura por intervalo. Veja o Rpacote ICE: http://cran.r-project.org/web/packages/ICE/ICE.pdf . Primeiro, você precisa imputar os pontos médios do tempo de sobrevivência, depois faz uma regressão linear local usando a locpolyfunção do nppacote. Não é tão difícil quanto parece.

wcampbell
fonte
Obrigado, estou usando o R / Mathematica, e provavelmente acabarei usando esses pacotes (e eu nunca tinha ouvido falar do intcox!) Quando se trata de realmente fazer isso. Por enquanto, no entanto, meu problema (que eu adicionei à pergunta) é ter várias amostras da deterioração dos mesmos indivíduos no mesmo período de tempo. Pense nisso como repetir um experimento vezes, eu estou tentando usar esses dados para estimar melhor a função de sobrevivência. s
Joachim Ziemssen
Acho que também estamos confusos - como o mesmo indivíduo pode ter várias taxas de decaimento? Uma observação não pode ter vários valores para uma única variável dependente. Eu acho que você deve tratá-las como observações separadas. De qualquer forma, não deve haver nenhum problema ao usar como sua estimativa de sobrevivência para essa observação. M¯
Wcampbell
Problema interessante ... Eu usaria como dados de sobrevivência, mas você provavelmente quer falar sobre a variação dos tempos de decaimento para o mesmo computador. M¯
Wcampbell
É problemático que seja um problema interessante! Vou continuar trabalhando nisso e ver a variação, muito obrigado pelo conselho.
Joachim Ziemssen
0

A função de sobrevivência geralmente é contínua à direita, pois é uma função de distribuição; usarei como o intervalo.ak:=[tk1,tk),k=1,2,,n

Seja e o verdadeiro tempo contínuo de sobrevivência e censura para o sujeito na amostra , respectivamente. Ambas as variáveis ​​podem não ser observadas diretamente, mas apenas em um dos intervalos . Além disso, deixe denotar o intervalo dentro do qual cai, essencialmente um tempo de sobrevivência discreto, e similarmente para . Em seguida, o indicador de censura é fornecido por . C i j j i a 1 , a 2 , X iTijCijjia1,a2,XijTijCijCijδij=1(XijCij)

A função de risco para o tempo de sobrevivência discreto é definida como a probabilidade condicional de eventos que ocorrem na intervalo de tempo th dado que ele não tenha ocorrido antes da th intervalo, ou sejahij(x)xx1

hij(x)=P(Xij=x|Xijx)

e a função de sobrevivência correspondente pode ser escrita recursivamente usando a lei condicional do produto:Sij=P(X>x)

Sij(x)=P(Xij>x|Xijx)P(Xij>1|Xij1)=m=1x(1hij(m))

A função de probabilidade do par pode ser construída como o produto de dois tipos de sujeitos, a saber, aqueles que experimentaram um evento em ( ) e aqueles que foram censurados em ( ):x i j X i j(xij,δij)xijXij=xij,δij=1xijXij>xij,δij=0

L=i=1sj=1ni[P(Xij=xij)]δij[P(Xij>xij)]1δij=i=1sj=1ni{(hij(xij)m=1xij1[1hij(m)])δij(m=1xij[1hij(m)])1δij}=i=1sj=1ni{[hij(xij)1hij(xij)]δijm=1xij[1hij(m)]}.
e a função de probabilidade de log correspondente é:

=i=1Mj=1ni{δijlog[hij(xij)1hij(xij)]+m=1xijlog[1hij(m)]}

Agora, se reconstruirmos nossos dados na estrutura do histórico de eventos, que está gravando a cada intervalo, uma variável indicadora de evento para o ésimo intervalo do ésimo sujeito da amostra , podemos ver que acima reescrito em (basicamente resumindo todos os 0s até o último intervalo observado deste sujeito, se ele tiver evento, será 1, se censurado 0) .Em seguida, podemos reescrever nossa probabilidade de log como k j i δ i j log [ h i j ( x i j ) / ( 1yijkkjiδijlog[hij(xij)/(1hij(xij)]k=1xijyijklog[hij(k)/(1hij(k))]

=i=1sj=1nik=1xij{yijkloghij(k)+(1yijk)log[1hij(k)]}.
Isso é idêntico à probabilidade de log para uma variável aleatória binária , mas agora com a proporção para um evento no intervalo definido por .yijkpijkkhij(k)

Agora, finalmente, podemos responder à sua pergunta. Se podemos supor, que no mesmo intervalo, é iid por assunto diferente na amostra , e também em toda a amostra diferente, então é o estimador apropriado para . j i ¯ M j = ( Σ i n i ) - 1 Σ s i = 1yijkjiMj¯=(ini)1i=1sj=1niyijkhij(k)=h(k)

E o estimador apropriado para é, portanto, .S ( x ) = Π x k = 1 ( 1 - ˉ H j )S(x)S^(x)=k=1x(1M¯j)

jujae
fonte