Eu tenho um experimento que produzirá observações do tempo até que um evento ocorra. Algumas propriedades básicas são que
- Contamos o número de eventos que ocorreram em algum momento .
- Os horários dos eventos são censurados por intervalo, entre ,
- Os indivíduos não deixarão a avaliação entre , ou seja, um indivíduo experimenta o evento por ou não, quando é censurado,
- Uma grande proporção dos indivíduos não receberá o evento por , quando encerrarmos o experimento, e
- Não posso assumir nenhum modelo de decaimento paramétrico subjacente.
Parece ser uma aplicação natural para análise de sobrevivência. No entanto, é complicado pelo fato de ser trivial repetir o experimento da mesma configuração inicial várias vezes. Com efeito, teremos um conjunto de contagens de eventos (onde é o número de amostras) para cada tempo de observação . Sou relativamente novo em estatística e estou lutando para ver como aplicar a análise de sobrevivência a esses dados (se é que é aplicável e se não existem métodos mais apropriados para medir esse tipo de dados de tempo até o evento). Minha inclinação é construir a função de sobrevivência em torno do número médio de eventos observados em cada intervalo (por exemplo,), que deve aproximar melhor o número esperado de eventos em cada intervalo da população; no entanto, não tenho idéia se isso é apropriado ou suas implicações.
Eu procurei sem sucesso no Google Scholar, se alguém pudesse me indicar mais material (ou me fornecer a nomenclatura correta para o que estou tentando fazer), isso seria apreciado.
Editar
Dado que os intervalos são uniformes em todas as amostras, digamos que eu tenha a seguinte matriz descrevendo o número cumulativo de indivíduos para os quais um evento ocorreu em cada intervalo
onde cada linha fornece a contagem de eventos para o mesmo conjunto de indivíduos em risco em em todas as amostras (ou seja, várias instâncias do experimento) e cada coluna é um intervalo de observação. Suponho que, tomando o número médio de eventos para cada intervalo, eu possa obter uma melhor estimativa da sobrevivência esperada da população, portanto, denote o número de intervalos de tempo, denote o número de amostras (instâncias do experimento) e, em seguida, o vetorn s
será o número médio de eventos observados para cada intervalo de tempo.
Meu objetivo, então, é usar isso como entrada para a estimativa de sobrevivência. Seja o número de indivíduos em risco quando . Usando o estimador ingênuo (por enquanto, considerando que os intervalos de eventos são uniformes em todas as amostras e não há censura até ), a função sobrevivente pode ser estimada como:t = 0 t n
O que (espero) seria uma estimativa melhor da sobrevivência da população do que qualquer amostra individual (uma única linha de ). Para reformular minha pergunta:
- É uma entrada apropriada a uma estimativa de função de sobrevivência? Não vi essa abordagem em nenhum dos materiais que li.
- Como sou realmente um novato em estatística, alguém pode me indicar algum material (trabalhos acadêmicos, livros didáticos, wikis etc. seria bom) para estimar o intervalo de confiança e a variação para essa estimativa da função de sobrevivência? Presumo que não será idêntico às formulações padrão.
Desculpas se minha pergunta original foi confusa, provavelmente não incluí informações suficientes.
Respostas:
Recentemente, tive um conjunto de dados de sobrevivência censurados por intervalo, então sei exatamente o que você precisa. Se você já usou
R
, isso deve ajudar.Se você não quer assumir uma forma paramétrica, que tal um modelo de riscos proporcionais de Cox censurado por intervalo? O
intcox
pacote que faria isso não está mais noR
repositório. Eu sugeriria a imputação dos tempos de sobrevivência e o uso dacoxph
função dasurvival
biblioteca. Lembre-se de que seus erros padrão serão muito baixos usando esse método; você não respondeu pela incerteza de não saber o tempo exato de sobrevivência. Se você deseja estimativas de sobrevida com intervalo de censura, use aicfit
função dointerval
pacote.Outra maneira de analisar o efeito das covariáveis no tempo de sobrevivência é usando regressão não paramétrica, com censura por intervalo. Veja o
R
pacoteICE
: http://cran.r-project.org/web/packages/ICE/ICE.pdf . Primeiro, você precisa imputar os pontos médios do tempo de sobrevivência, depois faz uma regressão linear local usando alocpoly
função donp
pacote. Não é tão difícil quanto parece.fonte
A função de sobrevivência geralmente é contínua à direita, pois é uma função de distribuição; usarei como o intervalo.ak:=[tk−1,tk),k=1,2,⋯,n
Seja e o verdadeiro tempo contínuo de sobrevivência e censura para o sujeito na amostra , respectivamente. Ambas as variáveis podem não ser observadas diretamente, mas apenas em um dos intervalos . Além disso, deixe denotar o intervalo dentro do qual cai, essencialmente um tempo de sobrevivência discreto, e similarmente para . Em seguida, o indicador de censura é fornecido por . C i j j i a 1 , a 2 , ⋯ X iTij Cij j i a1,a2,⋯ Xij Tij Cij Cij δij=1(Xij≤Cij)
A função de risco para o tempo de sobrevivência discreto é definida como a probabilidade condicional de eventos que ocorrem na intervalo de tempo th dado que ele não tenha ocorrido antes da th intervalo, ou sejahij(x) x x−1
e a função de sobrevivência correspondente pode ser escrita recursivamente usando a lei condicional do produto:Sij=P(X>x)
A função de probabilidade do par pode ser construída como o produto de dois tipos de sujeitos, a saber, aqueles que experimentaram um evento em ( ) e aqueles que foram censurados em ( ):x i j X i j(xij,δij) xij Xij=xij,δij=1 xij Xij>xij,δij=0
Agora, se reconstruirmos nossos dados na estrutura do histórico de eventos, que está gravando a cada intervalo, uma variável indicadora de evento para o ésimo intervalo do ésimo sujeito da amostra , podemos ver que acima reescrito em (basicamente resumindo todos os 0s até o último intervalo observado deste sujeito, se ele tiver evento, será 1, se censurado 0) .Em seguida, podemos reescrever nossa probabilidade de log como k j i δ i j log [ h i j ( x i j ) / ( 1yijk k j i δijlog[hij(xij)/(1−hij(xij)] ∑xijk=1yijklog[hij(k)/(1−hij(k))]
Agora, finalmente, podemos responder à sua pergunta. Se podemos supor, que no mesmo intervalo, é iid por assunto diferente na amostra , e também em toda a amostra diferente, então é o estimador apropriado para . j i ¯ M j = ( Σ i n i ) - 1 Σ s i = 1yijk j i Mj¯=(∑ini)−1∑si=1∑nij=1yijk hij(k)=h(k)
E o estimador apropriado para é, portanto, .S ( x ) = Π x k = 1 ( 1 - ˉ H j )S(x) S^(x)=∏xk=1(1−M¯j)
fonte