Estou tentando lidar com uma análise de tempo para evento usando resultados binários repetidos. Suponha que o tempo do evento seja medido em dias, mas, no momento, discretizamos o tempo em semanas. Quero aproximar um estimador de Kaplan-Meier (mas permitir covariáveis) usando resultados binários repetidos. Parece uma maneira indireta, mas estou explorando como isso se estende a resultados ordinais e eventos recorrentes.
Se você criar uma sequência binária que pareça 000 para alguém censurado em 3 semanas, 0000 para alguém censurado em 4w e 0000111111111111 .... para um sujeito que falhou em 5w (os 1s se estendem até o ponto em que o último sujeito foi seguido no estudo), quando você calcula proporções de 1s específicas da semana, pode obter incidências cumulativas comuns (até chegar a tempos de censura variáveis, onde isso apenas se aproxima, mas não é igual às estimativas de incidência cumulativa de Kaplan-Meier).
Posso ajustar as observações binárias repetidas com um modelo logístico binário usando GEE, em vez de tornar o tempo discreto como acima, mas usando um spline no tempo. O estimador de covariância em sanduíche de cluster funciona razoavelmente bem. Mas eu gostaria de obter uma inferência mais exata usando um modelo de efeitos mistos. O problema é que o 1 após o primeiro 1 é redundante. Alguém sabe como especificar efeitos aleatórios ou especificar um modelo que leve em consideração as redundâncias para que os erros padrão não sejam esvaziados?
Observe que essa configuração difere da de Efron porque ele estava usando modelos logísticos para estimar probabilidades condicionais em conjuntos de riscos. Estou estimando probabilidades incondicionais.
fonte
GLMMadaptive
pacote parece ótimo para a configuração mais geral.Algumas reflexões sobre isso:
Parece que um modelo de efeito misto é fundamentalmente um modelo de probabilidade "condicional", ou seja, qual é a probabilidade de um evento para um sujeito que está em risco para esse evento.
Sabemos que a probabilidade de um '1' após o primeiro '1' é uma. Portanto, não há informações adicionais nos valores '1' subsequentes.
Parece que, como os valores subsequentes de '1' não contêm informações adicionais, eles não devem ter impacto na função de probabilidade e, portanto, não ter impacto nos erros padrão dos estimadores baseados em probabilidade, nem nas próprias estimativas. De fato, não haveria impacto dos valores subsequentes de '1' se p (y = '1' | x) = 1, independentemente dos valores dos parâmetros do modelo, como deveria ser.
Poderemos forçar esse comportamento (ou seja, p (y = '1' | x) = 1) e reter a função média desejada, adicionando um indicador covariável ao modelo que marca os subsequentes e forçando seu coeficiente ser muito grande para que efetivamente p (y = '1' | x) = 1.
Como você mencionou, também pode haver uma maneira de forçar o primeiro '1' e as respostas subsequentes a terem 100% de correlação. Mas em um modelo binomial, é o mesmo que p (y = '1' | x) = 1 para respostas subsequentes.
fonte
Não sei exatamente o que você está tentando fazer, mas você pode ajustar um modelo de regressão logística agrupada ( https://www.ncbi.nlm.nih.gov/pubmed/2281238 )? Nesse caso, você incluiria apenas 1 durante o intervalo do evento do terminal - ele não seria repetido após a ocorrência do evento. Você incluiria tempo no modelo de maneira flexível (por exemplo, expandido usando splines).
fonte