Existe um ramo da estatística que lida com dados cujos valores exatos não são conhecidos , mas para cada indivíduo sabemos um limite máximo ou mínimo associado ao valor ?
Suspeito que meu problema decorra em grande parte do fato de estar lutando para articulá-lo em termos estatísticos, mas espero que um exemplo ajude a esclarecer:
Digamos que haja duas populações conectadas e B de tal forma que, em algum momento, os membros de A possam "fazer a transição" para B , mas o inverso não é possível. O tempo da transição é variável, mas não aleatório. Por exemplo, A pode ser "indivíduos sem filhos" e B "indivíduos com pelo menos um filho". Estou interessado na idade em que essa progressão ocorre, mas só tenho dados transversais. Para qualquer indivíduo, eu posso descobrir se eles pertencem a A ou B . Eu também sei a idade desses indivíduos. Para cada indivíduo da população A, Sei que a idade da transição será maior que a idade atual. Da mesma forma, para os membros de , eu sei que a idade de transição era MENOR DO que a idade atual. Mas não sei os valores exatos.
Digamos que tenho outro fator que quero comparar com a idade da transição. Por exemplo, quero saber se a subespécie ou o tamanho do corpo de um indivíduo afeta a idade do primeiro filho. Definitivamente, tenho algumas informações úteis que devem informar essas questões: em média, os indivíduos em , os idosos terão uma transição posterior. Mas a informação é imperfeita , principalmente para indivíduos mais jovens. E vice-versa para a população B .
Existem métodos estabelecidos para lidar com esse tipo de dados ? Eu não preciso necessariamente de um método completo de como realizar essa análise, apenas alguns termos de pesquisa ou recursos úteis para começar no lugar certo!
Advertências: Estou assumindo que a transição de para B é instantânea. Também estou preparado para presumir que a maioria das pessoas progredirá em algum momento para B , supondo que elas vivam o suficiente. E percebo que os dados longitudinais seriam muito úteis, mas suponho que eles não estejam disponíveis neste caso.
Desculpas se isso é uma cópia, como eu disse, parte do meu problema é que eu não sei o que devo procurar. Pelo mesmo motivo, adicione outras tags, se apropriado.
Conjunto de dados de amostra: SspI indica uma de duas subespécies, ou Y . A prole indica que não há prole ( A ) ou pelo menos uma prole ( B )
age ssp offsp
21 Y A
20 Y B
26 X B
33 X B
33 X A
24 X B
34 Y B
22 Y B
10 Y B
20 Y A
44 X B
18 Y A
11 Y B
27 X A
31 X B
14 Y B
41 X B
15 Y A
33 X B
24 X B
11 Y A
28 X A
22 X B
16 Y A
16 Y B
24 Y B
20 Y B
18 X B
21 Y B
16 Y B
24 Y A
39 X B
13 Y A
10 Y B
18 Y A
16 Y A
21 X A
26 X B
11 Y A
40 X B
8 Y A
41 X B
29 X B
53 X B
34 X B
34 X B
15 Y A
40 X B
30 X A
40 X B
Editar: exemplo de conjunto de dados alterado porque não era muito representativo
fonte
Respostas:
Isso é conhecido como dados de status atual . Você obtém uma visão transversal dos dados e, em relação à resposta, tudo o que sabe é que, na idade observada de cada sujeito, o evento (no seu caso: a transição de A para B) aconteceu ou não. Este é um caso especial de censura por intervalo .
Para defini-la formalmente, vamos ser o (não observada) hora do evento verdade por assunto i . Deixe C i o tempo de inspeção para o sujeito i (no seu caso: idade na inspeção). Se C i < T i , os dados são censurados à direita . Caso contrário, os dados são deixados censurados . Nós somos interessantes na modelagem da distribuição de t . Para modelos de regressão, estamos interessados em modelar como essa distribuição muda com um conjunto de covariáveisTi i Ci i Ci<Ti T .X
Para analisar isso usando métodos de censura por intervalo, você deseja colocar seus dados no formato geral de censura por intervalo. Ou seja, para cada assunto, temos o intervalo , que representa o intervalo em que sabemos T i para ser contido. Então, se sujeita i é direito censurado em tempo de inspeção c i , gostaríamos de escrever ( c i , ∞ ) . Se for deixado censurado em c i , nós o representaríamos como ( 0 , c i ) .(li,ri) Ti i ci (ci,∞) ci (0,ci)
Plugue descarado: se você deseja usar modelos de regressão para analisar seus dados, isso pode ser feito em R usando
icenReg
(eu sou o autor). De fato, em uma pergunta semelhante sobre os dados de status atuais , o OP apresentou uma boa demonstração do uso do icenReg . Ele começa mostrando que ignorar a parte da censura e usar a regressão logística leva ao viés (observação importante: ele está se referindo ao uso da regressão logística sem ajustar a idade . Mais sobre isso mais adiante).Outro ótimo pacote é
interval
, que contém testes estatísticos de classificação de log, entre outras ferramentas.EDITAR:
A @ Edm sugeriu o uso de regressão logística para responder ao problema. Eu injustamente desprezei isso, dizendo que você precisaria se preocupar com a forma funcional do tempo. Enquanto defendo a afirmação de que você deve se preocupar com a forma funcional do tempo, percebi que houve uma transformação muito razoável que leva a um estimador paramétrico razoável.
Em particular, se usarmos log (time) como covariável em nosso modelo com regressão logística, acabaremos com um modelo de chances proporcionais com uma linha de base logística.
Para ver isso, primeiro considere que o modelo de regressão de chances proporcional é definido como
em que são as chances de sobrevivência da linha de base no momento tOddso(t) t . Observe que os efeitos da regressão são os mesmos da regressão logística. Então, tudo o que precisamos fazer agora é mostrar que a distribuição da linha de base é logística.
Agora considere uma regressão logística com log (Time) como covariável. Temos então
Com um pouco de trabalho, você pode ver isso como o CDF de um modelo logístico (com uma transformação não linear dos parâmetros).
R demonstração de que os ajustes são equivalentes:
Observe que o efeito de
grp
é o mesmo em cada modelo e a probabilidade final de log difere apenas por erro numérico. Os parâmetros da linha de base (ou seja, interceptação e log_age para regressão logística, alfa e beta para o modelo com intervalo de censura) são parametrizações diferentes, portanto, não são iguais.Então, é isso: usar a regressão logística é equivalente a ajustar as probabilidades proporcionais com uma distribuição da linha de base da logística. Se você concorda com o ajuste desse modelo paramétrico, a regressão logística é bastante razoável. Eu aviso que, com dados censurados por intervalo, os modelos semi-paramétricos geralmente são favorecidos devido à dificuldade de avaliar o ajuste do modelo, mas se eu realmente pensasse que não havia lugar para modelos totalmente paramétricos, eu não os incluiria
icenReg
.fonte
ic_sp
inicenReg
) e não se preocupar com isso. Além disso, observar as curvas de sobrevivência dos dois grupos responde à sua pergunta corretamente. Tentar recriar isso a partir do ajuste logístico poderia ser feito, mas, novamente, muito mais trabalho do que usar modelos de sobrevivência.This is a case of censoring/coarse data. Assume you think that your data arises from a distribution with nicely behaved continuous (etc.) pdff( X ) e cdf F(X ) . A solução padrão para dados de eventos até o momento exatoxEu de um evento por assunto Eu é sabido que a contribuição da probabilidade é f( xEu) . Se soubéssemos que o tempo era maior do queyEu (censura à direita), a contribuição da probabilidade é 1 - F( yEu) sob o pressuposto de censura independente. Se sabemos que o tempo é menor quezEu (censura à esquerda), a contribuição da probabilidade é F( zEu) . Finalmente, se o tempo cair em algum intervalo( yEu, zEu] , a contribuição da probabilidade seria F( zEu) - F( yEu) .
fonte
Esse problema parece que pode ser tratado bem por regressão logística.
Você tem dois estados, A e B, e deseja examinar a probabilidade de um indivíduo em particular ter mudado irreversivelmente do estado A para o estado B. Uma variável preditora fundamental seria a idade no momento da observação. O outro fator ou fatores de interesse seriam variáveis preditivas adicionais.
Seu modelo logístico usaria as observações reais do estado A / B, idade e outros fatores para estimar a probabilidade de estar no estado B em função desses preditores. A idade em que essa probabilidade ultrapassa 0,5 poderia ser usada como estimativa do tempo de transição e você examinaria as influências dos outros fatores nesse tempo de transição previsto.
Adicionado em resposta à discussão:
Como em qualquer modelo linear, você precisa garantir que seus preditores sejam transformados de maneira que eles tenham uma relação linear com a variável de resultado, nesse caso as chances de logaritmo da probabilidade de passar para o estado B. Isso não é necessariamente um problema trivial. A resposta de @CliffAB mostra como uma transformação de log da variável age pode ser usada.
fonte