Eu tenho os resultados de um exame de sangue administrado a 2500 pessoas quatro vezes em intervalos de seis meses. Os resultados consistem principalmente em duas medidas de resposta imune - uma na presença de certos antígenos da tuberculose, uma na ausência. Atualmente, cada teste é avaliado positivo ou negativo com base na diferença entre a resposta do antígeno e a resposta nula (com a idéia de que, se o sistema imunológico responder aos antígenos da TB, você provavelmente já foi exposto à bactéria em algum momento ) Em essência, o teste supõe que as distribuições de respostas de zero e TB de um indivíduo não exposto sejam basicamente idênticas, enquanto uma pessoa com exposição à TB terá respostas de TB extraídas de uma distribuição diferente (de valores mais altos). Embargo: as respostas são muito, muito não normais e os valores se agrupam no piso natural e no teto truncado pelo instrumento.
No entanto, parece bem claro nesse cenário longitudinal que estamos recebendo "falsos positivos" (receio que não haja um padrão ouro real para tuberculose latente) causados por flutuações (geralmente pequenas) nas respostas a antígenos e a nada. Embora seja difícil evitar isso em algumas situações (você pode ter apenas uma chance de testar alguém), há muitas situações nas quais as pessoas são testadas rotineiramente para TB todos os anos, mais ou menos - nos EUA, isso é comum para os profissionais de saúde, os militares, pessoas sem-teto que ficam em abrigos e assim por diante. Parece uma pena ignorar os resultados de testes anteriores, porque os critérios existentes são transversais.
Eu acho que o que eu gostaria de fazer é o que eu concebo grosseiramente como análise longitudinal de mistura. Muito parecido com os critérios transversais, eu gostaria de poder estimar a probabilidade de que as respostas de TB e zero de um indivíduo sejam extraídas da mesma distribuição - mas essa estimativa incorpora resultados de testes anteriores, além de informações da amostra como um todo (por exemplo, posso usar a distribuição de toda a amostra de variabilidades intraindividuais para melhorar minhas estimativas da distribuição de um indivíduo específico de zero ou TB?). A probabilidade estimada precisaria ser capaz de mudar com o tempo, é claro, para explicar a possibilidade de nova infecção.
Fiquei totalmente distorcido tentando pensar sobre isso de maneiras incomuns, mas sinto que essa conceitualização é tão boa quanto qualquer outra que eu possa inventar. Se algo não fizer sentido, não hesite em pedir esclarecimentos. Se minha compreensão da situação parecer errada, não hesite em me dizer. Muito obrigado pela sua ajuda.
Em resposta a Srikant: É um caso de classificação latente (infectada ou não por TB) usando os dois resultados de teste contínuos (mas não normais e truncados). No momento, essa classificação é feita usando um ponto de corte (em sua forma simplificada, TB - nil> 0,35 -> positivo). Com os resultados dos testes apresentados como (zero, TB, resultado), os arquétipos básicos * são:
Negativo provável: (0,06, 0,15, -) (0,24, 0,23, -) (0,09, 0,11, -) (0,16, 0,15, -)
Positivo provável: (0,05, 3,75, +) (0,05, 1,56, +) (0,06 , 5,02, +) (0,08, 4,43, +)
Wobbler: (0,05, 0,29, -) (0,09, 0,68, +) (0,08, 0,31, -) (0,07, 0,28, -)
O positivo no segundo teste para o Wobbler é claramente uma aberração, mas como você modelaria isso? Embora uma linha do meu pensamento seja estimar a "verdadeira diferença" entre TB e zero a cada momento, usando um modelo multinível de medidas repetidas, ocorreu-me que o que realmente quero saber é se a resposta nula e a resposta da TB da pessoa são retirados da mesma distribuição ou se seu sistema imunológico reconhece os antígenos da TB e se ativa, produzindo uma resposta aumentada.
Quanto ao que poderia causar um teste positivo que não seja infecção: não tenho certeza. Eu suspeito que seja tipicamente apenas variação interna nos resultados, mas certamente há uma possibilidade de outros fatores. Temos questionários a cada momento, mas ainda não os examinei muito.
* Dados fabricados, mas ilustrativos
fonte
Respostas:
Esta não é uma resposta completa, mas espero que lhe dê algumas idéias sobre como modelar a situação de maneira coerente.
Premissas
Os valores na extremidade inferior da escala seguem uma distribuição normal truncada a partir de baixo.
Os valores na extremidade superior da escala seguem uma distribuição normal truncada de cima.
(Nota: eu sei que você disse que os dados não são normais, mas suponho que você esteja se referindo à distribuição de todos os valores, enquanto as suposições acima se referem aos valores na extremidade inferior e superior da escala.)
O estado subjacente de uma pessoa (com ou sem TB) segue uma cadeia de markov de primeira ordem.
Modelo
Deixei:
Os pontos 4 e 5 capturam a ideia de que a resposta de uma pessoa ao teste NILL não depende do status da doença.
Os pontos 6, 7 e 8 captam a ideia de que a resposta de uma pessoa ao teste de TB depende do status da doença.
Em outras palavras,
Seu critério de teste afirma que:
No entanto, como você vê na estrutura do modelo, você pode realmente parametrizar os pontos de corte e mudar todo o problema para o que deve ser o seu ponto de corte para diagnosticar com precisão os pacientes. Portanto, o problema do wobbler parece ser mais um problema com sua escolha de interrupções do que com qualquer outra coisa.
Para escolher os pontos de corte "certos", você pode coletar dados históricos sobre pacientes definitivamente identificados como portadores de TB e estimar os parâmetros resultantes da configuração acima. Você pode usar alguns critérios, como número de pacientes classificados corretamente como tendo TB ou não como uma métrica para identificar o melhor modelo. Por uma questão de simplicidade, você pode assumir que é um parâmetro invariável no tempo que parece razoável na ausência de epidemias etc.p(t)
Espero que seja útil.
fonte
Tricky Matt, como muitos problemas de estatísticas do mundo real são!
Eu começaria a definir as metas / objetivos do seu estudo.
Sem conhecer o verdadeiro status dos sujeitos, será difícil definir as distribuições de probabilidade para o teste TB + e TB-. Você tem questionários sobre a infecção prévia por tuberculose (ou melhor, histórias médicas). Também ainda testei TB + devido a uma imunização na infância - há várias décadas - para que imunizações anteriores precisem ser consideradas.
Parece-me que sua pergunta intrínseca é: O teste repetido de TB afeta o resultado do teste?
Valeria a pena obter uma cópia da Análise de dados longitudinais de Peter Diggle .
Faça alguma análise exploratória dos dados, particularmente as matrizes de dispersão dos resultados do teste nulo a cada momento versus um ao outro e os resultados do teste de TB a cada momento um contra o outro; e os gráficos de dispersão TB vs zero (a cada momento). Faça também as diferenças (teste de TB - teste nulo) e faça as matrizes de dispersão. Tente transformações dos dados e refaça-as - imagino que log (TB) - log (Nil) pode ajudar se os resultados da TB forem muito grandes em relação a Nil. Procure relações lineares na estrutura de correlações.
Outra abordagem seria pegar o resultado do teste definido (positivo / negativo) e modelar isso logitudinalmente usando um modelo de efeitos mistos não lineares (link logit). Algumas pessoas alternam entre testar TB + a TB- e isso está relacionado ao teste Nil, teste de TB, TB-Nil ou alguma transformação dos resultados do teste?
fonte