Eu tenho um conjunto de dados que contém ~ 7.500 exames de sangue de ~ 2.500 indivíduos. Estou tentando descobrir se a variabilidade nos exames de sangue aumenta ou diminui com o tempo entre dois testes. Por exemplo - colho seu sangue para o teste de linha de base e, em seguida, colho imediatamente uma segunda amostra. Seis meses depois, eu desenho outra amostra. Pode-se esperar que a diferença entre a linha de base e os testes de repetição imediata seja menor que a diferença entre a linha de base e o teste de seis meses.
Cada ponto no gráfico abaixo reflete a diferença entre dois testes. X é o número de dias entre dois testes; Y é o tamanho da diferença entre os dois testes. Como você pode ver, os testes não são distribuídos igualmente ao longo do X - o estudo não foi projetado para abordar essa questão, realmente. Como os pontos estão muito empilhados na média, incluí linhas quantílicas de 95% (azul) e 99% (vermelho), com base em janelas de 28 dias. Obviamente, esses são os pontos mais extremos, mas você entendeu.
texto alternativo http://a.imageshack.us/img175/6595/diffsbydays.png
Parece-me que a variabilidade é bastante estável. Na verdade, é mais alto quando o teste é repetido em um curto período - isso é terrivelmente contra-intuitivo. Como posso resolver isso de uma maneira sistemática, respondendo pela variação de n em cada momento (e em alguns períodos sem testes)? Suas idéias são muito apreciadas.
Apenas para referência, esta é a distribuição do número de dias entre teste e reteste:
texto alternativo http://a.imageshack.us/img697/6572/testsateachtimepoint.png
fonte
Respostas:
Pela sua descrição, não vejo motivo para distinguir o "teste de linha de base" da "segunda amostra" imediatamente desenhada. São simplesmente duas medições da linha de base e a variação (na linha de base) pode ser calculada nessa base. Seria melhor traçar a média das duas medidas de linha de base em comparação com a terceira amostra de "seis meses".
O problema está na amostra de 6 meses. Como apenas uma amostra é coletada nesse ponto, não há como estimar a "variabilidade" nesse ponto, ou melhor, separar a variação da amostra da mudança longitudinal (real) na leitura da TB.
Se considerarmos isso um problema longitudinal de análise de dados, provavelmente escolheríamos uma interceptação aleatória (TB basal) e uma inclinação aleatória (para ajustar a TB de 6 meses). A variabilidade da amostragem seria estimada a partir das duas medidas de linha de base e a inclinação da terceira medida de 6 meses. Não podemos estimar a variabilidade em 6 meses sem fortes premissas distributivas na quantidade ao longo desses seis meses, como não assumir nenhuma alteração.
fonte