Estimador para uma taxa de incidência

8

Durante um curso de estatística para estudantes de medicina, deparei-me com um problema relacionado às taxas de incidência. O contexto do problema é um capítulo sobre a distribuição de Poisson. No problema, 2300 fumantes são acompanhados por um período de 1 ano, durante o qual 24 deles desenvolvem câncer de pulmão. Eles então querem calcular a taxa de incidência do processo e proceder da seguinte maneira:

Incidence rate=24230024/2

No começo, eu não entendi por que eles subtraíram , mas presumi que havia alguma correção pelo fato de que, como essas 24 pessoas desenvolvem o câncer durante o ano, seu tempo de risco é menor do que o das pessoas que não estão se desenvolvendo. a doença. Nenhuma informação adicional foi fornecida no próprio livro, pelo menos não no problema. Uma pesquisa rápida confirmou que estou pensando na linha correta.24/2

Mas ainda não entendo a lógica da fórmula. Alguém pode me esclarecer? Além disso, se algumas referências acessíveis aos estudantes de medicina pudessem ser fornecidas. Eu não me importo de ter referências mais técnicas também.

Raskolnikov
fonte
1
Não entendo completamente sua pergunta - você pode aprofundar um pouco mais? As taxas de incidência são exatamente isso, taxas e, portanto, têm o tempo da pessoa "exposto" no denominador. Você está correto quanto ao 24/2, o que reflete a suposição de que as pessoas que desenvolvem câncer de pulmão o fizeram no meio do intervalo e, portanto, os censura aos 6 meses. Por outro lado, você pode estimar uma taxa de prevalência (24/2300), mas a prevalência é uma função da incidência e da duração da doença, portanto, menos útil se você estiver interessado em identificar as causas da doença.
DL Dahly
Mas por que essa suposição está correta?
Raskolnikov
Só porque é uma suposição melhor do que censurar em 3 ou 9 meses, por exemplo. A menos que você tenha algum tipo de efeito sazonal ou algo semelhante, seu melhor palpite é o ponto médio do intervalo. A única maneira de melhorar isso é coletar seus dados em uma resolução temporal mais alta.
DL Dahly

Respostas:

6

Proponho modelar a ocorrência de câncer como um processo de Poisson. Vários eventos (aparência de tumores) são possíveis no mesmo indivíduo ao longo do período de observação. Se é a taxa de aparecimento do tumor por ano, a probabilidade de 0 eventos é e a probabilidade de 1 evento ou mais é .e - λ p = 1 - e - λλeλp=1eλ

Você segue indivíduos durante um ano. O número de pessoas com 1 evento ou mais é . O número esperado é .X B i n ( n , p ) E ( X ) = n p = n ( 1 - e - λ )nXBin(n,p)E(X)=np=n(1eλ)

Agora você observa eventos e deseja estimar . Primeira estimativa , depois . Por invariância dos estimadores de probabilidade máxima, é o MLE de .λ p = xxλ λ =-log(1-xp^=xn XXλ^=log(1xn)xn+x22n2λ^λ

Seu estimador é . A diferença entre os dois estimadores é de , que é muito pequena se for pequena. Eu acho que isso fornece alguma justificativa, mesmo que alguma outra modelagem possa levar diretamente ao seu estimador. x3/6n3x/nx/n1x/2nxn+x22n2x3/6n3x/n

Elvis
fonte
4
@Raskolnikov e Elvis (+1), observe também que as frações contínuas padrão para truncadas no segundo rendimento convergente - log ( 1 - z ) z / ( 1 - z / 2 ) e essa aproximação é sempre melhor do que a expansão de segunda ordem da série Taylor para a gama delog(1z)log(1z)z/(1z/2) de interesse. z
cardeal
De fato, cometi a mesma derivação, mas cometi um erro equiparando com e - λpeλ . É por isso que não consegui descobrir o link com o outro estimador.
Raskolnikov
@Raskolnikov I obrigado por esta pergunta agradável que leva a um bom exercício para os meus alunos;) nice pseudo também
Elvis
@ cardinal E boa edição!
Elvis
3

Supondo que os diagnósticos de câncer sejam distribuídos uniformemente ao longo do ano, as pessoas diagnosticadas estão expostas ao risco de serem diagnosticadas por (em média) meio ano antes desse diagnóstico.

Seu link menciona a suposição de ocorrência no ponto intermediário do período de observação, mas não de onde vem - o que é apenas a suposição de uniformidade. Essa suposição nem sempre é razoável e há momentos em que pode fazer uma diferença substancial. Eu recomendo estar ciente da suposição sempre que usar a fórmula, porque você deve considerar sua adequação e, se não for adequada, se é provável que tenha um impacto substancial na estimativa (nesse caso, uma suposição melhor sobre a ocorrência deve ser investigada)

Glen_b -Reinstate Monica
fonte
Então, é só isso? Suposição de uniformidade? Mas por que a uniformidade dos diagnósticos importaria? Por que não a probabilidade de contrair a doença, que eu suponho que provavelmente seria distribuída por Poisson (pelo menos como um modelo nulo)?
Raskolnikov
A suposição de uniformidade é de onde ela vem; então, sim, é tudo o que é; na ausência de outras informações (e algumas vezes até na presença delas), é uma suposição comum no cálculo da exposição ao risco. Quanto ao pouco sobre diagnóstico, presumi que os dados estão no diagnóstico, não na incidência, porque não observamos incidência não diagnosticada - o que quer que seja analisado é o que a suposição precisaria se aplicar.
Glen_b -Reinstala Monica
Para ser mais explícito, seu link menciona a fórmula como proveniente do 'método atuarial'. O material atuarial relevante são os elementos de exposição ao risco que são praticamente padrão em todos os programas atuariais que eu conheço. Essa suposição específica de uniformidade não é algo que acabei de inventar, é absolutamente explícito no treinamento atuarial. Você perguntou de onde vem; o link menciona o método atuarial; que, por sua vez, surge da abordagem atuarial padrão para exposta ao risco.
Glen_b -Reinstala Monica