Durante um curso de estatística para estudantes de medicina, deparei-me com um problema relacionado às taxas de incidência. O contexto do problema é um capítulo sobre a distribuição de Poisson. No problema, 2300 fumantes são acompanhados por um período de 1 ano, durante o qual 24 deles desenvolvem câncer de pulmão. Eles então querem calcular a taxa de incidência do processo e proceder da seguinte maneira:
No começo, eu não entendi por que eles subtraíram , mas presumi que havia alguma correção pelo fato de que, como essas 24 pessoas desenvolvem o câncer durante o ano, seu tempo de risco é menor do que o das pessoas que não estão se desenvolvendo. a doença. Nenhuma informação adicional foi fornecida no próprio livro, pelo menos não no problema. Uma pesquisa rápida confirmou que estou pensando na linha correta.
Mas ainda não entendo a lógica da fórmula. Alguém pode me esclarecer? Além disso, se algumas referências acessíveis aos estudantes de medicina pudessem ser fornecidas. Eu não me importo de ter referências mais técnicas também.
fonte
Respostas:
Proponho modelar a ocorrência de câncer como um processo de Poisson. Vários eventos (aparência de tumores) são possíveis no mesmo indivíduo ao longo do período de observação. Se é a taxa de aparecimento do tumor por ano, a probabilidade de 0 eventos é e a probabilidade de 1 evento ou mais é .e - λ p = 1 - e - λλ e- λ p = 1 - e- λ
Você segue indivíduos durante um ano. O número de pessoas com 1 evento ou mais é . O número esperado é .X ∼ B i n ( n , p ) E ( X ) = n p = n ( 1 - e - λ )n X∼ B i n ( n , p ) E( X) = n p = n ( 1 - e- λ)
Agora você observa eventos e deseja estimar . Primeira estimativa , depois . Por invariância dos estimadores de probabilidade máxima, é o MLE de .λ p = xx λ λ =-log(1-xp^= xn XXλ^= - log( 1 - xn) ≈ xn+ x22 n2 λ^ λ
Seu estimador é . A diferença entre os dois estimadores é de , que é muito pequena se for pequena. Eu acho que isso fornece alguma justificativa, mesmo que alguma outra modelagem possa levar diretamente ao seu estimador. x3/6n3x/nx / n1 - x / 2 n≈ xn+ x22 n2 x3/ 6 n3 x / n
fonte
Supondo que os diagnósticos de câncer sejam distribuídos uniformemente ao longo do ano, as pessoas diagnosticadas estão expostas ao risco de serem diagnosticadas por (em média) meio ano antes desse diagnóstico.
Seu link menciona a suposição de ocorrência no ponto intermediário do período de observação, mas não de onde vem - o que é apenas a suposição de uniformidade. Essa suposição nem sempre é razoável e há momentos em que pode fazer uma diferença substancial. Eu recomendo estar ciente da suposição sempre que usar a fórmula, porque você deve considerar sua adequação e, se não for adequada, se é provável que tenha um impacto substancial na estimativa (nesse caso, uma suposição melhor sobre a ocorrência deve ser investigada)
fonte