Teste estatístico para aumento da incidência de um evento raro

8

Segui dados simulados de 2500 pessoas sobre a incidência de uma doença rara ao longo de 20 anos

year number_affected
1   0
2   0
3   1
4   0
5   0
6   0
7   1
8   0
9   1
10  0
11  1
12  0
13  0
14  1
15  1
16  0
17  1
18  0
19  2
20  1

Que teste posso aplicar para mostrar que a doença está se tornando mais comum?

Edit: como sugerido por @Wrzlprmft Tentei correlação simples usando Spearman e também os métodos Kendall:

        Spearman's rank correlation rho

data:  year and number_affected
S = 799.44, p-value = 0.08145
alternative hypothesis: true rho is not equal to 0
sample estimates:
      rho 
0.3989206 

Warning message:
In cor.test.default(year, number_affected, method = "spearman") :
  Cannot compute exact p-value with ties
> 



        Kendall's rank correlation tau

data:  year and number_affected
z = 1.752, p-value = 0.07978
alternative hypothesis: true tau is not equal to 0
sample estimates:
      tau 
0.3296319 

Warning message:
In cor.test.default(year, number_affected, method = "kendall") :
  Cannot compute exact p-value with ties

Estes são suficientemente bons para este tipo de dados? O teste de Mann Kendall usando o método mostrado por @AWebb fornece um valor de P de [1] 0,04319868. A regressão de Poisson sugerida por @dsaxton fornece o seguinte resultado:

Call:
glm(formula = number_affected ~ year, family = poisson, data = mydf)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.3187  -0.8524  -0.6173   0.5248   1.2158  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)  
(Intercept) -1.79664    0.85725  -2.096   0.0361 *
year         0.09204    0.05946   1.548   0.1217  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for poisson family taken to be 1)

    Null deviance: 16.636  on 19  degrees of freedom
Residual deviance: 14.038  on 18  degrees of freedom
AIC: 36.652

Number of Fisher Scoring iterations: 5

O componente do ano aqui não é significativo. O que posso finalmente concluir? Além disso, em todas essas análises, o número 2500 (número da população do denominador) não foi utilizado. Esse número não faz diferença? Podemos usar regressão linear simples (gaussiana) usando incidência (número_afetado / 2500) versus ano?

rnso
fonte
Alguns recursos que você pode achar úteis: o US Geological Survey publicou um livro on-line, Statistical Methods in Water Resources . O capítulo sobre análise de tendências, aqui , cobre coisas como o teste de Mann-Kendal e quando você pode preferir realizar uma análise de regressão. Também mostra como lidar com a sazonalidade, que pode ser relevante para você se seus dados forem trimestrais e não anuais.
Silverfish
Curiosamente, a implementação de Scipy do τ de Kendall produz o mesmo coeficiente, mas um valor p drasticamente diferente , ou seja, 0,042.
Wrzlprmft
1
Em relação ao modelo de Poisson, eu usaria drop1(fit, test="LRT")um teste de razão de verossimilhança, em vez de fazer um teste z assintótico na estatística de Poisson. (Fazer isso fornece um valor- p de 0,107, portanto ainda não é estatisticamente significativo.) Você não precisa incluir o número da população na regressão, se for o mesmo para cada ano. Depois, apenas desempenha o papel de um fator de escala. Mas você deve incluí-lo (com valores da população por ano), enquanto a população em risco, provavelmente não variam ao longo dos vinte anos. Basta adicionar offset=log(pop_at_risk)à glmchamada.
Karl Ove Hufthammer

Respostas:

3

Você pode usar o teste não paramétrico de Mann-Kendall . Para esses dados de amostra casese a hipótese nula unilateral de que não há tendência crescente, você pode implementar da seguinte maneira em .

> n<-length(cases)
> d<-outer(cases,cases,"-")
> s<-sum(sign(d[lower.tri(d)]))
> ties<-table(cases)
> v<-1/18*(n*(n-1)*(2*n+5)-sum(ties*(ties-1)*(2*ties+5)))
> t<-sign(s)*(abs(s)-1)/sqrt(v)
> 1-pnorm(t)
[1] 0.04319868

E rejeite no nível de 5% em favor de uma tendência crescente.

A. Webb
fonte
Você sabe se existe alguma diferença entre o teste de Mann – Kendall e o teste de significância normal para o τ de Kendall? Ou o teste de Mann-Kendall é a maneira normal de obter valores de significância para o τ de Kendall? Pelo menos as estatísticas de teste diferem apenas por um fator de normalização que depende apenas da duração da série temporal:S=12n(n-1)τ.
Wrzlprmft
@Wrzlprmft Este é o teste de significância normal típico de aproximação na presença de laços. O artigo da Wikipedia possui boas informações / referências para os vários ajustes necessários para explicar os laços.
A. Webb
2

Você pode ajustar um modelo de regressão muito simples que consiste apenas em um componente de interceptação e tempo e testar a "significância" do componente de tempo. Por exemplo, você pode modelar Poisson onde é o número de ocorrências no ano e e verificar se .Yt(λt)Yttregistro(λt)=α+βtβ>0 0

dsaxton
fonte
Concordo que a regressão de Poisson é apropriada. E se alguém tivesse mais dados, poderia até ajustar a taxa de incidência (log) como uma função não linear do tempo. Uma vantagem adicional da regressão de Poisson é que é fácil levar em consideração o número de pessoas em risco . E quando se lida com o tempo, isso é especialmente importante, pois a (possível) tendência de incidência que estamos vendo pode ser apenas o efeito de uma população crescente em risco , não uma taxa de incidência crescente . (Por exemplo, a população mundial aumentou em um quarto nos últimos vinte anos.)
Karl Ove Hufthammer
1

Basta verificar se o número de novos casos (ou seja number_affected) está significativamente correlacionado com o tempo (ou seja year). Como qualquer dependência linear possível da taxa de eventos é distorcida pelo menos para a discretização observacional, você deseja usar um coeficiente de correlação baseado em classificação, por exemplo, τ de Kendall ou ρ de Spearman.

Wrzlprmft
fonte
Na verdade, eu quis dizer incidência, isto é, number_affected indica novos casos naquele ano. Mas seu método de correlação simples deve funcionar para isso também.
rnso
@ rnso: Na verdade, eu quis dizer incidência, ou seja, number_affected indica novos casos naquele ano. - foi assim que eu entendi e não vejo contradição.
Wrzlprmft
1
Fiz esse comentário desde que você usou a palavra "prevalência" em sua resposta. A prevalência também incluirá casos de anos anteriores (a menos que tenham morrido). pt.wikipedia.org/wiki/…
rnso
@rnso: Ah, ponto de vista.
Wrzlprmft
1
Medidas de correlação, como τ de Kendalls ou ρ de Spearman, não são apropriadas, pois são criadas para variáveis aleatórias , e aqui uma das variáveis ​​(tempo) obviamente não é aleatória. Veja, por exemplo, Não Resuma Esquemas de Amostragem de Regressão com Correlação . Além disso, τ das Kendalls ou P de Spearman testes não vai funcionar muito bem, pois há uma grande quantidade de laços nos dados. Uma abordagem de regressão seria melhor, por exemplo, uma regressão de Poisson (com uma função de tendência adequada) e um teste de razão de verossimilhança.
Karl Ove Hufthammer