Intuição para a função de risco cumulativo (análise de sobrevivência)

17

Estou tentando obter intuição para cada uma das principais funções da ciência atuarial (especificamente para o Modelo de Riscos Proporcionais de Cox). Aqui está o que eu tenho até agora:

  • f(x) : começando no horário de início, a distribuição de probabilidade de quando você morrerá.
  • F(x) : apenas a distribuição cumulativa. No momentoT , qual% da população estará morta?
  • S(x) :1F(x) . No momentoT , qual% da população estará viva?
  • h(x) : função de perigo. Em um determinado momentoT , das pessoas ainda vivas, isso pode ser usado para estimar quantas pessoas morrerão no próximo intervalo de tempo, ou se o intervalo-> 0, probabilidade de morte 'instantânea'.
  • H(x) : risco cumulativo. Nenhuma idéia.

Qual é a idéia por trás da combinação de valores de perigo, especialmente quando eles são contínuos? Se usarmos um exemplo discreto com taxas de mortalidade em quatro estações, e a função de perigo é a seguinte:

  • A partir da primavera, todos estão vivos e 20% morrerão
  • Agora no verão, dos restantes, 50% morrerão
  • Agora no outono, dos restantes, 75% morrerão
  • A temporada final é inverno. Dos restantes, 100% morrerão

Então o risco cumulativo é de 20%, 70%, 145%, 245% ?? O que isso significa e por que isso é útil?

Jon
fonte
11
Seus devem ser xTx , ou vice-versa.
Glen_b -Reinstate Monica
5
Em relação a , você comete um erro (embora seja uma confusão muito comum). Você escreve "intervalo-> 0, probabilidade de morte 'instantânea'". Uma afirmação correta seria ' taxa de mortalidade instantânea '. Isso não pode ser uma probabilidade, porque é uma probabilidade dividida por d t ; além disso, pode ser> 1. h(x)dt
gung - Restabelece Monica

Respostas:

6

Combinar proporções morrendo como você faz não oferece riscos cumulativos. A taxa de risco em tempo contínuo é uma probabilidade condicional de que durante um intervalo muito curto um evento ocorra:

h(t)=limΔt0P(t<Tt+Δt|T>t)Δt

O risco cumulativo está integrando a taxa de risco (instantânea) ao longo das idades / tempo. É como resumir probabilidades, mas como é muito pequeno, essas probabilidades também são pequenos números (por exemplo, a taxa de risco de morte pode ser de cerca de 0,004, com idades entre 30). A taxa de risco depende de não ter ocorrido o evento antes de t , portanto, para uma população, pode somar mais de 1.Δtt

Você pode procurar uma tabela de vida da mortalidade humana, embora essa seja uma formulação discreta no tempo, e tentar acumular .mx

Se você usa R, aqui está um pequeno exemplo de aproximação dessas funções a partir do número de mortes em cada intervalo de 1 ano:

dx <-  c(3184L, 268L, 145L, 81L, 64L, 81L, 101L, 50L, 72L, 76L, 50L, 
         62L, 65L, 95L, 86L, 120L, 86L, 110L, 144L, 147L, 206L, 244L, 
         175L, 227L, 182L, 227L, 205L, 196L, 202L, 154L, 218L, 279L, 193L, 
         223L, 227L, 300L, 226L, 256L, 259L, 282L, 303L, 373L, 412L, 297L, 
         436L, 402L, 356L, 485L, 495L, 597L, 645L, 535L, 646L, 851L, 689L, 
         823L, 927L, 878L, 1036L, 1070L, 971L, 1225L, 1298L, 1539L, 1544L, 
         1673L, 1700L, 1909L, 2253L, 2388L, 2578L, 2353L, 2824L, 2909L, 
         2994L, 2970L, 2929L, 3401L, 3267L, 3411L, 3532L, 3090L, 3163L, 
         3060L, 2870L, 2650L, 2405L, 2143L, 1872L, 1601L, 1340L, 1095L, 
         872L, 677L, 512L, 376L, 268L, 186L, 125L, 81L, 51L, 31L, 18L, 
         11L, 6L, 3L, 2L)

x <- 0:(length(dx)-1) # age vector

plot((dx/sum(dx))/(1-cumsum(dx/sum(dx))), t="l", xlab="age", ylab="h(t)", 
     main="h(t)", log="y")
plot(cumsum((dx/sum(dx))/(1-cumsum(dx/sum(dx)))), t="l", xlab="age", ylab="H(t)", 
     main="H(t)")

Espero que isto ajude.

Martin
fonte
É correto dizer que h (t) * dt é a probabilidade de um evento ocorrer em um intervalo de comprimento dt em torno de t? portanto, o valor h (t) é a probabilidade de um evento ocorrer dentro de 1 unidade de tempo centralizada em torno de t. Este seria apenas o caso se h (t) <= 1
crow
10

O livro "Uma introdução à análise de sobrevivência usando Stata" (2ª edição) de Mario Cleves tem um bom capítulo sobre esse tópico.

Você pode encontrar o capítulo em google books , p. 13-15. Mas eu aconselho a ler todo o capítulo 2.

Aqui está a forma abreviada:

  • "mede a quantidade total de risco acumulada até o momento t" (p. 8)
  • conte a interpretação dos dados: "fornece o número de vezes que esperamos (matematicamente) observar falhas [ou outros eventos] durante um determinado período, se apenas o evento de falha fosse repetível" (p. 13)
elevendollar
fonte
5

Eu PERIGO um palpite de que é digno de nota devido ao seu uso em gráficos de diagnóstico:

(1) No modelo de riscos proporcionais de Cox h(x)=eβTzh0 0(x), where β and z are the coefficient and covariate vectors respectively, & h0(x) is the baseline hazard function; & so logH(x)=βTz+H0(x). If you plot the estimate logH^(x) against x, different covariate patterns follow parallel curves, provided the proportional hazards assumption is correct.

(2) In the Weibull model h(x)=αθ(xθ)α1, where θ & α are the scale & shape parameters respectively; & so logH(x)=αlogxαlogθ. If you plot the estimate logH^(x) against logx, you get a straight line with slope α^ & intercept α^logθ^, provided the Weibull assumption is correct. And of course a slope near to 1 suggests an exponential model might fit.

An intuitive interpretation of H(x) is the expected number of deaths of an individual up to time x if the individual were to be resurrected after each death (without resetting time to zero).

Scortchi - Reinstate Monica
fonte
3

In paraphrasing what @Scortchi is saying, I would emphasize that the cumulative hazard function does not have a nice interpretation, and as such I would not try to use it as a way to interpret results; telling a non-statistical researcher that the cumulative hazards are different will most likely result in an "mm-hm" answer and then they'll never ask about the subject again, and not in a good way.

However, the cumulative hazard function turns out to be very useful mathematically, such as a general way to link the hazard function and the survival function. So it's important to know what the cumulative hazard is and how it can be used in various statistical methods. But in general, I don't think it's particularly useful to think about real data in terms cumulative hazards.

Cliff AB
fonte