Estou aprendendo a análise de sobrevivência deste post na UCLA IDRE e fui enganado na seção 1.2.1. O tutorial diz:
... se se sabia que os tempos de sobrevivência eram distribuídos exponencialmente , então a probabilidade de observar um tempo de sobrevivência ...
Por que se supõe que os tempos de sobrevivência sejam distribuídos exponencialmente? Parece muito antinatural para mim.
Por que não normalmente distribuído? Digamos que suponha que estamos investigando a vida útil de uma criatura sob certas condições (digamos, número de dias), ela deve estar mais centrada em algum número com alguma variação (digamos, 100 dias com variação de 3 dias)?
Se queremos que o tempo seja estritamente positivo, por que não fazer uma distribuição normal com média mais alta e variação muito pequena (quase não haverá chance de obter um número negativo)?
fonte
Respostas:
Distribuições exponenciais são frequentemente usadas para modelar tempos de sobrevivência, porque são as distribuições mais simples que podem ser usadas para caracterizar dados de sobrevivência / confiabilidade. Isso ocorre porque eles não têm memória e, portanto, a função de perigo é constante w / r / t de tempo, o que torna a análise muito simples. Esse tipo de suposição pode ser válido, por exemplo, para alguns tipos de componentes eletrônicos, como circuitos integrados de alta qualidade. Tenho certeza de que você pode pensar em mais exemplos em que o efeito do tempo no risco pode ser considerado insignificante.
No entanto, você está correto ao observar que isso não seria uma suposição apropriada a ser feita em muitos casos. As distribuições normais podem ser boas em algumas situações, embora os tempos de sobrevivência obviamente negativos sejam sem sentido. Por esse motivo, as distribuições lognormal são frequentemente consideradas. Outras opções comuns incluem Weibull, Menor Valor Extremo, Maior Valor Extremo, Logística etc. Uma escolha sensata para o modelo seria informada pela experiência na área de assunto e pela plotagem de probabilidade . Você também pode, é claro, considerar a modelagem não paramétrica.
Uma boa referência para modelagem paramétrica clássica na análise de sobrevivência é: William Q. Meeker e Luis A. Escobar (1998). Métodos estatísticos para dados de confiabilidade , Wiley
fonte
Para adicionar um pouco de intuição matemática por trás de como os expoentes surgem nas distribuições de sobrevivência:
A densidade de probabilidade de uma variável de sobrevivência é , onde é o risco atual (risco de uma pessoa "morrer" hoje) e é o probabilidade de que uma pessoa tenha sobrevivido até . pode ser expandido como a probabilidade de uma pessoa sobreviver ao dia 1 e ao dia 2, ... até o dia . Então: Com risco constante e pequeno , podemos usar: para aproximar maneira simples h ( t ) S ( t ) t S ( t ) t P ( s u r v i v e d d a y t ) = 1 - h ( t ) P ( s u r v i v e d d af(t)=h(t)S(t) h(t) S(t) t S(t) t
Isenção de responsabilidade: isso não é de forma alguma uma tentativa de derivação adequada do pdf - imaginei que isso é uma pura coincidência e agradeço qualquer comentário sobre por que isso está correto / incorreto.
EDIT: alterou a aproximação por conselho por @SamT, ver comentários para discussão.
fonte
Você quase certamente desejará examinar as previsões e a engenharia de confiabilidade para análises completas dos tempos de sobrevivência. Dentro disso, existem algumas distribuições que são usadas com frequência:
A distribuição Weibull (ou "banheira") é a mais complexa. É responsável por três tipos de modos de falha, que dominam em diferentes idades: mortalidade infantil (onde as peças defeituosas quebram desde o início), falhas induzidas (onde as peças quebram aleatoriamente durante a vida útil do sistema) e se desgastam (de onde as peças quebram) usar). Como usado, ele possui um PDF parecido com "\ __ /". Especialmente para alguns eletrônicos, você pode ouvir sobre os tempos de gravação, o que significa que essas peças já foram operadas na parte "\" da curva e as falhas iniciais foram filtradas (idealmente). Infelizmente, a análise Weibull se decompõe rapidamentese suas peças não forem homogêneas (incluindo o ambiente de uso!) ou se você as estiver usando em escalas de tempo diferentes (por exemplo, se algumas peças forem usadas diretamente e outras forem armazenadas primeiro, a taxa de "falha aleatória" será reduzida. ser significativamente diferente, devido à mistura de duas medições de tempo (horas de operação x horas de uso).
Distribuições normais quase sempre estão erradas. Toda distribuição normal tem valores negativos, nenhuma distribuição de confiabilidade possui. Às vezes, elas podem ser uma aproximação útil, mas, quando isso é verdade, você quase sempre está olhando para um log normal de qualquer maneira, portanto, pode usar a distribuição correta. As distribuições normais de log são usadas corretamente quando você tem algum tipo de desgaste e falhas aleatórias desprezíveis e em nenhuma outra circunstância! Como a distribuição Normal, eles são flexíveis o suficiente para que você possa forçá-los a caber na maioria dos dados; você precisa resistir a esse desejo e verificar se as circunstâncias fazem sentido.
Finalmente, a distribuição exponencial é o verdadeiro cavalo de batalha. Muitas vezes, você não sabe quantas peças antigas são (por exemplo, quando as peças não são serializadas e têm momentos diferentes quando entram em serviço); portanto, qualquer distribuição baseada em memória está esgotada. Além disso, muitas partes têm um tempo de desgaste tão arbitrariamente longo que é completamente dominado por falhas induzidas ou fora do período útil da análise. Portanto, embora possa não ser um modelo tão perfeito quanto outras distribuições, ele simplesmente não se importa com as coisas que os atrapalham. Se você possui um MTTF (tempo de população / contagem de falhas), possui uma distribuição exponencial. Além disso, você não precisa de nenhum entendimento físico do seu sistema. Você pode fazer estimativas exponenciais apenascom base nas MTTFs observadas da parte (assumindo uma amostra grande o suficiente), e elas saem bem perto. Também é resiliente a causas: se a cada dois meses alguém fica entediado e joga croquet com alguma parte até que ela se quebre, isso é explicado exponencialmente (ele entra no MTTF). O exponencial também é simples o suficiente para que você possa fazer cálculos diretos da disponibilidade de sistemas redundantes e outros, o que aumenta significativamente sua utilidade.
fonte
Para responder sua pergunta explícita, você não pode usar a distribuição normal para sobrevivência porque a distribuição normal vai para o infinito negativo e a sobrevivência é estritamente não negativa. Além disso, não acho que seja verdade que "os tempos de sobrevivência sejam distribuídos exponencialmente" por qualquer pessoa na realidade.
Mais comumente, as distribuições de sobrevivência são complexas e não se encaixam em nenhuma distribuição nomeada. As pessoas normalmente nem se importam em tentar descobrir qual distribuição pode ser. É isso que torna o modelo de riscos proporcionais de Cox tão popular: é semi-paramétrico, pois o risco da linha de base pode ser deixado completamente não especificado, mas o restante do modelo pode ser paramétrico em termos de sua relação com a linha de base não especificada.
fonte
Alguma ecologia pode ajudar a responder ao "Por que" por trás dessa pergunta.
A razão pela qual a distribuição exponencial é usada para modelar a sobrevivência se deve às estratégias de vida envolvidas nos organismos que vivem na natureza. Existem essencialmente dois extremos no que diz respeito à estratégia de sobrevivência, com algum espaço para o meio termo.
Aqui está uma imagem que ilustra o que quero dizer (cortesia da Khan Academy):
Este gráfico representa os indivíduos sobreviventes no eixo Y e a "porcentagem da expectativa máxima de vida" (também conhecida como aproximação da idade do indivíduo) no eixo X.
O tipo I são os seres humanos, que modelam organismos que têm um nível extremo de cuidado com seus filhos, garantindo uma mortalidade infantil muito baixa. Freqüentemente, essas espécies têm muito poucos filhos, porque cada uma delas dedica grande parte do tempo e esforço dos pais. A maioria do que mata os organismos do Tipo I é o tipo de complicações que surgem na velhice. A estratégia aqui é o alto investimento para altos retornos em vidas longas e produtivas, se ao custo de grandes números.
Por outro lado, o Tipo III é modelado por árvores (mas também pode ser plâncton, corais, peixes reprodutores, muitos tipos de insetos etc.), onde os pais investem relativamente pouco em cada filhote, mas produz uma tonelada deles na esperança de que alguns sobreviver. A estratégia aqui é "borrifar e rezar", esperando que, enquanto a maioria dos filhotes seja destruída relativamente rapidamente por predadores que tiram proveito de colheitas fáceis, os poucos que sobreviverem o tempo suficiente para crescer se tornem cada vez mais difíceis de matar, tornando-se (praticamente) impossíveis de serem comido. Enquanto isso, esses indivíduos produzem um grande número de filhos, esperando que alguns também sobrevivam até a sua idade.
O tipo II é uma estratégia intermediária, com investimento moderado dos pais, para capacidade de sobrevivência moderada em todas as idades.
Eu tive um professor de ecologia que colocou desta maneira:
"O tipo III (árvores) é a 'Curva da Esperança', porque quanto mais um indivíduo sobreviver, maior será a probabilidade de continuar a sobreviver. Enquanto isso, o Tipo I (humanos) é a 'Curva do Desespero', porque quanto mais tempo você vive, maior a probabilidade de você morrer ".
fonte
Isso não responde diretamente à pergunta, mas acho muito importante notar e não se encaixa muito bem em um único comentário.
Embora a distribuição exponencial tenha uma derivação teórica muito boa e, portanto, supondo que os dados produzidos sigam os mecanismos assumidos na distribuição exponencial, teoricamente ela deve fornecer estimativas ótimas, na prática ainda não encontrei um conjunto de dados em que a distribuição exponencial produza perto de resultados aceitáveis (é claro, isso depende dos tipos de dados que analisei, quase todos os dados biológicos). Por exemplo, eu apenas olhei para ajustar um modelo a uma variedade de distribuições usando o primeiro conjunto de dados que pude encontrar no meu pacote R. Para a verificação do modelo da distribuição da linha de base, geralmente comparamos com o modelo semi-paramétrico. Veja os resultados.
Na distribuição Weibull, log-logistic e log-normal, não há um vencedor absoluto em termos de ajuste apropriado. Mas há um perdedor claro: a distribuição exponencial! Foi minha experiência que essa magnitude de desajustamento não é excepcional, mas a norma para a distribuição exponencial.
Por quê? Porque a distribuição exponencial é uma família de parâmetros únicos. Portanto, se eu especificar a média dessa distribuição, eu especificarei todos os outros momentos da distribuição. Essas outras famílias são todas as duas famílias de parâmetros. Portanto, há muito mais flexibilidade nessas famílias para se adaptar aos próprios dados.
Agora, lembre-se de que a distribuição Weibull tem a distribuição exponencial como um caso especial (ou seja, quando o parâmetro de forma = 1). Portanto, mesmo que os dados sejam realmente exponenciais, apenas adicionamos um pouco mais de ruído às nossas estimativas usando uma distribuição Weibull em vez de uma distribuição exponencial. Como tal, eu nunca recomendaria o uso da distribuição exponencial para modelar dados reais (e estou curioso para saber se algum leitor tem um exemplo de quando é realmente uma boa ideia).
fonte
Outro motivo pelo qual a distribuição exponencial surge frequentemente para modelar o intervalo entre os eventos é o seguinte.
É sabido que, sob algumas suposições, a soma de um grande número de variáveis aleatórias independentes estará próxima de uma distribuição gaussiana. Um teorema semelhante é válido para processos de renovação , ou seja, modelos estocásticos para eventos que ocorrem aleatoriamente no tempo com intervalos entre eventos da IID. De fato, o teorema de Palm – Khintchine afirma que a superposição de um grande número de processos de renovação (não necessariamente poissonianos) se comporta assintoticamente como um processo de Poisson . Os intervalos entre eventos de um processo de Poisson são distribuídos exponencialmente.
fonte
tl; dr - Uma distribuição expontencial é equivalente a assumir que indivíduos têm a mesma probabilidade de morrer a qualquer momento do que qualquer outro.
Derivação
Suponha que um indivíduo vivo tenha a mesma probabilidade de morrer a qualquer momento do que em qualquer outro.
Assim, a população segue uma distribuição exponencial.
Nota matemática
Verificação da realidade
A distribuição exponencial assume que as pessoas da população tendem a morrer na mesma taxa ao longo do tempo. Na realidade, as taxas de mortalidade tenderão a variar para populações finitas.
Criar melhores distribuições envolve equações diferenciais estocásticas . Então, não podemos dizer que há uma probabilidade constante de morte; em vez disso, temos que apresentar uma distribuição para as chances de cada indivíduo morrer em um determinado momento, depois combinar essas várias árvores de possibilidades para toda a população e resolver essa equação diferencial ao longo do tempo.
Não me lembro de ter visto isso feito em algo online antes, então você provavelmente não vai se deparar com isso; mas, esse é o próximo passo da modelagem, se você quiser melhorar a distribuição exponencial.
fonte
(Observe que, na parte que você citou, a declaração era condicional; a sentença em si não assumiu sobrevivência exponencial, explicou uma conseqüência disso. No entanto, a assunção de sobrevivência exponencial é comum, por isso vale a pena lidar com a pergunta "por que exponencial "e" por que não normal "- já que o primeiro já está bem coberto, vou me concentrar mais na segunda coisa)
Os tempos de sobrevivência normalmente distribuídos não fazem sentido porque têm uma probabilidade diferente de zero de o tempo de sobrevivência ser negativo.
Se você restringir sua consideração a distribuições normais que quase não têm chance de chegar perto de zero, não poderá modelar dados de sobrevivência com probabilidade razoável de um tempo de sobrevivência curto:
Talvez de vez em quando tempos de sobrevivência que quase não têm chance de tempos curtos de sobrevivência sejam razoáveis, mas você precisa de distribuições que façam sentido na prática - geralmente você observa tempos de sobrevivência curtos e longos (e qualquer coisa intermediária), normalmente com uma distorção distribuição dos tempos de sobrevivência). Uma distribuição normal não modificada raramente será útil na prática.
[Um normal truncado pode ser mais uma aproximação aproximada do que o normal, mas outras distribuições costumam se sair melhor.]
O risco constante da exponencial às vezes é uma aproximação razoável dos tempos de sobrevivência. Por exemplo, se "eventos aleatórios", como acidentes, contribuem muito para a taxa de mortalidade, a sobrevivência exponencial funcionará razoavelmente bem. (Entre as populações de animais, por exemplo, às vezes tanto a predação quanto a doença podem agir pelo menos aproximadamente como um processo casual, deixando algo exponencial como uma primeira aproximação razoável aos tempos de sobrevivência.)
Na verdade, isso pode ser um pouco melhor ... mas observe que isso corresponderia a um risco infinito em 0, portanto, ocasionalmente, seria útil. Embora possa modelar casos com uma proporção muito alta de tempos muito curtos, ele tem o problema inverso de poder modelar casos com sobrevida tipicamente muito menor que a média (25% dos tempos de sobrevivência são inferiores a 10,15% do tempo médio de sobrevivência e metade dos tempos de sobrevivência é inferior a 45,5% da média; ou seja, a sobrevida mediana é inferior a metade da média.)
fonte
Porque
que ainda tem uma probabilidade diferente de zero de ser negativo, por isso é não estritamente positivo;
a média e a variação são algo que você pode medir a partir da população que você está tentando modelar. Se sua população tiver média 2 e variância 1, e você a modelar com uma distribuição normal, essa distribuição normal terá massa substancial abaixo de zero; se você modelá-lo com uma distribuição normal com média 5 e variação 0,1, seu modelo obviamente tem propriedades muito diferentes da coisa que deveria modelar.
A distribuição normal tem uma forma particular, e essa forma é simétrica em relação à média. A única maneira de ajustar a forma é movê-la para a direita e esquerda (aumentar ou diminuir a média) ou torná-la mais ou menos espalhada (aumentar ou diminuir a variação). Isso significa que a única maneira de obter uma distribuição normal em que a maior parte da massa está entre dois e dez e apenas uma pequena quantidade da massa está abaixo de zero, você precisa colocar a média em, digamos, seis (o meio da faixa ) e defina a variação suficientemente pequena para que apenas uma pequena fração das amostras seja negativa. Mas então você provavelmente descobrirá que a maioria das suas amostras são 5, 6 ou 7, enquanto você deveria ter muitos 2s, 3s, 4s, 8s, 9s e 10s.
fonte