Qual é a relação entre a regressão de Cox e a regressão de Tobit?
7
Para lidar com dados censurados, vejo que alguns pesquisadores usam métodos de regressão censurados , como a regressão Tobit , alguns usam modelos clássicos de análise de sobrevivência, como a regressão de Cox .
Eu sei que a regressão de Cox e a regressão de Tobit são dois modelos diferentes da perspectiva da matemática.
Minhas perguntas: Quais são os prós e os contras desses dois métodos? Quais problemas eles são bons em resolver, respectivamente? Eles têm suposições diferentes?
O modelo de Cox é um modelo de sobrevivência que inteligentemente modela as taxas de risco através das classificações observadas dos dados, sem a necessidade de fazer uma suposição da distribuição da linha de base subjacente, mas ainda requer a suposição proporcional de riscos.
O modelo Tobit é essencialmente regressão linear padrão, exceto que ele também pode manipular dados censurados. A distribuição assumida é então normal.
Prós e contras
Modelo Cox:
Pro: Não é necessário fazer suposições sobre a distribuição da linha de base. Isto é muito importante para a análise de sobrevivência: os dados time-to-evento tende a ser muito não é normal, muitas vezes com extremamente pesados caudas certas. Além disso, considerando apenas a classificação dos dados, você tem um modelo mais robusto para os valores discrepantes esperados.
Contras: pode ser muito difícil de interpretar efeitos de coeficiente.
Modelo Tobit:
Pro: extensão simples de um modelo com o qual a maioria dos analistas já está familiarizada para permitir a censura, ou seja, se todos os seus dados foram observados e apropriados para a regressão linear (com uma ressalva mencionada na seção Contras), seria apropriado usar um modelo Tobit .
Contras: Requer a suposição de efeitos lineares e erros gaussianos. Em algumas aplicações, isso é totalmente apropriado, mas os dados de tempo até o evento (ou seja, análise de sobrevivência) raramente se enquadram nesse critério. Além disso, vale ressaltar que o modelo Tobit é mais sensível à suposição de normalidade do que a regressão linear de baunilha.
Os coeficientes de regressão (exponenciados) de Cox são interpretados como uma taxa de risco (FC), onde um risco é um risco instantâneo da ocorrência de um resultado. Concordo que pode ser difícil de explicar, embora nas ciências da saúde muitas vezes interpretemos os RHs como razões de risco, o que é apropriado quando o resultado é raro.
22418 AdamO em
2
Nem um termo de erro normalmente distribuído nem um link linear seriam uma escolha adequada para modelar resultados de tempo para evento na maioria das circunstâncias. A distribuição dos tempos de falha tende a se distorcer em grande parte.
Para modelos sem censura, a maioria dos livros sobre análise de tempo de falha discute modelos paramétricos. Estes são procedimentos de probabilidade máxima exponencial, Gama ou Weibull. A transformação do log no tempo do evento poderia justificar a aplicação de um modelo de regressão linear e, portanto, o modelo Tobit poderia ter alguma aplicabilidade para modelos paramétricos de dados lognormal com censura. A lógica para modelos de regressão lognormal para dados de tempo para evento parece duvidosa na minha opinião: dados normalmente distribuídos surgem à medida que a soma de milhões de fatores não medidos contribui para um resultado. Os modelos exponencial e Weibull, por outro lado, são modelos de probabilidade que foram discutidos em mais detalhes, derivados como soluções para equações diferenciais para processos de Martingale e são resumidos por funções simples de risco.
O modelo Cox não se incomoda com a distribuição do tempo de falha. É semiparamétrico e, portanto, funciona para uma classe geral de modelos paramétricos, desde que os riscos sejam proporcionais. O modelo de Cox usa uma probabilidade parcial para classificar os conjuntos de riscos: grupos de pessoas em risco da doença a cada resultado e avalia uma proporção de probabilidades de acordo com uma função de risco de base arbitrária. As observações censuradas são simplesmente eliminadas das análises subsequentes. A maioria concorda que faz o uso completo dos dados, assumindo o mínimo possível sobre o que a distribuição subjacente é / não é.
Como o modelo de tobit se relaciona com o modelo de sobrevivência paramétrico? O modelo Tobit é equivalente a um modelo de sobrevivência paramétrica log-normal?
Nem um termo de erro normalmente distribuído nem um link linear seriam uma escolha adequada para modelar resultados de tempo para evento na maioria das circunstâncias. A distribuição dos tempos de falha tende a se distorcer em grande parte.
Para modelos sem censura, a maioria dos livros sobre análise de tempo de falha discute modelos paramétricos. Estes são procedimentos de probabilidade máxima exponencial, Gama ou Weibull. A transformação do log no tempo do evento poderia justificar a aplicação de um modelo de regressão linear e, portanto, o modelo Tobit poderia ter alguma aplicabilidade para modelos paramétricos de dados lognormal com censura. A lógica para modelos de regressão lognormal para dados de tempo para evento parece duvidosa na minha opinião: dados normalmente distribuídos surgem à medida que a soma de milhões de fatores não medidos contribui para um resultado. Os modelos exponencial e Weibull, por outro lado, são modelos de probabilidade que foram discutidos em mais detalhes, derivados como soluções para equações diferenciais para processos de Martingale e são resumidos por funções simples de risco.
O modelo Cox não se incomoda com a distribuição do tempo de falha. É semiparamétrico e, portanto, funciona para uma classe geral de modelos paramétricos, desde que os riscos sejam proporcionais. O modelo de Cox usa uma probabilidade parcial para classificar os conjuntos de riscos: grupos de pessoas em risco da doença a cada resultado e avalia uma proporção de probabilidades de acordo com uma função de risco de base arbitrária. As observações censuradas são simplesmente eliminadas das análises subsequentes. A maioria concorda que faz o uso completo dos dados, assumindo o mínimo possível sobre o que a distribuição subjacente é / não é.
fonte