Estou tentando executar um modelo para estimar quão bem as doenças catastróficas, como tuberculose, AIDS etc afetam os gastos com hospitalização. Eu tenho "por custo de hospitalização" como variável dependente e vários marcadores individuais como variáveis independentes, quase todos fictícios, como sexo, chefe de família, status de pobreza e, é claro, um fictício para saber se você tem a doença (mais a idade) e idade ao quadrado) e vários termos de interação.
Como é de se esperar, há uma quantidade significativa - e quero dizer muito - de dados empilhados a zero (ou seja, nenhuma despesa com hospitalização no período de referência de 12 meses). Qual seria a melhor maneira de lidar com dados como esses?
A partir de agora, decidi converter o custo em ln(1+cost)
para incluir todas as observações e, em seguida, executar um modelo linear. Estou no caminho certo?
Respostas:
Conforme discutido em outra parte do site, a regressão ordinal (por exemplo, chances proporcionais, riscos proporcionais, probit) é uma abordagem flexível e robusta. São permitidas descontinuidades na distribuição de , incluindo aglomeração extrema. Nada é assumido sobre a distribuição de para um único . Modelos inflados zero fazem muito mais suposições do que modelos semi-paramétricos. Para um estudo de caso completo, consulte o folheto 15 do meu curso em http://biostat.mc.vanderbilt.edu/CourseBios330 .Y XY Y X
Uma grande vantagem dos modelos ordinais para contínuo é que você não precisa saber como transformar antes da análise.YY Y
fonte
Agrupar em 0 é chamado de "inflação zero". De longe, os casos mais comuns são modelos de contagem, levando a Poisson com inflação zero e regressão binomial negativa com inflação zero. No entanto, existem maneiras de modelar a inflação zero com valores positivos reais (por exemplo, modelo gama com inflação zero).
Veja Min e Agresti, 2002, Modelando dados não negativos com aglomeração em zero para uma revisão desses métodos.
fonte
A sugestão de usar um modelo de Poisson inflado a zero é um começo interessante. Ele tem alguns benefícios de modelar conjuntamente a probabilidade de ter quaisquer custos relacionados a doenças, bem como o processo de como esses custos acabam sendo, se você tiver alguma doença. Tem a limitação de que impõe alguma estrutura estrita sobre qual é a forma do resultado, condicionada ao acúmulo de quaisquer custos (por exemplo, uma relação de variação média específica e um resultado inteiro positivo ... o último dos quais pode ser relaxado por alguns modelagem).
Se você está bem com o tratamento da admissão doenças relacionadas e custos de doenças relacionadas condicionada à admissão processos de forma independente, você pode estender isso a modelar o processo binário de y / n você acumular quaisquer custos relacionados com a doença? Este é um modelo de regressão logística simples e permite avaliar fatores de risco e prevalência. Dado isso, você pode restringir uma análise ao subconjunto de pessoas que acumularam quaisquer custos e modelar o processo de custo real usando uma série de técnicas de modelagem. Poisson é bom, quase-poisson seria melhor (respondendo por pequenas fontes não medidas de covariação nos dados e afastamentos das suposições do modelo). Mas o céu é o limite com a modelagem do processo de custo contínuo.
Se você absolutamente precisar modelar a correlação de parâmetros no processo, poderá usar estimativas SE de autoinicialização. Não vejo razão para que isso seja inválido, mas ficaria curioso para ouvir a opinião de outras pessoas, se isso estiver errado. Em geral, acho que essas são duas perguntas separadas e devem ser tratadas como tal para ter inferência válida.
fonte