Pacote R / Stata para GEE binomial negativo com truncamento zero?

13

Este é o meu primeiro post. Sou verdadeiramente grato por esta comunidade.

Estou tentando analisar dados de contagem longitudinal zero truncado (probabilidade de que a variável de resposta = 0 seja 0) e a média! = Variância, de modo que uma distribuição binomial negativa foi escolhida sobre um poisson.

Funções / comandos que excluí:

R

  • A função gee () em R não considera truncamento zero nem a distribuição binomial negativa (nem mesmo com o pacote MASS carregado)
  • glm.nb () em R não permite estruturas de correlação diferentes
  • O vglm () do pacote VGAM pode fazer uso da família posnegbinomial, mas tem o mesmo problema que o comando ztnb da Stata (veja abaixo), pois não consigo reajustar os modelos usando uma estrutura de correlação não independente.

Stata

  • Se os dados não fossem longitudinais, eu poderia usar os pacotes Stata ztnb para executar minha análise, MAS esse comando pressupõe que minhas observações sejam independentes.

Também descartei o GLMM por várias razões metodológicas / filosóficas.

Por enquanto, decidi pelo comando xtgee da Stata (sim, eu sei que xtnbreg também faz a mesma coisa) que leva em conta as estruturas de correlação não independentes e a família binomial negativa, mas não o truncamento zero. O benefício adicional de usar xtgee é que também posso calcular valores qic (usando o comando qic) para determinar as estruturas de correlação mais adequadas para minhas variáveis ​​de resposta.

Se houver um pacote / comando no R ou Stata que possa levar 1) família nbinomial, 2) GEE e 3) truncamento zero em consideração, eu estaria ansioso para saber.

Eu apreciaria muito todas as idéias que você possa ter. Obrigado.

-Casey

Iris Tsui
fonte

Respostas:

12

Para R, duas opções vêm à mente, ambas com as quais estou apenas vagamente familiarizado.

O primeiro é o psclpacote, que pode acomodar zero modelos de inflado e de obstáculo truncados de maneira muito agradável e flexível. O psclpacote sugere o uso do sandwichpacote que fornece "estimadores de erro padrão robustos para modelos para dados transversais, de séries temporais e longitudinais". Assim, você pode ajustar seu modelo de contagem e, em seguida, usar o sandwichpacote para estimar uma matriz de covariância apropriada para os resíduos, levando em consideração a natureza longitudinal dos dados.

A segunda opção pode ser procurar o geepackpacote que parece que pode fazer o que você deseja, mas apenas para um modelo binomial negativo com teta conhecido, pois ele se encaixa em qualquer tipo de GLM que a glm()função de R possa (então use a função de família do MASS) .

Uma terceira opção levantou a cabeça: gamlsse é um pacote complementar gamlss.tr. O último inclui uma função gen.trun()que pode transformar qualquer uma das distribuições suportadas gamlss()em uma distribuição truncada de maneira flexível - você pode especificar truncado à esquerda na distribuição binomial 0 negativa, por exemplo. gamlss()por si só inclui suporte a efeitos aleatórios que devem cuidar da natureza longitudinal dos dados. No entanto, não está claro imediatamente se você precisa usar pelo menos uma função suave de uma covariável no modelo ou pode simplesmente modelar tudo como funções lineares como em um GLM.

Restabelecer Monica - G. Simpson
fonte
Acredito que o pacote pscl se encaixa apenas nos modelos com inflado zero e obstáculos. Os modelos de obstáculos incorporam um componente de contagem truncado à esquerda e um componente de obstáculo censurado à direita. Não sei como ou mesmo se sou capaz de executar um modelo de obstáculo sem o componente obstáculo, mas analisarei o pacote sandwick. Quanto ao pacote geepack, parece ter o mesmo problema que o pacote gee; quando eu especificar uma família "negative.binomial" (do MASS), sem especificar um theta, ele solicitará um theta. No entanto, quando eu especificar um valor theta, ele emitirá um erro dizendo que é uma família não reconhecida.
Iris Tsui
@ Casey - desculpe, eu li mal seus requisitos com zero truncamento. Pena que o geepack não funciona com essa função de família. Se eu pensar em mais alguma coisa, atualizarei aqui.
Reintegrar Monica - G. Simpson
@ Casey Adicionei uma nota sobre o gamlsspacote que também pode ser compatível com a conta R.
Reintegrar Monica - G. Simpson
Aceitando sua resposta por causa das várias sugestões de recursos e funções que melhoraram meu entendimento. Parece que 'gamlss' seria uma maneira possível de resolver meu problema, mas como na verdade não sou estatístico, atualmente não tenho formação em matemática nem tempo para abrir essa lata de worms no momento (mas talvez acabe). Como mencionado em outro comentário, pelo menos para os meus dados, parece que ignorar o truncamento zero não mudará muito minhas estimativas e erros padrão. Para meu público-alvo, acredito que um GEE nbinomial funcionará perfeitamente. Obrigado!
Iris Tsui
9

Hmm, boa primeira pergunta! Não conheço um pacote que atenda às suas necessidades precisas. Eu acho que o xtgee da Stata é uma boa opção se você também especificar a vce(robust)opção de fornecer erros padrão do Huber-White, ou vce(bootstrap)se for prático. Qualquer uma dessas opções garantirá que os erros padrão sejam estimados de maneira consistente, apesar da especificação incorreta do modelo, ignorando o truncamento zero.

Isso deixa a questão de qual efeito ignorar o truncamento zero terá sobre as estimativas pontuais de seu interesse. Vale a pena uma rápida pesquisa para ver se há literatura relevante sobre isso em geral, ou seja, não necessariamente em um contexto de GEE - eu pensaria que você pode assumir com segurança que esses resultados também serão relevantes no caso de GEE. Se você não encontrar nada, sempre poderá simular dados com truncamento zero e estimativas de efeitos conhecidos e avaliar o viés por simulação.

uma parada
fonte
1
Fiz questão de estimar erros padrão robustos. Além disso, no livro "Modelos de efeitos mistos e extensões em ecologia com R", de Zuur et al., 2009, na página 261, eles mencionam "se a média da variável resposta for relativamente grande, ignorando o problema de truncamento e aplicando é improvável que um modelo linear generalizado (GLM) de Poisson ou binomial negativo (NB) cause um problema. " Felizmente, as médias das minhas variáveis ​​de resposta são grandes, então me sinto um pouco mais à vontade com a priorização do truncamento zero em comparação com os aspectos GEE e negbinomial das minhas regressões.
Iris Tsui
Parece que você já sabe mais sobre esse assunto do que eu! Ou qualquer outra pessoa neste site, a julgar pela falta de outras respostas.
onestop
É um pouco inacreditável; quem sabia que os dados de contagem longitudinal superdispersos seriam tão difíceis de analisar (sem fazer um GLMM, o que eu ainda nem pensei em fazer)? Se ao menos meus dados fossem inflados com zero, isso seria outra história.
Iris Tsui
5

Eu tive o mesmo problema na minha dissertação. No Stata, acabei de criar um programa .ado personalizado com duas chamadas para o xtgee.

Para isso, achei úteis os slides / programas "Modelagem de custos e contagens de assistência médica" de Partha Deb, Willard Manning e Edward Norton. Eles não falam sobre dados longitudinais, mas é um ponto de partida útil.

Keith
fonte
1

Eu estava procurando respostas sobre a interpretação do glmmADMB e vi sua postagem. Eu sei que isso foi há muito tempo, mas eu posso ter a resposta.

Examine o pacote glmmADMB ao usar modelos de obstáculos. Você precisa dividir em duas as análises dos seus dados: uma delas trata apenas os dados sem zero. Você pode adicionar efeitos mistos e escolher a distribuição. A condição é que os dados sejam inflados com zero e não sei se isso atendeu às suas necessidades! De qualquer forma, espero que você tenha descoberto há muito tempo!

Marta
fonte