Uso e interpretação adequados de modelos gama inflados a zero

11

Antecedentes: Sou bioestatístico atualmente lutando com um conjunto de dados de taxas de expressão celular. O estudo expôs uma série de células, coletadas em grupos de vários doadores, a certos peptídeos. As células expressam certos biomarcadores em resposta ou não. As taxas de resposta são então registradas para cada grupo de doadores. As taxas de resposta (expressas em porcentagens) são o resultado de interesse e a exposição a peptídeos é o preditor.

Observe que as observações são agrupadas nos doadores.

Como só tenho os dados resumidos, estou tratando as taxas de resposta doadas como dados contínuos (pelo menos por enquanto).

A complicação decorre do fato de eu ter muitos zeros nos meus dados. Muitos para serem ignorados. Estou pensando em um modelo gama inflado a zero para lidar com o fato de que inclinei dados contínuos juntamente com uma superabundância de zeros. Também considerei o modelo Tobit, mas isso parece inferior, pois supõe a censura em um limite inferior, em oposição aos zeros genuínos (econometristas podem dizer que a distinção é discutível).

Pergunta: De um modo geral, quando é apropriado usar um modelo gama inflado a zero? Ou seja, quais são as suposições? E como se interpreta suas inferências? Ficaria muito grato pelos links para os artigos que discutem isso, se houver.

Encontrei um link no SAS-L no qual Dale McLerran fornece código NLMIXED para um modelo gama inflado a zero, portanto parece possível. No entanto, eu odiaria atacar cegamente.

Brenden Dufault
fonte

Respostas:

5

Primeiro, você não está vendo zeros genuínos nos dados de expressão. Seu biólogo está dizendo isso, como fazem todos os biólogos, mas quando um biólogo diz "é zero", na verdade significa "está abaixo do meu limite de detecção e, portanto, não existe". É um problema de linguagem devido à falta de sofisticação matemática em campo. Eu falo por experiência pessoal aqui.

A explicação do Gamma inflado com zero no link que você fornece é excelente. O processo físico que leva aos seus dados é, se eu entendi, um doador é selecionado e tratado com um determinado peptídeo, e a resposta é medida a partir das células desse doador. Existem algumas camadas aqui. Uma é a força geral da resposta do doador, que alimenta o nível de expressão de cada célula em particular que está sendo medida. Se você interpretar sua variável Bernoulli no Gama inflado com zero como "a resposta do doador é forte o suficiente para medir", pode ser que esteja bem. Observe que, nesse caso, você está aglomerando o ruído da expressão individual da célula com a variação entre doadores que respondem fortemente. Como o ruído na expressão em uma única célula é aproximadamente distribuído por gama,

Se a variação adicional de doadores x células não estraga seu ajuste de gama, e você está apenas tentando obter expressão versus peptídeo aplicado, não há razão para que isso não deva ficar bem.

Se uma análise mais detalhada estiver em ordem, recomendo a construção de um modelo hierárquico personalizado para corresponder ao processo que leva às suas medições.

user873
fonte
3

Encontrei uma solução que considero bastante elegante. Existe um excelente artigo na literatura intitulado "Análise de dados de medidas repetidas com aglomeração em zero", que demonstra um modelo lognormal inflado a zero para dados correlacionados. Os autores fornecem uma macro SAS baseada no PROC NLMIXED e fácil de implementar. A boa notícia é que isso pode ser simplificado para casos sem observações agrupadas por omissão da repeateddeclaração na macro. A má notícia é que o NLMIXED ainda não possui as muitas estruturas de correlação de que frequentemente precisamos, como autoregressivas.

A macro é chamada MIXCORR e possui uma página Wiki muito útil que você pode encontrar aqui . A macro em si pode ser baixada aqui .

Eu recomendo todos esses links. Espero que você os considere úteis.

Brenden Dufault
fonte