Usando regressão de Poisson para dados contínuos?

11

A distribuição de poisson pode ser usada para analisar dados contínuos e também dados discretos?

Eu tenho alguns conjuntos de dados em que as variáveis ​​de resposta são contínuas, mas lembram uma distribuição de poisson em vez de uma distribuição normal. No entanto, a distribuição de poisson é uma distribuição discreta e geralmente se preocupa com números ou contagens.

user3136
fonte
Como suas distribuições empíricas diferem das variáveis ​​gama, então?
whuber
1
Eu usei a distribuição gama para esses dados. Se você usa a distribuição gama com um link de log, obtém quase exatamente o mesmo resultado de um modelo de poisson super disperso. No entanto, na maioria dos pacotes estatísticos, eu estou familiarizado com a regressão de poisson é mais simples e muito mais flexível.
User3136
Não haveria outras distribuições melhores, por exemplo, sugestão de gamma de whuber?
Peter Flom - Restabelece Monica
1
@ PeterFlom - Gostaria de saber se esse problema surge muito porque o pacote glmnet no R não suporta a família Gamma ou a família Gaussian com uma função de link de log. No entanto, como o glmnet é usado como um pacote de modelagem preditiva (portanto, os usuários estão interessados ​​apenas nos coeficientes do modelo, não nos erros de coeficiente e stnd) e, uma vez que o db de Poisson produz coeficiente consistente. estimativas para modelos da forma ln [E (y)] = beta0 + beta * X com respostas contínuas, independentemente da distribuição, acho que os autores do glmnet não se deram ao trabalho de incluir essas famílias adicionais.
robertf

Respostas:

12

A principal suposição de um modelo linear generalizado relevante aqui é a relação entre a variância e a média da resposta, dados os valores dos preditores. Quando você especifica uma distribuição Poisson, o que isso implica é que você está assumindo que a variação condicional é igual à média condicional. * A forma real da distribuição não importa tanto: pode ser Poisson, ou gama, ou normal, ou qualquer outra coisa, desde que essa relação de variação média seja mantida.

* Você pode relaxar a suposição de que a variação é igual à média de proporcionalidade e ainda assim obter bons resultados.

Hong Ooi
fonte
9

Se você está falando sobre o uso de uma resposta de Poisson em um modelo linear generalizado, sim, se estiver disposto a assumir que a variação de cada observação é igual à sua média.

Se você não quiser fazer isso, outra alternativa pode ser transformar a resposta (por exemplo, obter logs).

Simon Byrne
fonte
Eu acho que, além do seu argumento, mesmo que @ user3136 não esteja disposto a assumir a média = variância, ele / ela pode usar a quasipoissonfamília glm.
suncoolsu
2
Mas meu problema é por que você deseja transformar dados contínuos em discretos. Está perdendo informações essencialmente. Além disso, quando uma logtransformação simples funcionaria, por que discretizar seus dados? Usando glmobras, mas cada resultado é baseado asymptotics (que pode ou não pode segurar)
suncoolsu
@suncoolsu: 1) quasipoisson faz a suposição de média proporcional à variância. 2) Não quis dizer transformar em discreto, quis dizer transformar (manter a continuidade) para que você pudesse usar um modelo diferente.
Simon Byrne
sim - eu entendi concordar com você. Desculpe, eu estava falando sobre a pergunta. Quase-poisson, leva em conta overdisperson certo? (se bem me lembro, cf Faraway 2006)
suncoolsu
Nesse caso em particular, não fiquei satisfeito com o fato de que qualquer transformação que eu tentei (log, sqrt, box-cox) forneceu uma boa aproximação à normalidade. Aliás, se eu usar o método de transformação de pontuação normal, posso transformar a maioria dos dados em uma quase normalidade bonita, mas não a vi amplamente usada, então presumo que haja um problema (é difícil voltar a transformar).
User3136