Qual modelo de regressão é o mais apropriado para usar com os dados de contagem?

10

Estou tentando entrar um pouco nas estatísticas, mas estou preso a alguma coisa. Meus dados são os seguintes:

Year   Number_of_genes
1990          1
1991          1
1993          3
1995          4

Agora, quero construir um modelo de regressão para poder prever o número de genes para um determinado ano com base nos dados. Fiz isso com regressão linear até agora, mas já li e não parece ser a melhor opção para esse tipo de dados. Li que a regressão de Poisson pode ser útil, mas não tenho certeza do que usar. Então, minha pergunta é:

Existe um modelo de regressão geral para esse tipo de dados? Se não, o que devo fazer para descobrir qual método é o mais apropriado para usar (em termos do que preciso descobrir sobre os dados)?

sequence_hard
fonte
Minha resposta aqui: stats.stackexchange.com/questions/142338/… é muito relevante.
b Kjetil Halvorsen
2
Trata-se de dados de séries temporais?
Michael M

Respostas:

22

Não, não existe um modelo geral de regressão de dados de contagem.

(Assim como não há modelo de regressão geral para dados contínuos. Um modelo linear com ruído homosquástico distribuído normalmente é mais comumente assumido e ajustado usando Mínimos Quadrados Ordinários. No entanto, a regressão gama ou regressão exponencial é frequentemente usada para lidar com diferentes suposições de distribuição de erros , ou modelos de heterocedasticidade condicional, como ARCH ou GARCH em um contexto de série temporal, para lidar com o ruído heterocedástico.)

Os modelos comuns incluem , como você escreve, ou regressão binomial negativa. Esses modelos são suficientemente difundidos para encontrar todos os tipos de software, tutoriais ou manuais. Eu particularmente gosto da regressão binomial negativa de Hilbe . Esta pergunta anterior discute como escolher entre diferentes modelos de dados de contagem.

Se você tiver "muitos" zeros em seus dados e, especialmente, se suspeitar que os zeros possam ser conduzidos por um processo de geração de dados diferente dos não-zeros (ou que alguns zeros sejam de um DGP, outros zeros e não-zeros sejam de um DGP diferente), modelos com podem ser úteis. A mais comum é a regressão de Poisson (ZIP) inflada a zero.

Você também pode percorrer as perguntas anteriores com a tag "regressão" e "contagem de dados" .


EDIT: @MichaelM levanta um bom ponto. Isso faz olhar como séries temporais de dados de contagem. (E os dados ausentes de 1992 e 1994 sugerem para mim que deve haver um zero em cada um desses anos. Se sim, inclua-o. Zero é um número válido e contém informações.) À luz disso, eu também sugerimos que, ao examinar nossas perguntas anteriores, sejam marcadas "séries temporais" e "dados de contagem" .

Stephan Kolassa
fonte
4
Bom, mas os mínimos quadrados comuns são um procedimento de estimativa, não um modelo. Você sabe disso, mas é uma confusão comum, por isso não devemos escrever.
Nick Cox
@ NickCox: bom ponto. Eu editei minha postagem.
Stephan Kolassa
11

A distribuição "padrão", a escolha mais usada e descrita, da distribuição de dados de contagem é a distribuição de Poisson . Na maioria das vezes, é ilustrado usando o exemplo de seu primeiro uso prático:

Uma aplicação prática dessa distribuição foi feita por Ladislaus Bortkiewicz em 1898, quando recebeu a tarefa de investigar o número de soldados do exército prussiano mortos acidentalmente por chutes a cavalo; esse experimento introduziu a distribuição de Poisson no campo da engenharia de confiabilidade.

A distribuição de Poisson é parametrizada pela taxa por intervalo de tempo fixo ( também é a média e a variância). Em caso de regressão, podemos usar a distribuição de Poisson no modelo linear generalizado com a função de link log-linearλλλ

E(Y|X,β)=λ=exp(β0+β1X1++βkXk)

isso é chamado de regressão de Poisson , pois podemos assumir que é uma taxa de distribuição de Poisson. Observe, no entanto, que, para a regressão log-linear, você não precisa fazer essa suposição e simplesmente usar o GLM com o link de log com dados não contados. Ao interpretar os parâmetros, é necessário lembrar que, devido ao uso da transformação de log, as alterações na variável independente resultam em alterações multiplicativas nas contagens previstas.λ

O problema com o uso da distribuição de Poisson para os dados da vida real é que ele assume que a média é igual à variação. A violação dessa suposição é chamada de superdispersão . Nesses casos, você sempre pode usar o modelo quase-Poisson , modelo log-linear não-Poisson (para contagens grandes, Poisson pode ser aproximado por distribuição normal), regressão binomial negativa (intimamente relacionada a Poisson; veja Berk e MacDonald, 2008) ou outros modelos, conforme descrito por Stephan Kolassa .

Para uma introdução amigável à regressão de Poisson, você também pode conferir artigos de Lavery (2010) ou Coxe, West e Aiken (2009).


Lavery, R. (2010). Um guia animado: uma introdução à regressão de Poisson. Papel NESUG, sa04.

Coxe, S., West, SG, & Aiken, LS (2009). A análise dos dados de contagem: uma introdução suave à regressão de Poisson e suas alternativas. Jornal de avaliação da personalidade, 91 (2), 121-136.

Berk, R. e MacDonald, JM (2008). Sobredispersão e regressão de Poisson. Journal of Quantitative Criminology, 24 (3), 269-284.

Tim
fonte
2
Você combina o ajuste de uma distribuição de Poisson com o uso de uma regressão de Poisson. Não é um requisito absoluto para a regressão de Poisson que a resposta tenha uma distribuição de Poisson. A regressão de Poisson funciona bem para uma ampla variedade de respostas positivas, incluindo variáveis ​​medidas também. É uma boa idéia ter cuidado com os erros padrão de inferência, mas isso é tratável. Veja, por exemplo, blog.stata.com/2011/08/22/…
Nick Cox
@ NickCox, certo, mas a pergunta era estritamente sobre os dados de contagem, então provavelmente não há necessidade de entrar em detalhes sobre outros usos da regressão de Poisson.
Tim
3
Não há necessidade de entrar em detalhes, concordou; mas todos os motivos para pressionar um pouco a regressão de Poisson. Sua utilidade é surpreendentemente pouco conhecida; merece estar em muitos mais textos intermediários, pelo menos. Além disso, e mais importante aqui, não concordo que uma vez que a variação não seja igual ao que significa que você deve usar outros modelos; isso confunde dois problemas bem diferentes.
Nick Cox
Além disso, o fato de que a regressão de Poisson pode ser usada com variáveis ​​medidas é pertinente, pois nesses casos a média da variância igual nem é significativa, pois possuem dimensões diferentes. Tais casos sublinham, portanto, que o requisito não existe.
31416 Nick Cox
3
exp(Xb)
0

Poisson ou binômio negativo são dois modelos amplamente utilizados para dados de contagem. Eu optaria pelo binômio negativo, pois ele tem melhores suposições de variação.


fonte
3
O que você quer dizer com "melhor"?
Tim
2
Tal como está, isso é mais um comentário do que uma resposta. Você acha que poderia expandir isso? Você certamente deve pensar sobre o comentário de Tim - a palavra "melhor" é muito vago
Silverfish
Os modelos binomiais negativos (NB) lidam com dados de contagem superdispersos (OD), assumindo que sejam devidos a cluster. Ele então usa um modelo de interceptação aleatória com uma estrutura Poisson distribuída 'dentro' e uma gama distribuída 'entre'. Qual é o melhor depende da sua suposição para OD. Se você presumir que o grau de DO varia de acordo com o tamanho do cluster, o NB pode ajudar. Se você assumir que o OD é proporcional ao tamanho do cluster, quase-poisson tem essa suposição. NB estimativas serão tendenciosas se OD é apenas ruído gaussiano. Poisson será menos tendencioso, mas os erros padrão podem ser muito pequenos com o OD.
Mainard 22/11