Estou tentando entrar um pouco nas estatísticas, mas estou preso a alguma coisa. Meus dados são os seguintes:
Year Number_of_genes
1990 1
1991 1
1993 3
1995 4
Agora, quero construir um modelo de regressão para poder prever o número de genes para um determinado ano com base nos dados. Fiz isso com regressão linear até agora, mas já li e não parece ser a melhor opção para esse tipo de dados. Li que a regressão de Poisson pode ser útil, mas não tenho certeza do que usar. Então, minha pergunta é:
Existe um modelo de regressão geral para esse tipo de dados? Se não, o que devo fazer para descobrir qual método é o mais apropriado para usar (em termos do que preciso descobrir sobre os dados)?
regression
count-data
poisson-regression
sequence_hard
fonte
fonte
Respostas:
Não, não existe um modelo geral de regressão de dados de contagem.
(Assim como não há modelo de regressão geral para dados contínuos. Um modelo linear com ruído homosquástico distribuído normalmente é mais comumente assumido e ajustado usando Mínimos Quadrados Ordinários. No entanto, a regressão gama ou regressão exponencial é frequentemente usada para lidar com diferentes suposições de distribuição de erros , ou modelos de heterocedasticidade condicional, como ARCH ou GARCH em um contexto de série temporal, para lidar com o ruído heterocedástico.)
Os modelos comuns incluem regressão de poisson , como você escreve, ou regressão binomial negativa. Esses modelos são suficientemente difundidos para encontrar todos os tipos de software, tutoriais ou manuais. Eu particularmente gosto da regressão binomial negativa de Hilbe . Esta pergunta anterior discute como escolher entre diferentes modelos de dados de contagem.
Se você tiver "muitos" zeros em seus dados e, especialmente, se suspeitar que os zeros possam ser conduzidos por um processo de geração de dados diferente dos não-zeros (ou que alguns zeros sejam de um DGP, outros zeros e não-zeros sejam de um DGP diferente), modelos com inflação zero podem ser úteis. A mais comum é a regressão de Poisson (ZIP) inflada a zero.
Você também pode percorrer as perguntas anteriores com a tag "regressão" e "contagem de dados" .
EDIT: @MichaelM levanta um bom ponto. Isso faz olhar como séries temporais de dados de contagem. (E os dados ausentes de 1992 e 1994 sugerem para mim que deve haver um zero em cada um desses anos. Se sim, inclua-o. Zero é um número válido e contém informações.) À luz disso, eu também sugerimos que, ao examinar nossas perguntas anteriores, sejam marcadas "séries temporais" e "dados de contagem" .
fonte
A distribuição "padrão", a escolha mais usada e descrita, da distribuição de dados de contagem é a distribuição de Poisson . Na maioria das vezes, é ilustrado usando o exemplo de seu primeiro uso prático:
A distribuição de Poisson é parametrizada pela taxa por intervalo de tempo fixo ( também é a média e a variância). Em caso de regressão, podemos usar a distribuição de Poisson no modelo linear generalizado com a função de link log-linearλλ λ
isso é chamado de regressão de Poisson , pois podemos assumir que é uma taxa de distribuição de Poisson. Observe, no entanto, que, para a regressão log-linear, você não precisa fazer essa suposição e simplesmente usar o GLM com o link de log com dados não contados. Ao interpretar os parâmetros, é necessário lembrar que, devido ao uso da transformação de log, as alterações na variável independente resultam em alterações multiplicativas nas contagens previstas.λ
O problema com o uso da distribuição de Poisson para os dados da vida real é que ele assume que a média é igual à variação. A violação dessa suposição é chamada de superdispersão . Nesses casos, você sempre pode usar o modelo quase-Poisson , modelo log-linear não-Poisson (para contagens grandes, Poisson pode ser aproximado por distribuição normal), regressão binomial negativa (intimamente relacionada a Poisson; veja Berk e MacDonald, 2008) ou outros modelos, conforme descrito por Stephan Kolassa .
Para uma introdução amigável à regressão de Poisson, você também pode conferir artigos de Lavery (2010) ou Coxe, West e Aiken (2009).
Lavery, R. (2010). Um guia animado: uma introdução à regressão de Poisson. Papel NESUG, sa04.
Coxe, S., West, SG, & Aiken, LS (2009). A análise dos dados de contagem: uma introdução suave à regressão de Poisson e suas alternativas. Jornal de avaliação da personalidade, 91 (2), 121-136.
Berk, R. e MacDonald, JM (2008). Sobredispersão e regressão de Poisson. Journal of Quantitative Criminology, 24 (3), 269-284.
fonte
Poisson ou binômio negativo são dois modelos amplamente utilizados para dados de contagem. Eu optaria pelo binômio negativo, pois ele tem melhores suposições de variação.
fonte