Se não é um Poisson, então que distribuição é essa?

11

Eu tenho um conjunto de dados que contém o número de ações executadas por indivíduos ao longo de sete dias. A ação específica não deve ser relevante para esta pergunta. Aqui estão algumas estatísticas descritivas para o conjunto de dados:

Range0772Mean18.2Variance2791Number of observations696

Aqui está um histograma dos dados: histograma de ação

A julgar pela fonte dos dados, imaginei que caberia em uma distribuição de Poisson. No entanto, a variação mean média e o histograma são fortemente ponderados para a esquerda. Além disso, executei o goodfitteste em R e obtive:

> gf <- goodfit(actions,type="poisson", method = "MinChisq") <br>
> summary(gf) <br>
Goodness-of-fit test for poisson distribution <br>
X^2                   df         P(> X^2) <br>
Pearson 2.937599e+248 771        0  

O método de máxima verossimilhança também produziu p-value = 0. Supondo que a hipótese nula seja: os dados correspondem a uma distribuição Poisson (a documentação não especifica isso), o goodfitteste diz que devemos rejeitar a hipótese nula, portanto, os dados não coincidir com uma distribuição de Poisson.

Essa análise está correta? Em caso afirmativo, que distribuição você acha que caberá nesses dados?

Meu objetivo final é comparar o número médio de ações entre duas amostras para ver se as médias são diferentes; a verificação da distribuição é necessária? Meu entendimento é que os testes típicos (testes z-, t-, ) não funcionam para distribuições de Poisson. Que teste devo usar se os dados forem realmente distribuídos por Poisson?χ2

Dcook
fonte
você já tentou o binômio negativo? Isso ajudou?
Ric
@ Richard, eu tentei binômio negativo, e que não se encaixava. Obrigado pelas sugestões embora. Como não conseguia descobrir que tipo de distribuição era essa, decidi ignorar a distribuição e fazer um teste não paramétrico, o teste U de Mann-Whitney.
Dcook
Apenas mais uma observação para neg bin. Em en.wikipedia.org/wiki/Negative_binomial_distribution, você vê a fórmula para média e variância e essa . Tal faria algum sentido? Caso contrário, há ainda mais evidências de que o neg bin não é um bom modelo aqui (se acreditarmos nos estimadores de momento). pmean/variance=1pp
Ric
Não acho que o conceito de julgamento de Bernoulli se aplique no meu caso. Não há conceito de sucesso ou fracasso; os sujeitos executam a ação de interesse ou não. Eles não tentam e falham. Portanto, a ideia de uma probabilidade de sucesso não faz sentido. A menos que o julgamento seja uma unidade de tempo. Mas não há nada para impedir que o sujeito execute várias ações nesse período.
Dcook
você sabe como interpretar seus dados. Eu só queria te lembrar que neg.bin. surge como uma mistura de Poisson (se segue uma distribuição gama. Assim, podemos interpretar de maneira semelhante à do caso Poisson. Mas não quero forçar você :). Mais um comentário: se o sujeito pode executar várias ações em um ponto no tempo: não pode ser Compound Poisson / NegBin? Por favor, diga-me se você quiser mais comentários sobre isso. lmabda
Ric

Respostas:

8

Se a variação for maior que a média, isso será chamado de super dispersão. Um modelo natural para isso é a distribuição binomial negativa. Isso também pode ser visto como uma distribuição de Poisson, na qual o parâmetro Lambda segue uma distribuição gama. Um primeiro e fácil passo seria ajustar uma distribuição binomial negativa.

Ric
fonte
5

Se seus dados brutos de contagem não se parecerem com uma distribuição Poisson, você estará perdendo alguma coisa. Talvez o número de ações dependa da temperatura; portanto, em dias quentes, as pessoas fazem menos coisas. Então a variação de temperatura durante o período do estudo afetaria a distribuição e a tornaria não-Poisson.

No entanto, o número de ações a cada dia ainda pode ser Poisson, com uma média dependente da temperatura. Se você tiver a temperatura todos os dias, poderá executar um GLM, regredindo o número de ações como uma variável de Poisson, dependente da temperatura. Se isso se encaixa bem, trabalho feito.

Se você não possui possíveis variáveis ​​explicativas, tudo o que você pode dizer é "algo mais está acontecendo - o número de ações não provém de amostras independentes de Poisson" - ou seja, rejeita sua hipótese nula.

Existem testes sem distribuição que podem comparar observações emparelhadas usando classificações e assim por diante. Normalmente eles fazem um grande número de permutações e calculam uma estatística de teste ...

Spacedman
fonte
4

Mais uma coisa: você também deve investigar discrepâncias nos dados da contagem. Você tem uma contagem em 400-ish e depois nada até 800-ish. É improvável que isso seja adequado a qualquer um dos modelos comuns.

Scortchi - Restabelecer Monica
fonte
1

Parece que você está contando o número de zero eventos - se sim, então pode considerar um modelo ZIP (ou barreira) - consulte Modelos de regressão para dados de contagem em R de Zeileis et al para obter uma visão geral.

Para resumir, esses métodos modelam as contagens zero separadamente das demais contagens, o que pode ser útil no seu caso.

Consulte o psclpacote e as funções zeroinfl()e hurdle().

Sean
fonte
1

Suspeito que o seu histograma esteja enganosamente enganado. Se você tiver um pouco mais de 300 observações distribuídas uniformemente no intervalo de 0 a 50, cerca de 320 distribuídas uniformemente no intervalo de 50 a 100 e 50 ou mais acima de 100, sua média deve ser substancialmente maior que 18,2.

Se os dados no intervalo de 0 a 50 não forem distribuídos uniformemente, mas concentrados perto de zero, é surpreendente ver mais no intervalo de 50 a 100 do que no intervalo de 0 a 50.

Talvez você tenha uma mistura de distribuições. Duvido que alguém possa fazer muito com isso sem as 696 observações reais e, especialmente, sem saber mais sobre o contexto. Cada uma das 696 observações é um indivíduo e a resposta é o número de ações que cada indivíduo tomou? Em caso afirmativo, existem diferentes tipos de indivíduos nos dados?

Emil Friedman
fonte