Eu tenho um conjunto de dados que contém o número de ações executadas por indivíduos ao longo de sete dias. A ação específica não deve ser relevante para esta pergunta. Aqui estão algumas estatísticas descritivas para o conjunto de dados:
Aqui está um histograma dos dados:
A julgar pela fonte dos dados, imaginei que caberia em uma distribuição de Poisson. No entanto, a variação mean média e o histograma são fortemente ponderados para a esquerda. Além disso, executei o goodfit
teste em R e obtive:
> gf <- goodfit(actions,type="poisson", method = "MinChisq") <br>
> summary(gf) <br>
Goodness-of-fit test for poisson distribution <br>
X^2 df P(> X^2) <br>
Pearson 2.937599e+248 771 0
O método de máxima verossimilhança também produziu p-value = 0. Supondo que a hipótese nula seja: os dados correspondem a uma distribuição Poisson (a documentação não especifica isso), o goodfit
teste diz que devemos rejeitar a hipótese nula, portanto, os dados não coincidir com uma distribuição de Poisson.
Essa análise está correta? Em caso afirmativo, que distribuição você acha que caberá nesses dados?
Meu objetivo final é comparar o número médio de ações entre duas amostras para ver se as médias são diferentes; a verificação da distribuição é necessária? Meu entendimento é que os testes típicos (testes z-, t-, ) não funcionam para distribuições de Poisson. Que teste devo usar se os dados forem realmente distribuídos por Poisson?
Respostas:
Se a variação for maior que a média, isso será chamado de super dispersão. Um modelo natural para isso é a distribuição binomial negativa. Isso também pode ser visto como uma distribuição de Poisson, na qual o parâmetro Lambda segue uma distribuição gama. Um primeiro e fácil passo seria ajustar uma distribuição binomial negativa.
fonte
Se seus dados brutos de contagem não se parecerem com uma distribuição Poisson, você estará perdendo alguma coisa. Talvez o número de ações dependa da temperatura; portanto, em dias quentes, as pessoas fazem menos coisas. Então a variação de temperatura durante o período do estudo afetaria a distribuição e a tornaria não-Poisson.
No entanto, o número de ações a cada dia ainda pode ser Poisson, com uma média dependente da temperatura. Se você tiver a temperatura todos os dias, poderá executar um GLM, regredindo o número de ações como uma variável de Poisson, dependente da temperatura. Se isso se encaixa bem, trabalho feito.
Se você não possui possíveis variáveis explicativas, tudo o que você pode dizer é "algo mais está acontecendo - o número de ações não provém de amostras independentes de Poisson" - ou seja, rejeita sua hipótese nula.
Existem testes sem distribuição que podem comparar observações emparelhadas usando classificações e assim por diante. Normalmente eles fazem um grande número de permutações e calculam uma estatística de teste ...
fonte
Mais uma coisa: você também deve investigar discrepâncias nos dados da contagem. Você tem uma contagem em 400-ish e depois nada até 800-ish. É improvável que isso seja adequado a qualquer um dos modelos comuns.
fonte
Parece que você está contando o número de zero eventos - se sim, então pode considerar um modelo ZIP (ou barreira) - consulte Modelos de regressão para dados de contagem em R de Zeileis et al para obter uma visão geral.
Para resumir, esses métodos modelam as contagens zero separadamente das demais contagens, o que pode ser útil no seu caso.
Consulte o
pscl
pacote e as funçõeszeroinfl()
ehurdle()
.fonte
Suspeito que o seu histograma esteja enganosamente enganado. Se você tiver um pouco mais de 300 observações distribuídas uniformemente no intervalo de 0 a 50, cerca de 320 distribuídas uniformemente no intervalo de 50 a 100 e 50 ou mais acima de 100, sua média deve ser substancialmente maior que 18,2.
Se os dados no intervalo de 0 a 50 não forem distribuídos uniformemente, mas concentrados perto de zero, é surpreendente ver mais no intervalo de 50 a 100 do que no intervalo de 0 a 50.
Talvez você tenha uma mistura de distribuições. Duvido que alguém possa fazer muito com isso sem as 696 observações reais e, especialmente, sem saber mais sobre o contexto. Cada uma das 696 observações é um indivíduo e a resposta é o número de ações que cada indivíduo tomou? Em caso afirmativo, existem diferentes tipos de indivíduos nos dados?
fonte