Eu sou um estudante de estatística de doutorado. Estou trabalhando com um conjunto de dados de contagem. É a contagem de usuários envolvidos em uma conversa de bate-papo em tempo real. O número de usuários varia de 1 a 6 e existem aproximadamente 300 dados no conjunto.
Minha motivação inicial era entender se os dados se encaixariam em uma distribuição de Poisson, pensando que, se um bom ajuste fosse encontrado, eu poderia usar esse resultado para obter mais inferência.
Para resumir uma longa história, tentei ajustar os dados e o ajuste falha em um nível de significância de 0,05. Assim, posso rejeitar minha hipótese (que uma distribuição de Poisson pode ser usada para aproximar o conjunto de dados).
Quando olho para um gráfico de densidade, acredito que a razão pela qual existe um ajuste tão ruim é que existem "valores registrados demais para 2 usuários. Uma distribuição Poisson se ajustaria melhor com menos valores nesse escaninho. No entanto, como compilei o eu mesmo não tenho motivos para acreditar que existem discrepâncias (ou seja, conversas com 2 usuários que seriam atribuídas a uma posição superior ou inferior)
users <- c(1, 2, 2, 1, 1, 1, 1, 2, 2, 3, 2, 2, 2, 1, 1, 1, 2, 2, 1, 1, 4, 3, 3, 3, 1,
2, 1, 1, 2, 4, 3, 2, 2, 1, 2, 3, 2, 2, 1, 1, 1, 2, 2, 1, 1, 1, 2, 2, 1, 3,
2, 1, 2, 3, 2, 1, 2, 1, 2, 1, 1, 3, 1, 1, 1, 2, 2, 2, 3, 1, 2, 1, 2, 4, 4,
3, 2, 2, 3, 4, 3, 3, 3, 1, 2, 4, 2, 3, 3, 2, 4, 3, 1, 2, 4, 1, 2, 2, 2, 1,
1, 1, 2, 3, 2, 4, 5, 2, 2, 4, 2, 2, 3, 3, 3, 2, 2, 3, 1, 3, 1, 1, 1, 2, 3,
6, 3, 3, 4, 2, 2, 2, 3, 1, 1, 1, 2, 2, 3, 2, 2, 2, 1, 1, 1, 1, 2, 2, 2, 2,
3, 3, 3, 1, 1, 2, 1, 2, 2, 2, 2, 2, 2, 4, 3, 3, 2, 1, 2, 4, 1, 2, 1, 2, 2,
2, 3, 2, 2, 2, 2, 2, 3, 2, 2, 1, 1, 3, 1, 2, 1, 2, 3, 4, 2, 4, 3, 2, 2, 1,
4, 2, 2, 1, 1, 2, 2, 2, 1, 1, 1, 2, 2, 3, 3, 1, 1, 2, 1, 2, 1, 3, 3, 3, 3,
4, 6, 6, 5, 5, 2, 2, 3, 3, 3, 2, 3, 3, 4, 2, 3, 1, 3, 3, 1, 3, 2, 1, 3, 3,
2, 1, 3, 1, 3, 2, 1, 1, 1, 1, 3, 1, 3, 4, 1, 4, 1, 3, 2, 3, 6, 2, 2, 3, 2,
1, 2, 2, 2, 2, 2, 1, 2, 3, 2, 2, 4, 2, 2, 2, 3, 2, 2, 5, 3, 2, 2, 3, 2, 2,
2, 5, 2, 1, 4, 1, 2, 2, 6, 1, 3, 2)
tu.fit <- goodfit(users,type="poisson", method = "MinChisq")
summary(tu.fit)
Goodness-of-fit test for poisson distribution
X^2 df P(> X^2)
Pearson 69.37891 5 1.379945e-13
Nas estatísticas do nível de graduação, aprendi que os dados de contagem podem ser modelados por uma distribuição de Poisson, mas eles nunca ensinaram o que fazer quando os dados de contagem não se encaixam.
Não estou vinculado à premissa de que meus dados de contagem devem caber em Poisson (ou em qualquer outra distribuição). No entanto, eu queria explorar a eficácia de transformar meu conjunto de dados e ajustá-lo a outra distribuição discreta ou tentar outra abordagem (KDE). Ou devo simplesmente concluir que meus dados não são adequados para Poisson (ou qualquer outra distribuição) e deixá-los assim?
fonte
users-1
users-1
quando instalado, é um bom ajuste para uma distribuição de Poisson (que é uma forma de barreira). Suspeito que uma abordagem de bom senso precise ser aplicada ao lidar com dados sub-dispersos.Respostas:
Vamos considerar, de maneira um tanto simplista, a história natural de uma conversa:
Uma pessoa inicia uma conversa enviando uma mensagem para o éter.
As pessoas respondem. Cada novo (exclusivo) respondente adiciona um à contagem.
As respostas a qualquer mensagem são aleatórias: se um indivíduo responde depende se
Comparado ao número de pessoas que poderiam receber mensagens, o número de mensagens iniciadas é relativamente baixo. portanto
As características (3) e (4) sugerem que uma distribuição de Poisson pode ser um bom modelo para o número de pessoas que respondem a qualquer mensagem a qualquer momento: ou seja, a contagem menos uma. O que não sabemos e podemos não estar seguros assumindo é se todas as mensagens têm aproximadamente o mesmo parâmetro de Poisson ou se esses parâmetros variam consideravelmente.
Um bom ponto de partida, então, seria testar se as contagens menos uma se encaixam em uma distribuição de Poisson. Como alternativa, eles podem se encaixar em uma distribuição super dispersa, composta por uma mistura de Poissons.
A estimativa de máxima verossimilhança do parâmetro Poisson é a média das contagens (menos uma), igual a . (É importante usar a estimativa ML para esse cálculo, em vez da estimativa "MinChisq" calculada por : consulte https://stats.stackexchange.com/a/17148/919 .) Multiplicando as probabilidades de Poisson pelo número total de usuários fornece os números esperados de contagens de usuários. Aqui eles são comparados com as contagens reais:λ 1,20
vcd::goodfit
O ajuste parece próximo. Pode ser medido com a estatística qui-quadrado,
Os seis termos nesta soma medem as discrepâncias de contagem individuais. Eles são
Valores próximos a significam boa concordância. Somente o último valor, , é grande. Isso se deve ao pequeno valor esperado de para uma contagem de . Normalmente, acredita-se que valores esperados menores que levam a alguma confiabilidade no tradicional : aqui, devemos considerar que a estatística talvez esteja um pouco inflada devido ao pequeno número esperado de conversas.1 1 4,82 2 5 5 χ2 χ2
No entanto, essa estatística não é terrivelmente alta: sob a hipótese da distribuição de Poisson invariável, essa estatística seguiria aproximadamente uma . Essa distribuição nos diz que um valor tão alto ocorre quase nove por cento das vezes. Concluímos que há pouca evidência de afastamento de uma distribuição constante de Poisson.χ2 χ2(5)
Aliás, um gráfico dos dados - na sequência dada - sugere uma variação nas contagens. Em média, eles aumentam um pouco do começo ao fim, como sugere o Lowess nesta trama:
Assim, o teste do qui-quadrado da distribuição de Poisson não deve ser a última palavra: deve ser considerado apenas o início de uma análise mais detalhada.
Aqui está o
R
código usado para executar os cálculos e criar a figura.fonte
user-1
"truque"?