Eu estava tentando ajustar meus dados em vários modelos e descobri que a fitdistr
função da biblioteca MASS
de R
me dá Negative Binomial
o melhor ajuste. Agora, na página da wiki , a definição é dada como:
A distribuição NegBin (r, p) descreve a probabilidade de k falhas er sucessos em ensaios k + r Bernoulli (p) com êxito no último ensaio.
Usar R
para realizar o ajuste do modelo me dá dois parâmetros mean
e dispersion parameter
. Não estou entendendo como interpretá-los porque não consigo ver esses parâmetros na página da wiki. Tudo o que posso ver é a seguinte fórmula:
Onde k
é o número de observações e r=0...n
. Agora, como eu os relaciono com os parâmetros dados por R
? O arquivo de ajuda também não fornece muitas informações.
Além disso, apenas para dizer algumas palavras sobre o meu experimento: em um experimento social que eu estava realizando, eu estava tentando contar o número de pessoas que cada usuário contatou em um período de 10 dias. O tamanho da população foi de 100 para o experimento.
Agora, se o modelo se encaixa no Binomial Negativo, posso dizer cegamente que segue essa distribuição, mas realmente quero entender o significado intuitivo por trás disso. O que significa dizer que o número de pessoas contatadas pelos meus sujeitos de teste segue uma distribuição binomial negativa? Alguém pode ajudar a esclarecer isso?
Como mencionei no meu post anterior, estou trabalhando para ajustar minha distribuição para contar dados também. Aqui está o que eu aprendi:
Quando a variância é maior que a média, a sobredispersão é evidente e, portanto, a distribuição binomial negativa é provavelmente apropriada. Se a variação e a média forem iguais, a distribuição de Poisson é sugerida e, quando a variação for menor que a média, é recomendada a distribuição binomial.
Com os dados de contagem nos quais você está trabalhando, você está usando a parametrização "ecológica" da função Binomial Negativa na R. A Seção 4.5.1.3 (Página 165) do livro a seguir disponível gratuitamente fala sobre isso especificamente (no contexto de R, não menos!) e, espero, possa abordar algumas de suas perguntas:
http://www.math.mcmaster.ca/~bolker/emdbook/book.pdf
Se você concluir que seus dados são truncados zero (ou seja, a probabilidade de 0 observações é 0), convém verificar o sabor truncado zero do NBD que está no pacote R VGAM .
Aqui está um exemplo de sua aplicação:
Espero que isto seja útil.
fonte