Eu tenho o seguinte histograma de dados de contagem. E eu gostaria de ajustar uma distribuição discreta a ela. Não tenho certeza de como devo fazer isso.
Devo primeiro sobrepor uma distribuição discreta, digamos, Distribuição binomial negativa, no histograma para obter os parâmetros da distribuição discreta e, em seguida, executar um teste de Kolmogorov – Smirnov para verificar os valores de p?
Não tenho certeza se este método está correto ou não.
Existe um método geral para resolver um problema como este?
Esta é uma tabela de frequência dos dados da contagem. No meu problema, estou focando apenas contagens diferentes de zero.
Counts: 1 2 3 4 5 6 7 9 10
Frequency: 3875 2454 921 192 37 11 1 1 2
UPDATE: Gostaria de perguntar: usei a função fitdistr em R para obter os parâmetros para ajustar os dados.
fitdistr(abc[abc != 0], "Poisson")
lambda
1.68147852
(0.01497921)
Em seguida, traço a função de massa de probabilidade da distribuição de Poisson no topo do histograma.
No entanto, parece que a distribuição de Poisson falha ao modelar os dados da contagem. Há algo que eu possa fazer?
?MASS::fitdistr
, uma vez que já está na sua distribuição R (veja o exemplo final na parte inferior; consulte rnegbin para obter mais informações sobre essa parametrização do binômio negativo). .... " E depois de encontrar o ML, o que devo fazer a seguir? " - nesse ponto, você tem estimativas de parâmetros e erros padrão. Além disso, o que você deseja alcançar? - Eu não posso adivinhar.Respostas:
Métodos de ajuste de distribuições discretas
Existem três métodos principais * usados para ajustar (estimar os parâmetros de) distribuições discretas.
1) Máxima Verossimilhança
Ele encontra os valores dos parâmetros que oferecem a melhor chance de fornecer sua amostra (dadas as outras suposições, como independência, parâmetros constantes, etc.)
2) Método dos momentos
Ele encontra os valores dos parâmetros que fazem com que os primeiros momentos da população correspondam aos seus momentos de amostra. Geralmente, é bastante fácil de fazer e, em muitos casos, gera estimadores razoáveis. Às vezes, também é usado para fornecer valores iniciais às rotinas de ML.
3) Qui-quadrado mínimo
Isso minimiza a estatística do ajuste qui-quadrado da distribuição discreta, embora, às vezes, com conjuntos de dados maiores, as categorias finais possam ser combinadas por conveniência. Muitas vezes, funciona razoavelmente bem, e ainda tem algumas vantagens sobre o ML em situações específicas, mas geralmente deve ser iterado para convergência; nesse caso, a maioria das pessoas costuma preferir o ML.
Os dois primeiros métodos também são usados para distribuições contínuas; o terceiro geralmente não é usado nesse caso.
Isso de forma alguma compreende uma lista exaustiva, e seria bem possível estimar parâmetros minimizando a estatística KS, por exemplo - e mesmo (se você ajustar a discrição), obter uma região de consonância conjunta a partir dela, se você estivesse tão inclinado. Como você está trabalhando em R, é muito fácil obter a estimativa de ML para o binômio negativo. Se sua amostra estava
x
, é tão simples quantolibrary(MASS);fitdistr (x,"negative binomial")
:Essas são as estimativas de parâmetros e seus erros padrão (assintóticos).
No caso da distribuição de Poisson, o MLE e o MoM estimam o parâmetro Poisson na média da amostra.
Se você quiser ver exemplos, publique algumas contagens reais. Observe que seu histograma foi feito com caixas escolhidas para que as categorias 0 e 1 sejam combinadas e não tenhamos as contagens brutas.
O mais próximo que posso imaginar, seus dados são aproximadamente os seguintes:
Mas os grandes números serão incertos (depende muito da precisão com que as contagens baixas são representadas pelas contagens de pixels de suas alturas de barras) e pode haver vários desses números, como duas vezes esses números (as contagens brutas afetam os erros padrão, por isso importa se eles são sobre esses valores ou duas vezes maiores)
A combinação dos dois primeiros grupos torna um pouco estranho (é possível, mas menos direto se você combinar algumas categorias. Muitas informações estão nesses dois primeiros grupos, portanto, é melhor não deixar o histograma padrão agrupá-los )
* Outros métodos de ajuste de distribuições discretas são possíveis, é claro (é possível combinar quantis ou minimizar outras estatísticas de ajuste de qualidade, por exemplo). Os que menciono parecem ser os mais comuns.
fonte
1)
, em vez da numeração de marcação que o CV suporta (ou seja, - o1.
que leva ao recuo)?Em uma edição, você forneceu alguns dados e adicionou uma nova pergunta:
"Esta é uma tabela de frequência dos dados de contagem. No meu problema, estou focando apenas em contagens diferentes de zero.
Alguém pode me dar um exemplo de como você realizaria o teste de adequação do qui-quadrado aqui? "
Isso leva a outros comentários:
Ter zeros, mas querer ignorá-los, pode fazer sentido, mas geralmente as pessoas estatísticas e de assunto gostariam de ver uma boa razão para isso.
Se você optar por ignorar os zeros, estará se colocando em um território difícil, pois não poderá simplesmente iniciar rotinas para, por exemplo, Poisson ou binômio negativo se você deixar de fora os zeros. Bem, você pode, mas as respostas estariam erradas. Você precisa de funções ou comandos de finalidade especial para distribuições como o Poisson truncado com zero ou o binômio negativo com truncamento zero. Isso é algo desafiador e precisa de uma leitura dedicada para esclarecer o que você está fazendo.
Perguntar como fazer um teste do qui-quadrado sugere para mim que você realmente não entendeu o que eu disse muito brevemente e o @Glen_b disse com muito mais detalhes (e, na minha opinião, com muita clareza). Dividindo isso em dois:
Não pode haver teste do qui-quadrado sem frequências esperadas e não pode haver frequências esperadas sem estimativas de parâmetros. Pode ser que você esteja familiarizado com as rotinas de teste qui-quadrado nas quais a independência de linhas e colunas em uma tabela bidirecional é testada. Embora esse seja o teste do qui-quadrado mais encontrado nos cursos introdutórios, na verdade é muito incomum entre os testes do qui-quadrado em geral, pois o software usual em vigor faz a estimativa de parâmetros para você e, assim, obtém as frequências esperadas. Além disso, nos problemas mais complicados, como o seu, você precisa obter as estimativas de parâmetro primeiro.
Um teste do qui-quadrado não está errado, mas se você estimar parâmetros com a máxima probabilidade, é irrelevante, pois a rotina de ajuste fornece estimativas e erros padrão e permite que os testes sejam seguidos. @Glen_b já deu um exemplo em sua resposta.
Uma questão secundária é que seria mais claro ajustar seus histogramas para respeitar a discrição da variável e mostrar probabilidades, não densidades. As lacunas aparentes são apenas artefatos da opção de compartimento padrão, não respeitando a discrição da variável.
ATUALIZAÇÃO: A pergunta complementar sobre um teste do qui-quadrado foi excluída. No momento, estou deixando o número 3 acima de pé, caso outra pessoa siga o mesmo caminho de querer um teste do qui-quadrado.
fonte