Os dados:
Para os fins desta pergunta / comunicação, podemos assumir que os dados se parecem com rnbinom(1000,size=0.1,prob=0.01)
R, o que gera uma amostra aleatória de 1.000 observações a partir de uma distribuição binomial negativa (com size=0.1
e probabilidade de sucesso prob=0.01
). Essa é a parametrização em que a variável aleatória representa o número de falhas antes do size
número de sucessos. A cauda é longa e 1.000 observações não são muitos dados.
O problema: recebi alguns dados (número inteiro em {1,2, ....}) [veja acima] (1.500 pontos de dados) e pedi para encontrar a distribuição "melhor ajuste" e estimativas de quaisquer parâmetros. Não sei mais nada sobre os dados. Estou ciente de que esta não é uma amostra muito grande para dados com cauda longa. Mais dados é uma possibilidade.
O que fiz: considerei usar um teste de razão de verossimilhança ajustando duas distribuições diferentes aos dados, mas acho que isso não se aplica (por exemplo, não consigo determinar valores p críticos críticos), a menos que as duas distribuições sejam aninhadas ...
Eu então considerei usar um teste de Kolmogorov-Smirnov (ajustado para dados discretos), mas, de qualquer maneira, em R, ele reclamou que não podia calcular um valor-p para "dados com vínculos".
Qual é a melhor maneira de testar / determinar o ajuste de diferentes distribuições nesse contexto? Aqui estão algumas outras coisas que eu considerei:
- Peça (muito) mais dados. Mas isso vai ajudar? Serei capaz de usar resultados assintóticos, por exemplo?
- Considere algum esquema de bootstrap / re-sampling / monte-carlo? Em caso afirmativo, existe uma referência padrão que eu possa / deva ler para aprender como fazer isso corretamente? obrigado
fonte