Eu tenho a população de amostra de um máximo de amplitude registrada de um determinado sinal. A população é de cerca de 15 milhões de amostras. Eu produzi um histograma da população, mas não consigo adivinhar a distribuição com esse histograma.
EDIT1: Arquivo com valores de amostra brutos está aqui: dados brutos
Alguém pode ajudar a estimar a distribuição com o seguinte histograma:
distributions
histogram
mbaitoff
fonte
fonte
Respostas:
Use fitdistrplus:
Aqui está o link CRAN para fitdistrplus.
Aqui está o antigo link da vinheta para fitdistrplus.
Se o link da vinheta não funcionar, pesquise "Uso da biblioteca fitdistrplus para especificar uma distribuição a partir dos dados".
A vinheta explica bem como usar o pacote. Você pode ver como várias distribuições se encaixam em um curto período de tempo. Também produz um diagrama de Cullen / Frey.
fonte
plotdist
comamnd? Como posso obter o diagrama de Cullen / Frey?descdist()
. Atualizei o post acima para incluir algum código e um link para a vinheta antiga. Não foi possível obter o link da vinheta acima para funcionar. Portanto, pesquise no Google o seguinte: "Uso da biblioteca fitdistrplus para especificar uma distribuição a partir de dados". É um arquivo .pdf.f1g <- fitdist(x1, "gamma")
adapta uma distribuição gama aos dados originaisx1
e os armazenaf1g
. O gráfico superior esquerdoplot(f1g)
mostra um histograma para os dados originaisx1
como barras e o gráfico de densidade gama ajustadof1g
como linha contínua. O gráfico de densidade (linha contínua) é desenhado sobre o histograma como uma indicação de quão bem o "ajuste" representa os dados.Muito provavelmente você poderá rejeitar qualquer distribuição específica de um formulário simples e fechado.
Mesmo esse pequeno inchaço à esquerda do gráfico provavelmente será suficiente para nos fazer dizer 'claramente não tal e tal'.
Por outro lado, provavelmente é muito bem aproximado por várias distribuições comuns; candidatos óbvios são coisas como lognormal e gama, mas existem muitos outros. Se você observar o log da variável x, provavelmente poderá decidir se o lognormal está correto à vista (depois de registrar os logs, o histograma deve parecer simétrico).
Se o registro estiver inclinado à esquerda, considere se Gamma está correto, se estiver correto, considere se Gamma inverso ou Gaussiano inverso (ainda mais inclinado) está correto. Mas esse exercício é mais para encontrar uma distribuição que seja próxima o suficiente para se viver; nenhuma dessas sugestões realmente possui todos os recursos que parecem estar presentes lá.
Se você tem alguma teoria para apoiar uma escolha, descarte toda essa discussão e use-a.
fonte
Não sei por que você deseja classificar uma amostra para uma distribuição específica com um tamanho de amostra tão grande; parcimônia, comparando-a com outra amostra, procurando interpretação física dos parâmetros?
A maioria dos pacotes estatísticos (R, SAS, Minitab) permite plotar dados em um gráfico que gera uma linha reta se os dados vierem de uma distribuição específica. Vi gráficos que produzem uma linha reta se os dados forem normais (log normal após uma transformação de log), Weibull e qui-quadrado chegam ao meu imediatamente. Essa técnica permitirá que você veja discrepâncias e dê a possibilidade de atribuir razões pelas quais os pontos de dados são discrepantes. Em R, o gráfico de probabilidade normal é chamado qqnorm.
fonte