Estou trabalhando em uma tarefa de Planejamento de capacidade e li alguns livros. Isto é especificamente sobre distribuições. Eu uso R.
- Qual é a abordagem recomendada para identificar qual é a minha distribuição de dados? Existem métodos estatísticos para identificá-lo?
Eu tenho esse diagrama.
Quais são as abordagens de simulação disponíveis usando R? Aqui eu quero gerar dados para uma certa distribuição como exponencial. O r-java é a abordagem correta se eu quiser integrá-lo ao Java?
Existe uma maneira de prever qual distribuição o efeito (uso da CPU, etc.) terá quando canalizar dados para uma distribuição específica? Quais são os diferentes efeitos do envio de determinadas distribuições de dados?
Por favor, considere estas como perguntas para iniciantes. Existem livros ou material que lidam com esses tipos de simulações?
Notas
O diagrama é do final do artigo http://people.stern.nyu.edu/adamodar/pdfiles/papers/probabilistic.pdf .
Bondade de técnicas de ajuste que me deparei
Avaliação da qualidade do ajuste
- Qui-quadrado
- Kolmogorov-Smirnov,
- Gráfico de densidade de Anderson-Darling, cdf, PP e QQ
Não sei ao certo qual deve ser a interpretação ou as próximas etapas se achar que minha distribuição é normal ou exponencial etc. O que isso me permite fazer? Predição? Espero que esta pergunta seja clara.
Atrasos exponenciais induzirão flutuações na fila, conforme meu livro de Planejamento de capacidade de Neil Gunther. Então, eu sei esse ponto.
fonte
Respostas:
Responderei seu ponto de vista sobre simulações com R, porque este é o único com o qual estou familiarizado. R possui muitas distribuições internas que você pode simular. A lógica da nomeação é que simulará uma distribuição chamada
dis
nomerdis
.Abaixo estão os que eu uso com mais frequência
Você pode encontrar alguns complementos em Montagem distribuições R .
Adição: obrigado a @jthetzel por fornecer um link com uma lista abrangente de distribuições e os pacotes aos quais eles pertencem.
Mas espere, tem mais: OK, seguindo o comentário do @ whuber, tentarei abordar os outros pontos. Em relação ao ponto 1, nunca adotei uma abordagem adequada. Em vez disso, sempre penso na origem do sinal, como o que causa o fenômeno, existem simetrias naturais no que o produz etc. Você precisa de vários capítulos de livros para cobri-lo, então, apenas darei dois exemplos.
Se os dados são contados e não há limite superior, tento um Poisson. Variáveis de Poisson podem ser interpretadas como as contagens de sucessivos independentes durante uma janela de tempo, que é uma estrutura muito geral. Eu me encaixo na distribuição e vejo (geralmente visualmente) se a variação está bem descrita. Muitas vezes, a variação da amostra é muito maior, caso em que eu uso um binômio negativo. O binômio negativo pode ser interpretado como uma mistura de Poisson com diferentes variáveis, o que é ainda mais geral, portanto, isso geralmente se ajusta muito bem à amostra.
Se penso que os dados são simétricos em torno da média, ou seja , que os desvios têm a mesma probabilidade de serem positivos ou negativos, tento ajustar um gaussiano. Em seguida, verifico (novamente visualmente) se existem muitos valores discrepantes, ou seja , pontos de dados muito distantes da média. Se houver, eu uso o t de um aluno. A distribuição t de Student pode ser interpretada como uma mistura de gaussiana com diferentes variações, o que é novamente muito geral.
Nesses exemplos, quando digo visualmente, quero dizer que uso um gráfico de QQ
O ponto 3 também merece vários capítulos de livros. Os efeitos do uso de uma distribuição em vez de outra são ilimitados. Então, em vez de passar por tudo, continuarei os dois exemplos acima.
Nos meus primeiros dias, eu não sabia que o Binomial Negativo pode ter uma interpretação significativa, por isso usei Poisson o tempo todo (porque gosto de poder interpretar os parâmetros em termos humanos). Muitas vezes, quando você usa um Poisson, adapta-se bem à média, mas subestima a variação. Isso significa que você não consegue reproduzir valores extremos da sua amostra e considerará esses valores como outliers (pontos de dados que não têm a mesma distribuição que os outros pontos) enquanto eles não o são.
Novamente nos meus primeiros dias, eu não sabia que o t de Student também tinha uma interpretação significativa e que eu usava o gaussiano o tempo todo. Aconteceu uma coisa semelhante. Eu ajustaria bem a média e a variância, mas ainda assim não capturaria os valores discrepantes, porque quase todos os pontos de dados devem estar dentro de três desvios padrão da média. O mesmo aconteceu, concluí que alguns pontos eram "extraordinários", enquanto na verdade não eram.
fonte
dnorm
,pnorm
,qnorm
, ernorm
são a densidade, a função de distribuição cumulativa (CDF), inversa CDF, e funções aleatórias de gerador de variáveis para a distribuição Normal, respectivamente. Consulte a exibição da tarefa de distribuição de probabilidade para obter uma lista abrangente de distribuições disponíveis.