Eu tenho um aplicativo baseado em servlet em que medo o tempo necessário para concluir cada solicitação desse servlet. Eu já calculo estatísticas simples como média e máximo; No entanto, gostaria de produzir uma análise mais sofisticada e, para isso, acredito que preciso modelar adequadamente esses tempos de resposta.
Certamente, digo, os tempos de resposta seguem uma distribuição bem conhecida, e há boas razões para acreditar que a distribuição é o modelo certo. No entanto, não sei o que essa distribuição deveria ser.
Lembre-se de Log-normal e Gamma, e você pode ajustar um dos tipos de dados de tempo de resposta real. Alguém tem uma visão sobre qual distribuição os tempos de resposta devem seguir?
fonte
Minha pesquisa mostra que o melhor modelo é determinado por algumas coisas: 1) Você está preocupado com o corpo, a cauda ou ambos? Se não for "ambos", a modelagem de um conjunto de dados filtrado pode ser mais útil. 2) Você quer um muito simples ou muito preciso? ou seja, quantos parâmetros?
Se a resposta para 1 foi "ambos" e 2 foi "simples", Pareto parece funcionar melhor. Caso contrário, se 1 for "corpo" e 2 for "simples" - escolha um modelo erlang filtrado. Se 1 foi "ambos" e 2 foi "preciso", você provavelmente deseja um modelo de mistura gaussiana em seus dados no domínio do log - efetivamente um ajuste lognormal.
Eu tenho pesquisado isso ultimamente, e não achei o tópico suficientemente bem coberto na internet pública, então acabei de escrever uma postagem no blog detalhando minha pesquisa sobre esse tópico.
fonte