Suponha que eu tenha o mínimo, a média e o máximo de alguns conjuntos de dados, digamos, 10, 20 e 25. Existe uma maneira de:
criar uma distribuição a partir desses dados e
saber qual a porcentagem provável da população acima ou abaixo da média
Editar:
De acordo com a sugestão de Glen, suponha que tenhamos um tamanho de amostra de 200.
distributions
standard-deviation
mean
maximum
minimum
user132053
fonte
fonte
Respostas:
Há um número infinito de distribuições possíveis que seriam consistentes com essas quantidades de amostra.
Na ausência de algumas suposições provavelmente injustificadas, não em geral - pelo menos não com muito sentido de que isso será significativo. Os resultados dependerão em grande parte de suas suposições (não há muita informação nos próprios valores, embora alguns arranjos específicos forneçam algumas informações úteis - veja abaixo).
Não é difícil apresentar situações em que as respostas sobre a questão da proporção possam ser muito diferentes. Quando existem respostas possíveis muito diferentes, consistentes com as informações, como você saberia em que situação está?
Mais detalhes podem fornecer dicas úteis, mas, como está (sem o tamanho de uma amostra, embora presumivelmente seja pelo menos 2 ou 3 se a média não estiver a meio caminho entre os pontos de extremidade *), você não terá necessariamente muito valor nessa questão. . Você pode tentar obter limites, mas em muitos casos eles não restringem muito as coisas.
fonte
Como já observado por Glen_b , existem infinitas possibilidades. Dê uma olhada nas seguintes plotagens, elas mostram oito distribuições diferentes que têm o mesmo mínimo, máximo e média.
Observe que eles são muito diferentes um do outro. O primeiro é uniforme, o quarto é uma mistura bimodal de distribuições triangulares, o sétimo tem a maior massa de probabilidade concentrada em torno do centro, mas ainda é possível o mínimo e o máximo com probabilidade muito pequena, oito é discreto e possui apenas dois valores no mínimo e no máximo, etc. .
Como todos eles atendem aos seus critérios, você pode usá-los para simulação. No entanto, sua escolha subjetiva teria um resultado muito profundo no resultado da simulação. O que eu quero dizer é que, se min, max e mean são realmente a única coisa que você sabe sobre a distribuição, então você tem informações insuficientes para realizar a simulação, se quiser realmente imitar a distribuição real (desconhecida).
Então, você precisa se perguntar o que você sabe sobre a distribuição? É discreto ou contínuo? Simétrico ou inclinado? Unimodal ou bimodal? Há muitas coisas a considerar. Se é contínuo, não uniforme e unimodal, e você conhece apenas o mínimo, o máximo e o médio, então uma opção possível é a distribuição triangular - é altamente improvável que qualquer coisa na vida real tenha essa distribuição, mas pelo menos você está usando algo simples e não impondo muitas suposições sobre sua forma.
fonte
Uma regra baseada em intervalo para calcular o desvio padrão é amplamente citada na literatura estatística (aqui está uma referência ... http://statistics.about.com/od/Descriptive-Statistics/a/Range-Rule-For-Standard -Deviation.htm ). Basicamente, é (max-min) / 4. É conhecido por ser uma estimativa muito aproximada.
Dado que as informações e a vontade de assumir dados normalmente distribuídos, desvios normais podem ser gerados a partir de dois números, a média e o desvio padrão baseado no intervalo. Dito isto, qualquer distribuição de um ou dois parâmetros poderia ser gerada a partir dessas duas informações, desde que essa distribuição estivesse enraizada no primeiro ou no segundo momento.
Um coeficiente aproximado de variação também pode ser produzido considerando a razão SD / média. Isso forneceria um proxy para a variabilidade sem unidade nos dados.
O erro refere-se mais adequadamente à distribuição amostral da população e requer uma declaração do tamanho da amostra, n , para estimativa. Sua descrição não fornece esse detalhe.
fonte