Cálculo da distribuição de min, média e max

10

Suponha que eu tenha o mínimo, a média e o máximo de alguns conjuntos de dados, digamos, 10, 20 e 25. Existe uma maneira de:

  1. criar uma distribuição a partir desses dados e

  2. saber qual a porcentagem provável da população acima ou abaixo da média

Editar:

De acordo com a sugestão de Glen, suponha que tenhamos um tamanho de amostra de 200.

user132053
fonte
(1) é fácil, porque existem muitas soluções. (2) é melhor feito no contexto de algumas suposições sobre a forma distributiva; caso contrário, tudo o que você pode obter são limites matemáticos.
whuber
3
Você está sendo levado literalmente aqui para comentários e respostas até agora, mas uma precaução necessária (acho que tácito, nas observações do @ whuber) é que existem tantas distribuições compatíveis com essas informações que você não deve deduzir que possui informações suficientes fazer isso de maneira bem ou confiável. Em particular, se você nem conhece o tamanho da amostra, não pode fazer muito para pensar em incertezas.
Nick Cox
Quando você pergunta sobre a proporção da população que "fica acima ou abaixo da média" ... você está perguntando em relação à média da amostra ou à média da população lá? Estamos falando de variáveis ​​contínuas ou discretas? Sabemos o tamanho da amostra?
Glen_b -Reinstala Monica

Respostas:

10

Eu tenho o mínimo, a média e o máximo de alguns conjuntos de dados, digamos, 10, 20 e 25. Existe uma maneira de:

criar uma distribuição a partir desses dados e

Há um número infinito de distribuições possíveis que seriam consistentes com essas quantidades de amostra.

saber qual a porcentagem provável da população acima ou abaixo da média

Na ausência de algumas suposições provavelmente injustificadas, não em geral - pelo menos não com muito sentido de que isso será significativo. Os resultados dependerão em grande parte de suas suposições (não há muita informação nos próprios valores, embora alguns arranjos específicos forneçam algumas informações úteis - veja abaixo).

Não é difícil apresentar situações em que as respostas sobre a questão da proporção possam ser muito diferentes. Quando existem respostas possíveis muito diferentes, consistentes com as informações, como você saberia em que situação está?

Mais detalhes podem fornecer dicas úteis, mas, como está (sem o tamanho de uma amostra, embora presumivelmente seja pelo menos 2 ou 3 se a média não estiver a meio caminho entre os pontos de extremidade *), você não terá necessariamente muito valor nessa questão. . Você pode tentar obter limites, mas em muitos casos eles não restringem muito as coisas.

n

Glen_b -Reinstate Monica
fonte
2
@DJohnson Eu não acho que seja hiperbólico - é literalmente verdade (embora nossa capacidade de listá-los possa falhar depois de alguns milhares e nossa capacidade de continuar listando-os possa falhar depois de algumas dezenas, isso não significa não existem outros conjuntos de premissas em que possamos operar). Não havia intenção de condescendência no meu fraseado - ele foi deliberadamente escolhido para realmente indicar a verdadeira amplitude dos possíveis conjuntos de suposições. O que você gostaria que eu escrevesse?
Glen_b -Reinstate Monica 23/09/16
3
1. Qual o motivo de restringir as possibilidades a dois parâmetros no máximo? E se os dados fossem extraídos de um lognormal de três parâmetros, por exemplo? Em muitos casos, não podemos estimar todos os parâmetros a partir dos dados, mas isso é parte do problema que estou tentando motivar por lá (refere-se à discussão de suposições. 2. Johnson e Kotz são um subconjunto das distribuições que as pessoas nomearam / trabalhei, não remotamente vinculado a quais suposições são possíveis.Eu inventei várias distribuições que não estão em Johnson e Kotz, e ...
ctd
4
DCT ... Eu tenho certeza que eles não são todos descartados aqui. Mesmo sem parâmetros não especificados, há uma infinidade de possíveis cdfs, um subconjunto não finito do qual não seria descartado pelas informações especificadas.
Glen_b -Reinstala Monica 23/09
11
@Djohnson Qualquer que seja a extensão de qualquer desacordo restante, agradeço seus comentários úteis. Considerarei se, pelo menos, mais claramente indico o que estou realmente dizendo (minha afirmação real é capaz de provar, se necessário, mas talvez eu possa pelo menos afirmar com clareza) e se deve ser redigida de maneira diferente lá.
Glen_b -Reinstate Monica 23/09
4
@DJohnson Tome duas distribuições diferentes, cumprindo as condições: qualquer mistura das duas ainda satisfará as condições mencionadas. Isso é literalmente um infinito: um não enumerável.
Elvis
8

Como já observado por Glen_b , existem infinitas possibilidades. Dê uma olhada nas seguintes plotagens, elas mostram oito distribuições diferentes que têm o mesmo mínimo, máximo e média.

Oito distribuições diferentes

Observe que eles são muito diferentes um do outro. O primeiro é uniforme, o quarto é uma mistura bimodal de distribuições triangulares, o sétimo tem a maior massa de probabilidade concentrada em torno do centro, mas ainda é possível o mínimo e o máximo com probabilidade muito pequena, oito é discreto e possui apenas dois valores no mínimo e no máximo, etc. .

Como todos eles atendem aos seus critérios, você pode usá-los para simulação. No entanto, sua escolha subjetiva teria um resultado muito profundo no resultado da simulação. O que eu quero dizer é que, se min, max e mean são realmente a única coisa que você sabe sobre a distribuição, então você tem informações insuficientes para realizar a simulação, se quiser realmente imitar a distribuição real (desconhecida).

Então, você precisa se perguntar o que você sabe sobre a distribuição? É discreto ou contínuo? Simétrico ou inclinado? Unimodal ou bimodal? Há muitas coisas a considerar. Se é contínuo, não uniforme e unimodal, e você conhece apenas o mínimo, o máximo e o médio, então uma opção possível é a distribuição triangular - é altamente improvável que qualquer coisa na vida real tenha essa distribuição, mas pelo menos você está usando algo simples e não impondo muitas suposições sobre sua forma.

Tim
fonte
Portanto, se eu assumisse uma distribuição triangular, poderia calcular o modo também com minhas informações atuais. Isso ajudaria?
user132053
11
@ user132053 você precisa apenas de min, max e mean. A fórmula para a média da distribuição triangular é (a + b + c) / 3. Você pode resolvê-la para o modo usando aritmética simples.
Tim
4

Uma regra baseada em intervalo para calcular o desvio padrão é amplamente citada na literatura estatística (aqui está uma referência ... http://statistics.about.com/od/Descriptive-Statistics/a/Range-Rule-For-Standard -Deviation.htm ). Basicamente, é (max-min) / 4. É conhecido por ser uma estimativa muito aproximada.

Dado que as informações e a vontade de assumir dados normalmente distribuídos, desvios normais podem ser gerados a partir de dois números, a média e o desvio padrão baseado no intervalo. Dito isto, qualquer distribuição de um ou dois parâmetros poderia ser gerada a partir dessas duas informações, desde que essa distribuição estivesse enraizada no primeiro ou no segundo momento.

Um coeficiente aproximado de variação também pode ser produzido considerando a razão SD / média. Isso forneceria um proxy para a variabilidade sem unidade nos dados.

O erro refere-se mais adequadamente à distribuição amostral da população e requer uma declaração do tamanho da amostra, n , para estimativa. Sua descrição não fornece esse detalhe.

Mike Hunter
fonte
3
Algumas coisas dignas de nota: (1) A média potencialmente fornece mais informações que devem substituir a regra (max-min) / 4. (2) Como são fornecidas três informações, o uso de apenas uma família de dois parâmetros deixa um grau de flexibilidade em geral.
whuber
@whuber Você fez dois comentários alusivos a este tópico. O que seria ótimo é se você os elaborasse e especificasse uma resposta.
Mike Hunter