Eu sei que se eu puder ter duas distribuições com a mesma média e variância, ter formas diferentes, porque eu posso ter um N (x, s) e um U (x, s)
Mas e se o mínimo, Q1, mediana, Q3 e max forem idênticos?
As distribuições podem ter uma aparência diferente ou serão obrigadas a assumir a mesma forma?
Minha única lógica por trás disso é que, se eles tiverem exatamente o mesmo resumo de 5 números, deverão assumir exatamente a mesma forma de distribuição.
Respostas:
Só porque o resumo de cinco números é idêntico, não significa que a distribuição é idêntica. Isso mostra quantas informações são perdidas quando apresentamos dados graficamente em um gráfico de caixa!
Talvez a maneira mais fácil de ver o problema seja que o resumo de cinco números não diz nada sobre a distribuição dos valores entre o quartil mínimo e inferior, ou entre o quartil inferior e a mediana, e assim por diante. Você sabe que a frequência entre o quartil mínimo e o inferior deve corresponder à frequência entre o quartil inferior e a mediana (com as exceções óbvias, por exemplo, se tivermos dados em um quartil, ou pior, se dois quartis estiverem amarrados), mas não soubermos quais valores da variável essas frequências são alocadas. Podemos ter uma situação como esta:
Essas duas distribuições têm o mesmo resumo de cinco números, portanto, seus gráficos de caixas são idênticos, mas eu escolhi para ter uma distribuição uniforme entre cada quartil, enquanto tem uma distribuição com baixas frequências próximas aos quartis e altas frequências no meio de dois quartis. Efetivamente, a distribuição de foi formada retirando a distribuição de e movendo a maioria dos dados que estão próximos a um quartil para mais longe; meu código realmente faz isso ao contrário, começando com a distribuição irregular de e nivelando as frequências realocando dados dos picos para preencher os vales.Y Y X YX Y Y X Y
R
EDIT: Como @Glen_b diz, isso se torna ainda mais óbvio quando você olha para as distribuições cumulativas. Adicionei linhas de grade para mostrar a localização dos quartis, que são os mesmos para as duas distribuições, para que seus CDFs empíricos se cruzem.
Código R
fonte
Isso é respondido mais claramente considerando a função de distribuição (cumulativa).
Especificar o mínimo, o máximo e os três quartis especifica exatamente 5 pontos no cdf, mas o cdf entre esses pontos pode ser qualquer função monotônica não decrescente entre os que ainda passam por esses pontos:
No desenho, os CDFs vermelho e preto compartilham os mesmos mínimos, máximos e quartis, mas são claramente diferentes distribuições. Claramente, qualquer número de outros CDFs poderia ser especificado que também passasse pelos mesmos cinco pontos.
De fato, tudo o que fizemos foi restringir nossa função de distribuição a ficar dentro de quatro caixas:
(desde que também continue a satisfazer as outras condições para um CDF). Isso não é tanto uma restrição.
A mesma noção pode ser aplicada às quantidades amostrais - duas CDFs empíricas diferentes podem, no entanto, ter o mesmo resumo de cinco números.
fonte
Não, definitivamente não é o caso. Como um exemplo simples de contador, compare a distribuição uniforme contínua em com a distribuição uniforme discreta em .{ 0 , 1 , 2 , 3 }[0,3] {0,1,2,3}
Um exemplo relacionado é o conhecido quarteto de Anscombe, onde existem 4 conjuntos de dados com 6 propriedades de amostra idênticas (embora diferentes das mencionadas) parecem completamente diferentes. Veja: http://en.wikipedia.org/wiki/Anscombe%27s_quartet
fonte