Duas distribuições com resumos idênticos de 5 números sempre terão a mesma forma?

Eu sei que se eu puder ter duas distribuições com a mesma média e variância, ter formas diferentes, porque eu posso ter um N (x, s) e um U (x, s)

Mas e se o mínimo, Q1, mediana, Q3 e max forem idênticos?

As distribuições podem ter uma aparência diferente ou serão obrigadas a assumir a mesma forma?

Minha única lógica por trás disso é que, se eles tiverem exatamente o mesmo resumo de 5 números, deverão assumir exatamente a mesma forma de distribuição.

distributions descriptive-statistics Marcin
fonte

A resposta a esta pergunta é, em alguns sentidos, óbvia - se pudéssemos caracterizar completamente qualquer distribuição citando apenas cinco números, todos esses exames sobre distribuições de probabilidade seriam muito mais fáceis! Mas levanta o ponto interessante de quanta informação está faltando quando citamos o resumo de cinco números ou apresentamos os dados graficamente em um gráfico de caixa.

Silverfish

Lembre-se de que geralmente não é usado para a distribuição uniforme com média e desvio padrão , mas sim para a distribuição uniforme no intervalo que começa em e termina em . Além disso, a notação raramente é usada para a distribuição normal (embora eu tenha visto alguns livros didáticos); é muito mais comum o segundo parâmetro representar a variação do que o desvio padrão.

U (x, s)

$U(x,s)$

x

$x$

s

$s$

x

$x$

s

$s$

N (x, s)

$N(x,s)$

Silverfish 31/01

Respostas:

Só porque o resumo de cinco números é idêntico, não significa que a distribuição é idêntica. Isso mostra quantas informações são perdidas quando apresentamos dados graficamente em um gráfico de caixa!

Talvez a maneira mais fácil de ver o problema seja que o resumo de cinco números não diz nada sobre a distribuição dos valores entre o quartil mínimo e inferior, ou entre o quartil inferior e a mediana, e assim por diante. Você sabe que a frequência entre o quartil mínimo e o inferior deve corresponder à frequência entre o quartil inferior e a mediana (com as exceções óbvias, por exemplo, se tivermos dados em um quartil, ou pior, se dois quartis estiverem amarrados), mas não soubermos quais valores da variável essas frequências são alocadas. Podemos ter uma situação como esta:

Distribuições diferentes com o mesmo resumo de cinco números e gráfico de caixa

Essas duas distribuições têm o mesmo resumo de cinco números, portanto, seus gráficos de caixas são idênticos, mas eu escolhi para ter uma distribuição uniforme entre cada quartil, enquanto tem uma distribuição com baixas frequências próximas aos quartis e altas frequências no meio de dois quartis. Efetivamente, a distribuição de foi formada retirando a distribuição de e movendo a maioria dos dados que estão próximos a um quartil para mais longe; meu código realmente faz isso ao contrário, começando com a distribuição irregular de e nivelando as frequências realocando dados dos picos para preencher os vales. $X$ $Y$ $Y$ $X$ R $Y$

EDIT: Como @Glen_b diz, isso se torna ainda mais óbvio quando você olha para as distribuições cumulativas. Adicionei linhas de grade para mostrar a localização dos quartis, que são os mesmos para as duas distribuições, para que seus CDFs empíricos se cruzem.

CDFs empíricos de duas distribuições com o mesmo resumo de cinco números

Código R

yfreq <- 2*rep(c(1:10, 10:1), times=4)
xfreq <- rep(mean(yfreq), times=length(yfreq))

x <- rep(1:length(xfreq), times=xfreq)
y <- rep(1:length(yfreq), times=yfreq)

ecdfX <- ecdf(x)
ecdfY <- ecdf(y)
plot(ecdfX, verticals=TRUE, do.points=FALSE, col="blue", lwd=2, yaxt="n", 
    main="Empirical CDFs", xlab="", ylab="Relative cumulative frequency")
plot(ecdfY, verticals=TRUE, do.points=FALSE, add=TRUE, col="black",
    yaxt="n", lwd=2)
axis(side=2, at=seq(0, 1, by=0.1), las=2)
abline(h=c(0.25,0.5,0.75,1), col="lightgrey", lty="dashed")
abline(v=summary(x), col="lightgrey", lty="dashed")
legend("right", c("x", "y"), col = c("blue", "black"),
       lty = "solid", lwd=2, bty="n")

par(mfrow=c(2,2))
hist(x, col="steelblue", breaks=((0:81)-0.5), ylim=c(0,25))
hist(y, col="grey", breaks=((0:81)-0.5), ylim=c(0,25))
boxplot(x, col="steelblue", main="Boxplot of x")
boxplot(y, col="grey", main="Boxplot of y")

summary(x)
#   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
#   1.00   20.75   40.50   40.50   60.25   80.00 

summary(y)
#   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
#   1.00   20.75   40.50   40.50   60.25   80.00

Silverfish
fonte

+1 Seu exemplo é ótimo, porque se pode pensar inicialmente: bem, certamente uma distribuição não pode ser totalmente descrita por cinco números, pois é um objeto de dimensão infinita, mas certamente todas as distribuições com a mesma média / mediana / quartis / etc. são pelo menos muito parecidos! Bem, não, eles não são. A propósito, seus PDFs mostram isso de maneira muito mais impressionante do que os CDFs.

Ameba

@amoeba Obrigado, visualmente o histograma é muito mais impressionante. Acho que o CDF mostra mais claramente o que está acontecendo, no sentido de como podemos generalizá-lo.

Silverfish

@amoeba Não sei se entendi "bem, certamente uma distribuição não pode ser totalmente descrita por cinco números, pois é um objeto de dimensão infinita", você estava escrevendo isso como exemplo de uma idéia falaciosa? Por exemplo, o PDF normal é um objeto bidimensional (ou possivelmente uma ou duas dimensões a mais, se você quiser cobrar por constantes como ) ... um pouco menor que o infinito! Desculpe se estou sendo obtuso.

π

$\pi$

Alexis

@Alexis Eu acho que eu quis dizer "um [arbitrário] distribuição" em que o comentário, não uma distribuição de alguns família paramétrica especial ...

ameba

@amoeba Isso é justo. Especialmente desde que era uso retórico. Ainda assim, devemos ter cuidado ao jogar o "infinito" por aí ... Acho que se alguém realmente insistir no infinito como parte de seu sistema, provavelmente haverá arbitragem em um desequilíbrio em algum lugar. :)

Alexis

Isso é respondido mais claramente considerando a função de distribuição (cumulativa).

Especificar o mínimo, o máximo e os três quartis especifica exatamente 5 pontos no cdf, mas o cdf entre esses pontos pode ser qualquer função monotônica não decrescente entre os que ainda passam por esses pontos:

insira a descrição da imagem aqui

No desenho, os CDFs vermelho e preto compartilham os mesmos mínimos, máximos e quartis, mas são claramente diferentes distribuições. Claramente, qualquer número de outros CDFs poderia ser especificado que também passasse pelos mesmos cinco pontos.

De fato, tudo o que fizemos foi restringir nossa função de distribuição a ficar dentro de quatro caixas:

$\qquad$ insira a descrição da imagem aqui

(desde que também continue a satisfazer as outras condições para um CDF). Isso não é tanto uma restrição.

A mesma noção pode ser aplicada às quantidades amostrais - duas CDFs empíricas diferentes podem, no entanto, ter o mesmo resumo de cinco números.

Glen_b -Reinstate Monica
fonte

Não, definitivamente não é o caso. Como um exemplo simples de contador, compare a distribuição uniforme contínua em com a distribuição uniforme discreta em . $[0, 3]$ $\{0, 1, 2, 3\}$

Um exemplo relacionado é o conhecido quarteto de Anscombe, onde existem 4 conjuntos de dados com 6 propriedades de amostra idênticas (embora diferentes das mencionadas) parecem completamente diferentes. Veja: http://en.wikipedia.org/wiki/Anscombe%27s_quartet

Sven
fonte