Por que o fato de uma mediana ser menor que outra mediana significa que a maioria no grupo 1 é menor que a maioria no grupo 2?

9

Eu acreditava que os boxplots abaixo poderiam ser interpretados como "a maioria dos homens é mais rápida que a maioria das mulheres" (neste conjunto de dados), principalmente porque o tempo médio dos homens era menor que o tempo médio das mulheres. Mas o curso EdX sobre R e teste de estatística me disse que está incorreto. Por favor, ajude-me a entender por que minha intuição está incorreta.

Aqui está a pergunta:

Vamos considerar uma amostra aleatória de finalistas da Maratona de Nova York em 2002. Esse conjunto de dados pode ser encontrado no pacote UsingR. Carregue a biblioteca e, em seguida, carregue o conjunto de dados nym.2002.
library(dplyr)
data(nym.2002, package="UsingR")
Use gráficos de caixa e histogramas para comparar os tempos de acabamento de machos e fêmeas. Qual das opções a seguir melhor descreve a diferença?

Machos e fêmeas têm a mesma distribuição.

A maioria dos homens é mais rápida que a maioria das mulheres.

Homens e mulheres têm distribuições assimétricas à direita semelhantes às anteriores, 20 minutos deslocados para a esquerda.

Ambas as distribuições são normalmente distribuídas com uma diferença média de cerca de 30 minutos.

Aqui estão os horários das maratonas de Nova York para machos e fêmeas, como quantis, histogramas e boxplots:

# Men's time quantile
      0%      25%      50%      75%     100% 
147.3333 226.1333 256.0167 290.6375 508.0833

# Women's time quantile
      0%      25%      50%      75%     100% 
175.5333 250.8208 277.7250 309.4625 566.7833

quantiles histogram boxplot eda cominho
fonte

Para verificar visualmente a mesma distribuição, seus histogramas devem usar o mesmo domínio x e posições, enquanto o eixo y deve mostrar a frequência relativa. O tamanho da banda da caixa se beneficiaria de uma granularidade mais alta, por exemplo, 25 ou 50 minutos. Além disso, em gráficos de caixa e histogramas, desenhe a mediana (já em gráfico de caixa), média e modo.

G3o2 /

Sobre a pergunta do título: considere as distribuições uniformes em e . A mediana deste último é maior, mas, dada uma realização aleatória de cada um, a probabilidade de o segundo ser maior é o mesmo de ser menor ( ). Portanto, se você definir "a maioria é maior" por ", dadas duas amostras aleatórias X e Y, uma de cada, ", a relação entre as medianas de X e Y não diz muito sobre isso.

{0, 3}

$\{0,3\}$

{2}

$\{2\}$

0.5

$0.5$

P (X > Y) > 0.5

$P(X>Y)>0.5$

AlexR # 11/17

7

Eu acho que o motivo pelo qual você foi marcado como incorreto não é tanto o fato de a resposta que você deu à pergunta multichoice estar errada, mas a opção 3 "Homens e mulheres têm distribuições assimétricas à direita semelhantes às anteriores, 20 minutos deslocados para a esquerda" teria sido uma escolha melhor, pois é mais informativo com base nas informações fornecidas.

Robert Jones
fonte

Eu concordo com esta explicação. Além disso, "mais rápido que a maioria" é tão ambíguo. Apesar da resposta dada por @glen_b, eu esperaria muito mais separação nos gráficos da caixa para esse tipo de linguagem. Como "todos os 75% dos homens são mais rápidos que os 75% das mulheres", o que eu acho que traduziria o percentil 75 dos tempos dos homens sendo menor do que o percentil 25 dos tempos das mulheres. Mas a linguagem é ambígua.

Sal Mangiafico

11

Além disso, isso chega ao princípio de fazer testes de múltipla escolha: sempre escolha a melhor resposta.

Sal Mangiafico

Isso faz sentido; não é que a outra escolha tenha ERRADO, mas que a escolha correta ("Homens e mulheres têm distribuições assimétricas à direita semelhantes às anteriores, 20 minutos deslocados para a esquerda") foi mais verdadeira. No entanto, não vejo a mudança de 20 minutos nos histogramas; parece mais um turno de 50 minutos para mim. Como eu tinha duas chances, eu acertei a pergunta, FWIW :-).

cominho

@ cominho: Não tenho certeza se isso está correto, na verdade. "A maioria dos homens é mais rápido que a maioria das mulheres" é vago quanto ao que "mais" significa - não acredito que já tenha visto uma definição rigorosa e, intuitivamente, geralmente é significativamente mais de 50% (talvez 70% +?) . Se eles dissessem "a maioria", talvez fosse mais claro.

user541686

9

Aqui está o menor contra-exemplo que eu poderia encontrar:

A ( [1, 4, 10])e B ( [0, 6, 9]) têm a mesma média ( 5)
B tem uma mediana maior ( 6) que A ( 4)
Há uma probabilidade de 5/9 de que um elemento A aleatório seja maior que um elemento B aleatório .

Aqui está outro exemplo com 4 elementos:

Eric Duminil
fonte

7

$P(M_i<F_j)>\frac12$ $i,j$ $M_i$ $i$

É claro que outras interpretações da frase são possíveis (é isso que é ambiguidade, afinal) e algumas dessas outras possibilidades podem ser consistentes com o seu raciocínio.

[Também temos a questão de saber se estamos falando de amostras ou populações ... "a maioria dos homens [...] a maioria das mulheres" parece ser uma declaração da população (sobre uma população de tempos em potencial), mas apenas observamos os tempos que parecemos tratar como uma amostra, por isso devemos ter cuidado com a abrangência da reivindicação.]

$P(M_i<F_j)>\frac12$ $\widetilde{M}<\widetilde{F}$

[Não estou dizendo que você está errado ao pensar que a proporção de pares aleatórios de MF em que o homem era mais rápido que a mulher é superior a 1/2 - você quase certamente está correto. Só estou dizendo que você não pode contar comparando medianas. Nem você pode dizer isso olhando para a proporção em cada amostra acima ou abaixo da mediana da outra amostra. Você teria que fazer uma comparação diferente.]

$\frac12$

Exemplo:

Conjunto de dados A:

 1.58  2.10 16.64 17.34 18.74 19.90  1.53  2.78 16.48 17.53 18.57 19.05
 1.64  2.01 16.79 17.10 18.14 19.70  1.25  2.73 16.19 17.76 18.82 19.08
 1.42  2.56 16.73 17.01 18.86 19.98

Conjunto de dados B:

 3.35  4.62  5.03 20.97 21.25 22.92  3.12  4.83  5.29 20.82 21.64 22.06
 3.39  4.67  5.34 20.52 21.10 22.29  3.38  4.96  5.70 20.45 21.67 22.89
 3.44  4.13  6.00 20.85 21.82 22.05

Conjunto de dados C:

 6.63  7.92  8.15  9.97 23.34 24.70  6.40  7.54  8.24  9.37 23.33 24.26
 6.18  7.74  8.63  9.62 23.07 24.80  6.54  7.37  8.37  9.09 23.22 24.16
 6.57  7.58  8.81  9.08 23.43 24.45

(Os dados estão aqui , mas estão sendo usados para um propósito diferente - para minha lembrança eu mesmo os gerei)

Observe que a proporção de A <B é 2/3, a proporção de A <C é 5/9 e a proporção de B <C é 2/3. Ambos A vs B e B vs C são significativos no nível de 5%, mas podemos alcançar qualquer nível de significância simplesmente adicionando cópias suficientes das amostras. Podemos até evitar laços, duplicando as amostras, mas adicionando instabilidade suficientemente pequena (suficientemente menor que o menor espaço entre os pontos)

As medianas da amostra seguem na outra direção: mediana (A)> mediana (B)> mediana (C)

Novamente, poderíamos alcançar significância para algumas comparações de medianas - para qualquer nível de significância - repetindo as amostras.

Para relacioná-lo com o problema atual, imagine que A seja o "tempo das mulheres" e B seja o "tempo dos homens". Então o tempo médio dos homens é mais rápido, mas um homem escolhido aleatoriamente será 2/3 do tempo mais lento que uma mulher escolhida aleatoriamente.

Tomando nossa sugestão das amostras A e C, podemos gerar um conjunto maior de dados (em R) da seguinte maneira:

n <- 300
F <- c(runif(n/3,0,5),runif(n-n/3,15,20))
M <- c(runif(n-n/3,7.5,12.5),runif(n/3,22.5,27.5))

A mediana de F será em torno de 16,25, enquanto a mediana de M será em torno de 11,25, mas a proporção de casos em que F <M será de 5/9.

$n$ $\frac13$

$P(F<\text{med}(M))=\frac23$ $P(M>\text{med}(F))=\frac23$ $\text{med}(M)<\text{med}(F)$

Glen_b -Reinstate Monica
fonte

Posso ver como os meios podem ir em direções opostas, mas admito que minhas intuições aqui coincidem com as do OP. Não vejo como as medianas podem (além da questão do erro de amostragem).

gung - Restabelece Monica

@gung eu incluí um exemplo. Adoro agitar minhas intuições iniciais dessa maneira - encontrando contra-exemplos para elas. Se eu encontrar mais (acredito que tenho outro em algum lugar), tentarei mencioná-las.

Glen_b -Reinstate Monica

O boxplot na pergunta original mostra que cerca de 60-65% (pelo globo ocular) dos homens têm um tempo menor que o tempo médio para as mulheres (ou seja, menor que o tempo para 50% das mulheres). Essa é a peça que eu gostaria de explicar.

cominho

P (A_{i} < C_{j})

$P(A_i<C_j)$

i

$i$

j

$j$

3

Eu interpretaria a frase "a maioria dos homens é mais rápida que a maioria das mulheres" como "pelo menos 50% dos homens são mais rápidos que pelo menos 50% das mulheres". Em outras palavras: dado a um homem X, faz sentido perguntar se X é mais rápido que 50% das mulheres. Para mim, a alegação diz que pelo menos 50% dos homens têm essa propriedade. Isso (eu acho) é VERDADEIRO se o homem mediano for mais rápido que a mulher mediana, pois 50% dos homens seriam mais rápidos que o homem mediano, que é mais rápido que a mulher mediana, que é mais rápido que 50% das mulheres. (Mas note que isso só cobre 25% dos pares de mulher-homem, que acho que explica o seu grande exemplo.)

mathmandan

3

As figuras a seguir foram tiradas desta postagem do blog , que ilustra uma importante aplicação prática dessas idéias.

A padronização fornece um dispositivo poderoso para comparar duas distribuições. As três figuras a seguir comparam alturas de meninos e meninas de 130 meses do Programa Nacional de Medição Infantil da Inglaterra (NCMP). (Essa era a idade modal neste conjunto de dados; eu a selecionei simplesmente para obter o máximo de dados e, portanto, as parcelas mais suaves, dentro de uma única coorte de idade.)

Figura 1: Alturas de meninos e meninas de 130 meses, do Programa Nacional de Medição Infantil da Inglaterra (NCMP)

Figura 2: Percentis de altura para meninos e meninas com 130 meses. Fonte: NCMP inglês

Figura 3: Distribuição das alturas de meninas de 130 meses em relação a meninos da mesma idade.

Na última dessas figuras, a comparação da altura foi padronizada de acordo com a altura dos meninos. Assim, lendo as linhas cinza pontilhadas na Figura 3, você pode fazer declarações como:

A altura mediana (ou seja, percentil 50) para meninos é apenas o percentil 45 para meninas. Assim, 100% - 45% = 55% das meninas eram mais altas que o menino mediano.
A altura do quartil superior (percentil 75) para meninas atinge o quintil superior (percentil 80) para meninos. Assim, entre as crianças de 130 meses, uma menina com mais de 3 em cada 4 meninas também é mais alta que 4 em cada 5 meninos.

Um ponto de possível confusão nessa trama merece menção. Embora a linha de 45 ° dos meninos seja 'mais alta' na plotagem do que a curva magenta das meninas, essa observação corresponde ao fato bem conhecido de que, nessa idade (esses são alunos da 6ª série), as meninas são tipicamente mais altas que os meninos . Observe que essa altura é refletida corretamente no fato de que a curva magenta é deslocada para a direita em relação à linha azul.

$(0,0)$ $(1,1)$

Sua pergunta original agora pode ser reformulada em termos geométricos, como se você pudesse desenhar a curva magenta da Figura 3 para alcançar simultaneamente (a) a relação postulada entre as medianas e (b) a relação um pouco indescritível que @Glen_b elucidou (corretamente, acredito) em sua resposta. Gostaria de saber se descontinuidades distributivas (massas pontuais nas densidades) podem permitir que um caso "patológico" seja fornecido. Suponho que qualquer caso patológico seja a "exceção que prova a regra".

$x$ $x$ tem essa propriedade. Nesta conta, a resposta para a pergunta do questionário seria sim .

Por outro lado, se a intenção real de 'a maioria' era "> 50%", pode-se esperar que a frase mais precisa "a maioria de" tenha sido empregada. Se alguém me disser que algo "provavelmente" acontecerá, eu acho que uma probabilidade subjetiva de 60% ou mais está sendo mencionada. Da mesma forma, "a maioria" para mim significa algo mais ou menos 70 a 80%. Claramente, a partir da trama acima, se 'a maioria' é tomada como critério mais rigoroso que 52,5%, então você não pode dizer "a maioria das meninas [tem a propriedade de serem] mais altas que a maioria dos meninos". Eu me pergunto se parte da justificativa para a pergunta do questionário era estimular um exame das palavras relacionadas a noções numéricas. (Se você acha isso um pouco bobo, considere estes gráficos, mostrando como as pessoas tendem a interpretar diferentes palavras e frases probabilísticas.) Talvez a intenção também fosse enfatizar o ponto de que muita variação está presente nas distribuições do mundo real e que uma única estatística (mediana, média, o que tem) você) raramente apoiará declarações abrangentes e abrangentes.

David C. Norris
fonte

Por que o fato de uma mediana ser menor que outra mediana significa que a maioria no grupo 1 é menor que a maioria no grupo 2?

Respostas: