Eu acreditava que os boxplots abaixo poderiam ser interpretados como "a maioria dos homens é mais rápida que a maioria das mulheres" (neste conjunto de dados), principalmente porque o tempo médio dos homens era menor que o tempo médio das mulheres. Mas o curso EdX sobre R e teste de estatística me disse que está incorreto. Por favor, ajude-me a entender por que minha intuição está incorreta.
Aqui está a pergunta:
Vamos considerar uma amostra aleatória de finalistas da Maratona de Nova York em 2002. Esse conjunto de dados pode ser encontrado no pacote UsingR. Carregue a biblioteca e, em seguida, carregue o conjunto de dados nym.2002.
library(dplyr) data(nym.2002, package="UsingR")
Use gráficos de caixa e histogramas para comparar os tempos de acabamento de machos e fêmeas. Qual das opções a seguir melhor descreve a diferença?
- Machos e fêmeas têm a mesma distribuição.
- A maioria dos homens é mais rápida que a maioria das mulheres.
- Homens e mulheres têm distribuições assimétricas à direita semelhantes às anteriores, 20 minutos deslocados para a esquerda.
- Ambas as distribuições são normalmente distribuídas com uma diferença média de cerca de 30 minutos.
Aqui estão os horários das maratonas de Nova York para machos e fêmeas, como quantis, histogramas e boxplots:
# Men's time quantile
0% 25% 50% 75% 100%
147.3333 226.1333 256.0167 290.6375 508.0833
# Women's time quantile
0% 25% 50% 75% 100%
175.5333 250.8208 277.7250 309.4625 566.7833
Respostas:
Eu acho que o motivo pelo qual você foi marcado como incorreto não é tanto o fato de a resposta que você deu à pergunta multichoice estar errada, mas a opção 3 "Homens e mulheres têm distribuições assimétricas à direita semelhantes às anteriores, 20 minutos deslocados para a esquerda" teria sido uma escolha melhor, pois é mais informativo com base nas informações fornecidas.
fonte
Aqui está o menor contra-exemplo que eu poderia encontrar:
A (
[1, 4, 10])
e B ([0, 6, 9]
) têm a mesma média (5
)B tem uma mediana maior (
6
) que A (4
)Aqui está outro exemplo com 4 elementos:
fonte
É claro que outras interpretações da frase são possíveis (é isso que é ambiguidade, afinal) e algumas dessas outras possibilidades podem ser consistentes com o seu raciocínio.
[Também temos a questão de saber se estamos falando de amostras ou populações ... "a maioria dos homens [...] a maioria das mulheres" parece ser uma declaração da população (sobre uma população de tempos em potencial), mas apenas observamos os tempos que parecemos tratar como uma amostra, por isso devemos ter cuidado com a abrangência da reivindicação.]
[Não estou dizendo que você está errado ao pensar que a proporção de pares aleatórios de MF em que o homem era mais rápido que a mulher é superior a 1/2 - você quase certamente está correto. Só estou dizendo que você não pode contar comparando medianas. Nem você pode dizer isso olhando para a proporção em cada amostra acima ou abaixo da mediana da outra amostra. Você teria que fazer uma comparação diferente.]
Exemplo:
Conjunto de dados A:
Conjunto de dados B:
Conjunto de dados C:
(Os dados estão aqui , mas estão sendo usados para um propósito diferente - para minha lembrança eu mesmo os gerei)
Observe que a proporção de A <B é 2/3, a proporção de A <C é 5/9 e a proporção de B <C é 2/3. Ambos A vs B e B vs C são significativos no nível de 5%, mas podemos alcançar qualquer nível de significância simplesmente adicionando cópias suficientes das amostras. Podemos até evitar laços, duplicando as amostras, mas adicionando instabilidade suficientemente pequena (suficientemente menor que o menor espaço entre os pontos)
As medianas da amostra seguem na outra direção: mediana (A)> mediana (B)> mediana (C)
Novamente, poderíamos alcançar significância para algumas comparações de medianas - para qualquer nível de significância - repetindo as amostras.
Para relacioná-lo com o problema atual, imagine que A seja o "tempo das mulheres" e B seja o "tempo dos homens". Então o tempo médio dos homens é mais rápido, mas um homem escolhido aleatoriamente será 2/3 do tempo mais lento que uma mulher escolhida aleatoriamente.
Tomando nossa sugestão das amostras A e C, podemos gerar um conjunto maior de dados (em R) da seguinte maneira:
A mediana de F será em torno de 16,25, enquanto a mediana de M será em torno de 11,25, mas a proporção de casos em que F <M será de 5/9.
fonte
As figuras a seguir foram tiradas desta postagem do blog , que ilustra uma importante aplicação prática dessas idéias.
A padronização fornece um dispositivo poderoso para comparar duas distribuições. As três figuras a seguir comparam alturas de meninos e meninas de 130 meses do Programa Nacional de Medição Infantil da Inglaterra (NCMP). (Essa era a idade modal neste conjunto de dados; eu a selecionei simplesmente para obter o máximo de dados e, portanto, as parcelas mais suaves, dentro de uma única coorte de idade.)
Figura 1: Alturas de meninos e meninas de 130 meses, do Programa Nacional de Medição Infantil da Inglaterra (NCMP)
Figura 2: Percentis de altura para meninos e meninas com 130 meses. Fonte: NCMP inglês
Figura 3: Distribuição das alturas de meninas de 130 meses em relação a meninos da mesma idade.
Na última dessas figuras, a comparação da altura foi padronizada de acordo com a altura dos meninos. Assim, lendo as linhas cinza pontilhadas na Figura 3, você pode fazer declarações como:
Um ponto de possível confusão nessa trama merece menção. Embora a linha de 45 ° dos meninos seja 'mais alta' na plotagem do que a curva magenta das meninas, essa observação corresponde ao fato bem conhecido de que, nessa idade (esses são alunos da 6ª série), as meninas são tipicamente mais altas que os meninos . Observe que essa altura é refletida corretamente no fato de que a curva magenta é deslocada para a direita em relação à linha azul.
Sua pergunta original agora pode ser reformulada em termos geométricos, como se você pudesse desenhar a curva magenta da Figura 3 para alcançar simultaneamente (a) a relação postulada entre as medianas e (b) a relação um pouco indescritível que @Glen_b elucidou (corretamente, acredito) em sua resposta. Gostaria de saber se descontinuidades distributivas (massas pontuais nas densidades) podem permitir que um caso "patológico" seja fornecido. Suponho que qualquer caso patológico seja a "exceção que prova a regra".
Por outro lado, se a intenção real de 'a maioria' era "> 50%", pode-se esperar que a frase mais precisa "a maioria de" tenha sido empregada. Se alguém me disser que algo "provavelmente" acontecerá, eu acho que uma probabilidade subjetiva de 60% ou mais está sendo mencionada. Da mesma forma, "a maioria" para mim significa algo mais ou menos 70 a 80%. Claramente, a partir da trama acima, se 'a maioria' é tomada como critério mais rigoroso que 52,5%, então você não pode dizer "a maioria das meninas [tem a propriedade de serem] mais altas que a maioria dos meninos". Eu me pergunto se parte da justificativa para a pergunta do questionário era estimular um exame das palavras relacionadas a noções numéricas. (Se você acha isso um pouco bobo, considere estes gráficos, mostrando como as pessoas tendem a interpretar diferentes palavras e frases probabilísticas.) Talvez a intenção também fosse enfatizar o ponto de que muita variação está presente nas distribuições do mundo real e que uma única estatística (mediana, média, o que tem) você) raramente apoiará declarações abrangentes e abrangentes.
fonte