A estatística mais importante: '90% de todas as mulheres sobreviveram' ou '90% de todas as que sobreviveram eram mulheres'?

14

Considere as seguintes declarações do Titanic:

Suposição 1: Somente homens e mulheres estavam no navio

Suposição 2: Havia um grande número de homens e mulheres

Declaração 1: 90% de todas as mulheres sobreviveram

Declaração 2: 90% de todos os que sobreviveram eram mulheres

O primeiro indica que salvar mulheres era provavelmente de alta prioridade (independentemente de salvar homens)

Quando a segunda estatística é útil?

Podemos dizer que um deles é quase sempre mais útil que o outro?

rahs
fonte
40
mais útil para que finalidade?
Aksakal
12
Nenhum surpreso dessas respostas mencionou paradoxo de Simpson
Nemo
3
Eu diria que depende se você é mulher ou não!
Me #
6
A primeira afirmação não é significativa sem uma estatística comparável para os homens.
Barmar 06/07/19
1
@RahulSaha Mas se 95% dos homens sobreviverem, a implicação pode ser que eles deram prioridade ainda maior aos homens. É por isso que é necessária uma comparação.
Barmar

Respostas:

54

Como estão, nenhuma das afirmações 1 ou 2 é muito útil. Se 90% dos passageiros fossem mulheres e 90% das pessoas sobrevivessem aleatoriamente, as duas afirmações seriam verdadeiras. As declarações precisam ser consideradas no contexto da composição geral dos passageiros. E a chance geral de sobreviver.


Suponha que tivéssemos tantos homens quanto mulheres, 100 cada. Aqui estão algumas matrizes possíveis de homens (M) contra mulheres (W) e sobreviventes (S) contra mortos (D):

  |  M |  W
------------
S | 90 | 90
------------
D | 10 | 10

90% das mulheres sobreviveram. Como 90% dos homens. A afirmação 1 é verdadeira, a afirmação 2 é falsa, uma vez que metade dos sobreviventes eram mulheres. Isso é consistente com muitos sobreviventes, mas não há diferença entre os sexos .

  |  M |  W
------------
S | 10 | 90
------------
D | 90 | 10

90% das mulheres sobreviveram, mas apenas 10% dos homens. 90% dos sobreviventes eram mulheres. Ambas as afirmações são verdadeiras. Isso é consistente com uma diferença entre os sexos : as mulheres eram mais propensas a sobreviver do que os homens.

  |  M |  W
------------
S |  1 |  9
------------
D | 99 | 91

9% das mulheres sobreviveram, mas apenas 1% dos homens. 90% dos sobreviventes eram mulheres. A declaração 1 é falsa, a declaração 2 é verdadeira. Isso é novamente consistente com uma diferença entre os sexos : as mulheres eram mais propensas a sobreviver do que os homens.

Stephan Kolassa
fonte
3
(or indeed, if *everyone* survived)... Se todos sobreviveram, 100% de todas as mulheres sobreviveram, independentemente das proporções.
Bridgeburners
1
@ Bridgeburners: você está completamente certo, e me ocorreu quando eu estava longe do meu computador. Obrigado, editei minha resposta.
Stephan Kolassa 06/07/19
18

Por sua vez, a probabilidade condicional de sobreviver condicionada ao sexo é mais útil, simplesmente por causa da direção do fluxo de informações. O sexo de uma pessoa é conhecido antes de seu status de sobrevivência, e essa probabilidade pode ser usada em um sentido preditivo, prospectivamente. Além disso, não é influenciado pela prevalência de mulheres. Em caso de dúvida, pense em previsão.

Frank Harrell
fonte
Sim, na sua cara. Então, só para ter certeza de que entendo como isso se aplica às estatísticas reais em questão ... você está dizendo que a afirmação nº 1 é útil porque me diz que se eu for mulher, a bordo de um grande navio de passageiros em 1912, acontece que afunda em águas infestadas de iceberg, então a chance de eu sobreviver é de 90%? E, acrescentando a suposição razoável de que a tecnologia e as práticas para salvar vidas melhoraram desde então, isso significaria que a chance de eu sobreviver a essa situação hoje é provavelmente ainda melhor que 90%? Legal! ;-)
Don Hatch
Esses comentários são vendidos além do objetivo descritivo original.
Frank Harrell
Tem certeza de que alcançou o objetivo certo? Aparentemente, a pergunta é sobre a utilidade dessas declarações sobre o verdadeiro Titanic, que, na realidade, não é tão útil para fazer previsões, porque muita coisa mudou desde então. Parece que sua heurística falhou no primeiro exemplo real, não é? Isso não parece um bom começo. Por outro lado, talvez o OP destinado a questão Titanic para ser um proxy para a questão geral da mesma forma aplicada aos cenários atuais que fazer têm relevância preditiva; Eu não sei.
Don Hatch
1
Assim como eu tenho um estudo de caso detalhado sobre probabilidades de sobrevivência de passageiros do TItanic em meu livro Regression Modeling Strategies , há muito valor em descobrir o que aconteceu. Não uso probabilidades previstas desse modelo logístico para prever futuros Titanics, mas para descobrir padrões no processo de seleção de botes salva-vidas.
Frank Harrell
6

O primeiro indica que salvar mulheres era provavelmente de alta prioridade (independentemente de salvar homens)

A palavra "prioridade" vem do latim para "antes". Uma prioridade é algo que se coloca antes de outra coisa (onde "antes" está sendo usado no sentido de "mais importante"). Se você diz que salvar mulheres era uma prioridade, salvá-las tem que vir antes de outra coisa. E a suposição natural é que o que vem antes é salvar os homens. Se você diz "independentemente de salvar homens", então nos perguntamos o que aconteceu antes.

O fato de as mulheres terem uma alta taxa de sobrevivência não diz muito, se não sabemos qual foi a taxa geral de sobrevivência. O último navio em que eu estava, mais de 90% das mulheres sobreviveram, mas eu não caracterizaria isso como mostrando que salvar mulheres era uma alta prioridade.

E saber qual porcentagem de sobreviventes eram mulheres não diz muito sem saber qual porcentagem de pessoas no geral eram mulheres.

Qual estatística é mais útil realmente depende da situação. Se você quiser saber o quão perigoso é algo, a taxa de mortalidade é mais importante. Se você quiser saber o que afeta o quão perigoso é algo, é importante analisar a porcentagem de vítimas.

Acumulação
fonte
2
Boa crítica :-) "No último navio em que estive, mais de 90% das mulheres sobreviveram, mas eu não caracterizaria isso como mostrando que salvar mulheres era uma alta prioridade." Claro que sim .. alta prioridade em comparação com despejar no mar! Certamente, essa é uma interpretação absurda de "alta prioridade", mas como o OP descartou a interpretação "maior prioridade do que salvar homens", tudo o que nos resta são interpretações absurdas.
Don escotilha
3

É possivelmente útil examinarmos como essas probabilidades estão relacionadas.

Seja o evento em que uma pessoa é mulher e S seja o evento em que uma pessoa sobreviveu.WS

Instrução 1:

P(S|W)=0.9

Instrução 2:

P(W|S)=0.9

O Teorema de Bayes ilustra como essas declarações de probabilidade estão relacionadas.

P(S|W)=P(W|S)P(S)P(W)

P(S)P(W)

P(S)P(W)

Knrumsey
fonte
3
Eu diria também, inversamente à sua conclusão, que se nem P (S) nem P (W) são conhecidos, então P (S | W) e P (W | S) sofrem da mesma frustrante falta de utilidade. Ainda não tenho uma ideia clara do que pode ser dito se exatamente um de P (S) e P (W) for conhecido.
Don escotilha
P(W)=0.5
1
Sim, parece correto, e o veredicto parece ser que a informação é lamentavelmente inadequada, mesmo considerando isso. Devo dizer que toda vez que começo a pensar em quais informações posso extrair apenas de P (W | S) ou apenas de P (S | W), mesmo adicionando P (W) ou qualquer outra coisa, acabo pensando "por que diabos estou Pensando nisso? Por que eles me deram apenas essas porcentagens? Apenas me mostre a tabela inteira ".
9118 Don Hatch
3

Depende do que se considera útil.

P(S|W)>P(S|M)

Por outro lado, se você está se perguntando por que as histórias de sobreviventes são principalmente de mulheres, a declaração 2 explicaria isso, tornando a declaração 2 útil mesmo na ausência de outras informações.

Não consigo pensar em nada que a afirmação 1 seja útil fora de contexto. Certamente não diz nada sobre a prioridade dada à salvação das mulheres, em comparação com qualquer outra coisa. A única afirmação que faço para mim é que me faz dizer "conte-me mais".

Don Hatch
fonte
0

Na superfície (ou isoladamente da realidade), ambas as declarações parecem igualmente inúteis para a meta do estado. No entanto, considerando o contexto, a segunda afirmação é claramente mais útil.

Declaração 2

w

w=px/(px+(1p)z)
pxz

H0:x>z

H0

(1w)px=w(1p)z
x=w(1p)z/((1w)p)
H0
x=w(1p)z/((1w)p)>z
w(1p)>(1w)p
0.9(1p)>0.1p
1p>p/9
p<0.9

p1/2

Declaração 1

x=0.9zx>z

xz

p1/2px+(1p)zxzp1/2

px+(1p)zx=0.9
x>>z

Conclusão

Eu diria que ambas as afirmações apóiam seu hipo de que as mulheres têm maior probabilidade de sobreviver do que os homens, mas o depoimento 1 o faz de maneira bastante fraca, enquanto o depoimento 2, em combinação com suposições, quase certamente estabelece seu hipo de fato.

Aksakal
fonte