Há uma pessoa atrás de uma cortina - não sei se a pessoa é do sexo feminino ou masculino.
Eu sei que a pessoa tem cabelos longos e que 90% de todas as pessoas com cabelos longos são do sexo feminino
Eu sei que a pessoa tem um tipo sanguíneo raro AX3 e que 80% de todas as pessoas com esse tipo sanguíneo são do sexo feminino.
Qual é a probabilidade de a pessoa ser mulher?
NOTA: esta formulação original foi expandida com duas suposições adicionais: 1. O tipo sanguíneo e o comprimento do cabelo são independentes 2. A proporção masculino: feminino na população em geral é 50:50
(O cenário específico aqui não é tão relevante - em vez disso, tenho um projeto urgente que exige que eu entenda a abordagem correta para responder a isso. Minha intuição é que é uma questão de probabilidade simples, com uma resposta definitiva simples, do que algo com várias respostas discutíveis de acordo com diferentes teorias estatísticas.)
fonte
Respostas:
Muitas pessoas acham útil pensar em termos de uma "população", subgrupos dentro dela e proporções (em vez de probabilidades). Isso se presta ao raciocínio visual.
Explicarei as figuras em detalhes, mas a intenção é que uma rápida comparação das duas figuras indique imediata e convincentemente como e por que nenhuma resposta específica à pergunta pode ser dada. Um exame um pouco mais longo sugerirá quais informações adicionais seriam úteis para determinar uma resposta ou pelo menos obter limites para as respostas.
lenda
Hachura : fêmea / Sólido : macho.
Parte superior : cabelos compridos / Parte inferior : cabelos curtos.
Direita (e colorida) : AX3 / Esquerda (sem cor) : não AX3.
Dados
A hachura superior é 90% do retângulo superior ("90% de todas as pessoas com cabelos longos são do sexo feminino").
A hachura total no retângulo colorido da direita é 80% desse retângulo ("80% de todas as pessoas com esse tipo de sangue são do sexo feminino").
Explicação
Este diagrama mostra esquematicamente como a população (de todas as fêmeas e não fêmeas em consideração) pode ser dividida simultaneamente em fêmeas / não fêmeas, AX3 / não AX3 e cabelos compridos / cabelos não compridos ("curto"). Ele usa a área, pelo menos aproximadamente, para representar proporções (há algum exagero para tornar a imagem mais clara).
É evidente que essas três classificações binárias criam oito grupos possíveis. Cada grupo aparece aqui.
As informações fornecidas afirmam que o retângulo superior chocado (fêmeas de cabelos compridos) compreende 90% do retângulo superior (todas as pessoas de cabelos compridos). Ele também afirma que as partes cruzadas combinadas dos retângulos coloridos (fêmeas de cabelos compridos com AX3 e fêmeas de cabelos curtos com AX3) compreendem 80% da região colorida à direita (todas as pessoas com AX3). É-nos dito que alguém está no canto superior direito (seta): pessoas de cabelos compridos com AX3. Que proporção desse retângulo é hachurada (fêmea)?
Também assumi (implicitamente) que o tipo sanguíneo e o comprimento do cabelo são independentes : a proporção do retângulo superior (cabelos longos) colorida (AX3) é igual à proporção do retângulo inferior (cabelos curtos) colorido (AX3). É isso que independência significa. É uma suposição justa e natural a ser feita ao abordar questões como essa, mas é claro que precisa ser declarada.
A posição do retângulo hachurado superior (fêmeas de cabelos compridos) é desconhecida. Podemos imaginar deslizando o retângulo superior hachurado de um lado para o outro e deslizando o retângulo inferior hachurado de um lado para o outro e possivelmente alterando sua largura. Se fizermos isso para que 80% do retângulo colorido permaneçam hachurados, essa alteração não alterará nenhuma das informações declaradas, mas poderá alterar a proporção de mulheres no retângulo superior direito. Evidentemente, a proporção pode estar em qualquer lugar entre 0% e 100% e ainda ser consistente com as informações fornecidas, como nesta imagem:
Uma força desse método é estabelecer a existência de múltiplas respostas para a pergunta. Pode-se traduzir tudo isso algebricamente e, por meio da estipulação de probabilidades, oferecer situações específicas como possíveis exemplos, mas surgirá a questão de saber se esses exemplos são realmente consistentes com os dados. Por exemplo, se alguém sugerir que talvez 50% das pessoas de cabelos compridos sejam do tipo AX3, no início não é evidente que isso seja possível, mesmo com todas as informações disponíveis. Esses diagramas (Venn) da população e seus subgrupos tornam essas coisas claras.
fonte
Esta é uma questão de probabilidade condicional. Você sabe que a pessoa tem cabelos longos e tipo sanguíneo Ax3. Deixe Então você procura . Você sabe que e . Isso é suficiente para calcular ? Suponha que . Então Suponha que . Então, pelo exposto,
Agora ambos são possíveis quando e . Portanto, não podemos ter certeza do que é.P(C|A)=0.9 P(C|B)=0.8 P(C|A and B)
fonte
Discussão fascinante! Gostaria de saber se especificamos P (A) e P (B) também se os intervalos de P (C | A, B) não serão muito mais estreitos que o intervalo completo [0,1], simplesmente por causa das muitas restrições. temos.
Seguindo a notação apresentada acima:
A = o evento em que a pessoa tem cabelos compridos
B = o evento em que a pessoa tem tipo sanguíneo AX3
C = o evento em que a pessoa é mulher
P (C | A) = 0,9
P (C | B) = 0,8
P (C) = 0,5 (ou seja, vamos assumir uma proporção igual de homens e mulheres na população em geral)
não parece possível supor que os eventos A e B sejam condicionalmente independentes, dado C! Isso leva diretamente a uma contradição: seP(A∧B|C)=P(A|C)⋅P(B|C)=P(C|A)P(A)P(C)⋅P(C|B)P(B)P(C)
então
Se agora assumimos que A e B também são independentes: maioria dos termos é cancelada e terminamos comP(A∧B)=P(A)P(B)
Seguindo a maravilhosa representação geométrica do problema do whuber: Embora seja verdade que, de um modo geral, possa assumir qualquer valor no intervalo as restrições geométricas restringem significativamente a faixa de valores possíveis para valores de e que não são "muito pequenos". (Embora também possamos limitar os marginais: e )P(C|A∧B) [0,1] P(A) P(B) P(A) P(B)
Vamos calcular o {\ bf menor valor possível} para sob as seguintes restrições geométricas:P(C|A∧B)
1. A fração da área superior (A TRUE) coberta pelo retângulo superior deve ser igual aP(C|A)=0.9
2. A soma das áreas dos dois retângulos deve ser igual aP(C)=0.5
3. A soma da fração das áreas dos dois retângulos coloridos (ou seja, sua sobreposição com o evento B) deve ser igual aP(C|B)=0.8
4. (trivial) O retângulo superior não pode ser movido além do limite esquerdo e não deve ser movido além da sobreposição mínima à esquerda.
5. (trivial) O retângulo inferior não pode ser movido além do limite direito e não deve ser movido além de sua sobreposição máxima à direita.
Essas restrições limitam a liberdade de deslizar os retângulos com hash e, por sua vez, geram limites mais baixos para . A figura abaixo (criada com este script R ) mostra dois exemplosP(C|A∧B)
Percorrer um intervalo de valores possíveis para P (A) e P (B) ( script R ) gera esse gráfico
Em conclusão, podemos limitar a probabilidade condicional P (c | A, B) para dado P (A), P (B)
fonte
Faça as hipóteses é que a pessoa atrás de uma cortina é uma mulher.
Apresentamos duas evidências, a saber:
Evidência 1: Sabemos que a pessoa tem cabelos compridos (e somos informados de que 90% de todas as pessoas com cabelos compridos são do sexo feminino)
Evidência 2: Sabemos que a pessoa tem um tipo sanguíneo raro AX3 (e somos informados de que 80% de todas as pessoas com esse tipo sanguíneo são do sexo feminino)
Dada apenas a Evidência 1, podemos afirmar que a pessoa atrás de uma cortina tem um valor de probabilidade de 0,9 de ser mulher (assumindo uma divisão de 50:50 entre homens e mulheres).
Com relação à pergunta colocada anteriormente no tópico, a saber "Você concorda que a resposta deve ser MAIOR que 0,9?", Sem fazer nenhuma Matemática, eu diria intuitivamente que a resposta deve ser "sim" (é MAIOR que 0,9). A lógica é que a evidência 2 está apoiando a evidência (novamente, assumindo uma divisão de 50:50 para o número de homens e mulheres no mundo). Se nos dissessem que 50% de todas as pessoas com sangue do tipo AX3 eram do sexo feminino, a evidência 2 seria neutra e não teria influência. Mas, como nos dizem que 80% de todas as pessoas com esse tipo de sangue são do sexo feminino, a Evidência 2 está apoiando evidências e logicamente deve aumentar a probabilidade final de uma mulher acima de 0,9.
Para calcular uma probabilidade específica, podemos aplicar a regra de Bayes para a evidência 1 e, em seguida, usar a atualização bayesiana para aplicar a evidência 2 à nova hipótese.
Suponha:
A = o evento em que a pessoa tem cabelos compridos
B = o evento em que a pessoa tem tipo sanguíneo AX3
C = o evento que a pessoa é do sexo feminino (assuma 50%)
Aplicando a regra de Bayes à Evidência 1:
P (C | A) = (P (A | C) * P (C)) / P (A)
Nesse caso, novamente se assumirmos a divisão 50:50 entre homens e mulheres:
P (A) = (0,5 * 0,9) + (0,5 * 0,1) = 0,5
Então, P (C | A) = (0,9 * 0,5) / 0,5 = 0,9 (Não é surpresa, mas seria diferente se não tivéssemos 50:50 divididos entre homens e mulheres)
Usando a atualização bayesiana para aplicar a Evidência 2 e conectando 0,9 como a nova probabilidade anterior, temos:
P (C | A e B) = (P (B | C) * 0,9) / P (E)
Aqui, P (E) é a probabilidade da Evidência 2, dadas as hipóteses de que a pessoa já tem 90% de chance de ser mulher.
P (E) = (0,9 * 0,8) + (0,1 * 0,2) [essa é a lei da probabilidade total: (P (mulher) * P (AX3 | mulher) + P (homem) * P (AX3 | homem)] , P (E) = 0,74
Então, P (C | A AND B) = (0,8 * 0,9) / 0,74 = 0,97297
fonte
Pergunta Restatement and Generalization
e que não contém informações relevantes além do que está implícito nas atribuições? O último conjunto de condições 2 e 4 é um atalho para a declaração de independência tratar cada dos quatro casos, por sua vez.I (BjCk|I)=(Bj|I)(Ck|I),j=0,1k=0,1
Respostas
Caso 1
Temos que especificar a distribuição . O problema é subdeterminado, porque requer oito números, mas temos apenas três equações - as duas condições fornecidas e a condição de normalização.(ABC|I) (ABC|I)
Foi demonstrado por vários meios esotéricos que a distribuição a ser atribuída quando a informação não determina uma solução é a que, de todas as distribuições consistentes com a informação conhecida, possui a maior entropia. Qualquer outra distribuição implica que sabemos mais do que as informações conhecidas, o que obviamente é uma contradição.
Tudo o que precisamos fazer, portanto, é atribuir a distribuição máxima de entropia. É mais fácil dizer do que fazer, e não encontrei uma solução geral de forma fechada. Porém, soluções específicas podem ser encontradas usando um otimizador numérico. Maximizamos sujeito às restrições e e Agora vamos aplicar isso à pergunta. Se tiver-mos−∑i,j,k(AiBjCk|I)ln(AiBjCk|I) ∑i,j,k(AiBjCk|I)=1 (Aa1|Bb1I)=u1i.e.∑k(Aa1Bb1Ck|I)∑i,k(AiBb1Ck|I)=u1 (Aa2|Cc2I)=u2i.e.∑j(Aa2BjCc2|I)∑i,j(AiBjCc2|I)=u2
então , , , , , , , , e descobrimos que, para a solução máxima de entropia, . Portanto, a probabilidade de a pessoa por trás da cortina ser do sexo feminino, uma vez que possui cabelos longos e tipo sanguíneo AX3, é de 0,932.a=1 b=1 c=1 a1=1 b1=1 a2=1 c2=1 u1=0.9 u2=0.8 (A1|B1C1I)≃0.932
Caso 2
Agora, repetimos o exercício com a restrição extra de que, para uma determinada pessoa, conhecer o valor de (o estado do cabelo) não afeta nossa estimativa do valor de (o estado do tipo sanguíneo) e vice-versa. Tudo é o mesmo que no Caso 1, exceto que há duas restrições extras na otimização, a saber: ou seja, Isso forneceB C (B0|ClI)=(B0|I),l=0,1 ∑i(AiB0Cl|I)∑i,j(AiBjCl|I)=∑i,k(AiB0Ck|I),l=0,1 (A1|B1C1I)≃0.936 , portanto, a probabilidade de a pessoa por trás da cortina ser do sexo feminino, pois possui cabelos longos e tipo sanguíneo AX3, é de 0,936.
Caso 3
Agora removemos a condição de independência e a substituímos pela condição anterior de que há uma chance igual de uma pessoa ser homem ou mulher: Desta vez , portanto, a probabilidade de a pessoa atrás da cortina ser do sexo feminino , considerando que ele / ela tem cabelos longos e tipo sanguíneo AX3, é 0,973.(A0|I)=12i.e.∑j,k(A0BjCk|I)=12 (A1|B1C1I)≃0.973
Caso 4
Finalmente, reintroduzimos as restrições de independência do Caso 2 e descobrimos que . Portanto, a probabilidade de a pessoa por trás da cortina ser do sexo feminino, uma vez que possui cabelos longos e tipo sanguíneo AX3, é de 0,989.(A1|B1C1I)≃0.989
fonte
Acredito agora que, se assumirmos uma proporção de homens e mulheres na população em geral, haverá uma única resposta indiscutível.
A = o evento em que a pessoa tem cabelos compridos
B = o evento em que a pessoa tem tipo sanguíneo AX3
C = o evento em que a pessoa é mulher
P (C | A) = 0,9
P (C | B) = 0,8
P (C) = 0,5 (ou seja, vamos assumir uma proporção igual de homens e mulheres na população em geral)
Então P (C | A e B) = [P (C | A) x P (C | B) / P (C)] / [[P (C | A) x P (C | B) / P (C )] + [[1-P (C | A)] x [1-P (C | B)] / [1-P (C)]]]
neste caso, P (C | A e B) = 0,972973
fonte
Nota: Para obter uma resposta definitiva, as respostas abaixo assumem que a probabilidade de uma pessoa, um homem de cabelos compridos e uma mulher de cabelos compridos terem AX3 é aproximadamente a mesma. Se desejar mais precisão, isso deve ser verificado.
Você começa com o conhecimento de que a pessoa tem cabelos compridos; portanto, nesse ponto, as chances são de:
Nota:
A proporção de homens e mulheres na população em geral não importa para nós quando descobrimos que a pessoa tem cabelos compridos. Por exemplo, se houvesse uma mulher em uma centena na população em geral, uma pessoa de cabelos compridos selecionada aleatoriamente ainda seria uma mulher 90% do tempo.A proporção de mulheres para homens importa! (veja a atualização abaixo para detalhes)Em seguida, aprendemos que a pessoa tem AX3. Como o AX3 não tem relação com cabelos longos, sabe-se que a proporção de homens e mulheres é de 50:50 e, como assumimos que as probabilidades são as mesmas, podemos simplesmente multiplicar cada lado da probabilidade e normalizar para que a soma de os lados da probabilidade são iguais a 100:
Assim, a chance de a pessoa por trás da cortina ser do sexo feminino é de aproximadamente 97,297%.
ATUALIZAR
Aqui está uma exploração adicional do problema:
Definições:
Primeiro, é-nos dado que 90% das pessoas de cabelos compridos são do sexo feminino e 80% das pessoas com AX3 são do sexo feminino, portanto:
Como assumimos que a probabilidade do AX3 é independente do sexo e do cabelo comprido, nosso PFX calculado se aplicará a mulheres com cabelos compridos e o pmx se aplicará a homens com cabelos compridos para encontrar o número deles que provavelmente têm o AX3:
Assim, a proporção provável do número de mulheres com cabelos compridos e AX3 em relação ao número de homens com cabelos compridos e AX3 é:
Como é dado que existe um número igual de 50:50, você pode cancelar os dois lados e terminar com 36 mulheres para cada homem. Caso contrário, existem 36 * m / f de fêmeas para cada macho no subgrupo especificado. Por exemplo, se houvesse o dobro de mulheres que homens, haveria 72 mulheres para cada homem, daqueles com cabelos compridos e AX3.
fonte
98% Feminino, interpolação simples. Primeira premissa 90% feminina, deixa 10%, a segunda premissa deixa apenas 2% dos 10% existentes, portanto 98% feminino
fonte