Por que as distribuições de probabilidade se multiplicam aqui?

9

Seja por exemplo, o seu número de dias restantes. Um médico 1 avalia a distribuição de como um gaussiano: . Outro médico independente 2 avalia . Ambos os médicos são igualmente confiáveis. Como combinar as duas informações?X P ( X ) N ( μ 1 , σ 1 ) P ( X ) N ( μ 2 , σ 2 )XXP(X)N(μ1,σ1)P(X)N(μ2,σ2)

No presente artigo de blog , o autor diz que

Se temos duas probabilidades e queremos saber a chance de ambas serem verdadeiras, apenas as multiplicamos. Então, pegamos os dois blobs gaussianos e os multiplicamos: insira a descrição da imagem aqui

Editar A maioria das pessoas (eu fiz essa pergunta pela primeira vez em math.SE) respondeu que esta é a relação de independência trivial mas ainda estou tendo dificuldades para entender o que e neste contexto: provavelmente não eventos como "o dado dará um 3" ou "o paciente está doente". Além disso, provavelmente há algo mais, porque o produto de duas densidades não é uma densidade de probabilidade, uma vez que, em geral, . Portanto, provavelmente não é tão simples assim.A B R P ( x ) 21P(AB)=P(A)P(B)ABRP(x)21

Vamos dar outro exemplo. Um especialista 1 diz que um dado está perfeitamente equilibrado. Outro especialista 2 diz a você, independentemente, o mesmo. Então a probabilidade dos dados darem um 3 certamente não é 1/6 .1/62

compreendido
fonte

Respostas:

8

Essas operações estão sendo realizadas com probabilidade e não probabilidade. Embora a distinção possa ser sutil, você identificou um aspecto crucial: o produto de duas densidades nunca é uma densidade.

A linguagem do blog sugere isso - mas ao mesmo tempo, fica sutilmente errada -, então vamos analisá-la:

A média dessa distribuição é a configuração para a qual as duas estimativas são mais prováveis ​​e, portanto, é o melhor palpite para a verdadeira configuração, considerando todas as informações que temos.

  1. Já observamos que o produto não é uma distribuição. (Embora possa ser transformado em um via multiplicação por um número adequado, não é isso que está acontecendo aqui.)

  2. As palavras "estimativas" e "melhor palpite" indicam que esse mecanismo está sendo usado para estimar um parâmetro - nesse caso, a "configuração verdadeira" (coordenadas x, y).

  3. Infelizmente, a média não é o melhor palpite. O modo é Este é o princípio da máxima verossimilhança (ML).

μμXiμXiifiμRR

Pr(XiR)=Rfi(x;μ)dx.

Terceiro, presume-se que os dois sensores estejam operando com independência física , o que é considerado como implicando independência estatística .

Por definição, a probabilidade das duas observações é a densidade de probabilidade que elas teriam sob essa distribuição conjunta, dado que a verdadeira localização é . A suposição de independência implica que esse é o produto das densidades. Para esclarecer um ponto sutil,x1,x2μ

  1. A função do produto que atribui a uma observação não é uma densidade de probabilidade para ; Contudo,x xf1(x;μ)f2(x;μ)xx

  2. O produto é a densidade da junta do par ordenado .( x 1 , x 2 )f1(x1;μ)f2(x2;μ)(x1,x2)

Na figura postada, é o centro de um blob, é o centro de outro e os pontos em seu espaço representam valores possíveis de . Observe que nem nem têm a intenção de dizer algo sobre as probabilidades de ! é apenas um valor fixo desconhecido . Não é uma variável aleatória.x1x2μf1f2μμ

Aqui está outra reviravolta sutil: a probabilidade é considerada uma função de . Nós temos os dados - nós estamos apenas tentando descobrir o que é provável que seja. Assim, o que precisamos traçar é a função de probabilidadeμμ

Λ(μ)=f1(x1;μ)f2(x2;μ).

É uma coincidência singular que isso também seja gaussiano! A demonstração é reveladora. Vamos fazer as contas em apenas uma dimensão (em vez de duas ou mais) para ver o padrão - tudo generaliza para mais dimensões. O logaritmo de um gaussiano tem a forma

logfi(xi;μ)=AiBi(xiμ)2

para constantes e . Assim, a probabilidade do log éAiBi

logΛ(μ)=A1B1(x1μ)2+A2B2(x2μ)2=C(B1+B2)(μB1x1+B2x2B1+B2)2

onde não depende de . Este é o log de um gaussiano em que o papel do foi substituído pela média ponderada mostrada na fração.Cμxi

Vamos voltar ao tópico principal. A estimativa de ML de é o valor que maximiza a probabilidade. Equivalentemente, maximiza esse gaussiano que acabamos de derivar do produto dos gaussianos. Por definição, o máximo é um modo . É coincidência - resultante da simetria pontual de cada gaussiano em torno de seu centro - que o modo coincide com a média.μ


Essa análise revelou que várias coincidências na situação específica obscureceram os conceitos subjacentes:

  • uma distribuição multivariada (conjunta) era facilmente confundida com uma distribuição univariada (o que não é);

  • a probabilidade parecia uma distribuição de probabilidade (o que não é);

  • o produto dos gaussianos passa a ser gaussiano (uma regularidade que geralmente não é verdadeira quando os sensores variam de maneiras não gaussianas);

  • e o modo coincide com a média (que é garantida apenas para sensores com respostas simétricas em torno dos valores reais).

Somente focando nesses conceitos e eliminando os comportamentos coincidentes podemos ver o que realmente está acontecendo.

whuber
fonte
1
Muito obrigado por esta resposta maravilhosa. Parece que a pergunta não é tão simples quanto parece. Eu estava realmente me perguntando por que era tão difícil para mim entender o conceito de independência que eu achava que conhecia bem. Levarei tempo para garantir que todos os pontos estejam claros.
anderstood 19/08/19
2
Recompensa virtual +150. Quando você escreve "o produto de duas densidades nunca é uma densidade", e a densidade uniforme em , ou a densidade reunida em 0? Não seria (ainda) melhor dizer " genericamente não é uma densidade"? [0,1]
anderstood
1
Você está certo. Eu tinha em mente uma desigualdade que pode se tornar uma igualdade quando todos os valores da densidade são zero, um ou infinito. Todos os seus contra-exemplos são desse tipo.
whuber
6

Eu já vejo uma resposta excelente, mas estou postando a minha desde que comecei a escrevê-la.

O médico 1 tem este modelo de previsão:d1N(μ1,σ1)

O médico 2 tem este modelo de previsão:d2N(μ2,σ2)

Portanto, para avaliarmos a probabilidade conjunta , precisamos apenas perceber que isso é fatorado em desde devido à independência dos dois médicos.P(d1,d2)=P(d1|d2)P(d2)P(d1)P(d2)P(d1|d2)=P(d1)

Dr. Mike
fonte
2
+1 virtual para detalhes detalhados. É uma pena que o sistema não me permita dar o +1 real.
Sorte
Como você definiria como um evento? Por exemplo, "os dados dão um 3" é um evento, assim como "ganha mais de 100". Aqui não posso formulá-lo dessa maneira, porque não tem um pfd, é um pfd. Por exemplo, posso calcular a probabilidade de ter dias de vida, de acordo com o médico 1, mas qual é a probabilidade de ? d1d1xd1
anderstood 19/08/19
Talvez eu esteja confuso porque entendo como um evento, enquanto é uma variável aleatória. Então, é a variável aleatória que descreve o número de dias restantes de acordo com o Médico 1. Mas qual é o significado da probabilidade conjunta de e é um número real em ? E se assume o valor "3 dias" e assume o valor "4 dias"? Espero que minhas perguntas o ajudem a entender o que estou perdendo. d 1 P ( d 1 , d 2 ) [ 0 , 1 ] d 1 d 2d1d1P(d1,d2)[0,1]d1d2
anderstood 19/08/16
2
Como os gaussianos são densidades de probabilidade , não probabilidades, essa explicação é incompleta.
whuber