Probabilidade - Por que multiplicar?

22

Estou estudando sobre estimativa de máxima verossimilhança e li que a função de verossimilhança é o produto das probabilidades de cada variável. Por que é o produto? Por que não a soma? Estou tentando pesquisar no Google, mas não consigo encontrar respostas significativas.

https://en.wikipedia.org/wiki/Maximum_likelihood

RuiQi
fonte
7
Observe que esse não é necessariamente o caso e, em geral, a probabilidade máxima é definida em termos da densidade conjunta das variáveis ​​aleatórias. Claro, se eles são independentes sua densidade conjunta é apenas o produto das marginais
Ant
Lembre-se de que multiplicar é apenas uma abreviação para adição. Quando digo 2 vezes 3, digo 2 + 2 + 2. Nós nos multiplicamos porque somos preguiçosos. Quem tem tempo para fazer isso da maneira mais difícil? Você pode adicionar se isso ajuda a ver o que está acontecendo (me ajudou a entender o problema de Monty Hall), mas depois de um tempo você ficará entediado.
Candied_orange 11/05
digamos que você tem 80% de probabilidade de ter cabelos castanhos e 75% de probabilidade de ter olhos castanhos. Você acha que é possível que a probabilidade de ser de cabelos castanhos e olhos castanhos é 80% + 75% = 155%? que tal 80% * 75% = 60%?
Njzk2

Respostas:

39

Essa é uma pergunta muito básica e, em vez de usar linguagem formal e notação matemática, tentarei respondê-la em um nível em que todos que possam entender a pergunta também possam entender a resposta.

Imagine que temos uma raça de gatos. Eles têm 75% de probabilidade de nascerem brancos e 25% de probabilidade de nascerem cinzentos, sem outras cores. Além disso, eles têm 50% de probabilidade de ter olhos verdes e 50% de probabilidade de ter olhos azuis, e a cor da pelagem e a cor dos olhos são independentes.

Agora vamos ver uma ninhada de oito gatinhos:

insira a descrição da imagem aqui

Você verá que 1 em cada 4, ou 25%, é cinza. Além disso, 1 em 2, ou 50%, tem olhos azuis. Agora a questão é:

quantos gatinhos têm pêlo cinza e olhos azuis?

Você pode contá-los, a resposta é uma. Ou seja, , ou 12,5% de 8 gatinhos.14×12=18

Por que isso acontece? Porque qualquer gato tem uma probabilidade de 1 em 4 de ser cinza. Então, escolha quatro gatos e você pode esperar que um deles seja cinza. Mas se você escolher apenas quatro gatos dentre muitos (e obter o valor esperado de 1 gato cinza), aquele que é cinza tem uma probabilidade 1 em 2 de ter olhos azuis. Isso significa que, do total de gatos que você escolhe, primeiro multiplica o total em 25% para obter os gatos cinzentos e, em seguida, multiplica os 25% selecionados de todos os gatos por 50% para obter os que têm olhos azuis. Isso lhe dá a probabilidade de obter gatos cinza de olhos azuis.

Resumindo-os, você terá , o que torna ou 6 em 8. Na nossa imagem, isso corresponde a resumir o gatos com olhos azuis e gatos com pêlo cinza - e contando o gatinho cinza de olhos azuis duas vezes! Esse cálculo pode ter seu lugar, mas é incomum nos cálculos de probabilidade, e certamente não é o que você está perguntando.14+1234

rumtscho
fonte
1
Estou ciente de que as outras respostas aqui significam a mesma coisa. Ainda acho que é necessária uma representação visual aqui - se o OP fosse capaz de visualizar o conceito, ele provavelmente já teria chegado à resposta.
rumtscho
Esta é realmente uma resposta fantástica, pois mostra cada variável independente como um eixo independente na matriz do gato. Isso facilita a compreensão. Vou usar este exemplo para ensinar meus filhos!
dotancohen
3
Essa resposta é realmente falha, porque ainda confunde o valor observado e o esperado. Vendo como é popular, tentarei encontrar tempo para atualizá-lo com uma explicação de por que essa maneira de agrupar os gatos nos fornece um estimador de probabilidade máxima (ou, resolvendo o problema de escolher oito gatos aleatórios e descobrir que eles não são os aqueles que pintei na figura).
rumtscho
Por que não pode ser essa a população inteira desses gatos? (Digamos que eles tenham alguma propriedade especial de pesquisa - suas línguas são quimioluminescentes, por exemplo.) Então a fusão é não prejudicial.
Eric Towers
16

UMABSUMABP(UMAB)=P(UMAB)=P(UMA)P(B)UMA1,UMA2,...UMAnP(UMAEuEuEu)=EuEuP(UMAEu)Eu[1,2,...,n]

x1,x2,...,xnnf(x1,x2,...,xn|θ)=Eu=1Eu=nf(xEu|θ)

Bahgat Nassour
fonte
6

P(UMAB)P(UMA)P(B)

Portanto, se você assumir que todas as suas observações são independentes, a probabilidade de observar todos os valores que viu é igual ao produto das probabilidades individuais.

Cliff AB
fonte
8
P(UMAB)
Oi obrigado pela resposta! Por que maximizo a probabilidade (função de densidade articular)? Por que não posso maximizar a soma das probabilidades de toda observação (ou qualquer outra função)? Gostaria de encontrar a razão pela qual a função de densidade articular é escolhida. A Wikipedia começa usando a função de densidade articular. Mas existe uma razão pela qual usamos a função de densidade articular? É isso que tenho tentado entender.
RuiQi 10/10
@haziqRazali, a ideia do MLE é escolher as estimativas para tornar a amostra que você provavelmente forneceu a distribuição. Daí o nome de máxima verossimilhança
Repmat 10/05
1
@HaziqRazali Uma pergunta como "por que maximize a probabilidade" é uma nova pergunta (um que tenha sido feita e respondida em outro lugar no site)
Glen_b -Reinstate Monica
3

Por que não adicionar?

Porque isso claramente não faz sentido. Suponha que você tenha um quarto e um níquel e queira inverter os dois. Há uma chance de 50% do trimestre subir cabeças, e uma chance de 50% de níquel subir cabeças. Se a chance de ambas as cabeças chegarem à soma, isso daria 100% de chance, o que é obviamente errado, pois não deixa chance para HT, TH e TT.

Por que multiplicar?

Porque isso faz sentido. Quando você multiplica a chance de 50% do trimestre subindo cara pela chance de 50% do níquel subindo cara, você obtém 0,5 x 0,5 = 0,25 = 25% de chance de ambas as moedas serem cara. Dado que existem quatro combinações possíveis (HH, HT, TH, HT) e cada uma é igualmente provável, isso se encaixa perfeitamente. Ao avaliar a probabilidade de dois eventos independentes ocorrerem, multiplicamos suas probabilidades individuais.

Monty Harder
fonte
2

Estou lendo essas postagens porque, como o Pôster original, minha necessidade é entender por que o ' Probabilidade ' fn é o ' Produto ' da densidade de cada valor de amostra - ' x '. Uma razão legível e lógico é dada sob o título Princípio da máxima probabilidade Ref: [ http://www-structmed.cimr.cam.ac.uk/Course/Likelihood/likelihood.html] Uma outra citação Matematicamente, a probabilidade é definida como a probabilidade de fazer o conjunto de medidas (mesma ref.) Em resumo, a probabilidade de você chegar à amostra que tem em mãos.

Gênio
fonte
0

O objetivo do método da máxima verossimilhança é encontrar um estimador que maximize a probabilidade de observar certos valores da variável (variável endógena). Essa é a razão pela qual devemos multiplicar as probabilidades de ocorrência.

Por exemplo: imagine que o número de telefonemas que uma secretária possa atender em uma hora segue uma distribuição de mensagens. Em seguida, você extrai 2 valores da amostra (5 ligações e 8 ligações por hora). Agora você deve responder a esta pergunta. Qual é o valor do parâmetro que maximiza a probabilidade de observar 5 e 8 ligações telefônicas simultaneamente ?. Depois, tente responder com a probabilidade de observar todos os valores da amostra

Devido às variáveis ​​aleatórias independentes,

f (y1 = 5 chamadas telefônicas) * f (y2 = 8 chamadas telefônicas) = ​​∏if (y, θ) = L (θ, y1, y2)

Por fim, tente responder, a probabilidade de observar todos os valores da amostra.

Enzo Cabañas
fonte