Comparando a estimativa de máxima verossimilhança (MLE) e o teorema de Bayes

12

No teorema bayesiano, , e do livro que estou lendo, é chamado de probabilidade , mas presumo que seja apenas a probabilidade condicional de dado , certo? p(x|y)

p(y|x)=p(x|y)p(y)p(x)
p(x|y)yxy

A estimativa de probabilidade máxima tenta maximizar , certo? Nesse caso, estou muito confuso, porque são duas variáveis ​​aleatórias, certo? Maximizar é apenas descobrir o ? Mais um problema, se essas duas variáveis ​​aleatórias são independentes, então é apenas , certo? Maximizar é maximizar .x , y p ( x | y )p(x|y)x,yp(x|y) p(x|y)p(x)p(x|y)p(x)y^p(x|y)p(x)p(x|y)p(x)

Ou talvez, seja uma função de alguns parâmetros , que é , e o MLE tenta encontrar o que pode maximizar ? Ou mesmo que seja, na verdade, os parâmetros do modelo, e não uma variável aleatória, maximizando a probabilidade de encontrar ?θ p ( x | y ; θ ) θ p ( x | y ) y yp(x|y)θp(x|y;θ)θp(x|y)yy^

ATUALIZAR

Sou iniciante em aprendizado de máquina, e esse problema é uma confusão das coisas que li em um tutorial de aprendizado de máquina. Aqui está, dado um conjunto de dados observado , os valores de destino são e tento ajustar um modelo nesse conjunto de dados , então suponho que, dado , tenha uma forma de distribuição denominada parametrizada por , que é , e assumo que essa seja a probabilidade posterior , certo?{ Y 1 , Y 2 , . . . , y n } x y W θ{x1,x2,...,xn}{y1,y2,...,yn}xyWθp(y|x;θ)

Agora, para estimar o valor de , eu uso o MLE. OK, aí vem o meu problema, acho que a probabilidade é , certo? Maximizar a probabilidade significa que eu deveria escolher o e certo ?p ( x | y ; θ ) θ yθp(x|y;θ)θy

Se minha compreensão da probabilidade estiver errada, mostre-me o caminho certo.

abacate
fonte
Penso que a confusão é esta: o teorema de Bayes é apenas a manipulação das probabilidades condicionais que você fornece no início de sua pergunta. A Estimação Bayesiana utiliza o teorema de Bayes para fazer estimativas de parâmetros. É somente neste último, que a estimativa de máxima verossimilhança (MLE) e o parâmetro theta, etc. entram em jogo.
Zhubarb
@Berkan, bem, na verdade, tento descobrir qual é a probabilidade, considerando . x,y,θ
abacate
1
Entendo, eu recomendaria que você desse um ótimo conjunto de slides de aula introdutórios na estimativa de parâmetros.
Zhubarb 22/10/2013
1
Outro ótimo tópico para se ler são os Estimadores da Empirical Bayes. Acabamos de aprender sobre aqueles em minha classe :) biostat.jhsph.edu/~fdominic/teaching/bio656/labs/labs09/...
bdeonovic

Respostas:

16

Eu acho que o mal-entendido principal deriva de perguntas que você faz na primeira metade da sua pergunta. Abordo essa resposta como contrastando paradigmas inferenciais MLE e Bayesianos. Uma discussão muito acessível do MLE pode ser encontrada no capítulo 1 de Gary King, Unifying Political Methodology. A análise de dados bayesiana de Gelman pode fornecer detalhes sobre o lado bayesiano.

No teorema de Bayes, e do livro que estou lendo, é chamado de probabilidade, mas presumo que seja apenas a probabilidade condicional de dado , certo? p(x|y)xy

p(y|x)=p(x|y)p(y)p(x)
p(x|y)xy

A probabilidade é uma probabilidade condicional. Para um bayesiano, essa fórmula descreve a distribuição do parâmetro com os dados e . Mas como essa notação não reflete sua intenção, a partir de agora usarei ( , ) para parâmetros e para seus dados.x p ( y ) θ y xyxp(y)θyx

Mas sua atualização indica que são observados em alguma distribuição . Se colocarmos nossos dados e parâmetros nos locais apropriados na regra de Bayes, descobriremos que esses parâmetros adicionais não apresentam problemas para os bayesianos: p ( x | θ , y ) p ( θ | x , y ) = p ( x , y | θ ) p ( θ )xp(x|θ,y)

p(θ|x,y)=p(x,y|θ)p(θ)p(x,y)

Acredito que essa expressão é o que você procura na sua atualização.

A estimativa de probabilidade máxima tenta maximizar , certo?p(x,y|θ)

Sim. O MLE postula que Ou seja, trata o termo como desconhecido. (e incognoscível) constante. Por outro lado, a inferência bayesiana trata como uma constante normalizadora (de modo que as probabilidades somam / integram-se à unidade) como uma informação importante: a anterior. Podemos pensar em como uma maneira de incorrer em uma penalidade no procedimento de otimização por "andar muito longe" da região que achamos mais plausível.p ( θ , y )

p(x,y|θ)p(θ|x,y)
p(x)p(θ,y)p(θ,y)p(θ,y)p(x)p(x)p(θ,y)p(θ,y)

Nesse caso, estou muito confuso, porque são variáveis ​​aleatórias, certo? Maximizar é apenas descobrir o ?p ( x , y | θ ) θx,y,θp(x,y|θ)θ^

No MLE, é assumido como uma quantidade fixa desconhecida, mas capaz de ser inferida, não uma variável aleatória. A inferência bayesiana trata como uma variável aleatória. Funções de densidade de Bayesian puts inferência de probabilidade em e recebe funções densidade de probabilidade para fora , ao invés de resumos de ponto do modelo, como no MLE. Ou seja, a inferência bayesiana examina toda a gama de valores de parâmetros e a probabilidade de cada um. O MLE postula que é um resumo adequado dos dados, conforme o modelo. qθ^θθ^

Sycorax diz restabelecer Monica
fonte
1
Obrigado pela sua resposta, eu atualizo minha postagem, consulte minha atualização.
abacate
Esta atualização mudou radicalmente minha compreensão da questão. Inicialmente, pensei que você estivesse considerando como um parâmetro como seus dados. Agora parece que são dados e você está interessado em construir um modelo que descreva o relacionamento entre e . Modificarei minha resposta à medida que tiver tempo. yx(x,y)xy
Sycorax diz Restabelecer Monica
+1 Essa ainda é uma ótima resposta: espero que você a mantenha praticamente intacta, mesmo que você a modifique para corresponder às alterações na pergunta.
whuber
Atualizei minha resposta para refletir sua pergunta atualizada. Espero que esses detalhes ajudem. Eu realmente recomendo me referir às referências que menciono. E espero que a @whuber ainda aprove. ;-)
Sycorax diz Reinstate Monica
Muito obrigado pela atualização, então você quer dizer que, apesar de eu pegar uma forma de distribuição para , devo tratar como dados observados ao tentar estimar o ? p(y|x)x,yθ
abacate
3

Normalmente é uma função do parâmetro . Considere a seguinte reformulação do teorema de Bayes:p(x|y)y

p(θ|x)=p(x|θ)p(θ)p(x)

Ou ainda mais explicitamente (com relação à noção de probabilidade):

p(θ|x)=L(θ;x)p(θ)p(x)

Para um exemplo concreto, considere o modelo

X|θBinomial(θ)θBeta(α,β)
David Marx
fonte
Então, tipicamente não é a variável aleatória, mas , certo? yx
abacate
Y é geralmente um parâmetro no pdf de X. Em uma configuração freqüentista, y é normalmente um valor fixo. Em um cenário bayesiano, o próprio Y é uma variável aleatória (como no exemplo que dei). X | Y também pode ser uma probabilidade condicional no sentido que você quer dizer, eu estava tentando lhe dar a motivação por que essa quantidade é chamada de probabilidade.
22613 David Marx
Com relação ao exemplo concreto dado em sua resposta, você quer dizer que é na verdade uma variável aleatória, mas na distribuição de , ela é tomada como parâmetro? θX
abacate
Só porque algo é uma variável aleatória não significa que não pode ser um parâmetro. Bem-vindo ao maravilhoso mundo da probabilidade bayesiana :)
David Marx
0
  • "... é chamado de probabilidade ..."p(x|y)

p(x|y) é a probabilidade de y dado x . É importante dizer do que é provável. E sim, é apenas a probabilidade condicional de dado .xy

  • "... se essas 2 variáveis ​​aleatórias são independentes, então é apenas , certo? Então maximizar é maximizar ..."p(x|y)p(x)p(x|y)p(x)

Se eles são independentes, ou seja, , é constante em relação a . Tenha cuidado aqui, pois você não especifica o que você está maximizando em relação ao - pelo que você escreveu anteriormente, eu assumiria que você está maximizando em relação a .p ( x ) y yp(x|y)=p(x)p(x)yy

  • ... Ou talvez, seja uma função de alguns parâmetros , que é , e o MLE tenta encontrar o que pode maximizar ? Ou mesmo que y são realmente os parâmetros do modelo, e não a variável aleatória, maximizar a probabilidade é encontrar o ? ...θ p ( x | y ; θ ) θ p ( x | y ) yp(x|y)θp(x|y;θ)θp(x|y)y^

A introdução de torna esse um problema totalmente novo. Em geral, a resposta para a maior parte dessa pergunta aqui parece ser 'depende'. Poderíamos denotar parâmetros como se quiséssemos, e maximizar com relação a eles. Da mesma forma, poderíamos ter uma situação em que maximizamos em relação aos parâmetros se essa fosse uma maneira sensata de abordar o problema em questão.y p ( x | y ; θ ) θθyp(x|y;θ)θ

Pat
fonte
A razão pela qual eu apresento é isso, no livro de aprendizagem de máquina que estou lendo, dado um conjunto de dados e é o valor alvo correspondente, de modo a ajustar um modelo para este conjunto de dados, eu posso usar MLE para estimar qual é o parâmetro do modelo, certo? x y θθxyθ
abacate
0

No manual de referência do STAN:

Se o anterior for uniforme, o modo posterior corresponde à estimativa de máxima verossimilhança (MLE) dos parâmetros. Se o prior não é uniforme, o modo posterior é algumas vezes chamado de estimativa máxima a posterior (PAM).

Neerav
fonte