Por que o MAP converge para o MLE?

8

Em "Aprendizado de máquina: uma perspectiva probabilística" de Kevin Murphy, capítulo 3.2, o autor demonstra o aprendizado do conceito bayesiano em um exemplo chamado "jogo de números": Depois de observar amostras de , queremos escolha uma hipótese que melhor descreva a regra que gerou as amostras. Por exemplo "números pares" ou "números primos".{ 1 , . . . , 100 } hN{1,...,100}h

As estimativas máxima a posteriori e máxima verossimilhança são definidas como:

h^MAP=argmaxh p(D|h)p(h)=argmaxh[logp(D|h)+logp(h)],

h^MeuE=argmaxh p(D|h)=argmaxhregistrop(D|h),

onde p(h) representa as probabilidades anteriores de várias hipóteses e a posterior é definida como:

p(D|h)=[1|h|]N,

iff Dh , isto é, qual a probabilidade de que uma amostragem uniforme com substituição da hipótese h produza o conjunto D . Intuitivamente, significa que o posterior é mais alto para hipóteses "menores". Por exemplo, hipóteses "potências de 2" explicam observações {2,4,8,16,64} melhores que "números pares".

Tudo isso está claro. No entanto, estou confuso sobre a seguinte frase (mesmo que intuitivamente faça todo sentido):

Como o prazo de probabilidade depende exponencialmente de e o anterior permanece constante, à medida que obtemos mais e mais dados, a estimativa do MAP converge para a estimativa de probabilidade máxima.N

É verdade que a probabilidade depende exponencialmente de ; no entanto, o número exponencial está no intervalo e, como , , a probabilidade deve realmente desaparecer.N(0 0,1)NxN0 0

Por que o MAP converge para o MLE nesse caso?

Jan Kukacka
fonte
1
Isso é uma consequência do teorema de Bernstein - von Mises: nber.org/WNE/Slides7-31-07/slides_7_bayes.pdf (comece no slide 9.) Também: andrewgelman.com/2017/11/27/asymptotically-we- estão todos mortos .
jbowman
Obrigado pelas referências. No entanto, como eles explicam esse exemplo contraditório?
Jan KUKACKA

Respostas:

5

Há duas questões aqui: primeiro, por que o MAP converge para o MLE em geral (mas nem sempre) e o problema de "probabilidade de fuga".

Para a primeira edição, nos referimos ao teorema de Bernstein-von Mises. A essência disso é que, à medida que o tamanho da amostra aumenta, as informações relativas contidas nos dados anteriores e nos dados mudam a favor dos dados, de modo que o posterior se torna mais concentrado em torno da estimativa de dados apenas do MLE e do pico na verdade converge para o MLE (com a ressalva usual de que certas suposições devem ser atendidas). Consulte a página da Wikipedia para uma breve visão geral.

Para a segunda questão, isso ocorre porque você não normalizou a densidade posterior. Pela regra de Bayes:

P(h|D)=P(D|h)p(h)p(D)

e, embora como , como você observa, o mesmo acontece com . Para um pouco mais de concretude, se assumirmos duas hipóteses e , encontraremos a posterior por:P(D|h)0 0nP(D)h1h2

P(h1|D)=P(D|h1)p(h1)P(D|h1)p(h1)+P(D|h2)p(h2)

Tanto o numerador quanto o denominador têm termos aumentados para a potência , então como , mas deve ficar claro que a normalização necessária corrige o problema que isso causaria.0 N N0 0N

jbowman
fonte