Em "Aprendizado de máquina: uma perspectiva probabilística" de Kevin Murphy, capítulo 3.2, o autor demonstra o aprendizado do conceito bayesiano em um exemplo chamado "jogo de números": Depois de observar amostras de , queremos escolha uma hipótese que melhor descreva a regra que gerou as amostras. Por exemplo "números pares" ou "números primos".{ 1 , . . . , 100 } h
As estimativas máxima a posteriori e máxima verossimilhança são definidas como:
onde representa as probabilidades anteriores de várias hipóteses e a posterior é definida como:
iff , isto é, qual a probabilidade de que uma amostragem uniforme com substituição da hipótese produza o conjunto . Intuitivamente, significa que o posterior é mais alto para hipóteses "menores". Por exemplo, hipóteses "potências de 2" explicam observações melhores que "números pares".
Tudo isso está claro. No entanto, estou confuso sobre a seguinte frase (mesmo que intuitivamente faça todo sentido):
Como o prazo de probabilidade depende exponencialmente de e o anterior permanece constante, à medida que obtemos mais e mais dados, a estimativa do MAP converge para a estimativa de probabilidade máxima.
É verdade que a probabilidade depende exponencialmente de ; no entanto, o número exponencial está no intervalo e, como , , a probabilidade deve realmente desaparecer.
Por que o MAP converge para o MLE nesse caso?
fonte
Respostas:
Há duas questões aqui: primeiro, por que o MAP converge para o MLE em geral (mas nem sempre) e o problema de "probabilidade de fuga".
Para a primeira edição, nos referimos ao teorema de Bernstein-von Mises. A essência disso é que, à medida que o tamanho da amostra aumenta, as informações relativas contidas nos dados anteriores e nos dados mudam a favor dos dados, de modo que o posterior se torna mais concentrado em torno da estimativa de dados apenas do MLE e do pico na verdade converge para o MLE (com a ressalva usual de que certas suposições devem ser atendidas). Consulte a página da Wikipedia para uma breve visão geral.
Para a segunda questão, isso ocorre porque você não normalizou a densidade posterior. Pela regra de Bayes:
e, embora como , como você observa, o mesmo acontece com . Para um pouco mais de concretude, se assumirmos duas hipóteses e , encontraremos a posterior por:P( D | h ) → 0 n → ∞ P( D ) h1 h2
Tanto o numerador quanto o denominador têm termos aumentados para a potência , então como , mas deve ficar claro que a normalização necessária corrige o problema que isso causaria.→ 0 N → ∞N → 0 N→ ∞
fonte