Estimativa MLE vs MAP, quando usar qual?

13

MLE = Estimativa de Máxima Verossimilhança

MAP = Máximo a posteriori

O MLE é intuitivo / ingênuo, pois começa apenas com a probabilidade de observação dada o parâmetro (ou seja, a função de verossimilhança) e tenta encontrar o parâmetro que melhor se adequa à observação . Mas não leva em consideração o conhecimento prévio.

O MAP parece mais razoável, porque leva em consideração o conhecimento prévio da regra de Bayes.

Aqui está uma pergunta relacionada, mas a resposta não é completa. /signals/13174/differences-using-maximum-likelihood-or-maximum-a-posteriori-for-deconvolution-d

Então, acho que o MAP é muito melhor. Isso está certo? E quando devo usar qual?

machine-learning bayesian estimation maximum-likelihood inference smwikipedia
fonte

18

Se uma probabilidade anterior for fornecida como parte da configuração do problema, use essas informações (por exemplo, use MAP). Se nenhuma informação anterior for fornecida ou assumida, o MAP não será possível e o MLE será uma abordagem razoável.

feijão
fonte

8

Vale acrescentar que o MAP com priores planos é equivalente ao uso de ML.

Tim

Também digno de nota é que, se você deseja um prévio matematicamente "conveniente", pode usar um conjugado anterior, se houver algum para sua situação.

bean

8

Um bayesiano concordaria com você, um freqüentador não concordaria. Esta é uma questão de opinião, perspectiva e filosofia. Eu acho que faz muito mal à comunidade de estatísticas tentar argumentar que um método é sempre melhor que o outro. Muitos problemas terão soluções bayesianas e freqüentistas semelhantes, desde que o bayesiano não tenha um forte anterior.

jsk
fonte

7

Não é simplesmente uma questão de opinião. Existem situações definidas em que um estimador é melhor que o outro.

precisa

2

@ TomMinka Eu nunca disse que não há situações em que um método é melhor que o outro! Eu simplesmente respondi às declarações gerais do OP, como "O MAP parece mais razoável". Tal afirmação é equivalente a uma afirmação de que os métodos bayesianos são sempre melhores, que é uma afirmação que você e eu aparentemente discordamos.

jsk

jok está certo. As abordagens bayesiana e freqüentista são filosoficamente diferentes. Assim, um freqüentador rigoroso consideraria a abordagem bayesiana inaceitável.

Michael R. Chernick 17/03/19

2

Supondo que você tenha informações prévias precisas, o MAP é melhor se o problema tiver uma função de perda zero-uma na estimativa. Se a perda não é zero-um (e em muitos problemas do mundo real não é), pode acontecer que o MLE atinja a menor perda esperada. Nesses casos, seria melhor não se limitar ao MAP e ao MLE como as duas únicas opções, pois ambas são abaixo do ideal.

Tom Minka
fonte

O estimador MAP se um parâmetro depende da parametrização, enquanto a perda "0-1" não. 0-1 entre aspas porque Pelas minhas contas todos os avaliadores irão normalmente dar uma perda de 1 com probabilidade 1, e qualquer tentativa de construir uma aproximação novamente introduz o problema parametrização

cara

1

Na minha opinião, a perda zero e um depende da parametrização, portanto, não há inconsistência.

Tom Minka

0

A resposta curta de @bean explica muito bem. No entanto, gostaria de apontar para a seção 1.1 do artigo Gibbs Sampling para os não iniciados por Resnik e Hardisty, que leva o assunto a uma profundidade maior. Estou escrevendo algumas linhas deste artigo com modificações muito pequenas (esta resposta repete algumas das coisas que o OP sabe por uma questão de integridade)

MLE

Formalmente, o MLE produz a escolha (do parâmetro do modelo) com maior probabilidade de gerar os dados observados.

MAPA

Um MAP estimado é a escolha mais provável, dados os dados observados. Ao contrário do MLE, a estimativa do MAP aplica a Regra de Bayes, para que nossa estimativa possa levar em consideração o conhecimento prévio sobre o que esperamos que nossos parâmetros sejam na forma de uma distribuição de probabilidade anterior.

Pegar

As estimativas MLE e MAP estão nos dando a melhor estimativa, de acordo com suas respectivas definições de "melhor". Mas observe que o uso de uma única estimativa - seja MLE ou MAP - descarta as informações. Em princípio, o parâmetro pode ter qualquer valor (do domínio); podemos não obter melhores estimativas se levarmos em conta toda a distribuição, em vez de apenas um único valor estimado para o parâmetro? Se fizermos isso, usaremos todas as informações sobre o parâmetro que podemos extrair dos dados observados, X.

Portanto, com essa captura, podemos querer usar nenhuma delas. Além disso, como já mencionado por bean e Tim, se você precisar usar um deles, use MAP se tiver obtido anteriormente. Se você não tem antecedentes, o MAP reduz para o MLE. Priores conjugados ajudarão a resolver o problema analiticamente, caso contrário, use Gibbs Sampling.

Gaurav Singhal
fonte

-2

Se os dados forem menores e você tiver antecedentes disponíveis - "IR PARA O MAPA". Se você tiver muitos dados, o MAP convergirá para o MLE. Portanto, no caso de muitos cenários de dados, é sempre melhor executar o MLE em vez do MAP.

Heisenbug
fonte

Não é assim tão simples.

Michael R. Chernick 17/03/19

@MichaelChernick Eu posso estar errado. Eu li isso na escola. Peço que você me corrija onde errei.

Heisenbug

A abordagem freqüentista e a abordagem bayesiana são filosoficamente diferentes. A abordagem de frequência estima o valor dos parâmetros do modelo com base em amostragens repetidas. A abordagem bayesiana trata o parâmetro como uma variável aleatória. Portanto, na abordagem bayesiana, você obtém a distribuição posterior do parâmetro, combinando uma distribuição anterior com os dados. O MAP procura o pico mais alto da distribuição posterior, enquanto o MLE estima o parâmetro apenas observando a função de probabilidade dos dados.

Michael R. Chernick

@ MichaelChernick - Obrigado pela sua contribuição. Mas o MAP não se comporta como um MLE depois de termos dados suficientes. Se quebrarmos a expressão MAP, também obteremos um termo MLE. Com grande quantidade de dados, o termo MLE no MAP assume o anterior.

Heisenbug 18/03/19

Depende do anterior e da quantidade de dados. Eles podem fornecer resultados semelhantes em amostras grandes. A diferença está na interpretação. Meu comentário foi feito para mostrar que não é tão simples quanto você faz. Com uma pequena quantidade de dados, não é simplesmente uma questão de escolher MAP, se você tiver um anterior. Um prior mal escolhido pode levar a uma má distribuição posterior e, portanto, a um PAM ruim.

Michael R. Chernick

Estimativa MLE vs MAP, quando usar qual?

Respostas: