Estimativa MLE vs MAP, quando usar qual?

13

MLE = Estimativa de Máxima Verossimilhança

MAP = Máximo a posteriori

O MLE é intuitivo / ingênuo, pois começa apenas com a probabilidade de observação dada o parâmetro (ou seja, a função de verossimilhança) e tenta encontrar o parâmetro que melhor se adequa à observação . Mas não leva em consideração o conhecimento prévio.

O MAP parece mais razoável, porque leva em consideração o conhecimento prévio da regra de Bayes.

Aqui está uma pergunta relacionada, mas a resposta não é completa. /signals/13174/differences-using-maximum-likelihood-or-maximum-a-posteriori-for-deconvolution-d

Então, acho que o MAP é muito melhor. Isso está certo? E quando devo usar qual?

smwikipedia
fonte

Respostas:

18

Se uma probabilidade anterior for fornecida como parte da configuração do problema, use essas informações (por exemplo, use MAP). Se nenhuma informação anterior for fornecida ou assumida, o MAP não será possível e o MLE será uma abordagem razoável.

feijão
fonte
8
Vale acrescentar que o MAP com priores planos é equivalente ao uso de ML.
Tim
Também digno de nota é que, se você deseja um prévio matematicamente "conveniente", pode usar um conjugado anterior, se houver algum para sua situação.
bean
8

Um bayesiano concordaria com você, um freqüentador não concordaria. Esta é uma questão de opinião, perspectiva e filosofia. Eu acho que faz muito mal à comunidade de estatísticas tentar argumentar que um método é sempre melhor que o outro. Muitos problemas terão soluções bayesianas e freqüentistas semelhantes, desde que o bayesiano não tenha um forte anterior.

jsk
fonte
7
Não é simplesmente uma questão de opinião. Existem situações definidas em que um estimador é melhor que o outro.
precisa
2
@ TomMinka Eu nunca disse que não há situações em que um método é melhor que o outro! Eu simplesmente respondi às declarações gerais do OP, como "O MAP parece mais razoável". Tal afirmação é equivalente a uma afirmação de que os métodos bayesianos são sempre melhores, que é uma afirmação que você e eu aparentemente discordamos.
jsk
jok está certo. As abordagens bayesiana e freqüentista são filosoficamente diferentes. Assim, um freqüentador rigoroso consideraria a abordagem bayesiana inaceitável.
Michael R. Chernick 17/03/19
2

Supondo que você tenha informações prévias precisas, o MAP é melhor se o problema tiver uma função de perda zero-uma na estimativa. Se a perda não é zero-um (e em muitos problemas do mundo real não é), pode acontecer que o MLE atinja a menor perda esperada. Nesses casos, seria melhor não se limitar ao MAP e ao MLE como as duas únicas opções, pois ambas são abaixo do ideal.

Tom Minka
fonte
O estimador MAP se um parâmetro depende da parametrização, enquanto a perda "0-1" não. 0-1 entre aspas porque Pelas minhas contas todos os avaliadores irão normalmente dar uma perda de 1 com probabilidade 1, e qualquer tentativa de construir uma aproximação novamente introduz o problema parametrização
cara
1
Na minha opinião, a perda zero e um depende da parametrização, portanto, não há inconsistência.
Tom Minka
0

A resposta curta de @bean explica muito bem. No entanto, gostaria de apontar para a seção 1.1 do artigo Gibbs Sampling para os não iniciados por Resnik e Hardisty, que leva o assunto a uma profundidade maior. Estou escrevendo algumas linhas deste artigo com modificações muito pequenas (esta resposta repete algumas das coisas que o OP sabe por uma questão de integridade)

MLE

Formalmente, o MLE produz a escolha (do parâmetro do modelo) com maior probabilidade de gerar os dados observados.

MAPA

Um MAP estimado é a escolha mais provável, dados os dados observados. Ao contrário do MLE, a estimativa do MAP aplica a Regra de Bayes, para que nossa estimativa possa levar em consideração o conhecimento prévio sobre o que esperamos que nossos parâmetros sejam na forma de uma distribuição de probabilidade anterior.

Pegar

As estimativas MLE e MAP estão nos dando a melhor estimativa, de acordo com suas respectivas definições de "melhor". Mas observe que o uso de uma única estimativa - seja MLE ou MAP - descarta as informações. Em princípio, o parâmetro pode ter qualquer valor (do domínio); podemos não obter melhores estimativas se levarmos em conta toda a distribuição, em vez de apenas um único valor estimado para o parâmetro? Se fizermos isso, usaremos todas as informações sobre o parâmetro que podemos extrair dos dados observados, X.

Portanto, com essa captura, podemos querer usar nenhuma delas. Além disso, como já mencionado por bean e Tim, se você precisar usar um deles, use MAP se tiver obtido anteriormente. Se você não tem antecedentes, o MAP reduz para o MLE. Priores conjugados ajudarão a resolver o problema analiticamente, caso contrário, use Gibbs Sampling.

Gaurav Singhal
fonte
-2

Se os dados forem menores e você tiver antecedentes disponíveis - "IR PARA O MAPA". Se você tiver muitos dados, o MAP convergirá para o MLE. Portanto, no caso de muitos cenários de dados, é sempre melhor executar o MLE em vez do MAP.

Heisenbug
fonte
Não é assim tão simples.
Michael R. Chernick 17/03/19
@MichaelChernick Eu posso estar errado. Eu li isso na escola. Peço que você me corrija onde errei.
Heisenbug
A abordagem freqüentista e a abordagem bayesiana são filosoficamente diferentes. A abordagem de frequência estima o valor dos parâmetros do modelo com base em amostragens repetidas. A abordagem bayesiana trata o parâmetro como uma variável aleatória. Portanto, na abordagem bayesiana, você obtém a distribuição posterior do parâmetro, combinando uma distribuição anterior com os dados. O MAP procura o pico mais alto da distribuição posterior, enquanto o MLE estima o parâmetro apenas observando a função de probabilidade dos dados.
Michael R. Chernick
@ MichaelChernick - Obrigado pela sua contribuição. Mas o MAP não se comporta como um MLE depois de termos dados suficientes. Se quebrarmos a expressão MAP, também obteremos um termo MLE. Com grande quantidade de dados, o termo MLE no MAP assume o anterior.
Heisenbug 18/03/19
Depende do anterior e da quantidade de dados. Eles podem fornecer resultados semelhantes em amostras grandes. A diferença está na interpretação. Meu comentário foi feito para mostrar que não é tão simples quanto você faz. Com uma pequena quantidade de dados, não é simplesmente uma questão de escolher MAP, se você tiver um anterior. Um prior mal escolhido pode levar a uma má distribuição posterior e, portanto, a um PAM ruim.
Michael R. Chernick