Qual é a diferença na estimativa bayesiana e na estimativa de máxima verossimilhança?

50

Por favor, explique-me a diferença entre a estimativa bayesiana e a estimativa de máxima verossimilhança?

triunfo
fonte
7
Depende do tipo de estimativa bayesiana. MAPA? Média posterior? O resultado de minimizar o risco de Bayes para alguma função de perda? Cada um dos itens acima? Algo mais?
Glen_b
2
Eu respondi a esta pergunta, ou um análogo, aqui. stats.stackexchange.com/questions/73439/… Que problemas você está tendo para entender os dois? Mais detalhes nos ajudarão a dar uma resposta melhor.
Reponha Monica
11
No manual de referência do STAN: "Se o prior for uniforme, o modo posterior corresponderá à estimativa de máxima verossimilhança (MLE) dos parâmetros. Se o prior não for uniforme, o modo posterior às vezes será chamado de estimativa de máximo a posterior (MAP). "
Neerav
@ Neerav, essa é a resposta que eu precisava. thx
javadba 26/11
Uma resposta possivelmente útil para o caso específico da estimativa bayesiana máxima a posteriori é dada aqui .
Pglpm # 28/18

Respostas:

68

É uma pergunta muito ampla e minha resposta aqui começa apenas a arranhar um pouco a superfície. Usarei a regra de Bayes para explicar os conceitos.

Vamos supor que um conjunto de parâmetros de distribuição de probabilidade, , explica melhor o conjunto de dados D . Podemos desejar estimar os parâmetros θ com a ajuda da Regra de Bayes:θDθ

p(θ|D)=p(D|θ)p(θ)p(D)

posterEuor=euEukeeuEuhoodprEuorevEudence

As explicações a seguir:

Estimativa de máxima verossimilhança

Com o MLE, buscamos um valor de ponto para que maximize a probabilidade, p ( D | θ ) , mostrado nas equações acima. Nós podemos denotar esse valor como θ . Em MLE, θ é uma estimativa pontual, não uma variável aleatória.θp(D|θ)θ^θ^

Em outras palavras, na equação acima, MLE trata o termo como uma constante e NÃO nos permite injetar nossas crenças anteriores,p(θ), sobre os valores prováveis ​​deθnos cálculos de estimativa.p(θ)p(D)p(θ)θ

Estimativa Bayesiana

A estimativa bayesiana, por outro lado, calcula completamente (ou às vezes se aproxima) a distribuição posterior . A inferência bayesiana trata θ como uma variável aleatória. Na estimativa bayesiana, colocamos funções de densidade de probabilidade e obtemos funções de densidade de probabilidade, em vez de um único ponto como no MLE.p(θ|D)θ

De todos os valores de possibilitados pela distribuição de saída p ( θ | D ) , é nosso trabalho selecionar um valor que consideremos melhor em algum sentido. Por exemplo, podemos escolher o valor esperado de θ assumindo que sua variação seja pequena o suficiente. A variação que podemos calcular para o parâmetro θ a partir de sua distribuição posterior nos permite expressar nossa confiança em qualquer valor específico que possamos usar como estimativa. Se a variação for muito grande, podemos declarar que não existe uma boa estimativa para θ .θp(θ|D)θθθ

Como contrapartida, a estimativa bayesiana é complexa pelo fato de que agora temos que lidar com o denominador na regra de Bayes, ou seja, . Aqui a evidência - ou probabilidade de evidência - é representada por:evEudence

p(D)=θp(D|θ)p(θ)dθ

Isso leva ao conceito de 'prioros conjugados' na estimativa bayesiana. Para uma determinada função de probabilidade, se tivermos uma escolha a respeito de como expressamos nossas crenças anteriores, devemos usar esse formulário que nos permita realizar a integração mostrada acima. A idéia de conjugados anteriores e como eles são praticamente implementados é explicada muito bem neste post pelo COOlSerdash.

Zhubarb
fonte
11
Você elaboraria mais sobre isso? : "o denominador na regra de Bayes, ou seja, evidência."
Daniel
11
Eu estendi minha resposta.
Zhubarb
@Berkan na equação aqui, P (D | theta) é probabilidade. No entanto, a função de probabilidade é definida como P (theta | D), que é a função do parâmetro, dados dados. Estou sempre confuso sobre isso. O termo probabilidade está se referindo a coisas diferentes aqui? Você poderia elaborar sobre isso? Muito obrigado!
zesla
11
@zesla se meu entendimento estiver correto, P (theta | D) não é a probabilidade - é a posterior. Ou seja, a distribuição de teta depende da fonte de dados da qual você tem amostras. A probabilidade é como você disse: P (D | teta) - a distribuição de seus dados conforme parametrizado por teta, ou, talvez, de maneira mais intuitiva, a “probabilidade de ver o que você vê” como uma função de teta. Isso faz sentido? Todos os outros: por favor, corrijam-me onde estou errado.
Grisaitis #
@zesla, a explicação dada pela grisaite está correta.
Zhubarb 01/08/19
13

Eu acho que você está falando sobre estimativa de pontos como na inferência paramétrica, para que possamos assumir um modelo de probabilidade paramétrica para um mecanismo de geração de dados, mas o valor real do parâmetro é desconhecido.

A estimativa de probabilidade máxima refere-se ao uso de um modelo de probabilidade para dados e à otimização da função de probabilidade conjunta dos dados observados em um ou mais parâmetros. Portanto, é visto que os parâmetros estimados são mais consistentes com os dados observados em relação a qualquer outro parâmetro no espaço de parâmetros. Observe que essas funções de probabilidade não são necessariamente vistas como "condicionadas" aos parâmetros, pois os parâmetros não são variáveis ​​aleatórias; portanto, é um pouco mais sofisticado conceber a probabilidade de vários resultados comparando duas parametrizações diferentes. Acontece que esta é uma abordagem filosoficamente sólida.

A estimativa bayesiana é um pouco mais geral, porque não estamos maximizando necessariamente o análogo bayesiano da probabilidade (a densidade posterior). No entanto, o tipo de estimativa análoga (ou estimativa de modo posterior) é vista como maximização da probabilidade do parâmetro posterior condicional aos dados. Geralmente, as estimativas de Bayes obtidas dessa maneira se comportam quase exatamente como as de ML. A principal diferença é que a inferência de Bayes permite que um método explícito incorpore informações anteriores.

Também 'A História Épica de Máxima Verossimilhança contribui para uma leitura esclarecedora

http://arxiv.org/pdf/0804.2996.pdf

AdamO
fonte
Você elaboraria mais sobre isso? "No entanto, o tipo de estimativa análoga (ou estimativa de modo posterior) é vista como maximização da probabilidade do parâmetro posterior condicional aos dados".
Daniel
O modo posterior é um pouco inadequado, porque, com DFs contínuos, o valor é bem definido. As densidades posteriores estão relacionadas à probabilidade no caso freqüentista, exceto que ele permite simular parâmetros da densidade posterior. Curiosamente, alguém pensa intuitivamente na "média posterior" como sendo a melhor estimativa pontual do parâmetro. Essa abordagem geralmente é feita e, para densidades unimodais simétricas, isso produz intervalos válidos e confiáveis ​​que são consistentes com o ML. O modo posterior é apenas o valor do parâmetro no ápice da densidade posterior.
Adamo
Sobre "isso produz intervalos credíveis válidos que são consistentes com o ML".: Depende realmente do modelo, certo? Eles podem ser consistente ou não ...
Daniel
11
A questão das premissas paramétricas subjacentes motiva uma discussão sobre inferência totalmente paramétrica vs. semi-paramétrica ou não -paramétrica . Essa não é uma questão ML vs Bayesiana e você não é o primeiro a cometer esse erro. O ML é uma abordagem totalmente paramétrica, que permite estimar algumas coisas que SP ou NP não podem (e geralmente com mais eficiência quando podem). Especificar corretamente o modelo de probabilidade no ML é exatamente como escolher as propriedades corretas anteriores e todas as propriedades de robustez (e questões de sensibilidade) que isso implica.
30913 AdamOu
Aliás, seus comentários acenderam essa pergunta em minha mente. Algum comentário sobre isso? stats.stackexchange.com/questions/74164/…
Daniel
2

A estimativa bayesiana é a inferência bayesiana, enquanto o MLE é um tipo de métodos de inferência freqüentista.

f(x1 1,...,xn;θ)=f(θ;x1 1,...,xn)f(x1 1,...,xn)f(θ)euEukeeuEuhood=posterEuorevEudenceprEuorp(θ)=1 1/6

A alternativa do MLE na inferência bayesiana é chamada de estimativa máxima a posteriori (MAP para abreviar) e, na verdade, o MLE é um caso especial de MAP onde o prior é uniforme, como vemos acima e como indicado na Wikipedia :

Do ponto de vista da inferência bayesiana, o MLE é um caso especial de estimativa máxima a posteriori (PAM) que assume uma distribuição prévia uniforme dos parâmetros.

Para detalhes, consulte este artigo incrível: MLE vs MAP: a conexão entre Máxima Verossimilhança e Máxima Estimação Posteriori .

E mais uma diferença é que a probabilidade máxima é propensa ao excesso de ajuste, mas se você adotar a abordagem bayesiana, o problema do excesso de ajuste pode ser evitado.

Lerner Zhang
fonte
11
Uma das coisas legais sobre Bayes é que você não é obrigado a calcular nenhuma estimativa pontual. Toda a densidade posterior pode ser sua "estimativa".
Frank Harrell
@FrankHarrell Prezado professor Harrell, você poderia me ajudar a editar a resposta se eu cometesse alguns erros terríveis em algum lugar? Muito obrigado!
Lerner Zhang
11
Não quis dizer que você cometeu um erro.
Frank Harrell
@ lerner: quero advertir contra a identificação da estimativa de probabilidade máxima como um caso particular da estimativa de máxima a posteriori (quando o prior é constante): veja o porquê nesta resposta .
Pglpm