1º exemplo
Um caso típico é a marcação no contexto do processamento de linguagem natural. Veja aqui uma explicação detalhada. A idéia é basicamente ser capaz de determinar a categoria lexical de uma palavra em uma frase (é um substantivo, um adjetivo, ...). A idéia básica é que você tenha um modelo de sua linguagem consistindo em um modelo de markov oculto ( HMM ). Nesse modelo, os estados ocultos correspondem às categorias lexicais e os estados observados às palavras reais.
O respectivo modelo gráfico tem a forma,
onde é a sequência de palavras na frase e é a sequência de tags.y=(y1,...,yN)x=(x1,...,xN)
Uma vez treinado, o objetivo é encontrar a sequência correta de categorias lexicais que correspondem a uma determinada frase de entrada. Isso é formulado para encontrar a sequência de tags que são mais compatíveis / provavelmente geradas pelo modelo de linguagem, ou seja,
f(y)=argmaxx∈Yp(x)p(y|x)
2º Exemplo
Na verdade, um exemplo melhor seria regressão. Não apenas porque é mais fácil de entender, mas também porque torna claras as diferenças entre máxima verossimilhança (ML) e máxima a posteriori (PAM).
Basicamente, o problema é o de ajustar alguma função fornecida pelas amostras com uma combinação linear de um conjunto de funções ,
onde são as funções e são os pesos. É geralmente assumido que as amostras estão corrompidas pelo ruído gaussiano. Portanto, se assumirmos que a função de destino pode ser exatamente escrita como uma combinação linear, teremos,t
y(x;w)=∑iwiϕi(x)
ϕ(x)w
t=y(x;w)+ϵ
portanto, temos
A solução ML desse problema é equivalente a minimizar,p(t|w)=N(t|y(x;w))
E(w)=12∑n(tn−wTϕ(xn))2
que produz a conhecida solução de erro do quadrado mínimo. Agora, ML é sensível ao ruído e, em certas circunstâncias, não é estável. O MAP permite que você escolha melhores soluções, colocando restrições nos pesos. Por exemplo, um caso típico é a regressão de crista, em que você exige que os pesos tenham uma norma o menor possível,
E(w)=12∑n(tn−wTϕ(xn))2+λ∑kw2k
o que equivale a definir um Gaussian anterior nos pesos . Ao todo, os pesos estimados sãoN(w|0,λ−1I)
w=argminwp(w;λ)p(t|w;ϕ)
Observe que no MAP os pesos não são parâmetros como no ML, mas variáveis aleatórias. No entanto, tanto o ML quanto o MAP são estimadores pontuais (eles retornam um conjunto ótimo de pesos, em vez de uma distribuição de pesos ótimos).