O reconhecimento de fala não é um exemplo tão complexo quanto você pensa.
Primeiro, imagine criar uma cadeia de Markov (MC) que faça reconhecimento de texto. Seu programa lê vários textos (perfeitos, sem erros) e calcula estados (palavras) e alterações de estado (próximas palavras). Parece que você conseguiu isso. Agora você pode gerar texto ou prever algum texto para prever a próxima palavra usando os estados e as probabilidades de transição do seu MC.
Agora imagine que você deseja usar seu MC com fala. Você simplesmente manda as pessoas lerem um texto semelhante ao seu MC e pronto, certo? Bem ... Exceto que eles pronunciarão as palavras de maneira diferente: onde o texto escrito diz "batata", você ouvirá "po-TAY-toh" e "po-TAH-toh" e "po-TAH-toh" e "pu-TAY -para ", etc. E vice-versa: o texto" comeu "e" oito "representam dois estados diferentes, mas são (geralmente) pronunciados da mesma forma.
Seu algoritmo não vê mais os estados subjacentes (palavras), ele vê uma distribuição probabilística de pronúncias para cada palavra. Seu MC original está oculto por trás das pronúncias e agora seu modelo precisa ter duas camadas.
Para que muitas pessoas leiam em voz alta o texto que você usou para o treinamento original, você pode obter uma distribuição das pronúncias de cada palavra e, em seguida, combinar seu modelo original com o modelo de pronúncia e ter um Modelo Markov oculto ( um HMM).
A maioria dos problemas do mundo real será assim, pois o mundo real tende a ser barulhento. Na verdade, você não saberá em que estado está o item. Em vez disso, você terá uma variedade de indicadores para cada estado: às vezes o mesmo indicador para estados diferentes ("ate" e "oito") e às vezes indicadores diferentes para o mesmo estado ("pu-TAY-toe" e "pah-tah-TOE"). Portanto, os HMMs são mais adequados para problemas do mundo real.
[Duas anotações: 1) o reconhecimento de fala real funciona no nível dos fonemas, não no nível das palavras, e 2) acredito que os HMMs eram o rei da colina para o reconhecimento de fala, mas foram recentemente destronados por redes neurais profundas.]