Estou aprendendo sobre HMMs e seus aplicativos e tentando entender seus usos. Meu conhecimento é um pouco irregular, portanto, corrija quaisquer suposições incorretas que estou fazendo. O exemplo específico que estou pensando é sobre o uso de HMMs para detecção de fala, que é um exemplo comum na literatura.
O método básico parece ser tratar os sons recebidos (após o processamento) como observações, onde as palavras reais sendo ditas são os estados ocultos do processo. Parece óbvio que as variáveis ocultas aqui não são independentes, mas não entendo como elas satisfazem a propriedade Markov. Eu imaginaria que a probabilidade da enésima palavra não depende apenas da palavra N-1, mas de muitas palavras anteriores antes disso.
Isso é simplesmente ignorado como uma suposição simplificadora, porque os HMMs são muito bons em modelar corretamente os problemas de detecção de fala ou não estou entendendo claramente quais são os estados e variáveis ocultas no processo? O mesmo problema parece se aplicar a uma grande quantidade de aplicativos em que os HMMs são bastante populares, marcação de POS e assim por diante.
Respostas:
Sobre esse assunto, recomendo que você leia um artigo muito bom de James Baker e outros responsáveis pela introdução do HMM na fala:
Uma perspectiva histórica do reconhecimento de fala http://cacm.acm.org/magazines/2014/1/170863-a-historical-perspective-of-speech-recognition/abstract
No geral, o modelo de Markov é um modelo bastante genérico para decodificar o canal de caixa preta com suposição muito relaxada na transmissão, portanto, é um ajuste perfeito para o reconhecimento de fala, no entanto, a questão permanece o que codificar como um estado de fato. É claro que os estados devem ser objetos mais complexos do que o que assumimos agora (apenas algumas palavras anteriores). É uma pesquisa em andamento para revelar a verdadeira natureza dessa estrutura.
fonte
Modelos de Markov ocultos foram usados para modelar unidades de fonemas em palavras para reconhecimento de fala a partir do final dos anos 80.
um artigo inicial citado é [9] a seguir. Levinson, Ljolje, Miller, "Reconhecimento de fala de grande vocabulário usando um modelo de Markov oculto para classificação acústica / fonética" em Proc. IEEE Intl. Conf. Acoust., Speech, SIgnal Processing (Nova Iorque, NY), 1988, pp S505-S508.
Desenvolvimento de um modelo Markov acústico-fonético oculto para reconhecimento contínuo de fala , Ljoljie, Levinson, IEEE Trans. on Signal Processing, vol. 39, n. 1, janeiro de 1991
Modelos HMM no reconhecimento de fala De Mori & Fabio Brugnara. existe algum uso de alofones para modelar palavras via HMMs. "Os modelos alofônicos de um fonema são modelos desse fonema em diferentes contextos. ... Cada modelo alofônico é um HMM feito de estados, transições e distribuições de probabilidade".
Um tutorial sobre o uso de modelos ocultos de Markov para reconhecimento de fonemas Veeravalli, Pan, Adhami, Cox, Teoria de Sistemas, 2005. SSST '05. Anais do Trigésimo Sétimo Simpósio do Sudeste em março de 2005, p154-157
Seção Wikpedia sobre modelos de Hidden Markov / reconhecimento de fala
fonte