Por que os HMMs são apropriados para reconhecimento de fala quando o problema parece não satisfazer a propriedade Markov

7

Estou aprendendo sobre HMMs e seus aplicativos e tentando entender seus usos. Meu conhecimento é um pouco irregular, portanto, corrija quaisquer suposições incorretas que estou fazendo. O exemplo específico que estou pensando é sobre o uso de HMMs para detecção de fala, que é um exemplo comum na literatura.

O método básico parece ser tratar os sons recebidos (após o processamento) como observações, onde as palavras reais sendo ditas são os estados ocultos do processo. Parece óbvio que as variáveis ​​ocultas aqui não são independentes, mas não entendo como elas satisfazem a propriedade Markov. Eu imaginaria que a probabilidade da enésima palavra não depende apenas da palavra N-1, mas de muitas palavras anteriores antes disso.

Isso é simplesmente ignorado como uma suposição simplificadora, porque os HMMs são muito bons em modelar corretamente os problemas de detecção de fala ou não estou entendendo claramente quais são os estados e variáveis ​​ocultas no processo? O mesmo problema parece se aplicar a uma grande quantidade de aplicativos em que os HMMs são bastante populares, marcação de POS e assim por diante.

em breve
fonte
11
no reconhecimento de fala, os HMMs geralmente são usados ​​para modelar fonemas nesses modelos, não palavras, e com os fonemas o modelo HMM é empiricamente bastante apropriado. talvez vai desenterrar ref (s) se a questão fica mais votos
vzn

Respostas:

8

Sobre esse assunto, recomendo que você leia um artigo muito bom de James Baker e outros responsáveis ​​pela introdução do HMM na fala:

Uma perspectiva histórica do reconhecimento de fala http://cacm.acm.org/magazines/2014/1/170863-a-historical-perspective-of-speech-recognition/abstract

O uso de modelos de Markov para representar o conhecimento da linguagem foi controverso. Os lingüistas sabiam que nenhuma linguagem natural poderia ser representada mesmo pela gramática livre de contexto, muito menos por uma gramática finita do estado. Da mesma forma, os especialistas em inteligência artificial tinham mais dúvidas de que um modelo tão simples quanto um processo de Markov seria útil para representar as fontes de conhecimento de nível superior recomendadas no relatório Newell. No entanto, há uma diferença fundamental entre supor que a própria linguagem seja um processo de Markov e uma linguagem de modelagem como uma função probabilística de um processo oculto de Markov. O último modelo é um método de aproximação que não faz suposições sobre a linguagem, mas fornece uma receita ao designer na escolha do que representar no processo oculto. A propriedade definitiva de um processo de Markov é que, dado o estado atual, as probabilidades de eventos futuros serão independentes de qualquer informação adicional sobre o histórico do processo. Essa propriedade significa que, se houver alguma informação sobre o histórico passado do processo observado (como as palavras observadas e as subpalavras), o designer deve codificar essas informações com estados distintos no processo oculto. Verificou-se que cada um dos níveis da hierarquia de Newell poderia ser representado como uma função probabilística de um processo oculto de Markov para um nível razoável de aproximação. Para a modelagem de linguagem de ponta, a maioria dos sistemas ainda usa os modelos estatísticos de linguagem N-gram e as variantes, treinadas com as técnicas básicas de contagem ou estilo EM. Esses modelos se mostraram extraordinariamente poderosos e resistentes. Contudo, o N-grama é um modelo altamente simplista para linguagem humana realista. De maneira semelhante ao aprendizado profundo para melhorar significativamente a qualidade da modelagem acústica, as redes neurais recorrentes também melhoraram significativamente o modelo de linguagem N-gram. Vale a pena notar que nada supera um corpora de texto enorme que corresponde ao domínio do aplicativo para a maioria dos aplicativos de fala real.

No geral, o modelo de Markov é um modelo bastante genérico para decodificar o canal de caixa preta com suposição muito relaxada na transmissão, portanto, é um ajuste perfeito para o reconhecimento de fala, no entanto, a questão permanece o que codificar como um estado de fato. É claro que os estados devem ser objetos mais complexos do que o que assumimos agora (apenas algumas palavras anteriores). É uma pesquisa em andamento para revelar a verdadeira natureza dessa estrutura.

Nikolay Shmyrev
fonte
11
Obrigado! Uma das possibilidades que me ocorreu foi que as informações sobre estados anteriores estavam de alguma forma contidas no estado atual.
sooniln
3

Modelos de Markov ocultos foram usados ​​para modelar unidades de fonemas em palavras para reconhecimento de fala a partir do final dos anos 80.

vzn
fonte
Obrigado! Perdi completamente o primeiro parágrafo da seção da Wikipedia, o que tornaria as coisas mais claras. Obrigado pelo esforço em juntar os links também.
sooniln