Estou lendo este artigo: tradutor skype onde eles usam CD-DNN-HMMs (redes neurais profundas dependentes de contexto com modelos de Markov ocultos). Eu posso entender a idéia do projeto e a arquitetura que eles projetaram, mas não entendo o que são os senones . Estive procurando uma definição, mas não encontrei nada
- Propomos um novo modelo dependente de contexto (CD) para reconhecimento de fala de vocabulário amplo (LVSR) que aproveita os avanços recentes no uso de redes profundas de crenças para reconhecimento por telefone. Descrevemos uma arquitetura híbrida pré-treinada do modelo Markov oculto de rede neural profunda (DNN-HMM) que treina o DNN para produzir uma distribuição sobre senones (estados de triphone vinculados) como saída
Por favor, se você puder me dar uma explicação sobre isso, eu realmente aprecio isso.
EDITAR:
Encontrei esta definição neste artigo :
Propomos modelar eventos subfonéticos com estados de Markov e tratar o estado nos modelos fonéticos ocultos de Markov como nossa unidade subfonética básica - senona . Um modelo de palavra é uma concatenação de senones dependentes do estado e os senones podem ser compartilhados entre diferentes modelos de palavras.
Eu acho que eles são usados na parte do modelo Hidden Markov da arquitetura no primeiro artigo. Eles são os estados do HMM? As saídas do DNN?
Respostas:
Isto é o que eu finalmente entendi:
Nesta arquitetura, o DNN é usado para transformar o ruído em telefones.
A última camada do DNN é formada por todos os telefones possíveis, possuindo um neurônio de saída por telefone. A ativação desses neurônios é a probabilidade de que o ruído de entrada correspondente a esse telefone.
A combinação dessas ativações é a entrada do modelo Markov oculto e estabelece os senones do HMM, que obtém uma lista de textos candidatos por meio de um dicionário.
Os senones são os estados do HMM, na imagem a seguir, os senones seriam x1 x2 e x3.
Por favor, corrija-me se eu disse algo errado, espero que ajude!
fonte
No reconhecimento de fala, geralmente incluímos algum contexto sobre telefones vizinhos ao modelar um determinado telefone. Isto significa que o nosso sistema não só conhece os telefones para
A
,B
e assim por diante, mas em vez disso tem um conceito paraE-then-A
,O-then-B
,X-then-A
e assim por diante.Essas unidades dependentes de contexto são chamadas senones na literatura , o que é obviamente uma palavra inventada.
Para sistemas de reconhecimento de fala, esses senones geralmente são iguais aos estados HMM do modelo acústico, que podem ser previstos por uma rede neural, se uma abordagem híbrida DNN / HMM para modelagem acústica for usada.
O termo Senones foi cunhado pelos desenvolvedores do kit de ferramentas de reconhecimento de fala Janus. Foi então adotado por Dong Yu e Li Deng para o seu livro ASR. Isso foi na época em que os NNs foram usados para modelagem acústica. Portanto, o termo é confuso.
fonte
"Senones" foi nomeado por mim em 1992. Veja meu artigo do ICASSP 1992: https://ieeexplore.ieee.org/document/225979 É apenas um nome sofisticado para um cluster de estados compartilhados de Markov, representando eventos acústicos semelhantes. Ele veio do contraste com os fenones da IBM, onde o "f" significa "quadro" e o meu "s" significa "estado".
fonte
A idéia inicial veio do meu trabalho de 1991 na Eurospeech (agora chamado Interspeech), onde eu usei agrupamentos de cima para baixo nos estados de Markov. Você pode encontrar meu relatório técnico da CMU em 1991 aqui: https://www.semanticscholar.org/paper/Shared-distribution-hidden-Markov-models-for-speech-Hwang-Huang/33ea989f1655636162b7e9b8e0cfe3fcce92c37d
Em 1992, decidi movê-lo para o agrupamento em árvore, para que também se pudesse modelar telefones de CD invisíveis.
fonte