Quais são os senones em uma rede neural profunda?

9

Estou lendo este artigo: tradutor skype onde eles usam CD-DNN-HMMs (redes neurais profundas dependentes de contexto com modelos de Markov ocultos). Eu posso entender a idéia do projeto e a arquitetura que eles projetaram, mas não entendo o que são os senones . Estive procurando uma definição, mas não encontrei nada

- Propomos um novo modelo dependente de contexto (CD) para reconhecimento de fala de vocabulário amplo (LVSR) que aproveita os avanços recentes no uso de redes profundas de crenças para reconhecimento por telefone. Descrevemos uma arquitetura híbrida pré-treinada do modelo Markov oculto de rede neural profunda (DNN-HMM) que treina o DNN para produzir uma distribuição sobre senones (estados de triphone vinculados) como saída

Por favor, se você puder me dar uma explicação sobre isso, eu realmente aprecio isso.

EDITAR:

Encontrei esta definição neste artigo :

Propomos modelar eventos subfonéticos com estados de Markov e tratar o estado nos modelos fonéticos ocultos de Markov como nossa unidade subfonética básica - senona . Um modelo de palavra é uma concatenação de senones dependentes do estado e os senones podem ser compartilhados entre diferentes modelos de palavras.

Eu acho que eles são usados ​​na parte do modelo Hidden Markov da arquitetura no primeiro artigo. Eles são os estados do HMM? As saídas do DNN?

davidivad
fonte
Senone é um termo de reconhecimento de fala. Essa é a definição que você está procurando ou esclarece como eles são modelados nesse artigo?
27512 Easter Sean
Mais como a aplicação de então ao DNN-HMM. Eles são os estados do HMM, mas também os resultados do DNN?
Davidivad 02/12/15
1
Este artigo descreve os senones com mais detalhes ... cmusphinx.sourceforge.net/wiki/tutorialconcepts #
Mike Hunter

Respostas:

7

Isto é o que eu finalmente entendi:

Nesta arquitetura, o DNN é usado para transformar o ruído em telefones.

Em fonética e linguística, a palavra telefone pode se referir a qualquer som ou gesto da fala considerado como um evento físico, independentemente do seu lugar na fonologia de uma língua.

insira a descrição da imagem aqui

A última camada do DNN é formada por todos os telefones possíveis, possuindo um neurônio de saída por telefone. A ativação desses neurônios é a probabilidade de que o ruído de entrada correspondente a esse telefone.

A combinação dessas ativações é a entrada do modelo Markov oculto e estabelece os senones do HMM, que obtém uma lista de textos candidatos por meio de um dicionário.

Os senones são os estados do HMM, na imagem a seguir, os senones seriam x1 x2 e x3.

insira a descrição da imagem aqui

Por favor, corrija-me se eu disse algo errado, espero que ajude!

davidivad
fonte
1
@ DavidDavid, eu adicionei uma resposta que deve explicar um pouco mais claramente o que é um senone. A coisa toda da modelagem senone / acústica é um pouco confusa na literatura.
Emiswelt
2

No reconhecimento de fala, geralmente incluímos algum contexto sobre telefones vizinhos ao modelar um determinado telefone. Isto significa que o nosso sistema não só conhece os telefones para A, Be assim por diante, mas em vez disso tem um conceito para E-then-A, O-then-B, X-then-Ae assim por diante.

Essas unidades dependentes de contexto são chamadas senones na literatura , o que é obviamente uma palavra inventada.

Para sistemas de reconhecimento de fala, esses senones geralmente são iguais aos estados HMM do modelo acústico, que podem ser previstos por uma rede neural, se uma abordagem híbrida DNN / HMM para modelagem acústica for usada.

O termo Senones foi cunhado pelos desenvolvedores do kit de ferramentas de reconhecimento de fala Janus. Foi então adotado por Dong Yu e Li Deng para o seu livro ASR. Isso foi na época em que os NNs foram usados ​​para modelagem acústica. Portanto, o termo é confuso.

Emiswelt
fonte
1

"Senones" foi nomeado por mim em 1992. Veja meu artigo do ICASSP 1992: https://ieeexplore.ieee.org/document/225979 É apenas um nome sofisticado para um cluster de estados compartilhados de Markov, representando eventos acústicos semelhantes. Ele veio do contraste com os fenones da IBM, onde o "f" significa "quadro" e o meu "s" significa "estado".

Mei-Yuh Hwang
fonte
adicione referência completa ao seu link, caso ele morra no futuro
Antoine
0

A idéia inicial veio do meu trabalho de 1991 na Eurospeech (agora chamado Interspeech), onde eu usei agrupamentos de cima para baixo nos estados de Markov. Você pode encontrar meu relatório técnico da CMU em 1991 aqui: https://www.semanticscholar.org/paper/Shared-distribution-hidden-Markov-models-for-speech-Hwang-Huang/33ea989f1655636162b7e9b8e0cfe3fcce92c37d

Em 1992, decidi movê-lo para o agrupamento em árvore, para que também se pudesse modelar telefones de CD invisíveis.

Mei-Yuh Hwang
fonte
adicione referência completa ao seu link, caso ele morra no futuro
Antoine