Por que os modelos de fala convencionais não exigem mais uma etapa de treinamento personalizada?

7

Na era do Windows XP, ao configurar a fala / ditado embutido no sistema operacional Windows, tive que falar um monte de amostras de texto programadas no mecanismo de fala em texto para personalizar meu perfil de voz.

Hoje, com mecanismos de fala para texto em rede como Siri ou Cortana, posso começar a ditar.

A qualidade da conversão de texto em fala parece equivalente, embora minha memória possa estar com defeito nesse aspecto.

Os modelos de fala avançaram além da necessidade de personalização dos dados de treinamento? Ou eles apenas fazem a personalização agora, sem um assistente de treinamento explícito? Ou, eles não fazem formação, mesmo que seria ainda ser benéfico (por exemplo, porque é inconveniente)?

tsutsu
fonte

Respostas:

4

Os modelos de fala avançaram além da necessidade de personalização dos dados de treinamento?

Dois aspectos melhoraram significativamente a precisão:

  1. O aprendizado profundo e as redes neurais melhoraram bastante a precisão.
  2. A quantidade de dados de treinamento utilizados pelas grandes empresas cresceu ao longo dos anos por ordem de magnitude. As empresas coletaram tantos dados que o efeito da adaptação diminuiu.

Ou eles apenas fazem a personalização agora, sem um assistente de treinamento explícito?

Geralmente, há uma pequena adaptação, mas é muito marginal. Basicamente, ele combina sua voz com algumas vozes da linha de base e produz um vetor de semelhanças e, em seguida, esse vetor é usado em tempo real e ajusta a entrada da rede neural (a chamada adaptação do vetor i). Esse tipo de adaptação é bem rápido, você pode adaptar de 2 a 3 segundos de fala. Para detalhes técnicos, você pode ler

https://www.microsoft.com/pt-br/research/uploads/prod/2018/04/ICASSP2018_CortanaAdapt.pdf

Ou eles não fazem treinamento, mesmo que ainda seja benéfico (por exemplo, porque é inconveniente)?

Existem alguns casos em que a adaptação seria benéfica, mas novamente existem vários aspectos aqui:

  1. Funciona bem sem adaptação.
  2. O reconhecimento de redes neurais não se encaixa bem na adaptação, na verdade. Você precisa de muitos nós de GPU para treinar uma grande rede neural; é muito difícil ajustá-la posteriormente. Você pode ajustar uma pequena camada com dados de adaptação, mas o efeito geralmente é pequeno apenas porque a rede neural é uma coisa bastante ligada e você não pode simplesmente modificar um pouco sem reciclagem.
  3. Como eu disse acima, a quantidade de dados de treinamento é tão grande que seus dados personalizados provavelmente já estão no conjunto de treinamento e a adaptação não ajudará muito
  4. Adaptação também pode prejudicar. Imagine que o seu discurso teve um estalo ou bip incomum de fundo ou algo como música e sistema adaptados a ele. Em seguida, decodificará sua fala limpa normal com menos precisão do que o sistema não adaptado.
  5. A adaptação não é muito conveniente para os usuários. Por que você precisa se adaptar quando pode simplesmente começar a usar o sistema.

Portanto, o design do sistema mudou para "simplesmente funciona" e é uma boa direção.

Nikolay Shmyrev
fonte