Os modelos de fala avançaram além da necessidade de personalização dos dados de treinamento?
Dois aspectos melhoraram significativamente a precisão:
- O aprendizado profundo e as redes neurais melhoraram bastante a precisão.
- A quantidade de dados de treinamento utilizados pelas grandes empresas cresceu ao longo dos anos por ordem de magnitude. As empresas coletaram tantos dados que o efeito da adaptação diminuiu.
Ou eles apenas fazem a personalização agora, sem um assistente de treinamento explícito?
Geralmente, há uma pequena adaptação, mas é muito marginal. Basicamente, ele combina sua voz com algumas vozes da linha de base e produz um vetor de semelhanças e, em seguida, esse vetor é usado em tempo real e ajusta a entrada da rede neural (a chamada adaptação do vetor i). Esse tipo de adaptação é bem rápido, você pode adaptar de 2 a 3 segundos de fala. Para detalhes técnicos, você pode ler
https://www.microsoft.com/pt-br/research/uploads/prod/2018/04/ICASSP2018_CortanaAdapt.pdf
Ou eles não fazem treinamento, mesmo que ainda seja benéfico (por exemplo, porque é inconveniente)?
Existem alguns casos em que a adaptação seria benéfica, mas novamente existem vários aspectos aqui:
- Funciona bem sem adaptação.
- O reconhecimento de redes neurais não se encaixa bem na adaptação, na verdade. Você precisa de muitos nós de GPU para treinar uma grande rede neural; é muito difícil ajustá-la posteriormente. Você pode ajustar uma pequena camada com dados de adaptação, mas o efeito geralmente é pequeno apenas porque a rede neural é uma coisa bastante ligada e você não pode simplesmente modificar um pouco sem reciclagem.
- Como eu disse acima, a quantidade de dados de treinamento é tão grande que seus dados personalizados provavelmente já estão no conjunto de treinamento e a adaptação não ajudará muito
- Adaptação também pode prejudicar. Imagine que o seu discurso teve um estalo ou bip incomum de fundo ou algo como música e sistema adaptados a ele. Em seguida, decodificará sua fala limpa normal com menos precisão do que o sistema não adaptado.
- A adaptação não é muito conveniente para os usuários. Por que você precisa se adaptar quando pode simplesmente começar a usar o sistema.
Portanto, o design do sistema mudou para "simplesmente funciona" e é uma boa direção.