Reconhecimento de fala em turco (fala-> texto) na API do Google Speech? [fechadas]

7

A API de fala do Google possui recursos de fala em áudio para texto em vários idiomas. Também suporta turco. Esse idioma é muito interessante, é chamado aglutinante : você cola partes das palavras uma após a outra, em vez de preposições e outras partes em idiomas como o inglês. Isso leva a um vocabulário de tamanho praticamente ilimitado.

Você sabe como o Google implementou o reconhecimento de fala turco para a API deles? Não acredito que eles usaram as mesmas técnicas do inglês.

ATUALIZAR

Aqui está um exemplo de transcrição que a API do Google retornou do seguinte clipe no YouTube:

você teria que perguntar a ele que eu não tenho idéia Yahoo respostas Eu era Adam Scott realmente em Jumanji no The Truman Show Eu o procurei no iTunes, dizendo que, nos filmes em que ela está, era Jumanji e The Truman Show eu não * * * * acredite que vai ouvir Eu não estou em nenhum desses filmes, então sim, você realmente não deveria * * * *

Eu acho que é uma excelente qualidade de transcrição. Usei meus belos monitores AudioEngine e coloquei um microfone de computador LabTec de 20 anos de idade ruim na frente dele. Uma configuração verdadeiramente amadora, mas é assim que essas coisas serão usadas na prática, ou seja, em situações abaixo da ideal.

Aqui está um exemplo de uma cena de filme turco :

merhaba Temmuz Ben tem carpas e keyifler nasylsınız iyidir inşallah İyi valla koşturuyoruz nasıl olsun Hem kardeş lafı uzatmadan konuya girsek anlattı bana ikinci el işçiliğiir işideyi dızel ilir

Este é basicamente incompreensível. Ele pega algumas palavras aqui e ali, mas é difícil conectá-las, como no exemplo em inglês.

Isso significa que o Google não está usando uma solução personalizada para turco? Talvez eles desejem redirecionar seus mecanismos de inglês para o turco?

Apenas por diversão, enviei um clipe do falante do idioma azeri . Seu discurso é claramente enunciado, mas a API mal conseguiu algumas palavras. Eu usei a configuração turca, então não é justo, realmente, mas os idiomas são semelhantes:

ou akşam Çağlayan Doruk sevgilin kim bu kim baktı Bülent Serttaş çok pis

Aksakal
fonte
2
Uma pesquisa no Google Scholar scholar.google.com/… não revela muita coisa que trata especificamente das peculiaridades do turco, mas escondidos na pesquisa há vários artigos sobre reconhecimento de fala independente de idioma usando o aprendizado de máquina. Parece plausível que o Google tenha combinado uma técnica para extrair agnosticamente os fonemas com um método para transcrever o mesmo em um idioma específico.
Sycorax diz Restabelecer Monica
2
Linguistics.SE pode ser mais útil aqui, especificamente sua marca de reconhecimento de fala .
Stephan Kolassa
3
(+1) Também aqui há uma questão sociológica potencialmente interessante , na medida em que em minha experiência anedótica, os engenheiros / pesquisadores turcos estão bastante representados em muitas das principais equipes de reconhecimento de fala de aprendizado de máquina do setor.
cardeal
11
Se você quiser comparar a taxa de erro palavra de diferentes APIs para reconhecimento de voz: github.com/Franck-Dernoncourt/ASR_benchmark
Franck Dernoncourt

Respostas:

3

O que é usado na produção geralmente não é divulgado. Não estou ciente de o Google divulgar como funciona o atual sistema de reconhecimento de fala automatizado (ASR) que eles usam na produção. Uma maneira de aproximar seria digitalizar o ICASSP / Interspeech / etc. procedimentos para publicações do Google.

De qualquer forma, deixando o Google de lado: a questão pode ser generalizada como " Como executar o ASR em idiomas com dicionários grandes ou abertos? ".

Uma maneira de fazer isso é usar a modelagem de linguagem de sub-palavras , por exemplo, de {1}:

Resumo: Neste estudo, são examinadas algumas soluções para problemas de palavras fora do vocabulário (OOV) de sistemas de reconhecimento automático de fala (ASR), desenvolvidos para idiomas aglutinativos como o turco, e uma melhoria para esse problema é proposta. Foi demonstrado que o uso de modelos de linguagem de sub-palavras supera os modelos baseados em palavras, reduzindo a proporção de palavras OOV em idiomas com morfologia complexa.

ou de {2}:

Resumo: Estudos de reconhecimento de fala turcos foram acelerados recentemente. Com esses esforços, não apenas o corpo de fala e texto disponível, que pode ser usado em experimentos de reconhecimento, mas também propôs novos métodos para melhorar a precisão. A natureza aglutinativa do turco causa um problema de falta de vocabulário (OOV) em tarefas de reconhecimento contínuo de fala de grande vocabulário (LVCSR). Para superar o problema de OOV, foi proposto o uso de unidades de subpalavras. Além das experiências com LVCSR, houve alguns esforços para implementar um reconhecedor de fala em domínios limitados, como radiologia. Neste artigo, apresentaremos o software de reconhecimento de fala turco, desenvolvido por meio de estudos recentes. A interface do software e as precisões de reconhecimento em dois conjuntos de testes diferentes serão resumidas. O desempenho do software foi avaliado usando radiologia e grandes conjuntos de testes de vocabulário. Para resolver praticamente o problema de OOV, propomos adaptar modelos de linguagem usando palavras ou frases frequentes. Em experimentos de reconhecimento, 90% e 44% de precisão de palavras foram alcançadas em conjuntos de testes de radiologia e vocabulário grande, respectivamente.


Referências:

Franck Dernoncourt
fonte
isso é interessante, obrigado, vai olhar para as referências
Aksakal