A versão curta da pergunta: estou procurando um software de reconhecimento de fala que seja executado no Linux e tenha precisão e usabilidade decentes. Qualquer licença e preço é bom. Não deve ser restrito a comandos de voz, pois eu quero poder ditar texto.
Mais detalhes:
Tentei insatisfatoriamente o seguinte:
- CMU Sphinx
- CVoiceControl
- Orelhas
- Julius
- Kaldi (por exemplo, servidor Kaldi GStreamer )
- IBM ViaVoice (usado para executar no Linux, mas foi descontinuado anos atrás)
- NICO ANN Toolkit
- OpenMindSpeech
- RWTH ASR
- gritar
- silvius (criado no kit de ferramentas de reconhecimento de fala Kaldi)
- Simon Escuta
- ViaVoice / Xvoice
- Vinho + Dragão NaturalmenteFalante + NatLink + libélula + libelinha
- https://github.com/DragonComputer/Dragonfire : aceita apenas comandos de voz
Todas as soluções Linux nativas mencionadas acima têm baixa precisão e usabilidade (ou algumas não permitem ditado de texto livre, mas apenas comandos de voz). Por baixa precisão, quero dizer uma precisão significativamente inferior à do software de reconhecimento de fala que mencionei abaixo para outras plataformas. Quanto ao Wine + Dragon NaturallySpeaking, na minha experiência, ele continua travando, e eu não pareço ser o único a ter esses problemas, infelizmente.
No Microsoft Windows, uso o Dragon NaturallySpeaking, no Apple Mac OS X, no Apple Dictation e no DragonDictate, no Android, no Google, no reconhecimento de fala do Google, e no iOS, no reconhecimento de fala interno da Apple.
A Baidu Research divulgou ontem o código para sua biblioteca de reconhecimento de fala usando a Classificação Temporal Connectionist implementada com o Torch. Os benchmarks do Gigaom são encorajadores, como mostrado na captura de tela abaixo, mas não conheço nenhum bom wrapper para torná-lo utilizável sem bastante codificação (e um grande conjunto de dados de treinamento):
Existem alguns projetos de código aberto muito alfa:
- https://github.com/mozilla/DeepSpeech (parte do projeto Vaani da Mozilla: http://vaani.io ( mirror ))
- https://github.com/pannous/tensorflow-speech-recognition
- Vox, um sistema para controlar um sistema Linux usando o Dragon NaturallySpeaking: https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
- https://github.com/facebookresearch/wav2letter
- https://github.com/espnet/espnet
- http://github.com/tensorflow/lingvo (a ser lançado pelo Google, mencionado na Interspeech 2018)
Também estou ciente dessa tentativa de rastrear estados das artes e resultados recentes (bibliografia) sobre reconhecimento de fala. bem como esta referência das APIs de reconhecimento de fala existentes .
Conheço o Aenea , que permite o reconhecimento de fala via Dragonfly em um computador para enviar eventos para outro, mas tem algum custo de latência:
Também estou ciente dessas duas conversas que exploram a opção Linux para reconhecimento de fala:
fonte
Respostas:
No momento, estou experimentando o uso do KDE connect em combinação com o reconhecimento de fala do Google no meu smartphone Android.
O KDE connect permite que você use seu dispositivo Android como um dispositivo de entrada para o seu computador Linux (também existem outros recursos). Você precisa instalar o aplicativo KDE connect da Google Play Store no seu smartphone / tablet e instalar o kdeconnect e o indicador-kdeconnect no seu computador Linux. Para sistemas Ubuntu, a instalação é a seguinte:
A desvantagem desta instalação é que ela instala vários pacotes do KDE que você não precisa se não usar o ambiente de área de trabalho do KDE.
Depois de emparelhar seu dispositivo Android com o computador (eles precisam estar na mesma rede), você pode usar o teclado Android e clicar / pressionar no microfone para usar o reconhecimento de fala do Google. Enquanto você fala, o texto começará a aparecer onde quer que seu cursor esteja ativo no seu computador Linux.
Quanto aos resultados, eles são um pouco confusos para mim, pois atualmente estou escrevendo um documento técnico de astrofísica e o reconhecimento de fala do Google está lutando com o jargão que você normalmente não lê. Também se esqueça de descobrir pontuação ou capitalização adequada.
fonte
Por enquanto, apenas o notebook Voice funciona no Linux.
fonte
Como mais um Linuxer procurando por um programa útil de fala para texto (ditado), dei uma olhada no speechpad.pw:
Desvantagens:
Portanto, o speechpad.pw é muito proprietário e também de código fechado e também vinculado ao Google, que todos conhecemos como metadados sem sono, informações pessoais e coletor de conteúdo pessoal.
Essas desvantagens a tornam uma aplicação proibida para mim, embora o próprio reconhecimento de fala funcione muito bem - muito melhor do que qualquer outra coisa que eu já vi até agora.
fonte
O aplicativo Chrome "VoiceNote II" ( http://voicenote.in/ ) está funcionando muito bem na minha máquina Xubuntu 16.04. Não é necessário treinamento de voz, e a configuração era simples. Uma pesquisa para encontrá-lo, um clique para instalar, um clique para criar um atalho e vinculá-lo à área de trabalho.
fonte
Sugiro usar o dragon no seu telefone ou tablet e enviar o texto por e-mail para si mesmo. É uma chatice, mas funciona e é muito preciso. Se você insistir em usar o Linux para isso, obter uma segunda exibição tornará a vida muito mais fácil de copiar e colar.
Eu não tentei isso, mas você pode usar ou adaptar o programa Python Bluetooth Chat com dragon no seu tablet / telefone. Também pode haver aplicativos de teclado remoto para dispositivos móveis que suportem entrada de ditado.
Vou experimentar e tentar voltar para você com algo mais definitivo.
fonte
Estou usando o aplicativo KD Connect. está funcionando de forma bastante eficaz! Consigo manter os olhos no monitor enquanto falo com o telefone em cima da mesa. A única desvantagem é que isso está sendo feito através do teclado do Google. não é gratuito, nativo nem de código aberto. este comentário foi publicado sem fazer nenhuma correção de tipo
fonte
Você pode usar fala para texto no aplicativo Linux Este aplicativo usa o Google Speech Api e o módulo de integração binária para Linux de 32 ou 64 bits. Você pode ver uma breve apresentação do uso das ferramentas speechpad.pw no Ubuntu
fonte