Aplicativo de reconhecimento de fala para converter MP3 em texto?

27

Alguém conhece um aplicativo que pode converter áudio em texto? Estou executando o ubuntu 12.04 LTS.

Kopano
fonte
Presumo que seja um texto falado. Em que idioma está esse texto?
Martin Ueding
O texto do discurso é em inglês simples.
21412 Kopano

Respostas:

21

O software que você pode usar é o CMUSphinx . Diferentemente do sugerido em outra resposta, Julius não é adequado porque requer modelos. Modelos para reconhecimento de fala com vocabulário grande não estão disponíveis para o Julius.

Você pode usar o pocketsphinx para converter arquivos de áudio. Esses dois comandos devem fazer o trabalho. Primeiro você converte o arquivo no formato necessário e depois o reconhece:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

A corrida pocketsphinx

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

O resultado será armazenado em result.txt.

Nikolay Shmyrev
fonte
Além disso, como uma adição a esta resposta, há uma demonstração interessante de ambas speech recognitione voice commandferramentas aqui: youtube.com/…
Daithí
Como você adiciona um modelo acústico ao sistema?
jarno
Você acabou de fazer o download e descompactar, não existe tal coisa como "add ao sistema"
Nikolay Shmyrev
@NikolayShmyrev Onde devo desempacotá-lo para que o pocketsphinx_continuous o encontre?
jarno
4
Bem, eu instalei os pacotes pocketsphinx-utils, pocketsphinx-hmm-en-hub4wsj e pocketsphinx-lm-en-hub4 no repositório universo do Ubuntu 14.04. Então pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.logtrabalhou. Talvez eles não sejam pacotes ideais, mas foram as melhores correspondências que eu encontrei nos repositórios.
jarno 8/02
12

Eu sei que isso é antigo, mas para expandir a resposta de Nikolay e, com sorte, salvar alguém em algum momento no futuro, para obter uma versão atualizada do pocketsphinx funcionando, você precisa compilá-lo no repositório github ou sourceforge (não tenho certeza que é mantido mais atualizado). Observe que -j8 significa executar 8 tarefas separadas em paralelo, se possível; se você tiver mais núcleos de CPU, poderá aumentar o número.

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

Em seguida, em: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/ faça o download das versões mais recentes cmusphinx-en-us-....tar.gzeen-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

Finalmente, você pode prosseguir com as etapas da resposta de Nikolay:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

Esfinge funciona bem. Eu não confiaria nisso para criar uma versão legível do texto, mas é bom o suficiente para que você possa pesquisá-lo se estiver procurando por uma citação específica. Isso funciona especialmente bem se você usar um algoritmo de pesquisa como o Xapian ( http://www.lesbonscomptes.com/recoll/ ) que aceita caracteres curinga e não requer expressões exatas de pesquisa.

Espero que isto ajude.

Jonathan Perry-Houts
fonte
4
cada coisa funciona como um encanto, mas no meu caso eu tive que correr seguinte comando para correção pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory-------> export LD_LIBRARY_PATH=/usr/local/lib------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
Vijay Dohare
Isso também é recomendado em cmusphinx.github.io/wiki/tutorialpocketsphinx/…
andrybak
11

Se você deseja converter fala em texto, tente abrir o Ubuntu Software Center e procure por Julius

Descrição

"Julius" é um software decodificador de reconhecimento contínuo de voz (LVCSR) de alto desempenho e duas passagens para pesquisadores e desenvolvedores relacionados à fala.

Ou outra opção que não está no Software Center é o Simon

... é um programa de reconhecimento de fala de código aberto e substitui o mouse e o teclado.

Links de referência

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1

CoalaWeb
fonte
1

Você pode usar o painel de transcrição speechpad.pw

Veja o vídeo do uso da transcrição

alexei
fonte
Parece legal, embora eu não ache que responda à pergunta que era obter a transcrição de um arquivo existente. Dito isto, tentei o Sphinx e ele falhou miseravelmente ... a transcrição estava 99,9% errada.
Alexis Wilke