Som natural Text to Speech?

Respostas:

51

SVOX pico2wave

Um TTS muito minimalista, um som melhor do que falar ou mbrola (na minha opinião). Algumas informações aqui .

Não entendo por que o pico2wave é, comparado a falar ou mbrola, raramente discutido. É pequeno, mas parece muito bom (natural). Sem modificação, você ouvirá uma voz feminina com um som natural.

E ... comparado a Mbrola, ele reconhece Units e fala da maneira certa!
Por exemplo:

  • 2 ° C → dois graus
  • 2m → dois metros
  • 2kg → dois quilogramas

Após a instalação, eu o uso em um script:

#!/bin/bash
pico2wave -w=/tmp/test.wav "$1"
aplay /tmp/test.wav
rm /tmp/test.wav

Em seguida, execute-o com o texto desejado:

<scriptname>.sh "hello world"

ou leia o conteúdo de um arquivo inteiro:

<scriptname>.sh "$(cat <filename>)"

Isso é tudo para ter um TTS leve e estável no Ubuntu.

user85321
fonte
11
Tanto quanto eu posso ver, ele usa apenas parâmetros cli como entrada. Existe alguma maneira de obter o pico2wave para ler o texto de um nome de arquivo?
Carlos Eugenio Thompson Pinzón
13
pico2waveestá no pacote libttspico-utilsem versões recentes do ubuntu. @ CarlosEugenioThompsonPinzóncat <filename> | xargs -I foo -0 pico2wave -w blah.wav foo
naught101
11
@ CarlosEugenioThompsonPinzón pico2wave -w a.wav "$(input.txt)"=). Concorde que essa interface da CLI é de design ruim: diferente da grande maioria das CLIs e possível atingir o comprimento máximo do argumento da CLI do SO .
Ciro Santilli escreveu:
11
@ Koen eu não sei! :-) Como qualquer outro problema, tente produzir um exemplo mínimo, por exemplo, usandoecho {1..1000}
Ciro Santilli 事件 改造 中心 法轮功 六四 事件
11
@ user49557 Não devemos invadir as perguntas de outras pessoas, então talvez você possa criar uma nova pergunta, explicando exatamente o que você instalou e o que deu errado, e então sempre posso tentar ajudá-lo (sem garantias, no entanto) , eu não sou um especialista: P)
Koen
22

SpeakIt!

Acredito que encontrei o melhor software TTS gratuitamente usando uma extensão do Google Chrome chamada "SpeakIt". Isso só funciona no navegador Chrome para mim no Ubuntu. Por algum motivo, ele não funciona com o Chromium. O SpeakIt vem com duas vozes femininas, que parecem muito realistas em comparação com tudo o resto. Existem pelo menos mais quatro vozes masculinas e femininas listadas nas extensões do Chrome se você pesquisar na Chrome Web Store usando "TTS" como sua consulta.

Uso : Para uso em um site. você destaca o texto que deseja ler e clique com o botão direito do mouse e em "SpeakIt" ou clique no ícone SpeakIt encaixado na barra superior do Chrome.


Os usuários do Firefox também têm duas opções. Nos complementos do Firefox, faça uma busca pelo TTS e você encontrará "Click Speak" e também "Text to Voice". As vozes não são tão boas quanto as do Chrome SpeakIt, mas são definitivamente utilizáveis.

A extensão SpeakIt usa a tecnologia iSpeech e, por um preço de US $ 20 por ano, o site pode converter texto em arquivos de áudio MP3. Você pode inserir texto, URLs, feeds RSS, além de documentos como TXT, DOC e PDF e enviar para MP3. Você pode criar podcast, incorporar áudio etc. Aqui está um link e uma amostra do áudio deles (não sei quanto tempo o link durará).

I Heart Ubuntu
fonte
3
Infelizmente, nenhuma das opções do navegador funciona para arquivos PDF. Você já se deparou com um que faz? Eu gostaria de ser capaz de selecionar parágrafos para ler a partir de um PDF (ou seja, não tem que colar pedaços de terminal ou outro)
James Owers
11
esta extensão funciona para mim no cromo 50.0.2661.94 usando o Debian 8.4 e é ótimo! Eu gosto especialmente da voz feminina inglesa. minha única reclamação é que ele pausa por muito tempo com vírgulas.
mulllhausen
Muitas vezes, pronuncia incorretamente as palavras e também leva tempo para enviar o texto para um servidor separado, em vez de apenas usar seu próprio sistema.
Goddard
14

Pico e fala são divertidos e fáceis de começar a trabalhar, mas não são tão bons assim. As vozes padrão do Festival também não são tão boas. No entanto, o Festival é uma estrutura de fala baseada em esquema, na qual vários pesquisadores criaram vozes de plug-in muito melhores. Você pode facilmente superar a qualidade pico2wave no Ubuntu, porque uma dessas vozes está disponível como um pacote pronto.

Para que o Festival pareça natural, eis o que fazer:

sudo apt-get install festival
sudo apt-get install festvox-us-slt-hts
festival -i
festival> (voice_cmu_us_slt_arctic_hts) 
festival> (SayText "Don't hate me, I'm just doing my job!")

Você pode fazer isso na linha de comando usando -b(ou --batch) e colocando cada comando entre aspas simples:

festival -b '(voice_cmu_us_slt_arctic_hts)' \
    '(SayText "The temperature is 22 degrees centigrade and there is a slight breeze from the west.")'

Você pode obter outras vozes muito boas no repositório da Nitech, mas instalá-las é minucioso e os caminhos padrão foram alterados para que as referências de nome de arquivo nos arquivos de esquema agrupados possam precisar ser editadas manualmente para funcionar no Ubuntu padrão.

Jon Watte
fonte
2
Aliás, no Ubuntu 16.04, este pacote parece estar faltando. Você pode baixar e instalar o deb do Debian e ele funcionará bem: packages.debian.org/sid/all/festvox-us-slt-hts/download sudo dpkg -i Downloads / festvox-us-slt-hts_0.2010.10. 25-2_all.deb
Jon Watte
13

TTS simples do Google ™

Atualização da página do projeto (2019-02) : Este projeto está atualmente em manutenção e permanecerá assim no futuro próximo


Por causa da falta de uma alternativa melhor, escrevi um script bash que faz interface com um script perl de Michal Fapso para fornecer TTS via Google Translate. Na descrição do projeto:

A intenção é fornecer uma interface fácil de usar para a saída de texto em voz através do sistema de síntese de fala do Google. Uma opção de fallback usando o pico2wave fornece automaticamente a síntese do TTS, caso nenhuma conexão à Internet seja encontrada.

Tal como está, o wrapper suporta a leitura da entrada padrão, arquivos de texto sem formatação e a seleção X (texto destacado).

As principais características são:

  • síntese TTS on-line via Google translate
  • síntese offline do TTS via pico2wave
  • suporta uma variedade de idiomas diferentes
  • pode ler da CLI, arquivos de texto e texto destacado
  • suporta leitura de texto destacado com formatação fixa (por exemplo, arquivos PDF)

A instalação e o uso estão documentados na página do projeto .

Ficaria feliz se você tentasse. Relatórios de bugs e qualquer outro feedback são bem-vindos!

Glutanimado
fonte
Esse deve ser um dos projetos mais legais que eu já vi. Apenas Uau. 😲
5
Isso não está mais sendo mantido.
Goddard
8

Eu olhei alto e baixo para texto em fala para o Ubuntu que é de alta qualidade. Não há nenhum. Minhas cordas vocais estão paralisadas, então eu precisava do TTS para adicionar instruções de voz aos meus vídeos do Ubuntu . Você pode obter software comercial de texto para fala Linux de alta qualidade aqui . É realmente muito caro. Acabei comprando o Natural Reader para Windows (não funciona no Ubuntu no Wine) por US $ 40. Talvez mais tarde eu consiga o Linux.

Joe Steiger
fonte
cara, não é e eu estava usando-o como na semana passada, há pelo menos 5 ou 6 e eu não posso para a vida de me encontrar qualquer um deles agora, tem que amar a nossa comunidade
mchid
O Textaloud tem instruções para fazer seu produto funcionar com vinho. veja nextup.com/forum/viewtopic.php?t=3349 Acredito que o cepstral também tenha uma porta linux. Não consegui que meu software favorito balabolka funcionasse. Eu tenho o Windows 10 instalado principalmente para o processamento tts. MS David é bom e semelhante ao cepstral david. O anterior é livre se você tiver o Windows 10.
Bhikkhu Subhuti
6

Tenho conduzido pesquisas sobre o melhor som e facilmente sintonizado em vozes de voz. Abaixo está uma lista do que eu considerava os 5 principais produtos em ordem de qualidade de som. A maioria dos sites associados a esse produto possui uma demonstração interativa que permitirá que você faça sua própria determinação.

  1. NeoSpeech
  2. iVona
  3. Acapela
  4. AT&T Vozes naturais
  5. Vozes CereProc
Jim
fonte
11
existem disponíveis para linux? não acho que sim
Mehdi Khademloo
5

Acho as vozes da Nitech HTS no festival muito naturais e reconfortantes em relação a outras vozes que ouvi. Veja este link sobre como configurar o Nitech e outros sons com o festival. Eu não encontrei uma boa interface gráfica que eu possa usar para configurar essas vozes, mas defini-las via festival.scm ainda funciona. Essa postagem é muito antiga e você pode encontrar o diretório de instalação real usando o comando "localizar festival"

navalha
fonte
Parece ser muito bom. Demos encontradas aqui cstr.ed.ac.uk/projects/festival/onlinedemo.html
Iacchus
2
Sim, as vozes da Nitech estão acima das outras vozes do Festival (exceto as da CMU, que também são muito boas). Pena que são difíceis de instalar. Há uma boa voz do CMU que possui um pacote padrão no Ubunut, chamado cmu_us_slt_arctic_hts e vem no pacote festvox-us-slt-hts. É muito melhor do que pico ou falar!
precisa saber é o seguinte
5

Combine as ferramentas SVOX (pico) com o LibreOffice:

As ferramentas SVOX (pico) são fáceis de instalar e trazem vozes de boa qualidade no Ubuntu. Instale-o:

sudo apt-get install libttspico0 libttspico-utils libttspico-data

Você pode usar o LibreOffice em combinação com as ferramentas SVOX (pico) instalando a extensão "Read Text" e obtendo uma "GUI" para este excelente software TTS:

Configure as opções da Extensão de leitura de texto com Ferramentas - Complementos - Seleção de leitura .... Use / usr / bin / python como programa externo. Selecione uma opção de linha de comando que inclua o token (PICO_READ_TEXT_PY) ; talvez você queira experimentar alguns deles.

Agora você só precisa selecionar algum texto no LO Writer, Calc, Impress ou Draw e clicar no ícone adicionado como uma barra de ferramentas (uma cara feliz com um balão).

leoperbo
fonte
4

Aqui está o que eu fiz para ter um discurso natural puro para pdf e outros arquivos de texto (outras soluções não são naturais ou são apenas serviços pagos). Na verdade, esse é um trabalho usando o cromo ou o cromo, mas funciona de maneira fácil e rápida.

  1. Instale o SpeakIt! extensão no seu cromo ou cromo.
  2. Instale o PDF Viewer se você estiver usando o cromo (o chrome já possui um visualizador de PDF gratuitamente) e marque as opções 'Permitir no modo anônimo' e 'Permitir acesso aos URLs dos arquivos' nas configurações de extensões do cromo.
  3. Arraste e solte seu pdf no navegador.
  4. Agora destaque algum texto e clique com o botão direito e selecione SpeakIt! para que você possa ouvir texto em voz natural puro.

Também há maneiras de abrir outros arquivos como .doc e .txt no chrome e fazer o mesmo. Existem outras extensões para o Chrome que visualizam arquivos PDF, verifique se ele se encaixa melhor em você. Além disso, você pode enviar todos os tipos de textos no Google Drive e usar o SpeakIt! para ler para você. Outra extensão chamada 'Falar texto' funciona da mesma maneira e possui fala natural.

Pouya Sanooei
fonte
Você poderia explicar como fazer com que o SpeakIt leia arquivos PDF salvos no Google Drive?
Marco Lackovic 24/09
2

Ao procurar um mecanismo tts melhor para usar com o novo modo narrativo do firefox 49, encontrei o pico tts (svox) - meu mecanismo TTS favorito.

sudo apt install espeak libttspico0 libttspico-data libttspico-utils

Como alterar o sistema padrão do mecanismo de síntese de fala?

As pessoas do arch linux me levaram ao caminho certo:

Descomente o módulo que você gosta e torne-o padrão nas configurações do distribuidor de fala:

# sudo vim /etc/speech-dispatcher/speechd.conf

[...]
# -----OUTPUT MODULES CONFIGURATION-----
# Each AddModule line loads an output module.
#AddModule "espeak"       "sd_espeak"   "espeak.conf"
AddModule "pico-generic"  "sd_generic"   "pico-generic.conf"

[...]
#DefaultModule espeak
DefaultModule pico-generic

Reinicie o daemon:

# sudo systemctl restart speech-dispatcher.service

MAS, ao iniciar o Firefox novamente, nada acontece. De acordo com o link acima (arch post posts 10 e 16) trabalha com o festival (não tentei), mas o locutor de voz do pico não lista as vozes disponíveis. Não vai correr.

Qualquer idéia lá fora seria muito apreciada ;-)

apos
fonte
1

Meu programa favorito de conversão de texto em fala se chama Magic English, mas, como o Natural Reader mencionado por Joe Steiger, é um programa do Windows e não tenho certeza se ele será executado no Wine.

O AT&T Natural Voices está disponível on-line como uma demonstração, mas isso é mais uma solução alternativa do que uma solução ...

Chris Granger
fonte
1

TTS simples do Google ™

Pico, mbrola, cmu, festival, flite, todos SUGAM em 2017 (Eles foram incríveis nos anos 90). O discurso natural da AT&T (que é fantástico) não é compatível com linux e não é gratuito; portanto, usamos o Google

git clone https://github.com/Glutanimate/simple-google-tts.git
sudo apt install xsel libnotify-bin libttspico0 libttspico-utils libttspico-data libwww-perl libwww-mechanize-perl libhtml-tree-perl so$
cd simple-google-tts
sudo ln -s `pwd`/simple_google_tts /usr/local/bin
simple_google_tts en "Text to speech is now installed"
cd -
Jonathan
fonte
Esta é uma duplicata da resposta Glutanimado (o autor desse projeto). Além disso: "Atualização de status: atualmente, este projeto não é mantido e permanecerá assim no futuro próximo". Ele sugere algumas alternativas
Pablo A
1

gTTS

gTTS ( Google Text-to-Speech ), uma biblioteca Python e ferramenta CLI para interagir com a API de conversão de texto em voz do Google Translate. Grava mp3dados falados em um arquivo, em um objeto semelhante a um arquivo (bytestring) para posterior manipulação de áudio ou stdout.

Contras : somente CLI. Precisa estar online, pois exige solicitar ao ponto de extremidade aberto público do Google.

sudo -H pip install gTTS  # Install

Uso

gtts-cli 'hello' --output hello.mp3
gtts-cli -l es 'Nadie es patria, todos lo somos' | play -t mp3 -

Documentação e mais exemplos

Outras

Alguns já foram mencionados

Pablo A
fonte
0

Para isso, construo o Intelligent Speaker - extensão para o Google Chrome. Ele pode ler páginas mesmo sem seleção (quando a retenção de texto estiver correta).

Vitaly Zdanevich
fonte