Existe algum aplicativo para provar a voz de alguém e usá-lo para modular qualquer outra voz ou sintetizar um texto para se parecer com o original?
Por exemplo, esta demonstração de conversão de texto em fala da AT&T permite que você escolha uma voz e um idioma das predefinições que, acredito, são baseadas em alguma voz humana que foi amostrada.
Como você chama esse processo? É modulação de voz? Síntese de voz?
modulation
voice
clapas
fonte
fonte
Respostas:
Uma primeira observação: os sistemas mais modernos de conversão de texto em voz, como o da AT&T a que você se vinculou, usam síntese concatenativa de fala . Essa técnica utiliza um grande banco de dados de gravações da voz de uma pessoa que pronuncia uma longa coleção de frases - selecionadas para que o maior número de combinações de fonemas esteja presente. A sintetização de uma sentença pode ser feita apenas juntando segmentos desse corpus - a parte desafiadora é tornar a junção perfeita e expressiva.
Existem dois grandes obstáculos se você quiser usar essa técnica para fazer o presidente Obama dizer palavras embaraçosas:
Sua intuição de que essa é uma solução possível é válida - desde que você tenha o orçamento para resolver esses dois problemas.
Felizmente, existem outras técnicas que podem funcionar com menos supervisão e menos dados. O campo da síntese da fala interessado em "fingir" ou "imitar" uma voz de uma gravação é conhecido como conversão de voz . Você tem uma gravação A1 da frase 1 do locutor alvo A e uma gravação B2 do locutor de origem B dizendo a frase 2, você deseja produzir uma gravação A2 da locução A do locutor A, 2, possivelmente com acesso a uma gravação B1 do locutor B reproduzindo com sua voz, a mesma expressão que o falante alvo.
O esboço de um sistema de conversão de voz é o seguinte:
Insisto no fato de que isso opera em um nível muito mais baixo do que o reconhecimento de fala no B2 e, em seguida, no TTS usando a voz de A1 como corpus.
Várias técnicas estatísticas são usadas para as etapas 1 e 2 - GMM ou VQ sendo as mais comuns. Vários algoritmos de alinhamento são usados na parte 2 - essa é a parte mais complicada e é obviamente mais fácil alinhar A1 x B1 do que A1 x B2. No caso mais simples, métodos como o Dynamic Time Warping podem ser usados para fazer o alinhamento. Quanto à etapa 4, as transformações mais comuns são transformações lineares (multiplicação de matrizes) em vetores de características. Transformações mais complexas criam imitações mais realistas, mas o problema de regressão para encontrar o mapeamento ideal é mais complexo de resolver. Finalmente, como na etapa 5, a qualidade da ressíntese é limitada pelos recursos utilizados. Geralmente, os LPCs são mais fáceis de lidar com um método simples de transformação (considere o quadro de sinal -> estimar o residual e o espectro LPC -> se necessário, o pitch-shift residual -> aplicar espectro LPC modificado ao residual modificado). Usar uma representação da fala que possa ser invertida de volta ao domínio do tempo e que forneça uma boa separação entre prosódia e fonema é a chave aqui! Por fim, desde que você tenha acesso às gravações alinhadas dos alto-falantes A e B dizendo a mesma frase, existem modelos estatísticos que abordam simultaneamente as etapas 1, 2, 3 e 4 em um único procedimento de estimativa de modelo.
Posso voltar com uma bibliografia mais tarde, mas um bom lugar para começar a entender o problema e a estrutura geral usada para resolvê-lo é o "Sistema de conversão de voz de Stylianou, Moulines e Cappé", com base em classificação probabilística e harmônica. mais modelo de ruído ".
Até onde eu sei, não existe um software amplamente executando conversão de voz - apenas propriedades de modificação de software da fonte de voz - como parâmetros de altura do trato vocal e do trato vocal (por exemplo, transformador IRCAM TRAX) - com os quais você precisa mexer na esperança de tornar seu som de gravação mais próximo da voz alvo.
fonte
Você pode usar algo como MorphVox . Aqui está uma demonstração. O processo é chamado de transformação ou conversão de voz. Se você estiver interessado nos aspectos técnicos, um artigo recente que você pode estudar é a Conversão de voz usando regressão de mínimos quadrados parciais do núcleo dinâmico .
fonte
Estou procurando a mesma coisa, mas não pode ser feito. Há uma empresa na Escócia chamada CereProc que faz modelagem de voz, mas eles precisam de alguém em seu laboratório que grave horas de áudio e o custo para modelar uma única voz é de cerca de US $ 30 mil.
fonte
O que você está procurando é chamado de vocoder.
Você já experimentou o vocoder do Audcity? O Audacity pode ser baixado em: http://audacity.sourceforge.net/download . Uma demonstração de como usá-lo pode ser encontrada em https://www.youtube.com/watch?v=J_rPEmJfwNs .
fonte