Perguntas com a marcação «speech-recognition»

17

filtro de ruído de fala humana

Alguém sabe de um filtro para atenuar a não fala? Estou escrevendo um software de reconhecimento de fala e gostaria de filtrar tudo, exceto a fala humana. Isso inclui ruído de fundo, ruído produzido por um microfone ruim ou até música de fundo. Eu já implementei um filtro de primeira ordem que...

12

Determinando como o áudio é semelhante ao discurso humano

Enquanto procurava uma resposta para esse problema, encontrei este fórum, então decidi postar essa questão minha no Stack Overflow. Estou procurando um método para determinar a semelhança entre um segmento de áudio e uma voz humana, que é expressa numericamente. Pesquisei bastante, mas o que...

audio algorithms speech-recognition

10

Projetando um vetor de característica para discriminar entre diferentes formas de onda sônicas

Considere os 4 seguintes sinais de forma de onda: signal1 = [4.1880 11.5270 55.8612 110.6730 146.2967 145.4113 104.1815 60.1679 14.3949 -53.7558 -72.6384 -88.0250 -98.4607] signal2 = [ -39.6966 44.8127 95.0896 145.4097 144.5878 95.5007 61.0545 47.2886 28.1277 -40.9720 -53.6246 -63.4821 -72.3029...

computer-vision frequency-spectrum autocorrelation speech-recognition

10

Como a redução de ruído para reconhecimento de fala difere da redução de ruído que deveria tornar a fala mais "inteligível" para os seres humanos?

Essa é uma pergunta que me interessa há algum tempo, principalmente porque estou trabalhando na redução de ruído para um sistema de reconhecimento de fala existente. A maioria dos trabalhos sobre técnicas de redução de ruído parece focar em como tornar a fala mais inteligível para os seres humanos...

noise speech-recognition speech-processing noise-cancellation

9

Como segmentar o áudio da chamada telefônica em silêncio / não silêncio?

Meu problema é que eu não conheço a energia do ruído de fundo, então não posso simplesmente limitar a energia. O processamento é feito em tempo real e tenho cerca de 500 ms para decidir. Idealmente, eu gostaria que consoantes silenciosas fossem consideradas

audio speech-recognition

9

Como implementar uma transformação Hough baseada em gradiente

Estou tentando usar a transformação Hough para detecção de borda e gostaria de usar imagens de gradiente como base. O que tem feito até agora, dada a imagem Ide tamanho [M,N]e seus derivados parciais gx, gy, é calcular o ângulo de inclinação em cada pixel como thetas = atan(gy(x,y) ./ gx. Da...

image-processing edge-detection image-processing computer-vision image-registration discrete-signals noise bpsk snr demodulation bpsk multipath synchronization timing image-processing filters algorithms edge-detection sampling demodulation bpsk synchronization timing fft fourier-transform delay audio speech-recognition soft-question discrete-signals discrete-signals autocorrelation frequency computer-vision

8

O que significa um "vetor" em um modelo oculto de Markov?

Eu sei que um Modelo de Markov Oculto (HMM) é usado no reconhecimento de fala e compreendo até certo ponto. No entanto, o que não sei é como a entrada (fala) é "transformada" em um vetor que mais tarde é usado no HMM. Como você obtém um vetor de uma entrada de som? Esse vetor é legível por um...

speech-recognition

8

Como a Siri me reconhece dizendo "Hey Siri"?

Eu estou tentando entender como o meu iPhone pode ouvir continuamente para mim dizendo Hey Siri, Alexa, Hey Cortanaou Okay Googlesem drenar rapidamente a minha bateria para baixo. Imaginei dois tipos de algoritmo. Um que registra uma fatia de tempo, como 10 ms de largura a cada 200 ms e executa...

sound speech-recognition voice

7

como essa equação corresponde à suavização?

Por favor, ajude-me a entender a suavização dos dados. Este é um acompanhamento da minha pergunta anterior postada aqui . Especialmente a principal resposta de Junuxx, onde ele diz que uma maneira de suavizar uma função é:f(x)f(x)f(x) f′[ t ] = 0,1 f[ t - 1 ] + 0,8 f[ t ] + 0,1 f[ t + 1...

speech-recognition smoothing speech

7

Qual é a interpretação gráfica correta de uma série de vetores MFCC?

Estou estudando reconhecimento de fala, em particular o uso do MFCC para extração de recursos. Todos os exemplos que encontrei on-line tendem a representar graficamente uma série de MFCC extraídos de uma expressão específica da seguinte forma (gráfico gerado por mim a partir do software que estou...

speech-recognition mfcc visualization feature-extraction