Por que os seres humanos podem destacar o áudio em uma multidão? O que seria necessário para um robô fazer o mesmo?

Eu estava em uma conferência de robótica hoje cedo e um dos palestrantes mencionou que os robôs não são capazes de funcionar tão bem no meio da multidão porque não conseguem destacar o áudio como uma pessoa.

Por que as pessoas podem destacar tão bem o áudio? E o que seria necessário para um robô fazer o mesmo?

Estou ciente da redução de ruído ativo (ANR) como nos fones de ouvido da Bose Aviation, mas não é disso que estou falando. Estou pensando na capacidade de absorver tudo, mas processar apenas o que você considera importante.

artificial-intelligence Bob Esponja
fonte

Respostas:

O que o orador disse na conferência não foi exato. Talvez eles quisessem dizer " nosso robô não pode destacar o áudio como uma pessoa", mas a afirmação "[robôs] não podem destacar o áudio como uma pessoa" é falsa.

Aqui está uma lista parcial de sistemas que podem determinar a fonte de um sinal de áudio e rastreá-lo:

Telefones de conferência (e muitos celulares), com técnica (s) descrita (s) em artigos este
Localizadores de tiros
Robôs subaquáticos com conjuntos de microfones rebocados, por exemplo, o AUV descrito neste documento
Robôs móveis terrestres

O termo que você procura é uma "matriz faseada" de microfones (consulte também: caixa de ferramentas Matlab phased array ). A NASA usa matrizes em fases para localizar o ruído proveniente das pás dos ventiladores do rotor .

Ian
fonte

Já faz um tempo desde que eu participei da aula de áudio, mas também acredito que qualquer voz deve ter características que possam ser consideradas razoavelmente únicas na multidão.

precisa

Para adicionar à sua lista, o sensor Kinect para Windows possui um conjunto de microfones que pode ser usado para determinar de qual player o áudio é proveniente.

WildCrustacean

Isso é excelente, você tem um link sobre como acessar essas informações do Kinect?

19713 Ian

+1. Mas um robô pode tomar decisões em tempo real sobre o que é importante e filtrar de acordo com isso? Parece-me que sua lista inclui apenas sons que o robô pode aprender com antecedência.

Adrian Keister

Certamente. A técnica é chamada de formação de feixe . Supondo que você tenha alguns critérios filtráveis para o que é considerado "importante", assim que receber esse sinal, você rastreará seu movimento a partir desse local espacial.

21413 Ian Ian

Eu acho que há pelo menos três coisas acontecendo:

Filtragem dependente da localização da qual o som vem. Nossa audição estéreo combinada com certos atributos de como nossos ouvidos são construídos nos ajuda a isolar o som proveniente de um determinado local / direção.
Filtragem dependente da frequência / amplitude do áudio.
A redundância no áudio nos permite reconstruir a entrada. Se várias pessoas estão falando umas sobre as outras (ou geralmente na presença de ruído), precisamos apenas capturar uma fração do que está sendo dito (ou às vezes até observar visualmente) para saber o que está sendo dito.

Eu pensaria que um robô pode superar os humanos nos números 1 e 2. Com um conjunto de microfones, seria de se pensar que você poderia se concentrar efetivamente em um único ponto no espaço e eliminar todas as outras interferências. Isso pode ser mais complicado com reflexões e vários outros distúrbios. O nº 3 é provavelmente algo mais difícil para os computadores.

Guy Sirton
fonte

A palavra secreta para hoje à noite é stereo hearing. Pergunte a qualquer humano que perdeu essa capacidade por qualquer motivo. Portanto, um programa ou mesmo um robô com 2 ou mais microfones terá essa capacidade - se o programador souber como lidar com a entrada.

17--13