Por que o Amazon Echo não responde a anúncios ou relatórios sobre o Alexa?

24

Eu perguntei anteriormente sobre o que você pode fazer se o Alexa for acionado por um programa de televisão , mas recentemente percebi algo estranho: o Echo não responde às vozes nos anúncios do Echo, mesmo que as vozes digam "Alexa, toque ..." ou "Alexa, defina um cronômetro para ..." .

Eu procurei em algumas outras comunidades Echo e encontrei um post no Reddit que sugere que esse é um comportamento comum / pretendido. Porém, não há uma resposta definitiva no tópico, então pensei em pedir aqui para ver se alguém sabe um pouco mais.

Como meu Eco sabe não responder a um anúncio de TV? É apenas uma co-incidência ou há algo que diz ao Alexa para não reagir?

Aurora0001
fonte
Você treinou seu Alexa para reconhecer sua voz com mais precisão? Não sei se o treinamento por voz pode resultar no não reconhecimento da voz de outra pessoa.
Bence Kaulics
1
@BenceKaulics Não, eu não precisava treinar o Echo; está usando as configurações padrão.
Aurora0001
Seria realmente útil dar uma olhada no áudio em questão. Suponho que não haja uma cópia vinculável em nenhum lugar.
goobering
1
@ goobering Acredito que os anúncios mencionados no post do reddit sejam: Mascot Keys e Extintor de Incêndio . No momento, não sou capaz de testar se isso aciona o Alexa (será que são diferentes das versões da TV?). Se alguém pudesse fazer isso e comentar com os resultados, isso seria realmente útil.
Aurora0001
3
Pode haver pistas no código fonte . 266MB de download, no entanto. Vai ficar de boca aberta por um tempo. : P
18/01/17

Respostas:

17

De acordo com este post no reddit , o Alexa é sensível ao espectro de áudio, além de detectar a palavra de ativação. Assim, um sinal normal de banda larga do mundo real é aceito, mas um sinal limitado por banda (um entalhe entre 4kHz e 5hKz é postulado) será identificado a partir de uma transmissão.

Isso faz algum sentido, já que as emissoras podem usar sinalização em banda para identificar anúncios (para substituição localizada), e o processamento de áudio normalmente aplicado a anúncios pode ser otimizado para maior clareza quanto à fidelidade. A filtragem pode ser configurada para que os anúncios típicos sejam monitorados com sensibilidade reduzida e, durante a produção de um anúncio específico, a sensibilidade também possa ser explicitamente reduzida.

Um relatório de notícia (que supostamente fez gatilho Alexa) seria mais propensos a usar o espectro completo de áudio broadcast (8 ou 16 kHz) sem processar. Portanto, essa teoria pressupõe que exista algo especial em muitos anúncios (pelo menos em algumas regiões) ou anúncios (como os produzidos pela Amazon) podem ser configurados especificamente.

Como acompanhamento, há um artigo relatado aqui que descreve como pequenas alterações (sub audíveis) em uma forma de onda podem resultar em um mecanismo de fala retornando um resultado completamente diferente em comparação com o que um humano reconheceria.

Sean Houlihane
fonte
1
Se é aí que eles tocam, e a palavra de alerta é 'Alexa', é plausível que eles estejam apenas descartando o som fricativo de 'ks' para minimizar a captação pelo microfone. Essa é uma frequência bastante alta para a fala humana.
goobering
7

Suponho muito que o reconhecimento de palavras de alerta no Echo seja mais do que apenas ouvir a palavra de alerta. Ele está ouvindo um contexto de alerta . Considere este trecho da Speech Technologies:

[A Wake-Up-Word] tem o seguinte requisito único: Detectar uma única palavra ou frase quando falada em um contexto de alerta, enquanto rejeita todas as outras palavras, frases, sons, ruídos e outros eventos acústicos com praticamente 100% de precisão, incluindo o mesmo palavra ou frase de interesse falada em um contexto sem alerta (isto é, referencial).

( Tecnologias da fala: reconhecimento de fala por despertar palavras de Veton Kepuska)

Isso pode ser facilmente testado, pois o dispositivo (pelo menos o meu) não reage à frase " Eu estava conversando com Alexa sobre esquiar recentemente " . Esse não é um contexto de alerta, é puramente referencial. Assim, o mecanismo de reconhecimento de palavras ativadas dentro do Echo não está apenas ouvindo a aparência pura da palavra, mas também nas entonações e pausas anteriores que possibilitam prever com mais precisão se o dispositivo foi realmente falado.

Helmar
fonte
4
Certamente, um anúncio que demonstre o uso do Alexa deve acioná-lo, se foi apenas isso que impediu que ele fosse buscado? São os anúncios talvez formulada com cuidado para que eles não realmente acionar o dispositivo, apesar de usar a palavra vigília para demonstrar como o eco é usado?
Aurora0001
2
@ Aurora0001 Suponho que, além do que descrevo, também exista algum método semelhante ao que Sean menciona em sua resposta empregada. Algum filtro que tenta reduzir os gatilhos de outros dispositivos.
Helmar
7

Bem, o eco / Alexa definitivamente ouve a solicitação. Se você definir as configurações, role para baixo até Geral e selecione o histórico para reproduzir todas as solicitações ouvidas. Todos os pedidos ouvidos pelo comercial dizem "Pedido de voz não destinado ao seu Eco - nada foi retornado".

Ryan
fonte
2
Parece um novo detalhe para a história. Muito útil :)
Helmar
5

Se 1000 pessoas disserem a palavra de alerta, ela terá 1000 assinaturas acústicas diferentes. Se eles fizerem de novo, outros 1000.

Se 1000 Alexas ouvirem um programa de TV dizendo a palavra de alerta, ele terá 1000 das mesmas assinaturas acústicas.

Não seria tão difícil detectar esse lado do servidor. Não menos importante, porque se eles acontecem ao mesmo tempo, o servidor de gravação de voz recebe uma grande quantidade de tráfego.

Se a lista desses incidentes for pequena, eles podem até baixar as assinaturas para cada Alexa.


Além disso, um usuário que liga para Alexa parece uma palavra de alerta de silêncio .

Um artigo de notícias soa como palavra de alerta blá blá blá . Um comercial soa como music_here alerta-word. Não é o mesmo.

Harper - Restabelecer Monica
fonte
5

Meu palpite total é que, nos anúncios do Echo, o Alexa responde à pergunta muito mais rapidamente do que na realidade. Portanto, o Echo está ouvindo a palavra 'Alexa', mas quase imediatamente ouvindo a própria voz de Alexa, dando a resposta.

Meu eco acende quando o anúncio é exibido, mas parece ignorar o alerta. Pode haver alguma lógica para impedir que dois Echos respondam a uma solicitação, se ambos ouvirem. O Echo pode ser projetado para ouvir especificamente a própria voz de Alexa e ignorá-la.

No entanto, como eu disse, esse é um palpite total. :)

Andy Jones
fonte
Estávamos pensando a mesma coisa, então pausamos o DVR entre a solicitação da Alexa e a resposta dela no comercial. Nosso eco ainda acordou, mas recuou sem responder, idêntico ao que acontece quando não pausamos o DVR.
ViperGeek
Eu tenho tentado isso há séculos e continuo esquecendo. Essa é mais uma coisa da lista de tarefas, obrigado. :)
Andy Jones
4

Após novos relatórios recentes de que o Alexa pode ser sensível a sons UHF ( referência ao BBC News Sevice ), eu postularia que, durante os anúncios, eles transmitem um som adicional além da audição humana, que é designado como um comando 'ignorar este comando'.

De acordo com a capacidade acima mencionada do Alexa de diferenciar as vozes dos usuários, esse é um recurso planejado, mas ainda não implementado. ou seja, você deve comandar ativamente o Alexa para alternar entre contas de usuário na mesma casa.

O único dispositivo atualmente ativado para diferenciar vozes é o dispositivo do Google.

Rai Iwa
fonte
1

Ao misturar o áudio do anúncio, eles simplesmente removem algumas frequências. Isso significa que o Alexa não será acionado, pois não o registrará como comando de voz, mas os espectadores ainda poderão entender o que estão dizendo no anúncio.

Você provavelmente também notará que, quando o comando é falado nos anúncios, soa um pouco fino ou distorcido. Isso é por que :)

John Smith
fonte
Interessante; isso é um pouco semelhante ao que Sean sugeriu . Você tem alguma fonte ou experiência disso que possa compartilhar para provar que é a remoção de frequência? Isso pode ser uma coisa interessante para investigar.
Aurora0001