O Amazon Echo está 'sempre ouvindo' e enviando dados para a nuvem?

20

Várias fontes de notícias como Intellihub e CEPro parecem sugerir que o assistente doméstico da Amazon ouça constantemente as conversas e as envie pela Internet para os servidores da Amazon. O CEPro afirma que:

Ao dizer uma frase-chave que a Amazon chama de "palavra de alerta", o Echo ganha vida e começa a ouvir comandos. Por padrão, a palavra de ativação é Alexa.

Se você reler a última frase, pode não fazer sentido, especialmente se você estiver no campo de segurança. Segundo a Amazon, o Echo só ouve comandos quando ouve sua palavra de alerta. Como ele sabe quando você disse a palavra da vigília se ela já não estava ouvindo?

O artigo da Intellihub é semelhante em seu sentimento:

O dispositivo “Amazon Echo”, um alto-falante Bluetooth que escuta constantemente e se conecta a serviços de streaming de música como Pandora e Spotify ao som da voz de uma pessoa, pode ser facilmente invadido e usado por agências governamentais como o FBI para ouvir conversas.

(Observe que não estou particularmente focado em explorar o aspecto hacking desta pergunta, pois isso provavelmente seria demais para uma pergunta. Meu foco principal é o aspecto sempre ativo e se isso envia dados o tempo todo .)

Nenhum dos artigos parece particularmente interessado em divulgar uma fonte para suas reivindicações, o que sugere para mim que elas não são comprovadas na melhor das hipóteses ou, na pior das hipóteses, isca de cliques.

O Echo está sempre gravando e enviando dados para a nuvem ou as reivindicações acima são infundadas? Como o Amazon Echo processa dados se nem sempre está enviando dados para servidores na nuvem?

Aurora0001
fonte

Respostas:

14

Sim, está sempre ouvindo. Não, nem sempre é o envio para a nuvem.

Obviamente, o dispositivo deve estar sempre ouvindo para detectar a palavra de alerta. No entanto, isso é feito por uma tecnologia chamada.

  1. Como o Amazon Echo e o Echo Dot reconhecem a palavra de alerta?

O Amazon Echo e o Echo Dot usam a detecção de palavras-chave no dispositivo para detectar a palavra de ativação. Quando esses dispositivos detectam a palavra de ativação, eles transmitem áudio para a nuvem , incluindo uma fração de segundo de áudio antes da palavra de ativação.

( Perguntas frequentes sobre eco )

Assim, de acordo com a Amazon, a detecção de palavras ativadas está no dispositivo. Isso pode ser facilmente testado, proibindo o dispositivo de acessar a Internet no seu roteador. O ponto de eco / eco ainda reconhecerá a palavra de ativação, mas o anel de luz ficará vermelho e o dispositivo avisará que não há conexão com a Internet. Portanto, podemos verificar com muita simplicidade que o reconhecimento de palavras ativas é realmente feito localmente .

Somente após detectar a palavra de ativação, o dispositivo entra em contato com o serviço de nuvem Alexa.

De acordo com a Amazon, o dispositivo só transmite para a nuvem quando o anel de luz é azul e não escuta quando você o silencia e o anel de luz está com um vermelho sólido. Obviamente, pessoas cautelosas podem verificar isso com ferramentas de rede como o Wireshark, para garantir que ele realmente apenas transmita.

Helmar
fonte
3
Aparentemente, isso não é mais completamente verdade: os dispositivos Alexa agora podem verificar a palavra de ativação através da nuvem como uma verificação adicional; portanto, algo semelhante à palavra de ativação pode ser enviado para a nuvem.
Aurora0001
12

O Echo está sempre gravando e enviando dados para a nuvem ou as reivindicações acima são infundadas?

Não no envio. Mas sim na gravação.

Atualmente, estou desenvolvendo um cliente de hardware Alexa para uma empresa. O dispositivo está sempre ouvindo. Mas você teria que colocar um mecanismo de ativação de palavras nele para que "acordasse" do modo de escuta passiva e alternasse para o modo "escutar por comando" ativo.

O firmware só enviaria as instruções após a palavra de ativação (alterne para o modo ativo) na nuvem para processá-las como comandos.

  • No que diz respeito ao dispositivo, você não gostaria de enviar todas as instruções que ele recebe na nuvem para processamento, pois isso consumiria muita largura de banda e energia.
  • No que diz respeito à Amazon, eles também não gostariam que cada cliente Alexa enviasse tudo o que ouve, porque isso exigiria uma quantidade enorme de largura de banda. Além disso, isso resultaria em muitos dados não relacionados que interfeririam no aprendizado contínuo do sistema. Imagine tentar aprender o que seu professor está dizendo (comandos válidos) quando todos na sala de aula estão falando ao mesmo tempo (qualquer outra declaração que não seja um comando).

Como o Amazon Echo processa dados se nem sempre está enviando dados para servidores na nuvem?

No modo passivo, o dispositivo possui um mecanismo interno da palavra de ativação que escuta o tempo todo a palavra de ativação. Enquanto testava o Alexa no Raspberry Pi, tive que colocar o mecanismo Sensory ou KITT.AI para esse fim. De fato, quando experimentei o protótipo do código do cliente Alexa para minha máquina Linux, ele precisou ser "push-to-talk" porque não havia um mecanismo de ativação de palavras.

leon.valencia
fonte
Obrigado por apontar sobre os mecanismos de ativação do word - essa é quase certamente a abordagem que a Amazon está usando pela aparência. Sua analogia com os dados também é ótima - eu agradeço!
Aurora0001
4

Ao dizer uma frase-chave que a Amazon chama de "palavra de alerta", o Echo ganha vida e começa a ouvir comandos. Por padrão, a palavra de ativação é Alexa.

Se você reler a última frase, pode não fazer sentido, especialmente se você estiver no campo de segurança. Segundo a Amazon, o Echo só ouve comandos quando ouve sua palavra de alerta. Como ele sabe quando você disse a palavra da vigília se ela já não estava ouvindo?

O eco escuta ativamente a palavra - chave e utiliza as palavras faladas após a palavra-chave para o processamento NLU. Aqui está o meu entendimento de como o eco alcança esse feito arrumado.

O eco é construído no processador de mídia digital DM3725 da Texas Instruments .

Esse SoC da TI possui duas partes principais, a primeira é a MPU ARM Cortex-A8 e a segunda é a TMS320DM64x + DSP. O núcleo do ARM deve estar executando o Linux e o DSP está executando o firmware.

Quando inativo, o núcleo do ARM é levado ao estado de energia mais baixo possível e o Linux é completamente suspenso. No momento, o DSP e a RAM on-chip de 64 KB estão ativos. O firmware DSP processa o ruído proveniente dos microfones e tenta identificar se uma palavra-chave (por exemplo, Alexa) é falada. Assim que identifica que há uma palavra-chave, o DSP envia uma interrupção para ativar o núcleo do ARM, que por sua vez retoma o Linux. Mas lembre-se, enquanto o Linux está acordando o humano que disse que o Alexa continuaria falando (como em "Alexa, que horas são?" ). O DSP armazena em buffer o "que horas são?" parte na RAM do chip. E quando o Linux é retomado, o Linux busca a fala em buffer e usa a capacidade de Processamento de Linguagem Natural (parcialmente local, parcialmente em nuvem) para entender o que a Human disse.

Como você vê, o design foi totalmente criado para reduzir o consumo de energia e evitar a necessidade de incluir nuvem para detecção de palavras-chave e buffer inicial. Por uma questão de fato, manter o núcleo do ARM no estado de potência mais baixa garante que o silício aqueça menos quando estiver ocioso, proporcionando assim uma vida útil longa ao seu dispositivo.

Estou deixando de fora a discussão sobre tentativas de hackear eco, conforme a pergunta estava a seguir:

o reconhecimento da palavra wake é realmente feito localmente.

soluço
fonte
Quão difícil seria colocar a maioria dos comandos simples, como que horas são ou reproduzir a estação localmente? Isso também eliminaria o tempo de atraso da nuvem.
flyingdrifter 04/07
1

Sim.

Veja, por exemplo, quão privado é o novo Amazon Echo? (há muito mais semelhante a ser encontrado com o mínimo esforço)

Como o Siri, o Amazon Echo trabalha na "nuvem", executada no Amazon Web Services. Portanto, o processamento necessário para "entender" o seu comando não é tratado no próprio dispositivo

Contudo,

Afinal, está sempre ouvindo, então não devemos nos preocupar com o Big Brother?

Não, diz Amazon. A gigante da tecnologia diz que não escuta ou grava conversas particulares em casa. Se alguém estiver preocupado, ele pode usar o controle remoto fornecido para pressionar o botão de mudo, que desliga o dispositivo "sempre ouvindo", para que fique inoperante até você ativar o microfone novamente.

Mawg
fonte
Essa é uma boa fonte, obrigado. Ele não mencionou nada sobre como o eco não reconhece o comando esteira embora se ele não está sempre a gravar e enviar dados, então eu estaria interessado em ouvir sobre esse aspecto mais.
Aurora0001
Certamente esse é o ponto? Ele está sempre ouvindo e enviando * tudo para a nuvem, onde é reconhecido o comando de ativação. Você precisa de uma citação para isso?
MAWG
1
Isso seria útil, sim (e acho que provavelmente altera sua resposta geral para "sim, está sempre ouvindo"). Obrigado.
Aurora0001
1
Não sei quanto poder de processamento há no eco, mas sei que meu smartwatch é capaz de detectar 'ok google' quando não está amarrado - de uma perspectiva de carregamento na nuvem, faz sentido migrar essa funcionalidade para a borda quando pronto - para que a resposta possa mudar.
Sean Houlihane
Ele pode (? Mas por que), no futuro, Por agora, parece claro
MAWG