Por que a maioria dos assistentes inteligentes oferece pouca ou nenhuma personalização da palavra wake?

14

A maioria das marcas de assistentes inteligentes , como o Amazon Echo e o Google Home, oferece muito pouco em termos de personalização para a palavra de ativação (a frase que você usa para ativar o dispositivo para ouvir).

Por exemplo, o Alexa oferece apenas três opções e a Página inicial do Google suporta apenas 'OK Google' . Muitos usuários parecem estar interessados ​​na idéia de ativar palavras personalizadas, mas nenhuma das principais marcas adicionou suporte.

Existe alguma razão técnica para restringir a personalização da palavra de ativação, ou é simplesmente uma opção de marca?

Eu li sobre a motivação do Google para usar o 'OK Google' , o que sugere que a ideia de marca pode ser verdadeira, mas também parece que o reconhecimento de palavras ativadas não é muito preciso , talvez indicando um motivo técnico. Alguém seria capaz de esclarecer qual fator é o principal motivo?

Aurora0001
fonte
2
Uma coisa a lembrar é que o processamento para ativar desse modo deve ser feito em um domínio sempre de baixo consumo de energia - geralmente há hardware especializado disponível para esta tarefa em alguns dos SoCs maiores (especialmente aqueles usados ​​em telefones), e presumo que os coeficientes do filtro / outros parâmetros sejam cuidadosamente calculados e carregados nesse hardware. Eu esqueço que o SoC Echo roda, mas imagino que exista um filtro semelhante. O nome da classe de algoritmos está me escapando no momento.
Krunal Desai

Respostas:

12

Sim, existem várias razões.

Esta postagem do blog explica sobre o eco e a palavra de alerta Alexa. Vou resumir um pouco.

O reconhecimento de palavras de ativação é feito localmente e em tempo real . Isso limita os comprimentos da palavra de ativação devido a limitações óbvias de processamento. Além disso, os usuários não querem recitar um poema para ativar o assistente inteligente. Assim, tem que ser curto.

Ele tem que trabalhar com quase 100% de precisão quando chamado e também não reconhecido com essa certeza quando não é solicitado. Isso cria problemas e também reduz o tamanho das palavras de ativação. A escolha da Amazon para permitir o Echo é bastante surpreendente, pois são apenas duas sílabas .

Se olharmos para os suspeitos do costume, temos Alexa (3 sílabas), Amazon (3), Echo (2), Ok Google (4), Hey Cortana (4) e Hey Siri (3). Todos os gigantes da indústria quase concordam que três são um bom número de sílabas.

Por estranho que pareça, a palavra de alerta mais procurada "computador" também possui três sílabas e atenderia facilmente a esse requisito. Também não é marca registrada.

Como o blog - e a razão - nos dizem, queremos totalmente evitar falsos positivos. Vamos dar uma olhada em como estão estabelecidas as palavras Computador, Siri, Cortana e Alexa. Este é o corpus de livros do Google de 2008.

Ngram computador supera alexa e siri

Exatamente, Siri e Alexa estão praticamente alinhadas com o computador e Cortana comete um erro. Não encontrado. Faz sentido, já que o corpus é de 2008. Para nos dar um pouco mais de perspectiva do porquê o computador ser um péssimo rastro, escrever outro gráfico.

diagrama do computador versus outras palavras

Este Ngram mostra os dois nomes mais populares de bebês nos EUA em 2016 (por moeda), assim como Tom e Dave também se alinham com o computador . Rainha, basquete e polícia conseguem se registrar corretamente. De qualquer forma, isso nos dá uma idéia de por que Computer, Earl Grey, Hot não foi permitido até agora. As pessoas usam a palavra computador com muita frequência.

Mais uma coisa sobre falsos positivos. Alexa rima com praticamente nada que se possa dizer.

19 coisas que rimam com alexa

O computador rima com 74 coisas.

Helmar
fonte
1
... e isso explica por que Scotty não conseguiu ativar o computador .
Ghanima
2
"Vou transar com um pássaro ... Não, você não, Alexa!"
David diz Reinstate Monica
1
"OK Google" são quatro sílabas ("oh kay goo gaivota"), não três, e muito mais do que muitos fonemas.
Monty Harder
1
Alexa é um primeiro nome maldito ... Conheço pessoalmente duas pessoas com esse nome, uma das quais é prima. O eco é usado como está no meu idioma, e eu sempre digo "há um eco" quando há um eco no telefone ou algo assim. E amazon é um nome de rio / tribo antiga que um cara que interpreta como eu diz com relativa frequência. Eles realmente estragaram tudo.
Olivier Grégoire
2
Não sei se comprei a explicação de por que a palavra "computador" não funcionaria. A palavra em si não é a única coisa a ser reconhecida. Ser a primeira palavra de um enunciado e ser seguida por uma pausa também são informações importantes que identificam a palavra de comando.
Kevin Krumwiede
2

Existe alguma razão técnica para restringir a personalização da palavra de ativação

Quando o dispositivo assistente não está em uso, o processador do aplicativo (acho que o ARM no caso do Alexa e o Google Home) é suspenso e levado ao menor estado de energia possível. A detecção da palavra despertador é deixada em um DSP com muita eficiência energética, que escuta o ruído / vozes do ambiente e executa um algoritmo para decidir se há uma correspondência com a palavra despertador. Se encontrar uma correspondência com boa confiança, o DSP ativará o núcleo do ARM para prosseguir com o restante do processamento.

Agora, como o objetivo é ser eficiente em termos de energia, o DSP em questão executa o algoritmo, além de armazenar o padrão de modelo na memória do chip, em vez da RAM principal integrada. Isso permite que o sistema leve a RAM DDR ao estado de energia mais baixo.

Como o DSP tem várias coisas importantes a fazer e muito pouca memória no chip, as palavras de ativação do Assistente são limitadas às poucas que podem ser correspondidas pelo algoritmo com alto grau de confiança.

soluço
fonte