Como posso alterar a pronúncia do Alexa de uma palavra específica em uma habilidade?

8

Às vezes, ao desenvolver uma habilidade Alexa e programar as respostas do meu serviço, o Alexa pronuncia incorretamente uma das palavras da minha resposta, confundindo o usuário.

Por exemplo, se eu queria que o Alexa dissesse uma palavra em um idioma diferente (talvez para uma habilidade de aprendizado de idiomas), como posso dizer ao Alexa como pronunciar a palavra corretamente, em vez de aplicar as regras de pronúncia em inglês?

Isso também se aplica a palavras em inglês com pronúncias ímpares; existe uma maneira de ditar ao Alexa a pronúncia correta ou substituí-la por um som personalizado correto? Preciso usar marcação adicional ou uma chamada de API?

Aurora0001
fonte

Respostas:

4

O Alexa suporta SSML , que é uma linguagem de marcação semelhante ao XML para fala. Em vez de retornar texto sem formatação do seu serviço, você pode usar respostas SSML. A <phoneme>tag é o que você precisa, em particular:

fonema

Fornece uma pronúncia fonêmica / fonética para o texto contido. Por exemplo, as pessoas podem pronunciar palavras como "pecan" de maneira diferente.

Para palavras em inglês (especialmente inglês dos EUA), o Alexa deve pronunciar qualquer palavra se você der a pronúncia fonética correta:

As tabelas a seguir listam os símbolos suportados para uso com a etiqueta de fonema. Esses símbolos fornecem cobertura completa para os sons do inglês dos EUA. Observe que muitos idiomas que não o inglês exigem o uso de símbolos não incluídos nesta lista, os quais não são suportados. O uso de símbolos não incluídos nesta lista é desencorajado, pois pode resultar em síntese de fala abaixo do ideal.

Citações da documentação da Amazon sobre SSML.

Aqui está um exemplo de dar a Alexa uma pronúncia específica:

<speak>
    <phoneme alphabet="ipa" ph="hɛˈləʊ̯">Hello</phoneme>.
    <phoneme alphabet="ipa" ph="bɔ̃.ˈʒuʁ">Bonjour</phoneme>.
</speak> 

A <phoneme>tag suporta os alfabetos fonéticos IPA e X-SAMPA . Normalmente, você pode encontrar grafias IPA para qualquer palavra no Wikcionário ou no Google.

Para mensagens mais longas, talvez seja melhor usar a <audio>tag e gravar uma voz personalizada:

A tag de áudio permite que você forneça o URL para um arquivo MP3 que o serviço Alexa pode reproduzir ao renderizar uma resposta. Você pode usar isso para incorporar áudio curto e pré-gravado na resposta do seu serviço. Por exemplo, você pode incluir efeitos sonoros juntamente com as respostas de conversão de texto em fala ou fornecer respostas usando uma voz associada à sua marca.

Citado na documentação da Amazon em <audio>.

Aurora0001
fonte