O Alexa suporta SSML , que é uma linguagem de marcação semelhante ao XML para fala. Em vez de retornar texto sem formatação do seu serviço, você pode usar respostas SSML. A <phoneme>
tag é o que você precisa, em particular:
fonema
Fornece uma pronúncia fonêmica / fonética para o texto contido. Por exemplo, as pessoas podem pronunciar palavras como "pecan" de maneira diferente.
Para palavras em inglês (especialmente inglês dos EUA), o Alexa deve pronunciar qualquer palavra se você der a pronúncia fonética correta:
As tabelas a seguir listam os símbolos suportados para uso com a etiqueta de fonema. Esses símbolos fornecem cobertura completa para os sons do inglês dos EUA. Observe que muitos idiomas que não o inglês exigem o uso de símbolos não incluídos nesta lista, os quais não são suportados. O uso de símbolos não incluídos nesta lista é desencorajado, pois pode resultar em síntese de fala abaixo do ideal.
Citações da documentação da Amazon sobre SSML.
Aqui está um exemplo de dar a Alexa uma pronúncia específica:
<speak>
<phoneme alphabet="ipa" ph="hɛˈləʊ̯">Hello</phoneme>.
<phoneme alphabet="ipa" ph="bɔ̃.ˈʒuʁ">Bonjour</phoneme>.
</speak>
A <phoneme>
tag suporta os alfabetos fonéticos IPA e X-SAMPA . Normalmente, você pode encontrar grafias IPA para qualquer palavra no Wikcionário ou no Google.
Para mensagens mais longas, talvez seja melhor usar a <audio>
tag e gravar uma voz personalizada:
A tag de áudio permite que você forneça o URL para um arquivo MP3 que o serviço Alexa pode reproduzir ao renderizar uma resposta. Você pode usar isso para incorporar áudio curto e pré-gravado na resposta do seu serviço. Por exemplo, você pode incluir efeitos sonoros juntamente com as respostas de conversão de texto em fala ou fornecer respostas usando uma voz associada à sua marca.
Citado na documentação da Amazon em <audio>
.