Alexa logo oferecerá a voz de "apresentadores de notícias"

A Amazon anunciou recentemente o desenvolvimento de uma voz personalizada da Alexa, adequada para ler as notícias. Em implementações anteriores, a funcionalidade de conversão de texto em fala era obtida pela concatenação de pequenos trechos de áudio para produzir o resultado completo da sentença. A Amazon está usando uma rede neural generativa para sintetizar uma voz que não é apenas mais natural, mas pode fornecer diferentes estilos de fala de acordo com o contexto do texto sendo convertido em fala.

A primeira aplicação deste sistema demonstrou uma voz que soa mais natural para ler as notícias. A Alexa da Amazon vai mudar para a nova voz nas próximas semanas. A voz que se assemelha a um apresentador de notícias foi possível capturando trechos de áudio dos canais de notícias e depois utilizando o aprendizado de máquina para detectar a maneira como eles lêem o texto. Essas nuances são difíceis de identificar em um algoritmo determinístico, então uma abordagem estatística é empregada para detectá-las e aplicá-las. A Amazon demorou apenas algumas horas de dados para ensinar ao algoritmo de Aprendizado de Máquina como soar como um apresentador, o que significa que diferentes estilos poderiam estar a caminho.

Para obter um locutor como a voz, uma abordagem é alistar talentos de voz para ler em seu próprio estilo, dividir suas gravações em pequenas amostras de voz e sintetizá-las na saída final. Isso é demorado e caro. A inovação do sistema Neural text-to-speech é que ele emprega um módulo de 'codificação de estilo' que identifica o estilo de fala da amostra de voz. Desta forma, o sistema combina uma grande quantidade de dados de fala de estilo neutro com algumas horas de dados suplementares no estilo desejado. Ele pode modelar aspectos da fala como nuances, prosódia e outras características, que são independentes do estilo de fala e as que são específicas para um único estilo de fala.

O anúncio segue a recente adição do modo sussurro no Alexa, que permite um tom de voz mais suave para conversas no modo noturno ou adiantado com o assistente digital. O Assistente do Google já está usando uma síntese de fala baseada no Aprendizado de Máquina desenvolvido por seu laboratório de IA que fica em Londres, o DeepMind. A Siri, da Apple, está usando a Aprendizagem de Máquina Oculta do Modelo de Markov para sintetizar a voz de até 20 horas de gravações profissionais.

Unlock the full InfoQ experience

Não tem uma conta no InfoQ?

Tópicos

Crank, o novo framework frontend com renderização assíncrona integrada - Bate papo com Brian Kim

APIs em tempo real no contexto do Apache Kafka

COVID-19 e Mineração de Redes Sociais - Habilitando Cargas de Trabalho de Aprendizado de Máquina com Big Data

Entendendo Os Valores e Princípios Ágeis

Bate papo sobre o livro “De pé sobre os ombros: Um guia para líderes na transformação digital"

Links úteis

Escolha a região

Avalie esse artigo

Conteúdo publicado no tópico Cloud

Tópicos Relacionados:

Conteúdo editorial relacionado

Conteúdo relacionado de patrocinadores

Conteúdo educacional

Crank, o novo framework frontend com renderização assíncrona integrada - Bate papo com Brian Kim

Blockchain Empresarial: Jornada de uma rede multi-organização à produção

PHP 7 - Melhorias na biblioteca padrão

O último conteúdo do InfoQ Brasil

APIs em tempo real no contexto do Apache Kafka

Sete duras lições aprendidas na migração de um monólito para microservices

Adquira leads qualificados no mercado de desenvolvimento de software com a eMag InfoQ

Entendendo Os Valores e Princípios Ágeis

Somente empresas ágeis sobrevivem ao ambiente de negócios em constante mudança

COVID-19 e Mineração de Redes Sociais - Habilitando Cargas de Trabalho de Aprendizado de Máquina com Big Data

A inteligência artificial estaria mais próxima do bom senso?

Desafios na avaliação postural humana em aplicativos de condicionamento físico baseados em IA

Bate papo sobre o livro “De pé sobre os ombros: Um guia para líderes na transformação digital"

Arquitetura de Microservices Multi-Runtime

Armadilhas de design NoSQL com Java

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco