CIÊNCIA E TECNOLOGIA

A inteligência artificial agora é chocantemente boa em parecer humana

inteliar112/09/2020 - As vozes sintéticas se tornaram onipresentes. Eles nos dão instruções de manhã, nos orientam por telefonemas durante o dia e transmitem as notícias em alto-falantes inteligentes à noite. E à medida que a tecnologia usada para fazê-los melhora, essas vozes estão se tornando cada vez mais humanas. Esta é a fronteira final do discurso sintético: replicar não apenas o que dizemos, mas como o dizemos.

Rupal Patel lidera um grupo de pesquisa na Northeastern University que estuda a prosódia da fala – as mudanças no tom, volume e duração que usamos para transmitir intenção e emoção por meio da voz. “Às vezes as pessoas pensam nisso como a cereja do bolo”, explica ela. “Você tem a mensagem, e agora é como você modula essa mensagem, mas eu realmente acho que é o andaime que dá significado à própria mensagem.”

Patel diz que se interessou pela prosódia depois de descobrir que era o único elemento de comunicação vocal que parecia estar disponível para pessoas com alguns tipos de distúrbios graves da fala. Esses pacientes foram capazes de emitir sons expressivos, mesmo que não pudessem falar claramente. Em 2014, Patel fundou uma empresa para construir vozes sintéticas personalizadas para indivíduos que não falam. Desde então, a VocaliD se expandiu para marcas comerciais e influenciadores.

Leia também - Carro movido a água salgada fez 150 mil quilómetros sem poluição

A fala sintética percorreu um longo caminho ao longo dos anos. Aos nove anos, Siri é a assistente virtual mais velha, mas no mundo das máquinas falantes, ela é um bebê. As pessoas tentam sintetizar a fala desde pelo menos o século 18, quando um inventor austro-húngaro construiu uma réplica tosca do trato vocal humano que podia articular frases inteiras (embora em um tom monótono).

As técnicas atuais de aprendizado de máquina podem modelar a fala humana, completa com pausas estranhas e estalos nos lábios. Ainda assim, treinar em milhares de amostras por segundo é proibitivamente caro para a maioria dos sistemas do mundo real. Os pesquisadores, incluindo os da VocaliD, estão continuamente implementando métodos mais novos e eficientes. Mas mesmo que as lacunas restantes entre a fala humana e a sintética estejam se fechando constantemente, a prosódia verdadeiramente realista continua a iludir até mesmo os sistemas mais sofisticados. Talvez o que ainda esteja faltando exija máquinas não apenas para imitar humanos, mas também para se sentir como nós.

Fonte: https://www.scientificamerican.com/