Voz clonada com inteligência artificial engana família e banco, relata jornalista -

Um artigo da colunista de tecnologia do The Wall Street Journal, Joanna Stern, publicado nesta sexta-feira, 28, mostra que a clonagem de voz, criada com inteligência artificial, conseguiu enganar não apenas o banco, mas também a família da jornalista.

No artigo, ela conta que testou duas ferramentas para criação de avatares em vídeo e voz, a Synthesia e ElevenLabs. E os resultados são surpreendentes, especialmente para a clonagem de voz.

A Synthesia cria avatares com IA a partir de vídeo e áudio gravados (também conhecidos como deepfakes). Com o acervo gravado anteriormente, o programa faz o avatar repetir um texto digitado.

Joanna conta que gravou cerca de 30 minutos de vídeo e duas horas de áudio. “A Synthesia usaria esse material para treinar meu clone. Algumas semanas depois, a IA Joanna estava pronta”, escreveu.

O resultado não agradou à colunista, já que o “avatar de vídeo parece um avatar”. “Para frases rápidas, o avatar pode ser bastante convincente. Quanto mais longo o texto, mais sua natureza bot aparece”, avaliou.

A Synthesia cobra US$ 1 mil por ano para criar e manter um avatar personalizado, além de uma taxa de assinatura mensal adicional. Oferece avatares de ações por um custo mensal menor.

A colunista também informa que usou os avatares para videochamadas de trabalho, fazendo comentários comuns em reuniões, mas a IA não convenceu, porque a postura robótica se sobrepõe. “Tudo isso vai melhorar, no entanto. A Synthesia tem alguns avatares em beta que podem acenar para cima e para baixo, levantar as sobrancelhas e muito mais.”

Avatar da Synthesia explica como funciona a ferramenta | Foto: Reprodução

O teste com a voz clonada

Agora, porém, com a clonagem de voz, a experiência foi mais convincente, tanto com o Synthesia como com o ElevenLabs. Ela explica que com essa última ferramenta, depois de baixar 90 minutos de áudio anteriores com sua própria voz, a clonagem de voz foi feita em dois minutos.

Usando o ElevenLabs, ela ligou para a irmã e para o pai. “Minha irmã, para quem ligo várias vezes por semana, disse que o bot soava como eu, mas notou que a voz gravada não parava para respirar. Quando liguei para meu pai e pedi seu número do Seguro Social, ele só sabia que algo estava acontecendo porque parecia uma gravação minha”, contou.

Além da família, a voz do ElevenLabs era tão boa que enganou o sistema biométrico de reconhecimento de voz da operadora de cartão de Joanna. Abastecida com os dados que o banco costuma perguntar, a IA da colunista fez a ligação para o banco. “Ao ouvir a voz do meu bot, o sistema o reconheceu como sendo eu e imediatamente se conectou a um representante”.

Questionada, a operadora de cartão de crédito disse que o banco usa biometria de voz, junto com outras ferramentas, para verificar a identidade de quem faz a ligação, mas, para concluir transações e outras solicitações financeiras, os clientes devem fornecer informações adicionais.

Neste vídeo, a ElevenLabs faz uma demonstração da ferramenta automática de dublagem que preserva a voz e as emoções dos falantes em todos os idiomas.

https://www.youtube.com/watch?v=17_xLsqny9E

Os limites da inteligência artificial

A colunista também questiona os usos e eventuais danos que uma tecnologia como essa pode trazer. “Isso significa que qualquer pessoa na internet pode levar horas da minha voz — ou da sua, ou da de Joe Biden ou de Tom Brady — para salvar e usar.” A Federal Trade Commission, uma agência federal norte-americana de proteção ao consumidor, já está alertando sobre golpes relacionados à voz de IA.

Sobre isso, a Synthesia informou que exige consentimento verbal de quem contrata o serviço. O ElevenLabs permite apenas a clonagem em contas pagas, portanto, qualquer uso de uma voz clonada que viole as políticas da empresa pode ser rastreado até o titular da conta.

A colunista conta, ainda, que nos dois programas, conseguiu “gerar algumas coisas horríveis em minha voz, incluindo ameaças de morte”.

Questionada sobre isso, a Synthesia disse que Joanna obteve essa permissão porque sua conta foi registrada para uso de uma empresa de notícias e que nas contas-padrões, filtros não permitem dizer certas palavras ou frases. A ElevenLabs também disse que tem filtros sonoros e se as gravações violarem os termos de serviço da empresa a conta pode ser banida.

A colunista afirma, ainda, que entrevistou um especialista forense digital da Universidade da Califórnia, em Berkeley, sobre como identificar áudio e vídeo sintéticos. O entrevistado, Hany Farid, respondeu com duas palavras: boa sorte, contou Joanna.

A jornalista cita, com alguma esperança, a Iniciativa de Autenticidade de Conteúdo, liderada pela Adobe. Mais de mil empresas de mídia e tecnologia e estudiosos pretendem criar um rótulo incorporado em imagens e áudios. Fotos, vídeos e áudio na internet podem um dia vir com informações verificáveis anexadas.