Esta mulher acima não existe. Esses longos cílios, a sobrancelha perfeita, o risco do delineador, os poros, o reflexo nos seus olhos castanhos. Nada disso é real. Essa imagem foi criada por meio de um comando (ou prompt) digitado no programa Sora, da OpenAI. O prompt pode ser assim traduzido: “Close extremo do olho de uma mulher de 24 anos piscando, parada em Marrakech antes do pôr do sol, filme cinematográfico gravado em 70 mm, profundidade de campo, cores vivas, cinematográfico”.
Vivemos nesta época em que um pensamento pode virar uma realidade em poucos segundos. Você imagina uma cena, ela surge no seu monitor. Fiz um teste no site Haiper com o seguinte prompt: “Numa cidade do faroeste, em 1881, pessoas são surpreendidas pela aparição de um óvni voando baixo sobre a rua”. Este foi o resultado:
Usei a versão gratuita do Haiper, que dá direito a apenas 4 segundos de vídeo. O vídeo não convence ninguém, até porque coloca um carro dos anos 1950 no meio do faroeste. Mas é claro que vai melhorar.
Mamutes trotando na neve
Este clipe da OpenAI — sem som — dá uma ideia de algumas possibilidades criadas com essa tecnologia: um canguru que dança, filhotes de golden retriever brincando na neve, pássaros num rio na Guiné, pandas vermelhos em miniatura, um penhasco em Big Sur, na Califórnia, astronautas com capacetes de lã, navios piratas numa xícara de café, pessoas caminhando no inverno de Tóquio, um SUV correndo numa estrada empoeirada, o fundo do mar feito de papel de seda, mamutes trotando no inverno, uma multidão na Nigéria em 2056, cinquenta monitores de TV, cada um passando um programa, um homem lendo um livro sobre uma nuvem…
O professor Oren Etzioni, da Universidade de Washington, declarou ao New York Times: “Estou absolutamente apavorado que esse tipo de coisa possa interferir no resultado de uma eleição apertada”. O professor Etzioni pertence a uma ONG de “checadores de fatos”, como essas ONGs que no Brasil atuam como censores privatizados. Provavelmente apoia propostas de regulamentação, suspensão, banimento, normatização, regramento, ordenamento, controle, legislação e coisas do tipo.
Enquanto isso a vida continua. O gigante do ramo dos brinquedos, Toys“R”Us, lançou em junho, no festival publicitário de Cannes, o primeiro comercial na linha “texto para vídeo” usando o Sora da OpenAI. O vídeo conta a história da empresa e do seu fundador. Com esse vídeo, a inteligência artificial deixa de ser uma curiosidade e passa a ser um revolucionário instrumento de criação de audiovisuais daqui para a frente.
O desfile de moda que não existiu
A Meta — a empresa do Facebook — também lançou sua plataforma de texto para vídeo, chamada Movie Gen, ainda em regime experimental. Está trabalhando além da criação: o Movie Gen possibilita também a edição dos vídeos. E pode gerar o áudio que acompanha as imagens.
Como exemplos, a Meta mostra a capacidade de seu modelo Runway Gen-3 Alpha de editar a realidade que já é artificial. É possível mudar um cenário, mudar as roupas dos personagens, trocar os veículos usados, fazer chover onde faz sol e vice-versa. O mesmo homem fazendo aquecimento num parque pode ter chamas saindo de suas mãos, se exibir para um estádio ou, ainda, se exercitar sob uma aurora boreal:
Um vídeo de demonstração da Runway mostra o grau de realismo a que chegou seu modelo Gen-3. De novo: nada disso existe. Todas as imagens são fruto da “imaginação” do computador, sob orientação de humanos por meio da Runway:
Aqui está um um desfile de moda completamente surrealista usando o Gen-2 da Runway. Note os seis dedos na mão do homem que aparece no final. Esse defeito é persistente nos vídeos de IA por enquanto:
Um palhaço de três cabeças
Este outro vídeo foi criado no Runway Gen-2, imaginando o que seria um parque em estilo retrô. É interessante perceber como alguns “descontroles” da plataforma criam imagens que fogem à lógica e ao planejamento. E ficam tão parecidos com nossos sonhos.
Sonhos acontecem quando perdemos o freio do nosso racionalismo e entramos no mundo do inconsciente: um homem sem rosto, um palhaço de três cabeças, pessoas com o corpo distorcido sumindo no ar. De certa forma, o computador também está sonhando.
Muitas empresas já estão produzindo vídeos por IA. Em todas elas você tem direito a recursos bem limitados como demonstração. Para usar a plataforma com sua força máxima é preciso uma assinatura, que começa em US$ 8 e pode chegar a US$ 400.
No Dream Machine, da empresa LumaLabs, o usuário tem a possibilidade de fazer seus vídeos controlando o movimento da câmera. A Kling AI é chinesa e traz recursos como sincronização da fala com os movimentos da boca. Neste vídeo eles dão movimento a personagens de pinturas famosas:
Marca d’água
A diretora de tecnologia da empresa OpenAI, a albanesa Mira Murati, disse ao Wall Street Journal que, para evitar uso criminoso da plataforma, estão proibidas imagens de pessoas públicas reais. “Estamos lidando com questões de desinformação e preconceitos prejudiciais”, declarou Murati. “Nós não lançaremos nada que não nos faça sentir confiantes sobre como poderá afetar grandes eleições.”
A entrevista levanta a ameaça evidente que pesa sobre a indústria do audiovisual com essa nova tecnologia. Atores, diretores, cinegrafistas, câmeras poderão eventualmente ser substituídos pela IA.
“Da maneira como eu vejo”, disse Mira Murati na entrevista, “isso é uma ferramenta para ampliar a criatividade, e nós queremos que os profissionais da indústria do cinema, criadores em todos os lugares, nos informem como deveremos desenvolver [a Sora] futuramente”.
E como distinguir um filme real de uma produção em inteligência artificial? Por enquanto, a solução usada tem sido criar uma marca d’água permanente em cada vídeo gerado. Com o tempo, alguém vai descobrir como apagar isso. E será inventada uma forma mais segura de identificação. E assim por diante.
A marca d’água:
Essa tecnologia vai criar problemas? Sem dúvida. Gente mal-intencionada vai ter más ideias. É assim que funciona desde a Pré-História. A questão é: como lidar com esses problemas?
Os instrumentos de segurança vão surgir à medida que os perigos surgirem, disse Mira Murati na entrevista ao WSJ. E, mais que regulamentar etc., é preciso educar as pessoas para que não se deixem enganar por falsificadores. E aproveitar com segurança o mais poderoso instrumento de criação artística de todos os tempos.
Hoje qualquer um de nós pode ter sua própria “estação” de TV no YouTube, seu próprio rádio num podcast, seu próprio jornal num blog, sua própria revista num site. Agora estamos a caminho de ter nossas próprias produtoras de computação gráfica.
Em pouco tempo, qualquer um vai poder criar um longa-metragem ou uma série sentado em frente ao computador, de pijama, tomando um chá. É uma época em que estamos sendo desafiados pelos nossos computadores a criar e produzir.
Leia também “TV sem cabo”
Admirável mundo novo. Seja bem-vindo futuro.
Se existe coisas na IA fruto da imaginação do computar, como Carmen Bruxa diz que as urnas eletrônicas são invioláveis, segurança total?
Tem que ter muito fuzil