Inteligência Artificial Generativa

Em 2022 vimos vários avanços na Inteligência Artificial chamada de generativa, ou seja, que é capaz de gerar diferentes tipos de novos conteúdos. Por exemplo, uma ilustração a partir de alguns comandos, o texto para um convite, ou mesmo respostas convincentes durante uma conversa. Pode parecer coisa muito futurista, mas está mais perto do que parece.

Inteligência Artificial nas Suas Fotos

Quem coleciona fotografias digitais, como eu, há quase trinta anos, sabe que achar uma foto dentre milhares é sempre difícil. Já escrevi programas no passado somente para ajudar nisso, depois passei a usar, por anos a fio, ferramentas que me permitem adicionar informações às fotografias, as chamadas meta informações. Assim, se eu fotografei um beija-flor, eu adiciono esta informação em texto à fotografia. Depois consigo buscar por “beija-flor” e encontrar as fotos. O mesmo vale para uma pessoa específica ou variados temas que eu imagine que um dia precisarei encontrar.

Já há alguns anos isso vem mudando, especialmente nos celulares. Graças à inteligência artificial que descobre padrões e aprende sobre nossas fotos, posso agora fazer uma busca por “beija-flor” mesmo sem ter feito qualquer classificação. E provavelmente encontrarei mais fotos, já que, pelo menos no meu caso, classificar todas as fotos tem se mostrando uma missão impossível ao longo dos anos. E também posso buscar por muitas outras coisas que não tive que imaginar antes, já que o computador, graças à inteligência artificial, é capaz de aprender sobre minhas fotos e classificá-las sem que qualquer intervenção humana seja necessária.

Esse tipo de inteligência artificial é baseado na aprendizagem de máquina, que é essa capacidade do computador de aprender a partir de reconhecimento de padrões. Por exemplo, no caso do iPhone, em um artigo de 2021, a Apple explica que o aplicativo usa diferentes algoritmos de aprendizagem, que rodam no seu aparelho e reconhecem pessoas.¹

Esse tipo de inteligência artificial ainda não é a chamada generativa. Embora você pudesse argumentar que a classificação das pessoas ou tipos de objetos nas fotos é um novo conteúdo, quando pensamos na IA generativa, pensamos em algo realmente novo.

As câmeras de celulares, que estão no nosso bolso, são um exemplo novamente interessante. Tanto a câmera do Android quanto a do iPhone cada vez mais usam inteligência artificial também na hora em que você faz a fotografia. As câmeras detectam as cenas, procuram por olhos ou faces, ou usam algoritmos de inteligência artificial para tornar as imagens de melhor qualidade ou mais nítidas.²

Nessa situação das fotos, a inteligência artificial está te ajudando a tirar fotos melhores. Algo semelhante também acontece quando a inteligência artificial do Google Docs te ajuda a escrever melhor, sugere palavras ou mesmo cria um sumário automaticamente, feito que o Google anunciou em abril de 2022.³

Dá para passar uma vida estudando este tema. E provavelmente será uma vida divertida, repleta de novidades, reflexões éticas, impactos econômicos, culturais e muito mais. Poderíamos falar dos computadores embarcados nos carros e muito mais. Mas escrevi tudo isso porque queria falar da inteligência artificial generativa, então, vamos logo a ela!

ELIZA, O TESTE DE TURING E A AUTOCONSCIÊNCIA DAS MÁQUINAS

A capacidade dos computadores criarem conteúdo por conta própria é um objetivo antigo. No final dos anos oitenta, lembro-me de utilizar, fascinado, um software chamado Eliza. Era uma espécie de terapeuta, que conversava com o usuário, por meio de um chat. Ao menos assim eu me lembro. Na Wikipedia, é reconhecido como o primeiro programa para processamento de linguagem natural da história, criado no MIT.⁴ A minha memória também me diz que a Eliza, embora divertida, era primária, muito longe de poder passar no Teste de Turing.

O Teste de Turing representa um teste sobre a capacidade de um computador de se fazer passar por um humano, de ter comportamento inteligente equivalente ao de um humano. Foi introduzido em 1950 por Alan Turing, provavelmente o mais importante cientista da computação da história.⁵ Se você gostar de filosofia da ciência e sobre algumas das reflexões sobre o progresso da inteligência artificial, o artigo da Wikipedia sobre o Teste de Turing será uma leitura bem prazeirosa.⁶ Na prática, como a Inteligência Artificial esteve ocupada com coisas mais mundanas, como classificar suas fotos, não tem sido um objetivo do progresso na área simplesmente passar no teste.

Por outro lado, neste ano de 2022, um engenheiro do Google afirmou, em entrevista ao Washington Post, que um bot de inteligência artificial da empresa havia se tornado auto-consciente. Em outras palavras, o bot LaMDA teria formado uma consciência própria e teria reclamado por seus direitos como pessoa, além de ter conversado sobre religião, consciência e robótica. O próprio Blake Lemoine, que foi dispensado do Google depois da entrevista, publicou um artigo no Medium no qual conta a história toda.⁷

O contexto então é o seguinte: nós já usamos mais inteligência artificial do que imaginamos. Ao mesmo tempo, cada vez mais vão vir à tona reflexões que antes eram apenas hipóteses remotas da ficção científica ou estavam restritas a discussões acadêmicas pouco pragmáticas. Vamos falar então da inteligência artificial generativa e do que já veio. Depois, tentaremos abordar um pouco do que deve estar por vir.

DALL-E, MIDJOURNEY, LENSA E STABLE DIFFUSION

Em algum momento de 2001, a empresa OpenAI, possivelmente a principal líder do mundo na área de inteligência artificial generativa, anunciou que havia produzido um bot capaz de criar imagens a partir de textos. Já está disponível o DALL-E 2 e é possível você obter créditos para testes sem custo algum. Enviando imagens e textos para o bot, o computador gera as artes para você, que pode executar sucessivos refinamentos. A galeria a seguir foi gerada a partir de um refinamento após as seguintes instruções em texto: “a colorful artistic illustration of what is art, representing its plurality and importance to mankind”.

As artes ainda não parecem muito legais, mas possivelmente o problema não está no artista e, sim, em quem fez o briefing, ou seja, em mim. A galeria abaixo, gerada pelo comando “a surrealist dream-like oil painting by Salvador Dalí of a cat playing checkers” gerou resultados bem mais interessantes.

Incentivo você a experimentar o DALL-E no site da OpenAI^.8 Aliás, voltaremos a falar dela em breve, quando formos abordar o ChatGPT e o futuro. Mas, antes, se você se interessou pela ideia de arte gerada por inteligência artificial, vale conhecer o Midjourney, o app Lensa e também o Stable Diffusion.

O Midjourney é um projeto similar ao DALL-E, em que algoritmos de inteligência artificial geram imagens a partir de comandos que lhes são enviados. Este funciona de uma maneira muito inusitada, por dentro do app do Discord, e é inteiramente gratuito, ao menos durante a fase beta. Você entra em um chat no qual vê as imagens que várias outras pessoas vão gerando. É meio confuso, mas vendo o que os outros estão fazendo, você também é capaz de aprender mais sobre o uso da ferramenta. Acredite: dá para passar muitas horas brincando, mexendo no comando enviado, fazendo refinamentos. Na galeria a seguir, algumas variações para um prompt pedindo novamente um gato surrealista de Salvado Dalí e outras para um gato impressionista de Vincent Van Gogh.

No caso do Midjourney, mais ainda que no do DALL-E, a minha impressão é de que, em havendo esforço por parte do usuário, chega-se a imagens verdadeiramente impressionantes, como mostra a Community Showcase.

Ainda na linha da criação de imagens, no final de 2022 fez sucesso um app chamado Lensa IA. O Lensa oferece filtros para retocar imagens, especialmente selfies. Mas o seu sucesso mesmo não foi por isso, mas, sim, pelo lançamento da possibilidade de criar avatares mágicos a partir de fotos suas, com uso de inteligência artificial. Foi algo bastante polêmico, pois você tem que enviar suas fotos para a empresa, o que gerou preocupações com a privacidade, além de questões sobre a propriedade das fotos, dos avatares. Além disso é um serviço pago, vendido por assinatura no modelo trial, o que muitas vezes é uma forma de se cobrar caro dos usuários descuidados ou que não entendem muito bem o modelo.⁹

Além do DALL-E e do Midjourney, uma terceira alternativa é o Stable Diffusion, que também pode ser acessado online e permite a geração de imagens do mesmo tipo, a partir de prompts de texto. Eu poderia inserir aqui mais algumas imagens de gatos jogando damas, mas é tão simples que incentivo você a experimentar, clicando aqui.

Para a felicidade dos nerds, também é possível usar o Stable Diffusion indiretamente, por meio de sua API, treinando o modelo com fotos nossas, para gerar avatares mágicos. Caso você seja um nerd, pare, reserve umas duas horas. Siga então o tutorial compartilhado no Twitter por Bruno Sartori e veja como criar, sem custo, uma instância na nuvem para criar avatares mágicos baseados em fotos suas. Você vai brincar com o Google Colab, que é um computador em que você executar comandos na nuvem, treinar um modelo de IA com suas fotos e ainda por cima poderá criar avatares mágicos para seus familiares e amigos caso também treine o modelo com fotos deles. Experimente! A seguir deixei alguns criados com fotos minhas e diferentes prompts.

Bem, se você gostou do que leu nesta seção, recomendo muito a leitura de um artigo do excelente Kevin Kelly na revista Wired, justamente sobre este tema. Ele explica os algoritmos e a situação da inteligência artificial e termina por afirmar, numa tradução livre, que, pela “primeira vez na história, os humanos podem conjurar atos de criatividade sob demanda, em tempo real, em escala, de forma barata. A criatividade sintética é uma commodity agora. Filósofos antigos se reviram em suas tumbas, mas parece que para gerar algo novo tudo que você precisa é do código certo.”¹⁰

CHATGPT, ELON MUSK, A MICROSOFT, GOOGLE E O FUTURO

Já há alguns meses atrás testei uma versão anterior do bot gerador de texto da OpenAI, o ChatGPT, e fiquei impressionado. Há alguns dias saiu uma nova versão dele e, tal qual como ocorrido com o Lensa, viralizou. Com o ChatGPT, que você pode testar de graça com uma conta da OpenAI, pode-se encomendar explicações, pedir a criação de histórias, textos para anúncios, poemas, traduções e muito mais.

Mas é muito mais mesmo. Dá para falar com ele em português, dá para perguntar sobre ele próprio e explorar a questão da autoconsciência. Você também pode pedir informações sobre um artigo qualquer de uma lei brasileira ou de qualquer outro país, ou mesmo comparações. Também dá para continuar e ir aprofundando as conversas. E ele até pode escrever algoritmos.

Novamente, é possível passar horas e mais horas testando, experimentando. A impressão que dá é de esta ser uma tecnologia impactante como o GPS ou como o Google Search. Ah, sim, o Google Search talvez esteja em risco, pela primeira vez, em décadas. Esta é a opinião de algumas pessoas.¹¹

Como o próprio ChatGPT pode te explicar, não apenas a OpenAI tem Elon Musk entre seus fundadores, mas também a Microsoft como uma de suas investidoras e parcerias. Já é possível, na plataforma Azure, criar bots que se utilizam do ChatGPT via sua API. E também não é impossível imaginarmos futuros lançamentos, inclusive alguma ferramenta de busca baseada em chat, que talvez entregue algo que vai além do que o Google entrega ou quer entregar, já que seu modelo de negócios, ao menos hoje em dia, é quase que totalmente baseado nos links patrocinados.

“A inteligência artificial generativa é uma tecnologia em constante evolução que está mudando a forma como as empresas criam conteúdo e solucionam problemas. Com a capacidade de gerar novas ideias, imagens e soluções de forma autônoma, a IA generativa está se tornando cada vez mais importante para empresas de todos os tamanhos e setores. É emocionante ver o que o futuro reserva para essa tecnologia, e estamos ansiosos para ver como ela continuará a moldar o mundo em que vivemos.”¹²

1: Recognizing People in Photos Through Private On-Device Machine Learning (Apple, 2021)
2: Get the Most Out of Your Fancy Smartphone Camera (New York Times, 2020)
3: Auto-generated Summaries in Google Docs (Google Research Blog, 2022)
4: Eliza (Wikipedia, acesso em dezembro de 2022)
5: Alan Turing dá nome ao prêmio conhecido como “o Nobel da computação”, oferecido anualmente pela ACM. Sua vida foi retratada no cinema pelo filme The Imitation Game, de 2015.
6: Teste de Turing (Wikipedia, acesso em dezembro de 2022)
7: What is LaMDA and What Does it Want? (Medium, junho de 2022)
8: Dall-E no site da OpenAI (https://labs.openai.com). O site tem muito material para leitura caso você queira pesquisar mais sobre o tema.
9: What You Should Know Before Using the Lensa AI App (Wired, dezembro de 2022)
10: Kevin Kelly é autor de livros e artigos extraordinários, sendo provavelmente um dos mais importantes visionários da atualidade. Picture Limitless Creativity at Your Fingertips (Wired, novembro de 2022). Recomendo também seu livro Para Onde nos Leva a Tecnologia (Amazon), entre outros.
11: No podcast This Week in Startups, Jason Calcanis e Molly Wood brincaram de comparar as respostas do Google Search com as do Chat GPT (Youtube)
12: Texto gerado pelo ChatGPT para o comando “escreva uma frase de encerramento para um artigo sobre inteligência artificial generativa”. Cheguei a pedir para encurtar: “A IA generativa muda a forma como criamos conteúdo e resolvemos problemas. Gerando ideias, imagens e soluções de forma autônoma, ela é cada vez mais importante para empresas. Ansiando pelo futuro dessa tecnologia e como ela moldará o mundo.”

Temas deste post: ia generativa - inteligência artificial - iphone.