AI e criatividade: por que a inteligência artificial multimodal é importante

Quando solicitado a gerar “um mural de uma abóbora azul na lateral de um prédio”, o novo fundo da OpenAI modelo de aprendizagem DALL -E produz essa série de imagens originais.

No início deste mês, OpenAI – a organização de pesquisa por trás do último modelo de linguagem GPT-3 lançou um novo modelo AI chamado DALL-E . Embora tenha gerado menos buzz do que o GPT-3, o DALL-E tem implicações ainda mais profundas para o futuro da AI.

Resumindo, o DALL-E pega legendas de texto como entrada e produz imagens originais como saída. (O nome é uma homenagem ao artista surrealista Salvador Dalí e ao adorável robô da Pixar WALL-E.)

Por exemplo, quando alimentado com frases tão diversas como “um relógio verde pentagonal”, “uma esfera feita de fogo” ou “um mural de uma abóbora azul na lateral de um prédio”, DALL-E é capaz de gerar representações visuais chocantemente precisas . (Vale a pena dedicar alguns minutos para ver alguns exemplos você mesmo.)

Por que DALL-E é importante?

Para começar, ele precede o surgimento de um novo paradigma de AI conhecido como “AI multimodal” que parece destinado a definir o futuro da inteligência artificial. Os sistemas de AI multimodais são capazes de interpretar, sintetizar e traduzir entre várias modalidades de informação – no caso do DALL-E, linguagem e imagens. DALL-E não é o primeiro exemplo de AI multimodal, mas é de longe o mais impressionante até hoje.

O cofundador da OpenAI Ilya Sutskever resumiu bem: “O mundo não é apenas texto. Os humanos não apenas falam: nós também vemos. Muito contexto importante vem de olhar. ”

A maioria dos sistemas de AI existentes hoje lida com apenas um tipo de dados. Modelos de PNL (por exemplo, GPT-3) lidam apenas com texto; modelos de visão por computador (por exemplo, sistemas de reconhecimento facial) lidam apenas com imagens. Essa é uma forma de inteligência muito menos rica do que a que o cérebro humano consegue sem esforço.

Os humanos recebem e integram continuamente informações não de um, mas de cinco sentidos – entendemos o mundo ao nosso redor por meio de uma combinação de visão, som, tato, olfato e paladar. E comunicamos informações ao mundo de várias maneiras – fala, texto, linguagem corporal, expressão facial, música.

Ao combinar a compreensão da linguagem natural com a capacidade de gerar representações visuais correspondentes – em outras palavras, ser capaz de “ler” e “ver” – DALL-E é uma demonstração poderosa do potencial da AI ​​multimodal.

É apenas o começo. Nos próximos meses e anos, serão construídos sistemas de AI que podem interagir perfeitamente com áudio, vídeo, fala, imagens, texto escrito, sensação tátil e muito mais. À medida que a AI aprende a incorporar várias modalidades informacionais de maneiras cada vez mais sofisticadas, sua capacidade de compreender o mundo e gerar novos insights explodirá combinatoriamente.

DALL-E é importante por uma razão ainda mais fundamental: está se tornando cada vez mais difícil negar que a inteligência artificial é capaz de criar.

DALL-E produz imagens que nunca existiram no mundo nem na imaginação de ninguém. Não se trata de simples manipulações de imagens existentes na Internet – são representações inovadoras, às vezes de tirar o fôlego em sua inteligência e originalidade. São imagens que os criadores humanos de DALL-E em muitos casos não esperavam e não poderiam ter previsto.

Considere os rabiscos criativos e encantadores de DALL-E de “um emoji de uma tigela de Lamen apaixonada” ou “um pinguim feito de abacate”. Se essas imagens fossem criadas por um humano, não hesitaríamos em considerá-las o resultado de um processo criativo. Temos certeza que podemos negar isso a DALL-E?

 

A saída de DALL-E quando solicitado a criar “um emoji de uma tigela de Lamen apaixonada”.

Essa capacidade de inventividade dá ao DALL-E relevância imediata no mundo real em áreas como design de produto, moda e arquitetura. Em pouco tempo, será comum que designers humanos usem AI como DALL-E como um parceiro de ideação e uma fonte de inspiração.

Para dar um exemplo, quando solicitado para criar “uma poltrona no estilo de um donut”, o DALL-E gera uma variedade de opções criativas – algumas com mais engenharia e aparência do que outras, é claro. É fácil imaginar um designer de móveis mexendo para frente e para trás com DALL-E, explorando as saídas do modelo, iterando no prompt de texto e, em seguida, usando os designs de AI como ponto de partida para suas próprias criações de poltrona. Um processo criativo semelhante poderia funcionar para qualquer número de produtos – de carros a luminárias, de joias a casas.

Saída de DALL-E quando solicitado a criar “um pinguim feito de abacate”

Algumas advertências importantes sobre a tecnologia são necessárias. DALL-E está longe de ser perfeito. As imagens que ele gera nem sempre são representações precisas do texto que é alimentado: por exemplo, muitas vezes obtém cores, quantidades ou relações espaciais erradas.

E os exemplos do trabalho do DALL-E que a OpenAI disponibilizou publicamente, embora não tenham sido escolhidos manualmente, foram primeiro classificados e selecionados por outra rede neural chamada CLIP . Para cada entrada de texto, apenas as 32 melhores amostras de 512 são apresentadas. Em outras palavras, DALL-E gerou muitas outras imagens de pinguins abacate e cadeiras rosquinhas que eram menos impressionantes.

Com tudo isso dito, as capacidades geradoras do DALL-E são surpreendentes – e a tecnologia continuará a melhorar rapidamente.

Como acontece com qualquer grande desenvolvimento em AI, DALL-E inevitavelmente evoca a velha questão: as máquinas estão se aproximando da “verdadeira” inteligência de nível humano?

Por um lado, o anúncio DALL-E inspirou muitas hipérboles sobre a chegada da superinteligência. Por outro lado, céticos como o proeminente crítico de aprendizagem profunda Gary Marcus argumentam que DALL-E não avança verdadeiramente o estado da arte em AI.

A perspectiva de Marcus vale a pena levar a sério. O aprendizado profundo – incluindo a arquitetura de transformador de ponta por trás do DALL-E e GPT-3 – tem sérias limitações como modelo conceitual de inteligência.

No entanto, em certo sentido, esse debate perde o foco. Quer o novo modelo da OpenAI represente ou não um passo real em direção à “inteligência geral artificial”, quer o aprendizado profundo seja ou não um caminho viável para a inteligência da máquina tão robusta quanto a cognição humana, permanece o fato de que DALL-E é uma nova ferramenta com extraordinárias novas capacidades.

DALL-E e seus sucessores irão desbloquear novas possibilidades na relação criativa entre o homem e a máquina. Isso criará um enorme valor econômico no processo, servindo como base para uma nova onda de startups e produtos inovadores.

As coisas só vão ficar mais incríveis a partir daqui.

*Fonte: Forbes

**Veja o texto original AQUI.


Sobre o autor:

Seal
A Seal Sistemas é a maior integradora de soluções de mobilidade do Brasil e atua há mais de três décadas no mercado de computação móvel e captura automática de dados, dando suporte à construção de uma relação de confiança entre o usuário final e mais de 2.000 empresas que integram a sua carteira de clientes dentro e fora do Brasil. Com a missão de apoiar a transformação dos negócios em linha com as mudanças do mercado de consumo, a Seal Sistemas desenvolve e implementa soluções completas de mobilidade e automação para toda a cadeia de suprimentos, em mercados como varejo, indústria, logística e saúde. Seu amplo portfólio conta com tecnologias avançadas como IOT, ESL (etiquetas eletrônicas de prateleira), Voice Picking (coletores de dados por comando de voz), o middleware Kairos Warehouse e o software para automação de chão de lojas Kairos Store, além de soluções tradicionais para captura automática de dados, como impressoras, leitores de código de barras e infraestrutura para redes sem fio locais e metropolitanas. Mais informações: seal.com.br

Deixe um comentário