DALL-E

Origem: Wikipédia, a enciclopédia livre.

DALL-E (estilizado DALL·E) é um programa de inteligência artificial que cria imagens a partir de descrições textuais.

Ele usa uma versão de 12 bilhões de parâmetros[1] do modelo GPT-3 Transformer para interpretar entradas de linguagem natural (como "uma bolsa de couro verde em forma de pentágono" ou "uma visão isométrica de uma capivara triste") e gerar imagens.[2] Ele pode criar imagens de objetos realistas ("um vitral com a imagem de um morango azul"), bem como objetos que não existem na realidade ("um cubo com a textura de um porco-espinho").[3][4][5] Seu nome é uma junção de WALL-E e Salvador Dalí.[2][1]

Muitas redes neurais dos anos 2000 em diante foram capazes de gerar imagens realistas.[2] O DALL-E, no entanto, é capaz de gerá-las a partir de instruções de linguagem natural, que "entende [...] e raramente falha de forma séria".[2]

De acordo com a MIT Technology Review, um dos objetivos do OpenAI era "dar aos modelos de linguagem uma melhor compreensão dos conceitos cotidianos que os humanos usam para dar sentido às coisas".[6]

História[editar | editar código-fonte]

O DALL-E foi revelado pela OpenAI em 5 de janeiro de 2021.[6]

Em abril de 2022, a OpenAI anunciou o DALL-E 2, alegando que pode produzir imagens fotorrealistas a partir de descrições textuais, juntamente com um editor que permite modificações simples na saída. A partir do anúncio, o software foi declarado ainda em fase de pesquisa, com acesso limitado a usuários beta pré-selecionados. O modelo ainda pode cometer erros graves, incluindo erros que nenhum humano cometeria.[7] DALL-E 2 foi descrito como um modelo que "pode criar imagens e arte originais e realistas a partir de uma descrição de texto. Ele pode combinar conceitos, atributos e estilos."[8]

Arquitetura[editar | editar código-fonte]

O modelo Generative Pre-trained Transformer (GPT) foi desenvolvido inicialmente pela OpenAI em 2018,[9] usando a arquitetura Transformer. A primeira iteração, GPT, foi ampliada para produzir GPT-2 em 2019;[10] em 2020 o modelo foi ampliado novamente para produzir GPT-3, com 175 bilhões de parâmetros.[11][1][12]

O modelo de DALL-E é uma implementação multimodal do GPT-3[13] com 12 bilhões de parâmetros[1] que "troca texto por pixels", treinado em pares texto-imagem da Internet.[6] Ele usa aprendizado de zero-shot para gerar saída de uma descrição e sugestão sem treinamento adicional.[14]

Desempenho[editar | editar código-fonte]

O DALL-E é capaz de gerar imagens em vários estilos, desde imagens fotorrealistas[1] até pinturas e emojis. Ele também pode "manipular e reorganizar" objetos em suas imagens.[1] Uma habilidade observada por seus criadores foi a colocação correta de elementos de design em novas composições sem instruções explícitas: "Por exemplo, quando solicitado a desenhar um rabanete daikon assoando o nariz, tomando um café com leite ou andando de monociclo, o DALL-E geralmente desenha o lenço, mãos e pés em locais plausíveis."[15]

Enquanto o DALL-E exibiu uma ampla gama de habilidades, no lançamento de sua demonstração pública, a maior parte da cobertura se concentrou em um pequeno subconjunto de imagens de saída "surreais"[6] ou "peculiares".[16] Especificamente, a saída de DALL-E para "uma ilustração de um rabanete daikon bebê em um tutu passeando com um cachorro" foi mencionada em peças da Input,[17] NBC,[18] Nature,[19] e outras publicações.[1][20][21] Sua saída para "uma poltrona em forma de abacate" também foi notada.[6][22] Em contraste, foi observado o desenvolvimento não intencional de DALL-E de habilidades de raciocínio visual suficientes para resolver as Matrizes de Raven (testes visuais frequentemente administrados a humanos para medir a inteligência).[23]

Implicações[editar | editar código-fonte]

O DALL-E anuncia "o alvorecer de um novo paradigma de IA conhecido como IA multimodal", na qual os sistemas seriam capazes de combinar e traduzir dados entre vários tipos de informações. Além disso, o DALL-E foi citado como um exemplo de software que exibe criatividade.[24]

Referências[editar | editar código-fonte]

  1. a b c d e f g Johnson, Khari (5 de janeiro de 2021). «OpenAI debuts DALL-E for generating images from text». VentureBeat. Consultado em 5 de janeiro de 2021. Arquivado do original em 5 de janeiro de 2021 
  2. a b c d Coldewey, Devin (5 de janeiro de 2021). «OpenAI's DALL-E creates plausible images of literally anything you ask it to». Consultado em 5 de janeiro de 2021. Arquivado do original em 6 de janeiro de 2021 
  3. Grossman, Gary (16 de janeiro de 2021). «OpenAI's text-to-image engine, DALL-E, is a powerful visual idea generator». VentureBeat. Consultado em 2 de março de 2021. Arquivado do original em 26 de fevereiro de 2021 
  4. Andrei, Mihai (8 de janeiro de 2021). «This AI module can create stunning images out of any text input». ZME Science. Consultado em 2 de março de 2021. Arquivado do original em 29 de janeiro de 2021 
  5. Walsh, Bryan (5 de janeiro de 2021). «A new AI model draws images from text». Axios. Consultado em 2 de março de 2021 
  6. a b c d e Heaven, Will Douglas (5 de janeiro de 2021). «This avocado armchair could be the future of AI». MIT Technology Review. Consultado em 5 de janeiro de 2021 
  7. KAHN, JEREMY (6 de abril de 2022). «Move over Photoshop: OpenAI has just revolutionized digital image making». Fortune (em inglês). Consultado em 10 de abril de 2022 
  8. «DALL·E 2». OpenAI (em inglês). Consultado em 6 de abril de 2022 
  9. Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 de junho de 2018). «Improving Language Understanding by Generative Pre-Training» (PDF). OpenAI. 12 páginas. Consultado em 23 de janeiro de 2021. Cópia arquivada (PDF) em 26 de janeiro de 2021 
  10. Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14 de fevereiro de 2019). «Language models are unsupervised multitask learners» (PDF). 1 (8). Consultado em 19 de dezembro de 2020. Cópia arquivada (PDF) em 6 de fevereiro de 2021 
  11. Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (22 de julho de 2020). «Language Models are Few-Shot Learners». arXiv:2005.14165Acessível livremente [cs.CL] 
  12. Ramesh, Aditya; Pavlov, Mikhail; Goh, Gabriel; Gray, Scott; Voss, Chelsea; Radford, Alec; Chen, Mark; Sutskever, Ilya (24 de fevereiro de 2021). «Zero-Shot Text-to-Image Generation». arXiv:2101.12092Acessível livremente [cs.LG] 
  13. Tamkin, Alex; Brundage, Miles; Clark, Jack; Ganguli, Deep (2021). «Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models». arXiv:2102.02503Acessível livremente [cs.CL] 
  14. Dent, Steve (6 de janeiro de 2021). «OpenAI's DALL-E app generates images from just a description». Engadget. Consultado em 2 de março de 2021. Cópia arquivada em 27 de janeiro de 2021 
  15. Dunn, Thom (10 de fevereiro de 2021). «This AI neural network transforms text captions into art, like a jellyfish Pikachu». BoingBoing. Consultado em 2 de março de 2021. Cópia arquivada em 22 de fevereiro de 2021 
  16. Shead, Sam (8 de janeiro de 2021). «Why everyone is talking about an image generator released by an Elon Musk-backed A.I. lab». CNBC. Consultado em 2 de março de 2021 
  17. Kasana, Mehreen (7 de janeiro de 2021). «This AI turns text into surreal, suggestion-driven art». Input. Consultado em 2 de março de 2021. Cópia arquivada em 29 de janeiro de 2021 
  18. Ehrenkranz, Melanie (27 de janeiro de 2021). «Here's DALL-E: An algorithm learned to draw anything you tell it». NBC News. Consultado em 2 de março de 2021. Cópia arquivada em 20 de fevereiro de 2021 
  19. Stove, Emma (5 de fevereiro de 2021). «Tardigrade circus and a tree of life — January's best science images». Nature. Consultado em 2 de março de 2021. Cópia arquivada em 8 de março de 2021 
  20. Knight, Will (26 de janeiro de 2021). «This AI Could Go From 'Art' to Steering a Self-Driving Car». Wired. Consultado em 2 de março de 2021. Cópia arquivada em 21 de fevereiro de 2021 
  21. Metz, Rachel (2 de fevereiro de 2021). «A radish in a tutu walking a dog? This AI can draw it really well». CNN. Consultado em 2 de março de 2021 
  22. Wakefield, Jane (6 de janeiro de 2021). «AI draws dog-walking baby radish in a tutu». British Broadcasting Corporation. Consultado em 3 de março de 2021. Cópia arquivada em 2 de março de 2021 
  23. Markowitz, Dale (10 de janeiro de 2021). «Here's how OpenAI's magical DALL-E image generator works». TheNextWeb. Consultado em 2 de março de 2021. Cópia arquivada em 23 de fevereiro de 2021 
  24. Toews, Rob (18 de janeiro de 2021). «AI And Creativity: Why OpenAI's Latest Model Matters». Forbes. Consultado em 2 de março de 2021. Cópia arquivada em 12 de fevereiro de 2021