DALL-E

DALL-E
	DALL-EUma imagem gerada pelo DALL-E 2 de uma mão robótica desenhando
Desenvolvedor	OpenAI
Lançamento	5 de janeiro de 2021 (3 anos)
Página oficial	openai.com/blog/dall-e/

DALL-E (estilizado DALL·E) é um programa de inteligência artificial que cria imagens a partir de descrições textuais.

Ele usa uma versão de 12 bilhões de parâmetros^[1] do modelo GPT-3 Transformer para interpretar entradas de linguagem natural (como "uma bolsa de couro verde em forma de pentágono" ou "uma visão isométrica de uma capivara triste") e gerar imagens.^[2] Ele pode criar imagens de objetos realistas ("um vitral com a imagem de um morango azul"), bem como objetos que não existem na realidade ("um cubo com a textura de um porco-espinho").^[3]^[4]^[5] Seu nome é uma junção de WALL-E e Salvador Dalí.^[2]^[1]

Muitas redes neurais dos anos 2000 em diante foram capazes de gerar imagens realistas.^[2] O DALL-E, no entanto, é capaz de gerá-las a partir de instruções de linguagem natural, que "entende [...] e raramente falha de forma séria".^[2]

De acordo com a MIT Technology Review, um dos objetivos do OpenAI era "dar aos modelos de linguagem uma melhor compreensão dos conceitos cotidianos que os humanos usam para dar sentido às coisas".^[6]

O DALL-E 3 foi lançado nativamente no ChatGPT para clientes ChatGPT Plus e ChatGPT Enterprise em outubro de 2023, com disponibilidade via API da OpenAI e plataforma "Labs" esperada para o final do ano. A Microsoft implementou o modelo na ferramenta Image Creator do Bing e planeja implementá-lo em seu aplicativo Designer.^[7]

História[editar | editar código-fonte]

O DALL-E foi revelado pela OpenAI em 5 de janeiro de 2021.^[6]

Em abril de 2022, a OpenAI anunciou o DALL-E 2, alegando que pode produzir imagens fotorrealistas a partir de descrições textuais, juntamente com um editor que permite modificações simples na saída. A partir do anúncio, o software foi declarado ainda em fase de pesquisa, com acesso limitado a usuários beta pré-selecionados. O modelo ainda pode cometer erros graves, incluindo erros que nenhum humano cometeria.^[8] DALL-E 2 foi descrito como um modelo que "pode criar imagens e arte originais e realistas a partir de uma descrição de texto. Ele pode combinar conceitos, atributos e estilos."^[9]

Arquitetura[editar | editar código-fonte]

O modelo Generative Pre-trained Transformer (GPT) foi desenvolvido inicialmente pela OpenAI em 2018,^[10] usando a arquitetura Transformer. A primeira iteração, GPT, foi ampliada para produzir GPT-2 em 2019;^[11] em 2020 o modelo foi ampliado novamente para produzir GPT-3, com 175 bilhões de parâmetros.^[12]^[1]^[13]

O modelo de DALL-E é uma implementação multimodal do GPT-3^[14] com 12 bilhões de parâmetros^[1] que "troca texto por pixels", treinado em pares texto-imagem da Internet.^[6] Ele usa aprendizado de zero-shot para gerar saída de uma descrição e sugestão sem treinamento adicional.^[15]

Desempenho[editar | editar código-fonte]

O DALL-E é capaz de gerar imagens em vários estilos, desde imagens fotorrealistas^[1] até pinturas e emojis. Ele também pode "manipular e reorganizar" objetos em suas imagens.^[1] Uma habilidade observada por seus criadores foi a colocação correta de elementos de design em novas composições sem instruções explícitas: "Por exemplo, quando solicitado a desenhar um rabanete daikon assoando o nariz, tomando um café com leite ou andando de monociclo, o DALL-E geralmente desenha o lenço, mãos e pés em locais plausíveis."^[16]

Enquanto o DALL-E exibiu uma ampla gama de habilidades, no lançamento de sua demonstração pública, a maior parte da cobertura se concentrou em um pequeno subconjunto de imagens de saída "surreais"^[6] ou "peculiares".^[17] Especificamente, a saída de DALL-E para "uma ilustração de um rabanete daikon bebê em um tutu passeando com um cachorro" foi mencionada em peças da Input,^[18] NBC,^[19] Nature,^[20] e outras publicações.^[1]^[21]^[22] Sua saída para "uma poltrona em forma de abacate" também foi notada.^[6]^[23] Em contraste, foi observado o desenvolvimento não intencional de DALL-E de habilidades de raciocínio visual suficientes para resolver as Matrizes de Raven (testes visuais frequentemente administrados a humanos para medir a inteligência).^[24]

Implicações[editar | editar código-fonte]

O DALL-E anuncia "o alvorecer de um novo paradigma de IA conhecido como IA multimodal", na qual os sistemas seriam capazes de combinar e traduzir dados entre vários tipos de informações. Além disso, o DALL-E foi citado como um exemplo de software que exibe criatividade.^[25]

Referências

↑ ^a ^b ^c ^d ^e ^f ^g Johnson, Khari (5 de janeiro de 2021). «OpenAI debuts DALL-E for generating images from text». VentureBeat. Consultado em 5 de janeiro de 2021. Arquivado do original em 5 de janeiro de 2021
↑ ^a ^b ^c ^d Coldewey, Devin (5 de janeiro de 2021). «OpenAI's DALL-E creates plausible images of literally anything you ask it to». Consultado em 5 de janeiro de 2021. Arquivado do original em 6 de janeiro de 2021
↑ Grossman, Gary (16 de janeiro de 2021). «OpenAI's text-to-image engine, DALL-E, is a powerful visual idea generator». VentureBeat. Consultado em 2 de março de 2021. Arquivado do original em 26 de fevereiro de 2021
↑ Andrei, Mihai (8 de janeiro de 2021). «This AI module can create stunning images out of any text input». ZME Science. Consultado em 2 de março de 2021. Arquivado do original em 29 de janeiro de 2021
↑ Walsh, Bryan (5 de janeiro de 2021). «A new AI model draws images from text». Axios. Consultado em 2 de março de 2021
↑ ^a ^b ^c ^d ^e Heaven, Will Douglas (5 de janeiro de 2021). «This avocado armchair could be the future of AI». MIT Technology Review. Consultado em 5 de janeiro de 2021
↑ Mehdi, Yusuf (21 de setembro de 2023). «Announcing Microsoft Copilot, your everyday AI companion». The Official Microsoft Blog (em inglês). Consultado em 19 de outubro de 2023
↑ KAHN, JEREMY (6 de abril de 2022). «Move over Photoshop: OpenAI has just revolutionized digital image making». Fortune (em inglês). Consultado em 10 de abril de 2022
↑ «DALL·E 2». OpenAI (em inglês). Consultado em 6 de abril de 2022
↑ Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 de junho de 2018). «Improving Language Understanding by Generative Pre-Training» (PDF). OpenAI. 12 páginas. Consultado em 23 de janeiro de 2021. Cópia arquivada (PDF) em 26 de janeiro de 2021
↑ Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14 de fevereiro de 2019). «Language models are unsupervised multitask learners» (PDF). 1 (8). Consultado em 19 de dezembro de 2020. Cópia arquivada (PDF) em 6 de fevereiro de 2021
↑ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (22 de julho de 2020). «Language Models are Few-Shot Learners». arXiv:2005.14165 [cs.CL]
↑ Ramesh, Aditya; Pavlov, Mikhail; Goh, Gabriel; Gray, Scott; Voss, Chelsea; Radford, Alec; Chen, Mark; Sutskever, Ilya (24 de fevereiro de 2021). «Zero-Shot Text-to-Image Generation». arXiv:2101.12092 [cs.LG]
↑ Tamkin, Alex; Brundage, Miles; Clark, Jack; Ganguli, Deep (2021). «Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models». arXiv:2102.02503 [cs.CL]
↑ Dent, Steve (6 de janeiro de 2021). «OpenAI's DALL-E app generates images from just a description». Engadget. Consultado em 2 de março de 2021. Cópia arquivada em 27 de janeiro de 2021
↑ Dunn, Thom (10 de fevereiro de 2021). «This AI neural network transforms text captions into art, like a jellyfish Pikachu». BoingBoing. Consultado em 2 de março de 2021. Cópia arquivada em 22 de fevereiro de 2021
↑ Shead, Sam (8 de janeiro de 2021). «Why everyone is talking about an image generator released by an Elon Musk-backed A.I. lab». CNBC. Consultado em 2 de março de 2021
↑ Kasana, Mehreen (7 de janeiro de 2021). «This AI turns text into surreal, suggestion-driven art». Input. Consultado em 2 de março de 2021. Cópia arquivada em 29 de janeiro de 2021
↑ Ehrenkranz, Melanie (27 de janeiro de 2021). «Here's DALL-E: An algorithm learned to draw anything you tell it». NBC News. Consultado em 2 de março de 2021. Cópia arquivada em 20 de fevereiro de 2021
↑ Stove, Emma (5 de fevereiro de 2021). «Tardigrade circus and a tree of life — January's best science images». Nature. Consultado em 2 de março de 2021. Cópia arquivada em 8 de março de 2021
↑ Knight, Will (26 de janeiro de 2021). «This AI Could Go From 'Art' to Steering a Self-Driving Car». Wired. Consultado em 2 de março de 2021. Cópia arquivada em 21 de fevereiro de 2021
↑ Metz, Rachel (2 de fevereiro de 2021). «A radish in a tutu walking a dog? This AI can draw it really well». CNN. Consultado em 2 de março de 2021
↑ Wakefield, Jane (6 de janeiro de 2021). «AI draws dog-walking baby radish in a tutu». British Broadcasting Corporation. Consultado em 3 de março de 2021. Cópia arquivada em 2 de março de 2021
↑ Markowitz, Dale (10 de janeiro de 2021). «Here's how OpenAI's magical DALL-E image generator works». TheNextWeb. Consultado em 2 de março de 2021. Cópia arquivada em 23 de fevereiro de 2021
↑ Toews, Rob (18 de janeiro de 2021). «AI And Creativity: Why OpenAI's Latest Model Matters». Forbes. Consultado em 2 de março de 2021. Cópia arquivada em 12 de fevereiro de 2021

Ligações externas[editar | editar código-fonte]

Commons

O Commons possui imagens e outros ficheiros sobre DALL-E

Site do DALL·E 2

[vb-1] ↑ ^a ^b ^c ^d ^e ^f ^g Johnson, Khari (5 de janeiro de 2021). «OpenAI debuts DALL-E for generating images from text». VentureBeat. Consultado em 5 de janeiro de 2021. Arquivado do original em 5 de janeiro de 2021

[tc-2] Coldewey, Devin (5 de janeiro de 2021). «OpenAI's DALL-E creates plausible images of literally anything you ask it to». Consultado em 5 de janeiro de 2021. Arquivado do original em 6 de janeiro de 2021

[vb2oped-3] Grossman, Gary (16 de janeiro de 2021). «OpenAI's text-to-image engine, DALL-E, is a powerful visual idea generator». VentureBeat. Consultado em 2 de março de 2021. Arquivado do original em 26 de fevereiro de 2021

[zme-4] Andrei, Mihai (8 de janeiro de 2021). «This AI module can create stunning images out of any text input». ZME Science. Consultado em 2 de março de 2021. Arquivado do original em 29 de janeiro de 2021

[axios-5] Walsh, Bryan (5 de janeiro de 2021). «A new AI model draws images from text». Axios. Consultado em 2 de março de 2021

[mittr-6] Heaven, Will Douglas (5 de janeiro de 2021). «This avocado armchair could be the future of AI». MIT Technology Review. Consultado em 5 de janeiro de 2021

[7] Mehdi, Yusuf (21 de setembro de 2023). «Announcing Microsoft Copilot, your everyday AI companion». The Official Microsoft Blog (em inglês). Consultado em 19 de outubro de 2023

[8] KAHN, JEREMY (6 de abril de 2022). «Move over Photoshop: OpenAI has just revolutionized digital image making». Fortune (em inglês). Consultado em 10 de abril de 2022

[9] «DALL·E 2». OpenAI (em inglês). Consultado em 6 de abril de 2022

[gpt1paper-10] Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 de junho de 2018). «Improving Language Understanding by Generative Pre-Training» (PDF). OpenAI. 12 páginas. Consultado em 23 de janeiro de 2021. Cópia arquivada (PDF) em 26 de janeiro de 2021

[gpt2paper-11] Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14 de fevereiro de 2019). «Language models are unsupervised multitask learners» (PDF). 1 (8). Consultado em 19 de dezembro de 2020. Cópia arquivada (PDF) em 6 de fevereiro de 2021

[gpt3paper-12] Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (22 de julho de 2020). «Language Models are Few-Shot Learners». arXiv:2005.14165 [cs.CL]

[dallepaper-13] Ramesh, Aditya; Pavlov, Mikhail; Goh, Gabriel; Gray, Scott; Voss, Chelsea; Radford, Alec; Chen, Mark; Sutskever, Ilya (24 de fevereiro de 2021). «Zero-Shot Text-to-Image Generation». arXiv:2101.12092 [cs.LG]

[impact-14] Tamkin, Alex; Brundage, Miles; Clark, Jack; Ganguli, Deep (2021). «Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models». arXiv:2102.02503 [cs.CL]

[engadget-15] Dent, Steve (6 de janeiro de 2021). «OpenAI's DALL-E app generates images from just a description». Engadget. Consultado em 2 de março de 2021. Cópia arquivada em 27 de janeiro de 2021

[boing-16] Dunn, Thom (10 de fevereiro de 2021). «This AI neural network transforms text captions into art, like a jellyfish Pikachu». BoingBoing. Consultado em 2 de março de 2021. Cópia arquivada em 22 de fevereiro de 2021

[cnbc-17] Shead, Sam (8 de janeiro de 2021). «Why everyone is talking about an image generator released by an Elon Musk-backed A.I. lab». CNBC. Consultado em 2 de março de 2021

[input-18] Kasana, Mehreen (7 de janeiro de 2021). «This AI turns text into surreal, suggestion-driven art». Input. Consultado em 2 de março de 2021. Cópia arquivada em 29 de janeiro de 2021

[nbc-19] Ehrenkranz, Melanie (27 de janeiro de 2021). «Here's DALL-E: An algorithm learned to draw anything you tell it». NBC News. Consultado em 2 de março de 2021. Cópia arquivada em 20 de fevereiro de 2021

[nature-20] Stove, Emma (5 de fevereiro de 2021). «Tardigrade circus and a tree of life — January's best science images». Nature. Consultado em 2 de março de 2021. Cópia arquivada em 8 de março de 2021

[wired-21] Knight, Will (26 de janeiro de 2021). «This AI Could Go From 'Art' to Steering a Self-Driving Car». Wired. Consultado em 2 de março de 2021. Cópia arquivada em 21 de fevereiro de 2021

[cnn-22] Metz, Rachel (2 de fevereiro de 2021). «A radish in a tutu walking a dog? This AI can draw it really well». CNN. Consultado em 2 de março de 2021

[bbc-23] Wakefield, Jane (6 de janeiro de 2021). «AI draws dog-walking baby radish in a tutu». British Broadcasting Corporation. Consultado em 3 de março de 2021. Cópia arquivada em 2 de março de 2021

[dale-24] Markowitz, Dale (10 de janeiro de 2021). «Here's how OpenAI's magical DALL-E image generator works». TheNextWeb. Consultado em 2 de março de 2021. Cópia arquivada em 23 de fevereiro de 2021

[forbesoped-25] Toews, Rob (18 de janeiro de 2021). «AI And Creativity: Why OpenAI's Latest Model Matters». Forbes. Consultado em 2 de março de 2021. Cópia arquivada em 12 de fevereiro de 2021

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]