LLaMA

LLaMA (Large Language Model Meta AI) é um grande modelo de linguagem (LLM) lançado pela Meta AI em fevereiro de 2023. Uma variedade de modelo foi treinada, variando de 7 bilhões a 65 bilhões. Os desenvolvedores do LLaMA relataram que o desempenho do modelo de 13 bilhões de parâmetros na maioria dos benchmarks NLP excedeu o do muito maior GPT-3 (com 175 bilhões de parâmetros) e que o maior modelo era competitivo com modelos de última geração, como PaLM e Chinchilla. Considerando que os LLMs mais poderosos geralmente são acessíveis apenas por meio de APIs limitadas (se é que existem), a Meta lançou os modelo do LLaMA para a comunidade de pesquisa sob uma licença não comercial. Uma semana após o lançamento do LLaMA, seus pesos vazaram para o público no 4chan via BitTorrent.

Em 18 de julho de 2023, em parceria com a Microsoft, a Meta anunciou o Llama 2, a próxima geração do LLaMA. A Meta treinou e lançou o Llama 2 em três tamanhos de modelo, variando de 7 bilhões a 70 bilhões de parâmetros. ^[1]

Arquitetura[editar | editar código-fonte]

A LLaMA usa a arquitetura transformadora, a arquiteira padrão para modelagem de idiomas desde 2018.

Existem pequenas diferenças arquitetônicas. Comparado com GPT-3, LLaMA

usa a função de ativação SwiGLU ^[2] em vez de ReLU;
usa incorporações posicionais rotativas ^[3] em vez de incorporações posicionais absolutas;
usa a normalização da camada quadrática média ^[4] em vez da normalização da camada padrão. ^[5]

Conjunto de dados de treinamento[editar | editar código-fonte]

Os desenvolvedores do LLaMA concentraram seus esforços em dimensionar o desempenho do modelo aumentando o volume de dados de treinamento, em vez do número de parâmetros, argumentando que o custo dominante para LLMs é fazer inferência no modelo treinado em vez do custo computacional do processo de treinamento.

O LLaMA foi treinado em 1,4 trilhão de tokens, extraídos de fontes de dados publicamente disponíveis, incluindo:

Páginas da Web raspadas por CommonCrawl
Repositórios de código-fonte aberto de código-fonte do GitHub
Wikipédia em 20 línguas diferentes
Livros de domínio público do Projeto Gutenberg
O código-fonte LaTeX para artigos científicos carregados no ArXiv
Perguntas e respostas dos sites do Stack Exchange

LANÇAMENTO[editar | editar código-fonte]

O LLaMA foi anunciado em 23 de fevereiro de 2023, por meio de uma postagem no blog e um artigo descrevendo o treinamento, a arquitetura e o desempenho do modelo . O código usado para treinar o modelo foi divulgado publicamente sob a licença GPL 3 de código aberto. O acesso aos pesos do modelo foi gerenciado por um processo de inscrição, com acesso a ser concedido "caso a caso a pesquisadores acadêmicos; aqueles afiliados a organizações governamentais, da sociedade civil e acadêmica; e laboratórios de pesquisa da indústria em todo o mundo ".

Em 2 de março de 2023, ^[6] um torrent contendo os pesos do LLaMA foi carregado, com um link para o torrent compartilhado no quadro de imagens do 4chan e posteriormente se espalhando pelas comunidades online de IA. Nesse mesmo dia, foi aberto um pull request no repositório principal do LLaMA, solicitando a inclusão do link magnético na documentação oficial. ^[7] ^[8] Em 4 de março, uma solicitação pull foi aberta para adicionar links aos repositórios HuggingFace contendo o modelo. ^[9] ^[7] Em 6 de março, a Meta entrou com pedidos de remoção para remover os repositórios HuggingFace vinculados na solicitação pull, caracterizando-o como "distribuição não autorizada" do modelo. HuggingFace atendeu aos pedidos. ^[10] Em 20 de março, a Meta entrou com uma solicitação de remoção do DMCA por violação de direitos autorais contra um repositório contendo um script que baixava o LLaMA de um espelho, e o GitHub atendeu no dia seguinte. Desde 25 de março, o Facebook não respondeu à solicitação pull contendo o link magnético. ^[8]

As reações ao vazamento variaram. Alguns especularam que o modelo seria usado para fins maliciosos, como spam mais sofisticado. Alguns celebraram a acessibilidade do modelo, bem como o fato de que versões menores do modelo podem ser executadas de forma relativamente barata, sugerindo que isso promoverá o florescimento de desenvolvimentos de pesquisa adicionais. Vários comentaristas, como Simon Willison, compararam o LLaMA ao Stable Diffusion, um modelo de texto para imagem que, ao contrário dos modelos comparativamente sofisticados que o precederam, foi distribuído abertamente, levando a uma rápida proliferação de ferramentas, técnicas e software associados.

Reprodução do conjunto de dados[editar | editar código-fonte]

Em 17 de abril de 2023, a Together lançou um projeto chamado RedPajama para reproduzir e distribuir uma versão de código aberto do conjunto de dados LLaMA. O conjunto de dados tem aproximadamente 1,2 trilhão de tokens e está disponível publicamente para download.

Formulários[editar | editar código-fonte]

O Centro de Pesquisa em Modelos Fundamentais (CRFM) do Stanford University Institute for Human-Centered Artificial Intelligence (HAI) lançou o Alpaca, uma receita de treinamento baseada no modelo LLaMA 7B que usa o método "Self-Instruct" de ajuste de instrução para adquirir capacidades comparáveis ao modelo text-davinci-003 da série OpenAI GPT-3 a um custo modesto. ^[11] ^[12] Vários projetos de código aberto continuam esse trabalho de ajuste fino do LLaMA com o conjunto de dados Alpaca.

Referências[editar | editar código-fonte]

↑ «Meta e Microsoft apresentam a próxima geração de lhamas». Meta. 18 de julho de 2023. Consultado em 21 de julho de 2023
↑ Shazeer, Noam (1 de fevereiro de 2020). «GLU Variants Improve Transformer». arXiv:2104.09864 [cs.CL]
↑ Su, Jianlin; Lu, Yu (1 de abril de 2021). «RoFormer: Enhanced Transformer with Rotary Position Embedding». arXiv:2104.09864 [cs.CL]
↑ Zhang, Biao; Sennrich, Rico (1 de outubro de 2019). «Root Mean Square Layer Normalization». arXiv:1910.07467 [cs.LG]
↑ Lei Ba, Jimmy; Kiros, Jamie Ryan (1 de julho de 2016). «Layer Normalization». arXiv:1607.06450 [stat.ML]
↑ «/g/ - /aicg/ - AI Chatbot General - Technology - 4chan». 5 Mar 2023
↑ ^a ^b VK, Anirudh (6 de março de 2023). «LLaMA do Meta vazou para o público, graças ao 4chan». Analytics India Magazine. Consultado em 17 de março de 2023
↑ ^a ^b «Economize largura de banda usando um torrent para distribuir com mais eficiência por ChristopherKing42 · Pull Request #73 · facebookresearch/llama». GitHub (em inglês). Consultado em 25 de março de 2023
↑ «Faça o download de pesos de huggingface para nos ajudar a economizar largura de banda por Jainam 213 · Pull Request #109 · facebookresearch/llama». GitHub (em inglês). Consultado em 17 de março de 2023
↑ Cox, Joseph (7 de março de 2023). «O poderoso modelo de linguagem grande do Facebook vaza online». vício (em inglês). Consultado em 17 de março de 2023
↑ Taori, Rohan; Gulrajani, Ishaan; Zhang, Tianyi; Dubois, Yann; Li, Xuechen; Guestrin, Carlos; Liang, Percy; Hashimoto, Tatsunori B. (13 de março de 2023). «Alpaca: um modelo forte e replicável de acompanhamento de instruções». Stanford Center for Research on Foundation Models
↑ Wang, Yizhong; Kordi, Yeganeh. «Self-Instruct: Aligning Language Models with Self-Generated Instructions». arXiv:2212.10560 [cs.CL]

[1] «Meta e Microsoft apresentam a próxima geração de lhamas». Meta. 18 de julho de 2023. Consultado em 21 de julho de 2023

[2] Shazeer, Noam (1 de fevereiro de 2020). «GLU Variants Improve Transformer». arXiv:2104.09864 [cs.CL]

[3] Su, Jianlin; Lu, Yu (1 de abril de 2021). «RoFormer: Enhanced Transformer with Rotary Position Embedding». arXiv:2104.09864 [cs.CL]

[4] Zhang, Biao; Sennrich, Rico (1 de outubro de 2019). «Root Mean Square Layer Normalization». arXiv:1910.07467 [cs.LG]

[5] Lei Ba, Jimmy; Kiros, Jamie Ryan (1 de julho de 2016). «Layer Normalization». arXiv:1607.06450 [stat.ML]

[6] «/g/ - /aicg/ - AI Chatbot General - Technology - 4chan». 5 Mar 2023

[India-leak-7] VK, Anirudh (6 de março de 2023). «LLaMA do Meta vazou para o público, graças ao 4chan». Analytics India Magazine. Consultado em 17 de março de 2023

[CKing-8] «Economize largura de banda usando um torrent para distribuir com mais eficiência por ChristopherKing42 · Pull Request #73 · facebookresearch/llama». GitHub (em inglês). Consultado em 25 de março de 2023

[9] «Faça o download de pesos de huggingface para nos ajudar a economizar largura de banda por Jainam 213 · Pull Request #109 · facebookresearch/llama». GitHub (em inglês). Consultado em 17 de março de 2023

[10] Cox, Joseph (7 de março de 2023). «O poderoso modelo de linguagem grande do Facebook vaza online». vício (em inglês). Consultado em 17 de março de 2023

[11] Taori, Rohan; Gulrajani, Ishaan; Zhang, Tianyi; Dubois, Yann; Li, Xuechen; Guestrin, Carlos; Liang, Percy; Hashimoto, Tatsunori B. (13 de março de 2023). «Alpaca: um modelo forte e replicável de acompanhamento de instruções». Stanford Center for Research on Foundation Models

[12] Wang, Yizhong; Kordi, Yeganeh. «Self-Instruct: Aligning Language Models with Self-Generated Instructions». arXiv:2212.10560 [cs.CL]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]