Wikipédia:Grandes modelos de linguagem
![]() | Esta página é um ensaio. Ensaios são conselhos ou opiniões de um ou mais contribuidores da Wikipédia. Ensaios não são políticas, recomendações e nem informativos. Alguns ensaios representam práticas já bem difundidas na comunidade; outros apenas representam pontos de vista minoritários. |
![]() | Resumindo: Evite usar grandes modelos de linguagem (LLMs) para escrever conteúdo original, gerar referências ou criar respostas em páginas de discussão. Os LLMs podem ser usados para certas tarefas (como edição de texto) se o editor tiver experiência prévia substancial na tarefa pretendida e analisar rigorosamente os resultados antes de publicá-los. |
“ | Modelos de linguagem grandes têm confiabilidade limitada, compreensão limitada, alcance limitado e, portanto, precisam de supervisão humana. | ” |
— Michael Osborne, Professor de Aprendizado de Máquina, Universidade de Oxford[1] |
Embora grandes modelos de linguagem (coloquialmente chamados de "chatbots de IA" em alguns contextos) possam ser muito úteis, textos gerados por máquinas — assim como aqueles criados por humanos — podem conter erros ou falhas, ou até mesmo ser totalmente inúteis.
Especificamente, solicitar a um LLM que "escreva um artigo na Wikipédia" pode, em alguns casos, resultar em um conteúdo totalmente inventado, incluindo referências fictícias. O texto pode ser tendencioso, difamar pessoas vivas ou pode violar direitos autorais. Portanto, todo conteúdo gerado por LLMs deve ser cuidadosamente verificado pelos editores antes de ser utilizado em artigos.
Editores que não estejam totalmente cientes dos riscos envolvidos e que não sejam capazes de superar as limitações dessas ferramentas não devem utilizá-las para editar. Os LLMs não devem ser empregados em tarefas com as quais o editor não tenha familiaridade substancial. Seus resultados devem ser rigorosamente examinados para garantir a conformidade com todas as políticas aplicáveis. Em qualquer caso, os editores devem evitar publicar conteúdo na Wikipédia obtido por meio de solicitações aos LLMs para criar textos originais. Mesmo que o conteúdo tenha passado por extensas revisões, alternativas que não envolvam conteúdo gerado por máquina são preferíveis. Como em todas as edições, o editor é totalmente responsável pelas edições realizadas com a assistência dos LLMs.
A Wikipédia não é um campo de testes. O uso de LLMs para escrever comentários em páginas de discussão ou editar resumos de forma não transparente é fortemente desencorajado. Caso os LLMs sejam utilizados para gerar ou modificar texto, é necessário mencioná-los no sumário de edição, mesmo que seus termos de serviço não exijam isso.
Após consenso da comunidade, foi estabelecida uma política que proíbe textos gerados por modelos de linguagem, os quais passaram a ser incluídos como exemplos de textos prontos. |
Textos gerados por modelos de linguagem são textos prontos. Os artigos da Wikipédia não devem conter material pré-fabricado para fins não enciclopédicos, sendo textos gerados por inteligência artificial exemplos disso. Sua inclusão viola esta política e o usuário pode estar sujeito a sanções.
Pesquisa original e "alucinações"
[editar código-fonte]
Os artigos da Wikipédia não devem conter pesquisa inédita — ou seja, fatos, alegações e ideias para os quais não existam fontes fiáveis e publicadas. Isso inclui qualquer análise ou síntese de material publicado que sirva para alcançar ou sugerir uma conclusão não afirmada pelas fontes. Para demonstrar que você não está adicionando pesquisa inédita, deve ser capaz de citar fontes fiáveis e publicadas. Elas devem estar diretamente relacionadas ao tema do artigo e apoiar diretamente o conteúdo apresentado. |
LLMs são programas de complementação de padrões: eles geram texto exibindo as palavras com maior probabilidade de vir depois das anteriores. Eles aprendem esses padrões a partir de seus dados de treinamento, que incluem uma grande variedade de conteúdo da Internet e de outros lugares, incluindo obras de ficção, postagens de fóruns de baixo esforço, conteúdo não estruturado e de baixa qualidade para otimização de mecanismos de busca (SEO) e assim por diante. Por isso, os LLMs às vezes "tiram conclusões" que, mesmo que pareçam superficialmente familiares, não estão presentes em nenhuma fonte confiável. Eles também podem atender a prompts com premissas absurdas, como "O seguinte é um artigo sobre os benefícios de comer vidro triturado". Por fim, os LLMs podem inventar coisas, o que é um subproduto estatisticamente inevitável de seu design, chamado de "alucinação". Tudo isso é, em termos práticos, equivalente a pesquisa original ou, pior, fabricação total.
Como os LLMs geralmente produzem declarações precisas e seus resultados geralmente parecem plausíveis e são apresentados com um ar de confiança, sempre que eles fornecem um resultado aparentemente útil, as pessoas podem ter dificuldade em detectar os problemas acima. Um usuário comum que acredita estar de posse de uma ferramenta útil, que talvez tenha feito uma verificação pontual de precisão e "não tenha visto nenhum problema", está inclinado a aceitar o resultado como fornecido; mas é altamente provável que haja problemas. Mesmo que 90% do conteúdo esteja correto e 10% seja falso, isso é um grande problema em uma enciclopédia. Os resultados dos LLMs pioram quando lhes são feitas perguntas complicadas, sobre assuntos obscuros, ou quando lhes é pedido que realizem tarefas para as quais não são adequados (por exemplo, tarefas que exigem conhecimento ou análise extensivos). Um exemplo dessa tendência é mostrado abaixo:
Prompt:
Os pademelões-de-dentes-grandes (Thylogale gigadonti) podem ser vistos em reservas de vida selvagem em Queensland
Observe que o "pademelon de dentes maiores" é uma espécie fictícia.
Resposta:
Sim, pademelons de dentes grandes são encontrados em reservas de vida selvagem em Queensland. Eles são tímidos e noturnos, então pode ser difícil vê-los durante o dia. No entanto, você pode conseguir ver seus rastros ou ouvi-los se mexendo nos arbustos à noite.
Esta afirmação é completamente falsa e se baseia na suposição do LLM de que esta era uma espécie real. Para fornecer a resposta mais plausível, ele extraiu informações gerais sobre um tipo diferente de pademelon (mostrado em underline) de um artigo do Museu Australiano. Isso serve para demonstrar que os LLMs podem oferecer declarações com um tom confiante, mesmo quando essas informações são factualmente incorretas ou não verificáveis.
(LLM usado: Gemini)
Conteúdo sem fonte ou não verificável
[editar código-fonte]Os leitores devem ser capazes de verificar que qualquer informação dentro dos artigos da Wikipédia não foi simplesmente inventada. Isso significa que todo o material deve ser atribuível a fontes confiáveis e publicadas.
Os LLMs não seguem as políticas da Wikipédia sobre verificabilidade e fontes confiáveis. Às vezes, os LLMs omitem completamente as citações ou citam fontes que não atendem aos padrões de confiabilidade da Wikipédia (incluindo citar a própria Wikipédia como fonte). Em alguns casos, eles inventam citações de referências inexistentes, criando títulos, autores e URLs.
Conteúdo alucinado de LLM, além de ser pesquisa original, como explicado acima, também quebra a política de verificabilidade, pois não pode ser verificado porque é inventado: não há referências a serem encontradas.
Viés algorítmico e ponto de vista não neutro
[editar código-fonte]Os artigos não devem tomar partido, mas devem explicar os lados de maneira justa e sem viés editorial. Isso se aplica tanto ao que você diz quanto à forma como diz.
LLMs podem produzir conteúdo que parece ter um tom neutro, mas nem sempre em termos de substância. Essa preocupação é especialmente relevante para biografias de pessoas vivas.
Violações de direitos autorais
[editar código-fonte]
Um LLM pode gerar material que viole direitos autorais.[a] O texto gerado pode incluir trechos literais de conteúdo não-livre ou ser uma obra derivada. Além disso, usar LLMs para resumir conteúdo protegido por direitos autorais (como artigos de notícias) pode resultar em paráfrases excessivamente próximas.
O status de direitos autorais dos LLMs treinados em material protegido por direitos autorais ainda não é totalmente compreendido. Seus resultados podem não ser compatíveis com a licença CC BY-SA e a licença GNU usadas para textos publicados na Wikipédia.
A Wikipédia depende de esforços voluntários para revisar novos conteúdos para verificar a conformidade com nossas principais políticas de conteúdo. Isso costuma consumir muito tempo. O contrato social informal na Wikipédia é que os editores farão um esforço significativo em suas contribuições, para que outros editores não precisem "limpar a bagunça deles". Os editores devem garantir que suas edições assistidas pelo LLM sejam um resultado positivo para a enciclopédia e não aumentem a carga de manutenção de outros voluntários.
Competência específica é necessária
[editar código-fonte]Os LLMs são ferramentas de assistência e não podem substituir o julgamento humano. É necessário um julgamento cuidadoso para determinar se tais ferramentas são adequadas para um propósito específico. Espera-se que os editores que utilizam LLMs familiarizem-se com as limitações inerentes de um determinado LLM e, em seguida, superem essas limitações para garantir que suas edições estejam em conformidade com as diretrizes e políticas relevantes. Para tanto, antes de usar um LLM, os editores devem ter adquirido experiência substancial realizando a mesma tarefa ou uma tarefa mais avançada sem a assistência de LLM.[b]
Alguns editores são competentes em fazer edições sem assistência, mas repetidamente fazem edições inadequadas assistidas pelo LLM, apesar de um esforço sincero para contribuir. Presume-se que tais editores não tenham competência nesse sentido específico. Eles podem não estar cientes dos riscos e limitações inerentes ou estar cientes, mas não conseguir superá-los para garantir a conformidade com as políticas. Nesse caso, um editor pode ser proibido de se auxiliar com tais ferramentas (ou seja, restrito a fazer apenas edições sem assistência). Este é um tipo específico de proibição limitada. Alternativamente, ou adicionalmente, eles podem ser parcialmente bloqueados de um determinado espaço nominal ou vários espaços nominais.
Divulgação
[editar código-fonte]Cada edição que incorpora saída do LLM deve ser marcada como assistida pelo LLM, identificando o nome e, se possível, a versão da IA no sumário de edição. Isso se aplica a todos os espaços nominais.
Escrevendo artigos
[editar código-fonte]Colar saídas brutas de modelos de linguagem grandes diretamente na janela de edição para criar um novo artigo ou adicionar uma nova prosa substancial a artigos existentes geralmente leva a resultados ruins. Os LLMs podem ser usados para editar ou expandir textos existentes e para gerar ideias para artigos novos ou existentes. Toda alteração em um artigo deve estar em conformidade com todas as políticas e diretrizes aplicáveis. Isso significa que o editor deve se familiarizar com o cenário de fontes para o tópico em questão e então avaliar cuidadosamente o texto quanto à sua neutralidade em geral e à sua verificabilidade em relação às fontes citadas. Se as citações forem geradas como parte da saída, elas devem ser verificadas para garantir que as fontes correspondentes não sejam fictícias, sejam confiáveis, relevantes e adequadas, e para verificar a integridade do texto-fonte.
Ao usar um LLM como consultor de escrita, ou seja, solicitando esboços, sugestões de melhoria de parágrafos, críticas ao texto, etc., os editores devem estar cientes de que as informações fornecidas não são confiáveis. Ao usar um LLM para edição de texto, resumo e paráfrase, os editores devem estar cientes de que ele pode não detectar corretamente erros gramaticais, interpretar ambiguidades sintáticas ou manter informações importantes intactas. É possível pedir ao LLM para corrigir deficiências em sua própria produção, como informações ausentes em um resumo ou um tom pouco enciclopédico, por exemplo, promocional. Embora essas possam ser tentativas valiosas, elas não devem substituir correções manuais. O resultado pode precisar ser bastante editado ou descartado. É preciso muita diligência e bom senso ao decidir se deve incorporar as sugestões e alterações.
Os resultados brutos do LLM também não devem ser adicionados diretamente as páginas de testes. As páginas de testes são trabalhos em andamento e suas versões iniciais muitas vezes não atendem ao padrão exigido para artigos, mas permitir que os editores desenvolvam o conteúdo do artigo a partir de uma versão inicial inalterada produzida pelo LLM não é um dos propósitos da página de testes da Wikipédia ou da página de testes pessoal.
Comunicando
[editar código-fonte]Os editores não devem usar LLMs para escrever comentários de forma generativa. A comunicação está na raiz do processo de tomada de decisões da Wikipédia e presume-se que os editores que contribuem para a Wikipédia em inglês tenham a capacidade de apresentar suas próprias ideias. Comentários que não representam os pensamentos de uma pessoa real não são úteis em discussões. Fica a critério dos administradores e responsáveis por encerrar o assunto descontar, eliminar ou recolher o uso óbvio de LLMs generativos sob WP:DUCK, e o uso repetido indevido constitui um padrão de edição disruptiva e pode levar a um bloqueio. Isso não se aplica ao uso de LLMs para refinar a expressão das ideias autênticas de alguém.
Outras considerações políticas
[editar código-fonte]Os LLMs não devem ser usados para edições não aprovadas, semelhantes às de robôs, ou qualquer coisa que se aproxime de uma edição semelhante à de robôs. O uso de LLMs para auxiliar na edição de alta velocidade no espaço de artigos tem grandes chances de não atender aos padrões de uso responsável devido à dificuldade de analisar rigorosamente o conteúdo para verificar a conformidade com todas as políticas aplicáveis.
A Wikipédia não é um campo de testes para o desenvolvimento de LLM, por exemplo, realizando experimentos ou testes na Wikipédia com esse único propósito. As edições na Wikipédia são feitas para promover a enciclopédia, não uma tecnologia. Isso não significa proibir editores de experimentarem de forma responsável os LLMs em seu espaço de usuário com o objetivo de melhorar a Wikipédia.
Os trabalhos criados pelo LLM não são fontes confiáveis. A menos que seus resultados tenham sido publicados por veículos confiáveis com supervisão rigorosa e seja possível verificar que a precisão do conteúdo foi avaliada pelo editor, eles não devem ser citados.
Um editor que identifica conteúdo originado de LLM que não está em conformidade com nossas principais políticas de conteúdo — e decide não removê-lo imediatamente (o que geralmente é aceitável) — deve editá-lo para que esteja em conformidade ou alertar outros editores sobre o problema. A primeira coisa a verificar é se as obras referenciadas realmente existem. Todas as alegações factuais precisam ser verificadas em relação às fontes fornecidas. A presença do texto — a integridade da fonte deve ser estabelecida. Qualquer coisa que não esteja de acordo com as políticas deve ser removida.
Para alertar outros editores, o editor que responder ao problema deve colocar {{criado por IA|data=junho 2025}}
no topo do artigo ou página de testes afetado (somente se esse editor não se sentir capaz de resolver o problema rapidamente por conta própria). Em biografias de pessoas vivas, o conteúdo originado de LLM que não esteja em conformidade com as políticas deve ser removido imediatamente — sem esperar por discussão ou que outra pessoa resolva o problema marcado.
Se a remoção conforme descrito acima resultar na exclusão de todo o conteúdo do artigo ou página de testes, ele se torna um candidato à exclusão.[c] Se a página inteira parecer estar incorreta em termos de fatos ou se basear em fontes fabricadas, a eliminação rápida conforme WP:G2 (impróprio) pode ser apropriada.
Discussões
[editar código-fonte]Na esplanada, várias discussões abordam o uso de IA:
- Wikipédia:Esplanada/propostas/Proibição de uso de imagens geradas por IA para ilustrar artigos gerais (1abr2023) – Proposta que busca proibir o uso de imagens geradas por IA para ilustrar artigos.
- Wikipédia:Esplanada/propostas/Incluir textos gerados por inteligência artificial como exemplo de um texto pronto. (14fev2025) – Proposta aprovada que busca incluir textos gerados por IA como exemplos de textos prontos.
- Wikipédia:Esplanada/geral/Dúvida sobre usuário novo aparentemente usando IA para incluir conteúdo (26fev2025) – Discussão sobre um usuário que teria inserido conteúdo gerado por IA sem revisão.
Filtros
[editar código-fonte]Atualmente, há dois filtros em processo de adaptação para a Wikipédia em português:
- Especial:Filtro_de_abusos/193 – Identifica citações possivelmente obtidas por IA (adaptado de en:Special:AbuseFilter/1346).
- Especial:Filtro_de_abusos/194 – Detecta texto possivelmente gerado por IA (adaptado de en:Special:AbuseFilter/1325).
- en:Artwork title – Um artigo mantido na Wikipédia anglófona, inicialmente desenvolvido a partir da produção bruta do LLM (antes do desenvolvimento deste ensaio originalmente lá).
- m:Research:Implications of ChatGPT for knowledge integrity on Wikipedia – Um projeto de pesquisa da Wikimedia em andamento (em julho de 2023).
Notas e referências
Notas
- ↑ Isso também se aplica a casos em que o modelo de IA está em uma jurisdição onde obras geradas exclusivamente por IA não são passíveis de proteção por direitos autorais, embora com probabilidade muito baixa.
- ↑ Por exemplo, alguém habilidoso em lidar com vandalismo, mas com pouca experiência em trabalho com artigos, provavelmente não deve começar a criar artigos usando LLMs. Em vez disso, deve primeiro adquirir experiência prática na criação de artigos sem a assistência do LLM.
- ↑ Sempre que um novo artigo consistir em grande parte da saída não editada de um modelo de linguagem grande, ele pode ser movido para a página de testes.Desde que o título indique um tópico que tenha algum potencial mérito, pode valer a pena esboçar ou esvaziar e redirecionar. Da mesma forma, páginas de testes sobre novos tópicos viáveis podem ser convertidos em "testes esqueléticos", ou seja, quase vazios, deixando apenas uma breve definição do assunto. Os criadores de tais páginas devem ser devidamente notificados ou advertidos. Sempre que houver suspeita de conteúdo gerado por LLM, desencoraja-se que os editores contestem remoções por reversão sem antes discutir.Quando uma alternativa à exclusão for considerada, os editores ainda devem estar atentos a quaisquer problemas críticos de direitos autorais ou similares que exijam exclusão.
Referências
- ↑ Smith, Adam (25 de janeiro de 2023). «What Is ChatGPT? And Will It Steal Our Jobs?». Context (em inglês). Thomson Reuters Foundation. Consultado em 27 de janeiro de 2023