Segurança da inteligência artificial

Origem: Wikipédia, a enciclopédia livre.

A segurança da inteligência artificial (do termo em inglês AI Safety) é um campo interdisciplinar que se preocupa com a prevenção de acidentes, uso indevido ou outras consequências prejudiciais que possam resultar de sistemas de inteligência artificial (IA). Ela engloba a ética de máquinas e o alinhamento da IA ("AI alignment"), que visam tornar os sistemas de IA morais e benéficos. Também engloba questões técnicas, incluindo o monitoramento dos sistemas quanto a riscos e a sua alta confiabilidade. Além da pesquisa em inteligência artificial, ela envolve o desenvolvimento de normas e políticas que promovam a segurança.

Motivações[editar | editar código-fonte]

Os pesquisadores de IA divergem quanto à gravidade e as principais fontes de risco provenientes da tecnologia de IA,[1][2][3] embora as pesquisas indiquem que os especialistas levam a sério os riscos de alta consequência. Em duas pesquisas, os entrevistados estavam otimistas em relação à inteligência artificial em geral, mas estimaram uma probabilidade de 5% de um resultado "extremamente ruim da inteligência artificial avançada" (por exemplo, extinção humana).[1] Em uma pesquisa de 2022 da comunidade de Processamento de Linguagem Natural (NLP em inglês), 37% concordaram ou concordaram levemente que é plausível que as decisões de IA possam levar a uma catástrofe "pelo menos tão ruim quanto uma guerra nuclear total".[4]

Os estudiosos discutem os riscos atuais de falhas em sistemas críticos,[5] parcialidade ("bias"),[6] vigilância habilitada por IA ("AI-enabled surveillance");[7] riscos emergentes do desemprego tecnológico, manipulação digital,[8] armamento[9] e riscos especulativos de perda de controle de futuros agentes da inteligência artificial geral (AGI em inglês).[10]

Alguns criticam as preocupações com a AGI, como o professor adjunto da Universidade de Stanford, Andrew Ng, que as comparou à "preocupação com a superpopulação em Marte quando ainda nem pisamos no planeta".[11] Outros, como o professor da Universidade da Califórnia em Berkeley, Stuart J. Russell, pedem cautela, argumentando que "é melhor antecipar a engenhosidade humana do que subestimá-la".[12]

Precedentes[editar | editar código-fonte]

Os riscos da inteligência artificial começaram a ser seriamente discutidos no início da era da informática:

"Além disso, se avançarmos no sentido de criar máquinas que aprendam e cujo comportamento seja modificado pela experiência, teremos de encarar o fato de que cada grau de independência que concedemos à máquina é um grau de possível desafio aos nossos desejos." -Norbert Wiener (1949)[13]

De 2008 a 2009, a Associação para o Avanço da Inteligência Artificial (AAAI em inglês) encomendou um estudo para explorar e abordar as possíveis influências sociais de longo prazo da pesquisa e do desenvolvimento da IA. Em geral, o painel foi cético em relação às visões radicais expressas pelos autores de ficção científica, mas concordou que "pesquisas adicionais sobre métodos para compreender e verificar a variedade de comportamentos de sistemas computacionais complexos para minimizar resultados inesperados seriam valiosas".[14]

Em 2011, Roman Yampolskiy introduziu o termo "engenharia de segurança de IA" ("AI safety engineering")[15] na Conferência de Filosofia e Teoria da Inteligência Artificial ("Philosophy and Theory of Artificial Intelligence Conference"),[16] listando falhas anteriores de sistemas de IA e argumentando que "a frequência e a gravidade de tais eventos aumentarão constantemente à medida que as inteligências artificiais se tornam mais poderosas".[17]

Em 2014, o filósofo Nick Bostrom publicou o livro Superintelligence: Paths, Dangers, Strategies ("Superinteligência: Caminhos, Perigos, Estratégias"). Seu argumento de que futuros sistemas avançados podem representar uma ameaça à existência humana levou Elon Musk,[18] Bill Gates,[19] e Stephen Hawking[20] a expressarem preocupações semelhantes.

Em 2015, dezenas de especialistas em inteligência artificial assinaram uma Carta Aberta Sobre Inteligência Artificial ("Open letter on artificial intelligence") pedindo pesquisas sobre os impactos sociais da IA e delineando diretrizes concretas.[21] A carta já foi assinada por mais de 8.000 pessoas, incluindo Yann LeCun, Shane Legg, Yoshua Bengio e Stuart J. Russell.

No mesmo ano, um grupo de acadêmicos liderado pelo professor Russell fundou o Centro de Inteligência Artificial Compatível com Humanos ("Center for Human-Compatible AI") na UC Berkeley e o Instituto Future of Life concedeu US$ 6,5 milhões em subsídios para pesquisas destinadas a "garantir que a inteligência artificial permaneça segura, ética e benéfica".[22]

Em 2016, o Escritório de Políticas de Ciência e Tecnologia da Casa Branca ("White House Office of Science and Technology Policy") e a Universidade Carnegie Mellon anunciaram o Workshop Público sobre Segurança e Controle para Inteligência Artificial,[23] que foi um de uma sequência de quatro workshops da Casa Branca com o objetivo de investigar "as vantagens e desvantagens" da IA.[24] No mesmo ano, foi publicado o Problemas Concretos na Segurança da IA ("Concrete Problems in AI Safety"), uma das primeiras e mais influentes agendas técnicas de segurança da IA.[25]

Em 2017, o Instituto Future of Life patrocinou a Conferência Asilomar sobre IA benéfica ("Asilomar Conference on Beneficial AI"), na qual mais de 100 líderes formularam princípios para a inteligência artificial benéfica, incluindo "Evitar corridas: as equipes que desenvolvem sistemas de IA devem cooperar ativamente para evitar cortes nos padrões de segurança."[nota 1][26]

Em 2018, a equipe de segurança da DeepMind delineou problemas de segurança de IA em especificação, robustez e segurança.[27] No ano seguinte, os pesquisadores organizaram um workshop na Conferência Internacional sobre Representações de Aprendizagem (ICLR em inglês) que se concentrou nessas áreas problemáticas.[28]

Focos de pesquisa[editar | editar código-fonte]

As áreas de pesquisa de segurança da IA incluem robustez ("robustness"), monitoramento ("monitoring") e alinhamento ("alignment").[29][30] A robustez se preocupa em tornar os sistemas altamente confiáveis, o monitoramento trata da antecipação de falhas ou da detecção de uso indevido, e o alinhamento se concentra em garantir que ela tenha objetivos benéficos.

Robustez[editar | editar código-fonte]

A pesquisa de robustez se concentra em garantir que os sistemas de IA se comportem como pretendido em uma ampla gama de situações diferentes, o que inclui os seguintes subproblemas:

  • Robustez do cisne preto ("black swan"): criação de sistemas que se comportam como pretendido em situações raras.
  • Robustez adversária ("adversarial machine learning"): projetar sistemas para serem resilientes a entradas que são intencionalmente selecionadas para fazê-los falhar.

Robustez do cisne preto ("black swan robustness")[editar | editar código-fonte]

Entradas ("inputs") raras podem fazer com que os sistemas de inteligência artificial falhem de forma catastrófica. Por exemplo, no Flash Crash de 2010, os sistemas de negociação automatizados reagiram inesperadamente de forma exagerada às flutuações do mercado, destruindo um trilhão de dólares do valor das ações em minutos.[31] Não é necessário que ocorra nenhuma mudança na distribuição ("distribution shift"; quando conjuntos de treinamento e teste não são provenientes da mesma distribuição) para que isso aconteça. Falhas do tipo cisne preto podem ocorrer como consequência de os dados de entrada serem de cauda longa, o que geralmente acontece em ambientes do mundo real.[32] Os veículos autônomos continuam a ter dificuldades com "casos extremos" que podem não ter surgido durante o treinamento; por exemplo, um veículo pode ignorar um sinal de parada que está iluminado como uma grade de LED.[33] Embora problemas como esses possam ser resolvidos à medida que os sistemas de aprendizado de máquina ("machine learning") desenvolvem uma melhor compreensão do mundo, alguns pesquisadores apontam que até mesmo os seres humanos muitas vezes não conseguem responder adequadamente a eventos sem precedentes, como a pandemia da COVID-19, argumentando que a robustez do cisne preto será um problema de segurança persistente.[30]

Robustez adversária ("adversarial robustness")[editar | editar código-fonte]

Os sistemas de IA geralmente são vulneráveis a exemplos adversários ou "entradas para modelos de aprendizado de máquina que um invasor tenha intencionalmente projetado para fazer com que o modelo cometa um erro".[34] Por exemplo, em 2013, Szegedy et al. descobriram que adicionar perturbações imperceptíveis específicas a uma imagem poderia fazer com que ela fosse classificada incorretamente com alta confiança.[35] Isso continua a ser um problema com as redes neurais ("ANNs" em inglês), embora em trabalhos recentes as perturbações geralmente sejam grandes o suficiente para serem perceptíveis.[36][37][38]

Um ruído cuidadosamente elaborado pode ser adicionado a uma imagem para fazer com que ela seja classificada erroneamente com alta confiança.

Todas as imagens ao lado são previstas como sendo de um avestruz após a aplicação da perturbação. A da esquerda é uma amostra prevista corretamente, a do centro possui perturbação aplicada ampliada em 10x, e a da direita um exemplo contraditório.[35]

A robustez adversária é frequentemente associada à segurança.[39] Pesquisadores demonstraram que um sinal de áudio pode ser imperceptivelmente modificado para que os sistemas de fala para texto o transcrevam para qualquer mensagem que o invasor escolher.[40] Os sistemas de detecção de intrusão de rede[41] e de malware[42] também precisam ser robustos em termos de adversariedade, pois os invasores podem projetar seus ataques para enganar os detectores.

Os modelos que representam objetivos (aprendizado por reforço) também devem ser robustos nesse sentido. Por exemplo, um modelo de aprendizado por reforço pode estimar o quanto uma resposta de texto é útil e se um modelo de linguagem pode ser treinado para maximizar essa pontuação.[43] Pesquisadores demonstraram que, se um modelo de linguagem for treinado por tempo suficiente, ele aproveitará as vulnerabilidades do modelo de aprendizado para obter uma pontuação melhor e ter um desempenho pior na tarefa pretendida.[44] Esse problema pode ser resolvido melhorando a robustez adversária do modelo.[45] De modo mais geral, qualquer sistema de IA usado para avaliar outro sistema de IA deve possuir robustez adversária. Isso deve incluir ferramentas de monitoramento, uma vez que elas também podem ser adulteradas para produzir uma recompensa maior.[46]

Monitoramento[editar | editar código-fonte]

O monitoramento se concentra em antecipar as falhas do sistema de IA para que elas possam ser evitadas ou gerenciadas. Os subproblemas do monitoramento incluem sinalizar quando os sistemas são incertos, detectar o uso mal-intencionado, compreender o funcionamento interno dos sistemas de inteligência artificial de caixa preta ("black-box") e identificar a funcionalidade oculta plantada por um agente mal-intencionado.[47]

Estimativa de incerteza[editar | editar código-fonte]

É importante que os operadores humanos avaliem o quanto devem confiar em um sistema de IA, principalmente em cenários de alto risco, como o diagnóstico médico.[48] Os modelos de machine learning (ML em inglês) geralmente expressam confiança por meio da emissão de probabilidades; no entanto, eles costumam apresentar excesso de confiança,[49] principalmente em situações diferentes daquelas para as quais foram treinados.[50] A pesquisa de calibração tem como objetivo fazer com que as probabilidades do modelo se aproximem o máximo possível da verdadeira proporção, na qual o modelo está correto.

Da mesma forma, a detecção de anomalias ou a detecção fora da distribuição (OOD em inglês) visa identificar quando um sistema de inteligência artificial está em uma situação incomum. Por exemplo, se um sensor em um veículo autônomo estiver com defeito ou se ele encontrar um terreno desafiador, ele deve alertar o motorista para que assuma o controle ou encoste.[51] A detecção de anomalias foi implementada treinando um classificador para distinguir entradas anômalas e não anômalas,[52] embora várias outras técnicas estejam em uso.[53][54]

Detecção de uso malicioso[editar | editar código-fonte]

Estudiosos[9] e agências governamentais expressam preocupações de que os sistemas de IA possam ser usados para ajudar agentes mal-intencionados a construir armas,[55] manipular a opinião pública[56][57] ou automatizar ataques cibernéticos.[58] Essas preocupações são algo prático para empresas como a OpenAI, que hospedam poderosas ferramentas de inteligência artificial on-line.[59] Para evitar o uso indevido, a OpenAI criou sistemas de detecção que sinalizam ou restringem os usuários com base em suas atividades.[60]

Transparência[editar | editar código-fonte]

As redes neurais têm sido frequentemente descritas como caixas pretas, o que significa que é difícil entender por que elas tomam as decisões que tomam, como resultado do grande número de cálculos que realizam.[61] Isso torna difícil prever falhas. Em 2018, um carro autônomo matou um pedestre depois de não conseguir identificá-lo. Devido à natureza de caixa preta do software de IA, o motivo da falha ainda não está claro.[62]

Um dos benefícios da transparência é a explicabilidade.[63] Por vezes é um requisito legal fornecer uma explicação sobre o motivo pelo qual uma decisão foi tomada para garantir a justiça, por exemplo, para filtrar automaticamente os pedidos de emprego ou a pontuação de crédito.[63]

Outro benefício é revelar a causa das falhas.[64] No início da pandemia de COVID-19 em 2020, os pesquisadores usaram ferramentas de transparência para mostrar que os classificadores de imagens médicas estavam "prestando atenção" a rótulos irrelevantes de hospitais.[65]

As técnicas de transparência também podem ser usadas para corrigir erros. Por exemplo, no artigo Locating and Editing Factual Associations in GPT ("Localizando e Editando as Associações Factuais no GPT"), os autores conseguiram identificar os parâmetros do modelo que influenciavam a forma como ele respondia às perguntas sobre a localização da Torre Eiffel. Em seguida, eles conseguiram "editar" esse conhecimento para fazer com que o modelo respondesse às perguntas como se a torre estivesse em Roma e não em Paris.[66] Embora nesse caso os autores tenham induzido um erro, esses métodos poderiam ser usados para corrigi-los com eficiência. Também existem técnicas de edição de modelos na visão computacional.[67]

Por fim, alguns argumentam que a opacidade dos sistemas de IA é uma fonte significativa de risco e que uma melhor compreensão de como eles funcionam poderia evitar falhas de alta consequência no futuro.[68] A pesquisa de interpretabilidade "interna" visa tornar os modelos de machine learning menos opacos. Um dos objetivos dessa pesquisa é identificar o que as ativações dos neurônios internos representam.[69][70] Por exemplo, os pesquisadores identificaram um neurônio no CLIP[nota 2] que responde a imagens de pessoas em trajes do homem-aranha, esboços do homem-aranha e a palavra "aranha".[71] Ele também envolve a explicação das conexões entre esses neurônios ou "circuitos".[72][73] Os pesquisadores identificaram mecanismos de correspondência de padrões na atenção transformadora ("transformer attention mechanism") que podem desempenhar um papel na forma como os modelos de linguagem aprendem com seu contexto.[74] A "interpretabilidade interna" foi comparada à neurociência. Em ambos os casos, o objetivo é entender o que está acontecendo em um sistema complexo, embora os pesquisadores de ML tenham a vantagem de poder fazer medições perfeitas e realizar ablações arbitrárias.[75]

Detecção de cavalos de troia[editar | editar código-fonte]

Os modelos de machine learning podem conter "cavalos de troia" ou "backdoors": vulnerabilidades que os agentes mal-intencionados criam maliciosamente em um sistema de IA. Por exemplo, um sistema de reconhecimento facial com cavalo de troia poderia conceder acesso quando uma peça específica de joalheria estiver à vista;[30] ou um veículo autônomo com o vírus pode funcionar normalmente até que um gatilho específico esteja visível.[76] É importante ressaltar que um invasor deve ter acesso aos dados de treinamento do sistema para plantar um cavalo de troia. Isso pode não ser difícil de fazer com alguns modelos grandes, como o CLIP ou o GPT-3, pois eles são treinados com dados da internet disponíveis publicamente.[77] Os pesquisadores conseguiram instalar um cavalo de troia em um classificador de imagens alterando apenas 3 de 3 milhões de imagens de treinamento.[78] Além de representar um risco à segurança, os pesquisadores argumentam que esses vírus fornecem um cenário concreto para testar e desenvolver melhores ferramentas de monitoramento.[46]

Alinhamento[editar | editar código-fonte]

No campo da inteligência artificial, a pesquisa de alinhamento tem como objetivo direcionar os sistemas de IA para as metas, preferências ou princípios éticos pretendidos pelos seres humanos. Um sistema de inteligência artificial é considerado alinhado se ele alcança os objetivos pretendidos. Um sistema de IA desalinhado é competente em promover alguns objetivos, mas não os pretendidos.[79][nota 3][nota 4]

Pode ser um desafio para os desenvolvedores de IA alinhar um sistema de inteligência artificial, porque pode ser difícil especificar toda a gama de comportamentos desejados e indesejados. Para evitar essa dificuldade, eles geralmente usam metas substitutas mais simples, como obter aprovação humana. No entanto, essa abordagem pode criar brechas, ignorar as restrições necessárias ou recompensar o sistema de IA por parecer alinhado.[79][81]

Sistemas de IA desalinhados podem funcionar mal ou causar danos. Eles podem encontrar brechas que lhes permitam atingir suas metas de proxy de forma eficiente, mas de maneiras não intencionais e, às vezes, prejudiciais ("reward hacking").[79][82][83] Os sistemas de inteligência artificial também podem desenvolver estratégias instrumentais ("instrumental strategies") indesejadas, como a busca de poder ou sobrevivência, porque essas estratégias os ajudam a atingir seus objetivos explícitos.[84][85][79] Além disso, eles podem desenvolver objetivos emergentes indesejáveis que podem ser difíceis de detectar antes de o sistema ser implementado, situação na qual este enfrenta novas situações e distribuições de dados ("domain adaptation").[86][87]

Atualmente, esses problemas afetam os sistemas comerciais, como modelos de linguagem,[88][89][90] robôs,[91] veículos autônomos[92] e mecanismos de recomendação de mídia social.[85][85][93] Alguns pesquisadores de IA argumentam que os sistemas futuros mais capazes serão afetados de forma mais grave, pois esses problemas resultam parcialmente do fato de os sistemas serem altamente capazes.[81][82][94]

Cientistas da computação relevantes, como Geoffrey Hinton e Stuart Russell, argumentam que a inteligência artificial está se aproximando de capacidades sobre-humanas e pode colocar em risco a civilização humana se estiver desalinhada.[85][95][nota 5]

A comunidade de pesquisa de inteligência artificial e as Nações Unidas pediram soluções de pesquisa técnica e políticas para garantir que os sistemas de IA estejam alinhados com os valores humanos.[91]

O alinhamento da IA é, portanto, um subcampo da segurança da inteligência artificial.[97] Outros subcampos da segurança da IA incluem robustez, monitoramento e controle de capacidade ("capability control").[98] Os desafios de pesquisa em alinhamento incluem incutir valores complexos na inteligência artificial, desenvolver IA honesta, supervisão escalável, auditoria e interpretação de modelos de IA e evitar comportamentos emergentes da inteligência artificial, como a busca de poder.[27] A pesquisa de alinhamento possui conexões com a pesquisa de interpretabilidade,[99][100] robustez (adversária),[27] detecção de anomalias, incerteza calibrada ("uncertainty quantification"),[27] verificação formal,[101] aprendizagem de preferências ("preference learning"),[102][103][104] engenharia de segurança crítica (SCS em inglês),[105] teoria dos jogos,[106] justiça algorítmica,[nota 6][27][107] ciências sociais,[108] entre outros.

Segurança sistêmica e fatores sociotécnicos[editar | editar código-fonte]

É comum que os riscos da inteligência artificial (e os riscos tecnológicos em geral) sejam categorizados como uso indevido ou acidentes.[109] Alguns estudiosos sugerem que essa estrutura é insuficiente.[109] Por exemplo, a Crise dos Mísseis de Cuba não foi um acidente ou um uso indevido de tecnologia.[109] Os analistas de políticas Zwetsloot e Dafoe escreveram: "as perspectivas de uso indevido e acidente tendem a se concentrar apenas na última etapa de uma cadeia causal que leva a um dano: ou seja, a pessoa que usou indevidamente a tecnologia ou o sistema que se comportou de maneira não intencional... Muitas vezes, porém, a cadeia causal relevante é muito mais longa". Os riscos geralmente surgem de fatores "estruturais" ou "sistêmicos", como pressões competitivas, difusão de danos, desenvolvimento acelerado, altos níveis de incerteza e cultura de segurança inadequada.[109] No contexto mais amplo da engenharia de segurança, fatores estruturais como "cultura de segurança organizacional" desempenham um papel central na popular estrutura de análise de risco STAMP (em inglês).[110]

Inspirados pela perspectiva estrutural, alguns pesquisadores enfatizam a importância de usar o ML para melhorar os fatores de segurança sociotécnica, por exemplo, usar o machine learning para defesa cibernética, melhorando a tomada de decisões institucionais e facilitando a cooperação.[30]

Defesa cibernética[editar | editar código-fonte]

Alguns estudiosos estão preocupados com o fato de a IA exacerbar o jogo já desequilibrado entre os atacantes e os defensores cibernéticos[110], o que incentivaria o "primeiro ataque" e poderia levar a ataques mais agressivos e desestabilizadores. Para mitigar esse risco, alguns defendem uma maior ênfase na defesa cibernética. Além disso, a segurança do software é essencial para evitar que modelos poderosos de inteligência artificial sejam roubados e usados indevidamente.[9]

Melhorando a tomada de decisões institucionais[editar | editar código-fonte]

O avanço da IA nos domínios econômico e militar pode precipitar desafios políticos sem precedentes.[111] Alguns estudiosos comparam a dinâmica da corrida da inteligência artificial à da Guerra Fria, na qual o julgamento cuidadoso de um pequeno número de tomadores de decisão muitas vezes fazia a diferença entre a estabilidade e a catástrofe.[112] Os pesquisadores de inteligência artificial argumentam que essas tecnologias também poderiam ser usadas para auxiliar na tomada de decisões.[30] Por exemplo, estão começando a ser desenvolvidos sistemas de previsão[113] e de consultoria de inteligência artificial.[114]

Facilitando a cooperação[editar | editar código-fonte]

Muitas das maiores ameaças globais (guerra nuclear,[115] mudança climática,[116] etc.) foram enquadradas como desafios de cooperação. Como no conhecido cenário do dilema do prisioneiro, algumas dinâmicas podem levar a resultados ruins para todos os participantes, mesmo quando eles estão agindo de forma ideal. Por exemplo, nenhum ator isolado tem fortes incentivos para lidar com as mudanças climáticas, embora as consequências possam ser significativas se ninguém intervir.[117]

Um desafio importante da cooperação em IA é evitar uma "corrida para o fundo do poço" ("race to the bottom").[118] Nesse cenário, países ou empresas correm para construir sistemas de inteligência artificial mais capazes e negligenciam a segurança, levando a um acidente catastrófico que prejudica todos os envolvidos. As preocupações com cenários como esse inspiraram esforços políticos[119] e técnicos[120] para facilitar a cooperação entre humanos e, possivelmente, também entre sistemas de IA. A maioria das pesquisas sobre inteligência artificial concentra-se na criação de agentes individuais para atender a funções isoladas (geralmente em jogos para um jogador).[121] Os especialistas sugerem que, à medida que os sistemas de IA se tornam mais autônomos, pode ser essencial estudar e moldar a maneira como eles interagem.[122]

Na governança[editar | editar código-fonte]

A governança da inteligência artificial lida com a criação de normas, padrões e regulamentações para orientar o uso e o desenvolvimento de sistemas de IA[123], o que envolve a formulação e a implementação de recomendações concretas, bem como a realização de pesquisas mais fundamentais para informar quais devem ser essas recomendações. Esta seção se concentra nos aspectos da governança da inteligência artificial que estão especificamente relacionados a garantir que os sistemas de inteligência artificial sejam seguros e benéficos.

Pesquisa[editar | editar código-fonte]

A pesquisa de governança da segurança da inteligência artificial abrange desde investigações fundamentais sobre os possíveis impactos da IA até aplicações específicas. No aspecto fundamental, os pesquisadores argumentam que a IA poderia transformar muitos aspectos da sociedade devido à sua ampla aplicabilidade, comparando-a à eletricidade e o motor a vapor.[124] Alguns trabalhos se concentraram em antecipar riscos específicos que podem surgir desses impactos - por exemplo, riscos de desemprego em massa,[125] armamento,[126] desinformação,[127] vigilância[128] e concentração de poder.[129] Outros trabalhos exploram os fatores de risco subjacentes, como a dificuldade de monitorar o setor de inteligência artificial em rápida evolução,[130] a disponibilidade de modelos de IA,[131] e a dinâmica de "corrida para o fundo do poço".[118][132] Allan Dafoe, chefe de governança e estratégia de longo prazo da DeepMind, enfatizou os perigos da corrida e a possível necessidade de cooperação: "pode ser quase uma condição necessária e suficiente para a segurança e o alinhamento da IA que haja um alto grau de cautela antes da implementação de sistemas avançados e poderosos; no entanto, se os atores estiverem competindo em um domínio com grandes retornos para os pioneiros ou vantagem relativa, eles serão pressionados a escolher um nível de cautela abaixo do ideal".[119]

Ação governamental[editar | editar código-fonte]

Alguns especialistas argumentam que é muito cedo para regulamentar a IA, expressando preocupações de que as regulamentações dificultem a inovação e que não faria sentido "apressar a regulamentação por ignorância".[133][134] Outros, como o magnata dos negócios Elon Musk, pedem uma ação preventiva para mitigar riscos catastróficos.[135] Até o momento, pouca regulamentação de segurança da inteligência artificial foi aprovada ao redor do mundo, embora muitos projetos de lei tenham sido apresentados. Um exemplo importante é a Lei de Inteligência Artificial da União Europeia ("AI Act"), que regulamenta determinados aplicativos de IA de "alto risco" e restringe usos potencialmente prejudiciais, como reconhecimento facial, manipulação subliminar e pontuação de crédito social.[136]

Fora da legislação formal, agências governamentais de determinados países apresentaram recomendações éticas e de segurança. Em março de 2021, a Comissão de Segurança Nacional dos EUA sobre Inteligência Artificial ("US National Security Commission on Artificial Intelligence") relatou que os avanços na IA podem tornar cada vez mais importante "garantir que os sistemas estejam alinhados com metas e valores, incluindo segurança, robustez e confiabilidade".[137] Posteriormente, o Instituto Nacional de Padrões e Tecnologia ("National Institute of Standards and Technology") elaborou uma estrutura para gerenciar o risco de IA, que aconselha que, quando "riscos catastróficos estiverem presentes, o desenvolvimento e a implantação devem ser interrompidos de maneira segura até que os riscos possam ser suficientemente gerenciados".[138]

Em setembro de 2021, a República Popular da China publicou diretrizes éticas para o uso de IA no país, enfatizando que as decisões sobre inteligência artificial devem permanecer sob controle humano e exigindo mecanismos de responsabilidade. No mesmo mês, o Reino Unido publicou sua Estratégia Nacional de IA de 10 anos,[139] que afirma que o governo britânico "leva a sério o risco de longo prazo da Inteligência Artificial Geral não alinhada e as mudanças imprevisíveis que isso significaria para o mundo."[140] A estratégia descreve ações para avaliar os riscos de IA de longo prazo, incluindo riscos catastróficos.[140]

As organizações governamentais, principalmente nos Estados Unidos, também incentivaram o desenvolvimento de pesquisas técnicas de segurança de inteligência artificial. A Atividade de Projetos de Pesquisa Avançada de Inteligência ("The Intelligence Advanced Research Projects Activity") iniciou o projeto TrojAI para identificar e proteger contra ataques de cavalos de troia em sistemas de IA.[141] A Agência de Projetos de Pesquisa Avançada de Defesa ("Defense Advanced Research Projects Agency") está envolvida em pesquisas sobre inteligência artificial explicável e melhoria da robustez contra ataques adversários,[142][143] e a Fundação Nacional de Ciências apoia o Centro para Machine Learning Confiável ("Center for Trustworthy Machine Learning") e está fornecendo milhões em financiamento para pesquisas empíricas de segurança de inteligência artificial.[144]

Autorregulamentação corporativa[editar | editar código-fonte]

Os laboratórios e as empresas de inteligência artificial geralmente seguem práticas e normas de segurança que não se enquadram na legislação formal.[145] Um dos objetivos dos pesquisadores de governança é moldar essas normas. Exemplos de recomendações de segurança encontradas na literatura incluem a realização de auditorias por terceiros,[146] a oferta de recompensas por falhas encontradas,[146] o compartilhamento de incidentes de IA[146] (um banco de dados de incidentes de IA sendo criado para esse fim),[147] o cumprimento de diretrizes para determinar se a pesquisa ou os modelos devem ser publicados,[131] e a melhoria das informações e da segurança cibernética nos laboratórios de inteligência artificial.[148]

As empresas também assumem compromissos concretos. A Cohere, a OpenAI e a AI21 propuseram e concordaram com as "práticas recomendadas para a implementação de modelos de linguagem", com foco na redução do uso indevido.[149] Para evitar contribuir com a dinâmica de corrida, a OpenAI também declarou em seu estatuto que "se um projeto alinhado a valores e consciente da segurança se aproximar da construção de inteligência artificial geral (AGI) antes de nós, nos comprometemos a parar de competir e começar a ajudar esse projeto."[150] Além disso, líderes do setor, como o CEO da DeepMind Demis Hassabis e o diretor de IA do Facebook Yann LeCun, assinaram cartas abertas, como os Princípios de Asilomar[26] e a Carta Aberta sobre Armas Autônomas.[151]

Ver também[editar | editar código-fonte]

Notas[editar | editar código-fonte]

  1. "AI Race" em inglês: conceito no qual a corrida pelo avanço da IA poderia minar a questão da segurança.
  2. Uma rede neural que aprende com eficiência conceitos visuais a partir da supervisão de linguagem natural.
  3. A distinção entre IA desalinhada e IA incompetente foi formalizada em determinados contextos.[30]
  4. Essa seção é um excerto do artigo [80] "AI alignment" da Wikipédia em inglês.
  5. Por exemplo, em uma entrevista de TV em 2016, Geoffrey Hinton, vencedor do prêmio Turing, observou[96]:
    Hinton
    Obviamente, ter outros seres superinteligentes que são mais inteligentes do que nós é algo que nos deixa nervosos [...].
    Entrevistador
    Que aspecto disso o deixa nervoso?
    Hinton
    Bem, será que eles serão legais conosco?
    Entrevistador
    É como nos filmes. Você está preocupado com aquele cenário dos filmes...
    Hinton
    Em um prazo muito longo, sim. Acho que nos próximos 5 a 10 anos [2021 a 2026] não precisaremos nos preocupar com isso. Além disso, os filmes sempre a retratam como uma inteligência individual. Acho que pode ser que ela vá em uma direção diferente, em que nós meio que nos desenvolvemos em conjunto com essas coisas. Portanto, as coisas não são totalmente autônomas; elas são desenvolvidas para nos ajudar; são como assistentes pessoais. E nós nos desenvolveremos com eles. E será mais uma simbiose do que uma rivalidade. Mas não sabemos.
    Entrevistador
    Isso é uma expectativa ou uma esperança?
    Hinton
    É uma esperança.
  6. As decisões tomadas por computadores após um processo de ML podem ser consideradas injustas se forem baseadas em variáveis consideradas sensíveis. Exemplos desses tipos de variáveis incluem gênero, etnia, orientação sexual, deficiência e outros.

Referências[editar | editar código-fonte]

  1. a b Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain (31 de julho de 2018). «Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts». Journal of Artificial Intelligence Research (em inglês). 62: 729–754. ISSN 1076-9757. doi:10.1613/jair.1.11222. Consultado em 28 de novembro de 2022. Cópia arquivada em 10 de fevereiro de 2023 
  2. Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (5 de maio de 2021). «Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers» (em inglês). arXiv:2105.02117Acessível livremente 
  3. Stein-Perlman, Zach; Weinstein-Raun, Benjamin; Grace (4 de agosto de 2022). «2022 Expert Survey on Progress in AI». AI Impacts (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022 
  4. Michael, Julian; Holtzman, Ari; Parrish, Alicia; Mueller, Aaron; Wang, Alex; Chen, Angelica; Madaan, Divyam; Nangia, Nikita; Pang, Richard Yuanzhe; Phang, Jason; Bowman, Samuel R. (26 de agosto de 2022). «What Do NLP Researchers Believe? Results of the NLP Community Metasurvey» (em inglês). arXiv:2208.12852Acessível livremente 
  5. De-Arteaga, Maria (13 de maio de 2020). Machine Learning in High-Stakes Settings: Risks and Opportunities (PhD) (em inglês). Carnegie Mellon University 
  6. Mehrabi, Ninareh; Morstatter, Fred; Saxena, Nripsuta; Lerman, Kristina; Galstyan, Aram (2021). «A Survey on Bias and Fairness in Machine Learning». ACM Computing Surveys (em inglês). 54 (6): 1–35. ISSN 0360-0300. arXiv:1908.09635Acessível livremente. doi:10.1145/3457607. Consultado em 28 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022 
  7. Feldstein, Steven (2019). The Global Expansion of AI Surveillance (Relatório) (em inglês). Carnegie Endowment for International Peace 
  8. Barnes, Beth (2021). «Risks from AI persuasion». Lesswrong (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022 
  9. a b c Brundage, Miles; Avin, Shahar; Clark, Jack; Toner, Helen; Eckersley, Peter; Garfinkel, Ben; Dafoe, Allan; Scharre, Paul; Zeitzoff, Thomas; Filar, Bobby; Anderson, Hyrum; Roff, Heather; Allen, Gregory C; Steinhardt, Jacob; Flynn, Carrick (30 de abril de 2018). Apollo-University Of Cambridge Repository, Apollo-University Of Cambridge Repository. «The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation». Apollo - University of Cambridge Repository. doi:10.17863/cam.22520. Consultado em 28 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022 
  10. Carlsmith, Joseph (16 de junho de 2022). «Is Power-Seeking AI an Existential Risk?» (em inglês). arXiv:2206.13353Acessível livremente 
  11. Shermer, Michael (2017). «Artificial Intelligence Is Not a Threat---Yet». Scientific American (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 1 de dezembro de 2017 
  12. Dafoe, Allan (2016). «Yes, We Are Worried About the Existential Risk of Artificial Intelligence». MIT Technology Review (em inglês). Consultado em 28 de novembro de 2022. Cópia arquivada em 28 de novembro de 2022 
  13. Markoff, John (20 de maio de 2013). «In 1949, He Imagined an Age of Robots». The New York Times (em inglês). ISSN 0362-4331. Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022 
  14. AAAI. «AAAI Presidential Panel on Long-Term AI Futures» (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 1 de setembro de 2022 
  15. Yampolskiy, Roman V.; Spellchecker, M. S. (25 de outubro de 2016). «Artificial Intelligence Safety and Cybersecurity: a Timeline of AI Failures» (em inglês). arXiv:1610.07997Acessível livremente 
  16. «PT-AI 2011 - Philosophy and Theory of Artificial Intelligence (PT-AI 2011)». Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022 
  17. Yampolskiy, Roman V. (2013), Müller, Vincent C., ed., «Artificial Intelligence Safety Engineering: Why Machine Ethics Is a Wrong Approach», ISBN 978-3-642-31673-9, Berlin, Heidelberg: Springer Berlin Heidelberg, Philosophy and Theory of Artificial Intelligence, Studies in Applied Philosophy, Epistemology and Rational Ethics, 5, pp. 389–396, doi:10.1007/978-3-642-31674-6_29, consultado em 23 de novembro de 2022, cópia arquivada em 15 de março de 2023 
  18. Elon Musk [@elonmusk] (3 de Agosto de 2014). «Worth reading Superintelligence by Bostrom. We need to be super careful with AI. Potentially more dangerous than nukes.» (Tweet) – via Twitter 
  19. Kaiser Kuo (31 de março de 2015). Baidu CEO Robin Li interviews Bill Gates and Elon Musk at the Boao Forum, March 29 2015. Em cena em 55:49. Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022 
  20. Cellan-Jones, Rory (2 de dezembro de 2014). «Stephen Hawking warns artificial intelligence could end mankind». BBC News. Consultado em 23 de novembro de 2022. Cópia arquivada em 30 de outubro de 2015 
  21. Future of Life Institute. «Research Priorities for Robust and Beneficial Artificial Intelligence: An Open Letter». Future of Life Institute (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022 
  22. Future of Life Institute. «AI Research Grants Program». Future of Life Institute (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022 
  23. «SafArtInt 2016» (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022 
  24. Bach, Deborah (2016). «UW to host first of four White House public workshops on artificial intelligence». UW News (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022 
  25. Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (25 de julho de 2016). «Concrete Problems in AI Safety» (em inglês). arXiv:1606.06565Acessível livremente 
  26. a b Future of Life Institute. «AI Principles». Future of Life Institute (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022 
  27. a b c d e Research, DeepMind Safety (27 de setembro de 2018). «Building safe artificial intelligence: specification, robustness, and assurance». Medium (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 10 de fevereiro de 2023 
  28. «SafeML ICLR 2019 Workshop» (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022 
  29. Research, DeepMind Safety (27 de setembro de 2018). «Building safe artificial intelligence: specification, robustness, and assurance». Medium (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 10 de fevereiro de 2023 
  30. a b c d e f Hendrycks, Dan; Carlini, Nicholas; Schulman, John; Steinhardt, Jacob (16 de junho de 2022). «Unsolved Problems in ML Safety» (em inglês). arXiv:2109.13916Acessível livremente 
  31. Kirilenko, Andrei; Kyle, Albert S.; Samadi, Mehrdad; Tuzun, Tugkan (2017). «The Flash Crash: High-Frequency Trading in an Electronic Market: The Flash Crash». The Journal of Finance (em inglês). 72 (3): 967–998. doi:10.1111/jofi.12498. hdl:10044/1/49798. Consultado em 28 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022 
  32. Newman, Mej (2005). «Power laws, Pareto distributions and Zipf's law». Contemporary Physics (em inglês). 46 (5): 323–351. Bibcode:2005ConPh..46..323N. ISSN 0010-7514. arXiv:cond-mat/0412004Acessível livremente. doi:10.1080/00107510500052444. Consultado em 28 de novembro de 2022. Cópia arquivada em 16 de novembro de 2022 
  33. Eliot, Lance. «Whether Those Endless Edge Or Corner Cases Are The Long-Tail Doom For AI Self-Driving Cars». Forbes (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022 
  34. Goodfellow, Ian; Papernot, Nicolas; Huang, Sandy; Duan, Rocky; Abbeel, Pieter; Clark, Jack (24 de fevereiro de 2017). «Attacking Machine Learning with Adversarial Examples». OpenAI (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022 
  35. a b Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (19 de fevereiro de 2014). «Intriguing properties of neural networks» (em inglês). arXiv:1312.6199Acessível livremente 
  36. Kurakin, Alexey; Goodfellow, Ian; Bengio, Samy (10 de fevereiro de 2017). «Adversarial examples in the physical world» (em inglês). arXiv:1607.02533Acessível livremente 
  37. Madry, Aleksander; Makelov, Aleksandar; Schmidt, Ludwig; Tsipras, Dimitris; Vladu, Adrian (4 de setembro de 2019). «Towards Deep Learning Models Resistant to Adversarial Attacks» (em inglês). arXiv:1706.06083Acessível livremente 
  38. Kannan, Harini; Kurakin, Alexey; Goodfellow, Ian (16 de março de 2018). «Adversarial Logit Pairing» (em inglês). arXiv:1803.06373Acessível livremente 
  39. Gilmer, Justin; Adams, Ryan P.; Goodfellow, Ian; Andersen, David; Dahl, George E. (19 de julho de 2018). «Motivating the Rules of the Game for Adversarial Example Research» (em inglês). arXiv:1807.06732Acessível livremente 
  40. Carlini, Nicholas; Wagner, David (29 de março de 2018). «Audio Adversarial Examples: Targeted Attacks on Speech-to-Text» (em inglês). arXiv:1801.01944Acessível livremente 
  41. Sheatsley, Ryan; Papernot, Nicolas; Weisman, Michael; Verma, Gunjan; McDaniel, Patrick (9 de setembro de 2022). «Adversarial Examples in Constrained Domains» (em inglês). arXiv:2011.01183Acessível livremente 
  42. Suciu, Octavian; Coull, Scott E.; Johns, Jeffrey (13 de abril de 2019). «Exploring Adversarial Examples in Malware Detection» (em inglês). arXiv:1810.08280Acessível livremente 
  43. Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, John; Hilton, Jacob; Kelton, Fraser; Miller, Luke; Simens, Maddie (4 de março de 2022). «Training language models to follow instructions with human feedback» (em inglês). arXiv:2203.02155Acessível livremente 
  44. Gao, Leo; Schulman, John; Hilton, Jacob (19 de outubro de 2022). «Scaling Laws for Reward Model Overoptimization» (em inglês). arXiv:2210.10760Acessível livremente 
  45. Yu, Sihyun; Ahn, Sungsoo; Song, Le; Shin, Jinwoo (27 de outubro de 2021). «RoMA: Robust Model Adaptation for Offline Model-based Optimization» (em inglês). arXiv:2110.14188Acessível livremente 
  46. a b Hendrycks, Dan; Mazeika, Mantas (20 de setembro de 2022). «X-Risk Analysis for AI Research» (em inglês). arXiv:2206.05862Acessível livremente 
  47. «Robust and Secure AI» (PDF). Carnegie Mellon University (em inglês). 2021 
  48. Tran, Khoa A.; Kondrashova, Olga; Bradley, Andrew; Williams, Elizabeth D.; Pearson, John V.; Waddell, Nicola (2021). «Deep learning in cancer diagnosis, prognosis and treatment selection». Genome Medicine (em inglês). 13 (1). 152 páginas. ISSN 1756-994X. PMC 8477474Acessível livremente. PMID 34579788. doi:10.1186/s13073-021-00968-x 
  49. Guo, Chuan; Pleiss, Geoff; Sun, Yu; Weinberger, Kilian Q. (6 de agosto de 2017). «On calibration of modern neural networks». Proceedings of the 34th international conference on machine learning. Proceedings of machine learning research (em inglês). 70. PMLR. pp. 1321–1330 
  50. Ovadia, Yaniv; Fertig, Emily; Ren, Jie; Nado, Zachary; Sculley, D.; Nowozin, Sebastian; Dillon, Joshua V.; Lakshminarayanan, Balaji; Snoek, Jasper (17 de dezembro de 2019). «Can You Trust Your Model's Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift» (em inglês). arXiv:1906.02530Acessível livremente 
  51. Bogdoll, Daniel; Breitenstein, Jasmin; Heidecker, Florian; Bieshaar, Maarten; Sick, Bernhard; Fingscheidt, Tim; Zöllner, J. Marius (2021). «Description of Corner Cases in Automated Driving: Goals and Challenges». 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW) (em inglês): 1023–1028. ISBN 978-1-6654-0191-3. arXiv:2109.09607Acessível livremente. doi:10.1109/ICCVW54120.2021.00119 
  52. Hendrycks, Dan; Mazeika, Mantas; Dietterich, Thomas (28 de janeiro de 2019). «Deep Anomaly Detection with Outlier Exposure» (em inglês). arXiv:1812.04606Acessível livremente 
  53. Wang, Haoqi; Li, Zhizhong; Feng, Litong; Zhang, Wayne (21 de março de 2022). «ViM: Out-Of-Distribution with Virtual-logit Matching» (em inglês). arXiv:2203.10807Acessível livremente 
  54. Hendrycks, Dan; Gimpel, Kevin (3 de outubro de 2018). «A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks» (em inglês). arXiv:1610.02136Acessível livremente 
  55. Urbina, Fabio; Lentzos, Filippa; Invernizzi, Cédric; Ekins, Sean (2022). «Dual use of artificial-intelligence-powered drug discovery». Nature Machine Intelligence (em inglês). 4 (3): 189–191. ISSN 2522-5839. PMC 9544280Acessível livremente. PMID 36211133. doi:10.1038/s42256-022-00465-9 
  56. Center for Security and Emerging Technology; Buchanan, Ben; Lohn, Andrew; Musser, Micah; Sedova, Katerina (2021). «Truth, Lies, and Automation: How Language Models Could Change Disinformation». doi:10.51593/2021ca003. Consultado em 28 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022 
  57. «Propaganda-as-a-service may be on the horizon if large language models are abused». VentureBeat. 14 de dezembro de 2021. Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022 
  58. Center for Security and Emerging Technology; Buchanan, Ben; Bansemer, John; Cary, Dakota; Lucas, Jack; Musser, Micah (2020). «Automating Cyber Attacks: Hype and Reality». Center for Security and Emerging Technology. doi:10.51593/2020ca002. Consultado em 28 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022 
  59. «Lessons Learned on Language Model Safety and Misuse». OpenAI (em inglês). 3 de março de 2022. Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022 
  60. Markov, Todor; Zhang, Chong; Agarwal, Sandhini; Eloundou, Tyna; Lee, Teddy; Adler, Steven; Jiang, Angela; Weng, Lilian (10 de agosto de 2022). «New-and-Improved Content Moderation Tooling». OpenAI (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 11 de janeiro de 2023 
  61. Center for Security and Emerging Technology; Rudner, Tim; Toner, Helen (2021). «Key Concepts in AI Safety: Interpretability in Machine Learning» (em inglês). doi:10.51593/20190042. Consultado em 28 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022 
  62. McFarland, Matt (19 de março de 2018). «Uber pulls self-driving cars after first fatal crash of autonomous vehicle». CNNMoney (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022 
  63. a b Doshi-Velez, Finale; Kortz, Mason; Budish, Ryan; Bavitz, Chris; Gershman, Sam; O'Brien, David; Scott, Kate; Schieber, Stuart; Waldo, James; Weinberger, David; Weller, Adrian; Wood, Alexandra (20 de dezembro de 2019). «Accountability of AI Under the Law: The Role of Explanation» (em inglês). arXiv:1711.01134Acessível livremente 
  64. Savage, Neil (29 de março de 2022). «Breaking into the black box of artificial intelligence». Nature. PMID 35352042. doi:10.1038/d41586-022-00858-1. Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022 
  65. Fong, Ruth; Vedaldi, Andrea (2017). «Interpretable Explanations of Black Boxes by Meaningful Perturbation». 2017 IEEE International Conference on Computer Vision (ICCV) (em inglês): 3449–3457. ISBN 978-1-5386-1032-9. arXiv:1704.03296Acessível livremente. doi:10.1109/ICCV.2017.371 
  66. Meng, Kevin; Bau, David; Andonian, Alex; Belinkov, Yonatan (2022). «Locating and editing factual associations in GPT». Advances in Neural Information Processing Systems (em inglês). 35. arXiv:2202.05262Acessível livremente 
  67. Bau, David; Liu, Steven; Wang, Tongzhou; Zhu, Jun-Yan; Torralba, Antonio (30 de julho de 2020). «Rewriting a Deep Generative Model» (em inglês). arXiv:2007.15646Acessível livremente 
  68. Räuker, Tilman; Ho, Anson; Casper, Stephen; Hadfield-Menell, Dylan (5 de setembro de 2022). «Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks» (em inglês). arXiv:2207.13243Acessível livremente 
  69. Bau, David; Zhou, Bolei; Khosla, Aditya; Oliva, Aude; Torralba, Antonio (19 de abril de 2017). «Network Dissection: Quantifying Interpretability of Deep Visual Representations» (em inglês). arXiv:1704.05796Acessível livremente 
  70. McGrath, Thomas; Kapishnikov, Andrei; Tomašev, Nenad; Pearce, Adam; Wattenberg, Martin; Hassabis, Demis; Kim, Been; Paquet, Ulrich; Kramnik, Vladimir (22 de novembro de 2022). «Acquisition of chess knowledge in AlphaZero». Proceedings of the National Academy of Sciences (em inglês). 119 (47): e2206625119. Bibcode:2022PNAS..11906625M. ISSN 0027-8424. PMC 9704706Acessível livremente. PMID 36375061. arXiv:2111.09259Acessível livremente. doi:10.1073/pnas.2206625119 
  71. Goh, Gabriel; Cammarata, Nick; Voss, Chelsea; Carter, Shan; Petrov, Michael; Schubert, Ludwig; Radford, Alec; Olah, Chris (2021). «Multimodal neurons in artificial neural networks». Distill (em inglês). 6 (3). doi:10.23915/distill.00030 
  72. Olah, Chris; Cammarata, Nick; Schubert, Ludwig; Goh, Gabriel; Petrov, Michael; Carter, Shan (2020). «Zoom in: An introduction to circuits». Distill (em inglês). 5 (3). doi:10.23915/distill.00024.001 
  73. Cammarata, Nick; Goh, Gabriel; Carter, Shan; Voss, Chelsea; Schubert, Ludwig; Olah, Chris (2021). «Curve circuits». Distill (em inglês). 6 (1). doi:10.23915/distill.00024.006 (inativo 31 de dezembro de 2022). Consultado em 5 de dezembro de 2022. Cópia arquivada em 5 de dezembro de 2022 
  74. Olsson, Catherine; Elhage, Nelson; Nanda, Neel; Joseph, Nicholas; DasSarma, Nova; Henighan, Tom; Mann, Ben; Askell, Amanda; Bai, Yuntao; Chen, Anna; Conerly, Tom; Drain, Dawn; Ganguli, Deep; Hatfield-Dodds, Zac; Hernandez, Danny; Johnston, Scott; Jones, Andy; Kernion, Jackson; Lovitt, Liane; Ndousse, Kamal; Amodei, Dario; Brown, Tom; Clark, Jack; Kaplan, Jared; McCandlish, Sam; Olah, Chris (2022). «In-context learning and induction heads». Transformer Circuits Thread (em inglês). arXiv:2209.11895Acessível livremente 
  75. Olah, Christopher. «Interpretability vs Neuroscience [rough note]» (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022 
  76. Gu, Tianyu; Dolan-Gavitt, Brendan; Garg, Siddharth (11 de março de 2019). «BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain» (em inglês). arXiv:1708.06733Acessível livremente 
  77. Chen, Xinyun; Liu, Chang; Li, Bo; Lu, Kimberly; Song, Dawn (14 de dezembro de 2017). «Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning» (em inglês). arXiv:1712.05526Acessível livremente 
  78. Carlini, Nicholas; Terzis, Andreas (28 de março de 2022). «Poisoning and Backdooring Contrastive Learning» (em inglês). arXiv:2106.09667Acessível livremente 
  79. a b c d Russell, Stuart J.; Norvig, Peter (2020). Artificial intelligence: A modern approach (em inglês) 4th ed. [S.l.]: Pearson. ISBN 978-1-292-40113-3. OCLC 1303900751. Consultado em 12 de setembro de 2022. Cópia arquivada em 15 de julho de 2022 
  80. [1]
  81. a b Ngo, Richard; Chan, Lawrence; Mindermann, Sören (22 de fevereiro de 2023). «The alignment problem from a deep learning perspective» (em inglês). arXiv:2209.00626Acessível livremente [cs.AI] 
  82. a b Pan, Alexander; Bhatia, Kush; Steinhardt, Jacob (14 de fevereiro de 2022). The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models. International Conference on Learning Representations. Consultado em 21 de julho de 2022 
  83. Zhuang, Simon; Hadfield-Menell, Dylan (2020). «Consequences of Misaligned AI». Advances in Neural Information Processing Systems. 33. Curran Associates, Inc. pp. 15763–15773. Consultado em 11 de março de 2023 
  84. Carlsmith, Joseph (16 de junho de 2022). «Is Power-Seeking AI an Existential Risk?» (em inglês). arXiv:2206.13353Acessível livremente [cs.CY] 
  85. a b c d Russell, Stuart J. (2020). Human compatible: Artificial intelligence and the problem of control (em inglês). [S.l.]: Penguin Random House. ISBN 9780525558637. OCLC 1113410915 
  86. Christian, Brian (2020). The alignment problem: Machine learning and human values (em inglês). [S.l.]: W. W. Norton & Company. ISBN 978-0-393-86833-3. OCLC 1233266753. Consultado em 12 de setembro de 2022. Cópia arquivada em 10 de fevereiro de 2023 
  87. Langosco, Lauro Langosco Di; Koch, Jack; Sharkey, Lee D.; Pfau, Jacob; Krueger, David (28 de junho de 2022). «Goal Misgeneralization in Deep Reinforcement Learning». Proceedings of the 39th International Conference on Machine Learning. International Conference on Machine Learning (em inglês). PMLR. pp. 12004–12019. Consultado em 11 de março de 2023 
  88. Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette; Bosselut, Antoine; Brunskill, Emma; Brynjolfsson, Erik (12 de julho de 2022). «On the Opportunities and Risks of Foundation Models». Stanford CRFM. arXiv:2108.07258Acessível livremente 
  89. Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, J.; Hilton, Jacob; Kelton, Fraser; Miller, Luke E.; Simens, Maddie; Askell, Amanda; Welinder, P.; Christiano, P.; Leike, J.; Lowe, Ryan J. (2022). «Training language models to follow instructions with human feedback». arXiv:2203.02155Acessível livremente [cs.CL] 
  90. Zaremba, Wojciech; Brockman, Greg; OpenAI (10 de agosto de 2021). «OpenAI Codex». OpenAI (em inglês). Consultado em 23 de julho de 2022. Cópia arquivada em 3 de fevereiro de 2023 
  91. a b Kober, Jens; Bagnell, J. Andrew; Peters, Jan (1º de setembro de 2013). «Reinforcement learning in robotics: A survey». The International Journal of Robotics Research (em inglês). 32 (11): 1238–1274. ISSN 0278-3649. doi:10.1177/0278364913495721. Consultado em 12 de setembro de 2022. Cópia arquivada em 15 de outubro de 2022 
  92. Knox, W. Bradley; Allievi, Alessandro; Banzhaf, Holger; Schmitt, Felix; Stone, Peter (1 de março de 2023). «Reward (Mis)design for autonomous driving». Artificial Intelligence (em inglês). 316. 103829 páginas. ISSN 0004-3702. doi:10.1016/j.artint.2022.103829 
  93. Stray, Jonathan (2020). «Aligning AI Optimization to Community Well-Being». International Journal of Community Well-Being (em inglês). 3 (4): 443–463. ISSN 2524-5295. PMC 7610010Acessível livremente. PMID 34723107. doi:10.1007/s42413-020-00086-3 
  94. Russell, Stuart; Norvig, Peter. «Artificial Intelligence: A Modern Approach, 4th US ed.». aima.cs.berkeley.edu (em inglês). p. 1010. ISBN 978-0-13-604259-4. Consultado em 31 de maio de 2023 
  95. Smith, Craig S. «Geoff Hinton, AI's Most Famous Researcher, Warns Of 'Existential Threat'». Forbes (em inglês). Consultado em 4 de maio de 2023 
  96. Geoffrey Hinton (3 de março de 2016). The Code That Runs Our Lives. The Agenda. Em cena em 10:00. Consultado em 13 de março de 2023 
  97. Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (21 de junho de 2016). «Concrete Problems in AI Safety» (em inglês). arXiv:1606.06565Acessível livremente [cs.AI] 
  98. Ortega, Pedro A.; Maini, Vishal; DeepMind safety team (27 de setembro de 2018). «Building safe artificial intelligence: specification, robustness, and assurance». DeepMind Safety Research - Medium (em inglês). Consultado em 18 de julho de 2022. Cópia arquivada em 10 de fevereiro de 2023 
  99. Rorvig, Mordechai (14 de abril de 2022). «Researchers Gain New Understanding From Simple AI». Quanta Magazine (em inglês). Consultado em 18 de julho de 2022. Cópia arquivada em 10 de fevereiro de 2023 
  100. Doshi-Velez, Finale; Kim, Been (2 de março de 2017). «Towards A Rigorous Science of Interpretable Machine Learning». arXiv:1702.08608Acessível livremente [stat.ML] 
  101. Russell, Stuart; Dewey, Daniel; Tegmark, Max (31 de dezembro de 2015). «Research Priorities for Robust and Beneficial Artificial Intelligence». AI Magazine (em inglês). 36 (4): 105–114. ISSN 2371-9621. doi:10.1609/aimag.v36i4.2577. hdl:1721.1/108478. Consultado em 12 de setembro de 2022. Cópia arquivada em 2 de fevereiro de 2023 
  102. Wirth, Christian; Akrour, Riad; Neumann, Gerhard; Fürnkranz, Johannes (2017). «A survey of preference-based reinforcement learning methods». Journal of Machine Learning Research. 18 (136): 1–46 
  103. Christiano, Paul F.; Leike, Jan; Brown, Tom B.; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). «Deep reinforcement learning from human preferences». Proceedings of the 31st International Conference on Neural Information Processing Systems. NIPS'17. Red Hook, NY, USA: Curran Associates Inc. pp. 4302–4310. ISBN 978-1-5108-6096-4 
  104. Heaven, Will Douglas (27 de janeiro de 2022). «The new version of GPT-3 is much better behaved (and should be less toxic)». MIT Technology Review (em inglês). Consultado em 18 de julho de 2022. Cópia arquivada em 10 de fevereiro de 2023 
  105. Mohseni, Sina; Wang, Haotao; Yu, Zhiding; Xiao, Chaowei; Wang, Zhangyang; Yadawa, Jay (7 de março de 2022). «Taxonomy of Machine Learning Safety: A Survey and Primer». arXiv:2106.04823Acessível livremente [cs.LG] 
  106. Clifton, Jesse (2020). «Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda». Center on Long-Term Risk (em inglês). Consultado em 18 de julho de 2022. Cópia arquivada em 1 de janeiro de 2023 
  107. Prunkl, Carina; Whittlestone, Jess (7 de fevereiro de 2020). «Beyond Near- and Long-Term: Towards a Clearer Account of Research Priorities in AI Ethics and Society». New York NY USA: ACM. Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society (em inglês): 138–143. ISBN 978-1-4503-7110-0. doi:10.1145/3375627.3375803. Consultado em 12 de setembro de 2022. Cópia arquivada em 16 de outubro de 2022 
  108. Irving, Geoffrey; Askell, Amanda (19 de fevereiro de 2019). «AI Safety Needs Social Scientists». Distill (em inglês). 4 (2): 10.23915/distill.00014. ISSN 2476-0757. doi:10.23915/distill.00014. Consultado em 12 de setembro de 2022. Cópia arquivada em 10 de fevereiro de 2023 
  109. a b c d Zwetsloot, Remco; Dafoe, Allan (11 de fevereiro de 2019). «Thinking About Risks From AI: Accidents, Misuse and Structure». Lawfare (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022 
  110. a b Zhang, Yingyu; Dong, Chuntong; Guo, Weiqun; Dai, Jiabao; Zhao, Ziming (2022). «Systems theoretic accident model and process (STAMP): A literature review». Safety Science (em inglês). 152. 105596 páginas. doi:10.1016/j.ssci.2021.105596. Consultado em 28 de novembro de 2022. Cópia arquivada em 15 de março de 2023 
  111. Center for Security and Emerging Technology; Imbrie, Andrew; Kania, Elsa (2019). «AI Safety, Security, and Stability Among Great Powers: Options, Challenges, and Lessons Learned for Pragmatic Engagement». doi:10.51593/20190051. Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022 
  112. Future of Life Institute (27 de março de 2019). AI Strategy, Policy, and Governance (Allan Dafoe) (em inglês). Em cena em 22:05. Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022 
  113. Zou, Andy; Xiao, Tristan; Jia, Ryan; Kwon, Joe; Mazeika, Mantas; Li, Richard; Song, Dawn; Steinhardt, Jacob; Evans, Owain; Hendrycks, Dan (9 de outubro de 2022). «Forecasting Future World Events with Neural Networks» (em inglês). arXiv:2206.15474Acessível livremente 
  114. Gathani, Sneha; Hulsebos, Madelon; Gale, James; Haas, Peter J.; Demiralp, Çağatay (8 de fevereiro de 2022). «Augmenting Decision Making via Interactive What-If Analysis» (em inglês). arXiv:2109.06160Acessível livremente 
  115. Lindelauf, Roy (2021), Osinga, Frans; Sweijs, Tim, eds., «Nuclear Deterrence in the Algorithmic Age: Game Theory Revisited», ISBN 978-94-6265-418-1, The Hague: T.M.C. Asser Press, NL ARMS Netherlands Annual Review of Military Studies 2020, Nl Arms (em inglês), pp. 421–436, doi:10.1007/978-94-6265-419-8_22, consultado em 24 de novembro de 2022, cópia arquivada em 15 de março de 2023 
  116. Newkirk II, Vann R. (21 de abril de 2016). «Is Climate Change a Prisoner's Dilemma or a Stag Hunt?». The Atlantic. Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022 
  117. Newkirk II, Vann R. (21 de abril de 2016). «Is Climate Change a Prisoner's Dilemma or a Stag Hunt?». The Atlantic (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022 
  118. a b Armstrong, Stuart; Bostrom, Nick; Shulman, Carl. Racing to the Precipice: a Model of Artificial Intelligence Development (Relatório) (em inglês). Future of Humanity Institute, Oxford University 
  119. a b Dafoe, Allan. AI Governance: A Research Agenda (Relatório) (em inglês). Centre for the Governance of AI, Future of Humanity Institute, University of Oxford 
  120. Dafoe, Allan; Hughes, Edward; Bachrach, Yoram; Collins, Tantum; McKee, Kevin R.; Leibo, Joel Z.; Larson, Kate; Graepel, Thore (15 de dezembro de 2020). «Open Problems in Cooperative AI» (em inglês). arXiv:2012.08630Acessível livremente 
  121. Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (2021). «Cooperative AI: machines must learn to find common ground». Nature (em inglês). 593 (7857): 33–36. Bibcode:2021Natur.593...33D. PMID 33947992. doi:10.1038/d41586-021-01170-0. Consultado em 24 de novembro de 2022. Cópia arquivada em 11 de novembro de 2022 
  122. Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (2021). «Cooperative AI: machines must learn to find common ground». Nature (em inglês). 593 (7857): 33–36. Bibcode:2021Natur.593...33D. PMID 33947992. doi:10.1038/d41586-021-01170-0. Consultado em 24 de novembro de 2022. Cópia arquivada em 22 de novembro de 2022 
  123. Future of Life Institute (27 de março de 2019). AI Strategy, Policy, and Governance (Allan Dafoe) (em inglês). Em cena em 22:05. Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022 
  124. Crafts, Nicholas (23 de setembro de 2021). «Artificial intelligence as a general-purpose technology: an historical perspective». Oxford Review of Economic Policy (em inglês). 37 (3): 521–536. ISSN 0266-903X. doi:10.1093/oxrep/grab012. Consultado em 28 de novembro de 2022. Cópia arquivada em 24 de novembro de 2011 
  125. 葉俶禎; 黃子君; 張媁雯; 賴志樫 (1 de dezembro de 2020). «Labor Displacement in Artificial Intelligence Era: A Systematic Literature Review». 臺灣東亞文明研究學刊 (em inglês). 17 (2). ISSN 1812-6243. doi:10.6163/TJEAS.202012_17(2).0002 
  126. Johnson, James (3 de abril de 2019). «Artificial intelligence & future warfare: implications for international security». Defense & Security Analysis (em inglês). 35 (2): 147–169. ISSN 1475-1798. doi:10.1080/14751798.2019.1600800. Consultado em 28 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022 
  127. Kertysova, Katarina (12 de dezembro de 2018). «Artificial Intelligence and Disinformation: How AI Changes the Way Disinformation is Produced, Disseminated, and Can Be Countered». Security and Human Rights (em inglês). 29 (1–4): 55–81. ISSN 1874-7337. doi:10.1163/18750230-02901005. Consultado em 28 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022 
  128. Feldstein, Steven (2019). The Global Expansion of AI Surveillance (em inglês). Carnegie Endowment for International Peace 
  129. The economics of artificial intelligence : an agenda (em inglês). Ajay Agrawal, Joshua Gans, Avi Goldfarb. Chicago: [s.n.] 2019. ISBN 978-0-226-61347-5. OCLC 1099435014. Consultado em 28 de novembro de 2022. Cópia arquivada em 15 de março de 2023 
  130. Whittlestone, Jess; Clark, Jack (31 de agosto de 2021). «Why and How Governments Should Monitor AI Development» (em inglês). arXiv:2108.12427Acessível livremente 
  131. a b Shevlane, Toby (2022). «Sharing Powerful AI Models | GovAI Blog». Center for the Governance of AI (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022 
  132. Askell, Amanda; Brundage, Miles; Hadfield, Gillian (10 de julho de 2019). «The Role of Cooperation in Responsible AI Development» (em inglês). arXiv:1907.04534Acessível livremente 
  133. Ziegler, Bart. «Is It Time to Regulate AI?». WSJ (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022 
  134. Reed, Chris (13 de setembro de 2018). «How should we regulate artificial intelligence?». Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences (em inglês). 376 (2128). 20170360 páginas. Bibcode:2018RSPTA.37670360R. ISSN 1364-503X. PMC 6107539Acessível livremente. PMID 30082306. doi:10.1098/rsta.2017.0360 
  135. Belton, Keith B. (7 de março de 2019). «How Should AI Be Regulated?». IndustryWeek (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 29 de janeiro de 2022 
  136. «Artificial Intelligence Act: Council calls for promoting safe AI that respects fundamental rights». Conselho Europeu (em inglês). 6 de dezembro de 2022 
  137. National Security Commission on Artificial Intelligence (2021), Final Report 
  138. National Institute of Standards and Technology (12 de julho de 2021). «AI Risk Management Framework». NIST (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022 
  139. Richardson, Tim (2021). «Britain publishes 10-year National Artificial Intelligence Strategy» (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 10 de fevereiro de 2023 
  140. a b Office for Artificial Intelligence, Department for Digital, Culture, Media & Sport, and Department for Business, Energy & Industrial Strategy (2021). «Guidance: National AI Strategy». GOV.UK (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 10 de fevereiro de 2023 
  141. Office of the Director of National Intelligence; Office of the Director of National Intelligence, Intelligence Advanced Research Projects Activity. «IARPA - TrojAI» (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022 
  142. Turek, Matt. «Explainable Artificial Intelligence» (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 19 de fevereiro de 2021 
  143. Draper, Bruce. «Guaranteeing AI Robustness Against Deception». Defense Advanced Research Projects Agency (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 9 de janeiro de 2023 
  144. National Science Foundation. «Safe Learning-Enabled Systems» (em inglês). Consultado em 27 de fevereiro de 2023. Cópia arquivada em 26 de fevereiro de 2023 
  145. Mäntymäki, Matti; Minkkinen, Matti; Birkstedt, Teemu; Viljanen, Mika (2022). «Defining organizational AI governance». AI and Ethics (em inglês). 2 (4): 603–609. ISSN 2730-5953. doi:10.1007/s43681-022-00143-x. Consultado em 28 de novembro de 2022. Cópia arquivada em 15 de março de 2023 
  146. a b c Brundage, Miles; Avin, Shahar; Wang, Jasmine; Belfield, Haydn; Krueger, Gretchen; Hadfield, Gillian; Khlaaf, Heidy; Yang, Jingying; Toner, Helen; Fong, Ruth; Maharaj, Tegan; Koh, Pang Wei; Hooker, Sara; Leung, Jade; Trask, Andrew (20 de abril de 2020). «Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims» (em inglês). arXiv:2004.07213Acessível livremente 
  147. «Welcome to the Artificial Intelligence Incident Database» (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022 
  148. Wiblin, Robert; Harris, Keiran (2022). «Nova DasSarma on why information security may be critical to the safe development of AI systems». 80,000 Hours (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022 
  149. OpenAI (2 de junho de 2022). «Best Practices for Deploying Language Models». OpenAI (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 15 de março de 2023 
  150. OpenAI. «OpenAI Charter». OpenAI (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 4 de março de 2021 
  151. Future of Life Institute (2016). «Autonomous Weapons Open Letter: AI & Robotics Researchers». Future of Life Institute (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022