Segurança da inteligência artificial

A segurança da inteligência artificial (do termo em inglês AI Safety) é um campo interdisciplinar que se preocupa com a prevenção de acidentes, uso indevido ou outras consequências prejudiciais que possam resultar de sistemas de inteligência artificial (IA). Ela engloba a ética de máquinas e o alinhamento da IA ("AI alignment"), que visam tornar os sistemas de IA morais e benéficos. Também engloba questões técnicas, incluindo o monitoramento dos sistemas quanto a riscos e a sua alta confiabilidade. Além da pesquisa em inteligência artificial, ela envolve o desenvolvimento de normas e políticas que promovam a segurança.

Motivações[editar | editar código-fonte]

Os pesquisadores de IA divergem quanto à gravidade e as principais fontes de risco provenientes da tecnologia de IA,^[1]^[2]^[3] embora as pesquisas indiquem que os especialistas levam a sério os riscos de alta consequência. Em duas pesquisas, os entrevistados estavam otimistas em relação à inteligência artificial em geral, mas estimaram uma probabilidade de 5% de um resultado "extremamente ruim da inteligência artificial avançada" (por exemplo, extinção humana).^[1] Em uma pesquisa de 2022 da comunidade de Processamento de Linguagem Natural (NLP em inglês), 37% concordaram ou concordaram levemente que é plausível que as decisões de IA possam levar a uma catástrofe "pelo menos tão ruim quanto uma guerra nuclear total".^[4]

Os estudiosos discutem os riscos atuais de falhas em sistemas críticos,^[5] parcialidade ("bias"),^[6] vigilância habilitada por IA ("AI-enabled surveillance");^[7] riscos emergentes do desemprego tecnológico, manipulação digital,^[8] armamento^[9] e riscos especulativos de perda de controle de futuros agentes da inteligência artificial geral (AGI em inglês).^[10]

Alguns criticam as preocupações com a AGI, como o professor adjunto da Universidade de Stanford, Andrew Ng, que as comparou à "preocupação com a superpopulação em Marte quando ainda nem pisamos no planeta".^[11] Outros, como o professor da Universidade da Califórnia em Berkeley, Stuart J. Russell, pedem cautela, argumentando que "é melhor antecipar a engenhosidade humana do que subestimá-la".^[12]

Precedentes[editar | editar código-fonte]

Os riscos da inteligência artificial começaram a ser seriamente discutidos no início da era da informática:

"Além disso, se avançarmos no sentido de criar máquinas que aprendam e cujo comportamento seja modificado pela experiência, teremos de encarar o fato de que cada grau de independência que concedemos à máquina é um grau de possível desafio aos nossos desejos." -Norbert Wiener (1949)^[13]

De 2008 a 2009, a Associação para o Avanço da Inteligência Artificial (AAAI em inglês) encomendou um estudo para explorar e abordar as possíveis influências sociais de longo prazo da pesquisa e do desenvolvimento da IA. Em geral, o painel foi cético em relação às visões radicais expressas pelos autores de ficção científica, mas concordou que "pesquisas adicionais sobre métodos para compreender e verificar a variedade de comportamentos de sistemas computacionais complexos para minimizar resultados inesperados seriam valiosas".^[14]

Em 2011, Roman Yampolskiy introduziu o termo "engenharia de segurança de IA" ("AI safety engineering")^[15] na Conferência de Filosofia e Teoria da Inteligência Artificial ("Philosophy and Theory of Artificial Intelligence Conference"),^[16] listando falhas anteriores de sistemas de IA e argumentando que "a frequência e a gravidade de tais eventos aumentarão constantemente à medida que as inteligências artificiais se tornam mais poderosas".^[17]

Em 2014, o filósofo Nick Bostrom publicou o livro Superintelligence: Paths, Dangers, Strategies ("Superinteligência: Caminhos, Perigos, Estratégias"). Seu argumento de que futuros sistemas avançados podem representar uma ameaça à existência humana levou Elon Musk,^[18] Bill Gates,^[19] e Stephen Hawking^[20] a expressarem preocupações semelhantes.

Em 2015, dezenas de especialistas em inteligência artificial assinaram uma Carta Aberta Sobre Inteligência Artificial ("Open letter on artificial intelligence") pedindo pesquisas sobre os impactos sociais da IA e delineando diretrizes concretas.^[21] A carta já foi assinada por mais de 8.000 pessoas, incluindo Yann LeCun, Shane Legg, Yoshua Bengio e Stuart J. Russell.

No mesmo ano, um grupo de acadêmicos liderado pelo professor Russell fundou o Centro de Inteligência Artificial Compatível com Humanos ("Center for Human-Compatible AI") na UC Berkeley e o Instituto Future of Life concedeu US$ 6,5 milhões em subsídios para pesquisas destinadas a "garantir que a inteligência artificial permaneça segura, ética e benéfica".^[22]

Em 2016, o Escritório de Políticas de Ciência e Tecnologia da Casa Branca ("White House Office of Science and Technology Policy") e a Universidade Carnegie Mellon anunciaram o Workshop Público sobre Segurança e Controle para Inteligência Artificial,^[23] que foi um de uma sequência de quatro workshops da Casa Branca com o objetivo de investigar "as vantagens e desvantagens" da IA.^[24] No mesmo ano, foi publicado o Problemas Concretos na Segurança da IA ("Concrete Problems in AI Safety"), uma das primeiras e mais influentes agendas técnicas de segurança da IA.^[25]

Em 2017, o Instituto Future of Life patrocinou a Conferência Asilomar sobre IA benéfica ("Asilomar Conference on Beneficial AI"), na qual mais de 100 líderes formularam princípios para a inteligência artificial benéfica, incluindo "Evitar corridas: as equipes que desenvolvem sistemas de IA devem cooperar ativamente para evitar cortes nos padrões de segurança."^{[nota 1]}^[26]

Em 2018, a equipe de segurança da DeepMind delineou problemas de segurança de IA em especificação, robustez e segurança.^[27] No ano seguinte, os pesquisadores organizaram um workshop na Conferência Internacional sobre Representações de Aprendizagem (ICLR em inglês) que se concentrou nessas áreas problemáticas.^[28]

Focos de pesquisa[editar | editar código-fonte]

As áreas de pesquisa de segurança da IA incluem robustez ("robustness"), monitoramento ("monitoring") e alinhamento ("alignment").^[29]^[30] A robustez se preocupa em tornar os sistemas altamente confiáveis, o monitoramento trata da antecipação de falhas ou da detecção de uso indevido, e o alinhamento se concentra em garantir que ela tenha objetivos benéficos.

Robustez[editar | editar código-fonte]

A pesquisa de robustez se concentra em garantir que os sistemas de IA se comportem como pretendido em uma ampla gama de situações diferentes, o que inclui os seguintes subproblemas:

Robustez do cisne preto ("black swan"): criação de sistemas que se comportam como pretendido em situações raras.
Robustez adversária ("adversarial machine learning"): projetar sistemas para serem resilientes a entradas que são intencionalmente selecionadas para fazê-los falhar.

Robustez do cisne preto ("black swan robustness")[editar | editar código-fonte]

Entradas ("inputs") raras podem fazer com que os sistemas de inteligência artificial falhem de forma catastrófica. Por exemplo, no Flash Crash de 2010, os sistemas de negociação automatizados reagiram inesperadamente de forma exagerada às flutuações do mercado, destruindo um trilhão de dólares do valor das ações em minutos.^[31] Não é necessário que ocorra nenhuma mudança na distribuição ("distribution shift"; quando conjuntos de treinamento e teste não são provenientes da mesma distribuição) para que isso aconteça. Falhas do tipo cisne preto podem ocorrer como consequência de os dados de entrada serem de cauda longa, o que geralmente acontece em ambientes do mundo real.^[32] Os veículos autônomos continuam a ter dificuldades com "casos extremos" que podem não ter surgido durante o treinamento; por exemplo, um veículo pode ignorar um sinal de parada que está iluminado como uma grade de LED.^[33] Embora problemas como esses possam ser resolvidos à medida que os sistemas de aprendizado de máquina ("machine learning") desenvolvem uma melhor compreensão do mundo, alguns pesquisadores apontam que até mesmo os seres humanos muitas vezes não conseguem responder adequadamente a eventos sem precedentes, como a pandemia da COVID-19, argumentando que a robustez do cisne preto será um problema de segurança persistente.^[30]

Robustez adversária ("adversarial robustness")[editar | editar código-fonte]

Os sistemas de IA geralmente são vulneráveis a exemplos adversários ou "entradas para modelos de aprendizado de máquina que um invasor tenha intencionalmente projetado para fazer com que o modelo cometa um erro".^[34] Por exemplo, em 2013, Szegedy et al. descobriram que adicionar perturbações imperceptíveis específicas a uma imagem poderia fazer com que ela fosse classificada incorretamente com alta confiança.^[35] Isso continua a ser um problema com as redes neurais ("ANNs" em inglês), embora em trabalhos recentes as perturbações geralmente sejam grandes o suficiente para serem perceptíveis.^[36]^[37]^[38]

Todas as imagens ao lado são previstas como sendo de um avestruz após a aplicação da perturbação. A da esquerda é uma amostra prevista corretamente, a do centro possui perturbação aplicada ampliada em 10x, e a da direita um exemplo contraditório.^[35]

A robustez adversária é frequentemente associada à segurança.^[39] Pesquisadores demonstraram que um sinal de áudio pode ser imperceptivelmente modificado para que os sistemas de fala para texto o transcrevam para qualquer mensagem que o invasor escolher.^[40] Os sistemas de detecção de intrusão de rede^[41] e de malware^[42] também precisam ser robustos em termos de adversariedade, pois os invasores podem projetar seus ataques para enganar os detectores.

Os modelos que representam objetivos (aprendizado por reforço) também devem ser robustos nesse sentido. Por exemplo, um modelo de aprendizado por reforço pode estimar o quanto uma resposta de texto é útil e se um modelo de linguagem pode ser treinado para maximizar essa pontuação.^[43] Pesquisadores demonstraram que, se um modelo de linguagem for treinado por tempo suficiente, ele aproveitará as vulnerabilidades do modelo de aprendizado para obter uma pontuação melhor e ter um desempenho pior na tarefa pretendida.^[44] Esse problema pode ser resolvido melhorando a robustez adversária do modelo.^[45] De modo mais geral, qualquer sistema de IA usado para avaliar outro sistema de IA deve possuir robustez adversária. Isso deve incluir ferramentas de monitoramento, uma vez que elas também podem ser adulteradas para produzir uma recompensa maior.^[46]

Monitoramento[editar | editar código-fonte]

O monitoramento se concentra em antecipar as falhas do sistema de IA para que elas possam ser evitadas ou gerenciadas. Os subproblemas do monitoramento incluem sinalizar quando os sistemas são incertos, detectar o uso mal-intencionado, compreender o funcionamento interno dos sistemas de inteligência artificial de caixa preta ("black-box") e identificar a funcionalidade oculta plantada por um agente mal-intencionado.^[47]

Estimativa de incerteza[editar | editar código-fonte]

É importante que os operadores humanos avaliem o quanto devem confiar em um sistema de IA, principalmente em cenários de alto risco, como o diagnóstico médico.^[48] Os modelos de machine learning (ML em inglês) geralmente expressam confiança por meio da emissão de probabilidades; no entanto, eles costumam apresentar excesso de confiança,^[49] principalmente em situações diferentes daquelas para as quais foram treinados.^[50] A pesquisa de calibração tem como objetivo fazer com que as probabilidades do modelo se aproximem o máximo possível da verdadeira proporção, na qual o modelo está correto.

Da mesma forma, a detecção de anomalias ou a detecção fora da distribuição (OOD em inglês) visa identificar quando um sistema de inteligência artificial está em uma situação incomum. Por exemplo, se um sensor em um veículo autônomo estiver com defeito ou se ele encontrar um terreno desafiador, ele deve alertar o motorista para que assuma o controle ou encoste.^[51] A detecção de anomalias foi implementada treinando um classificador para distinguir entradas anômalas e não anômalas,^[52] embora várias outras técnicas estejam em uso.^[53]^[54]

Detecção de uso malicioso[editar | editar código-fonte]

Estudiosos^[9] e agências governamentais expressam preocupações de que os sistemas de IA possam ser usados para ajudar agentes mal-intencionados a construir armas,^[55] manipular a opinião pública^[56]^[57] ou automatizar ataques cibernéticos.^[58] Essas preocupações são algo prático para empresas como a OpenAI, que hospedam poderosas ferramentas de inteligência artificial on-line.^[59] Para evitar o uso indevido, a OpenAI criou sistemas de detecção que sinalizam ou restringem os usuários com base em suas atividades.^[60]

Transparência[editar | editar código-fonte]

As redes neurais têm sido frequentemente descritas como caixas pretas, o que significa que é difícil entender por que elas tomam as decisões que tomam, como resultado do grande número de cálculos que realizam.^[61] Isso torna difícil prever falhas. Em 2018, um carro autônomo matou um pedestre depois de não conseguir identificá-lo. Devido à natureza de caixa preta do software de IA, o motivo da falha ainda não está claro.^[62]

Um dos benefícios da transparência é a explicabilidade.^[63] Por vezes é um requisito legal fornecer uma explicação sobre o motivo pelo qual uma decisão foi tomada para garantir a justiça, por exemplo, para filtrar automaticamente os pedidos de emprego ou a pontuação de crédito.^[63]

Outro benefício é revelar a causa das falhas.^[64] No início da pandemia de COVID-19 em 2020, os pesquisadores usaram ferramentas de transparência para mostrar que os classificadores de imagens médicas estavam "prestando atenção" a rótulos irrelevantes de hospitais.^[65]

As técnicas de transparência também podem ser usadas para corrigir erros. Por exemplo, no artigo Locating and Editing Factual Associations in GPT ("Localizando e Editando as Associações Factuais no GPT"), os autores conseguiram identificar os parâmetros do modelo que influenciavam a forma como ele respondia às perguntas sobre a localização da Torre Eiffel. Em seguida, eles conseguiram "editar" esse conhecimento para fazer com que o modelo respondesse às perguntas como se a torre estivesse em Roma e não em Paris.^[66] Embora nesse caso os autores tenham induzido um erro, esses métodos poderiam ser usados para corrigi-los com eficiência. Também existem técnicas de edição de modelos na visão computacional.^[67]

Por fim, alguns argumentam que a opacidade dos sistemas de IA é uma fonte significativa de risco e que uma melhor compreensão de como eles funcionam poderia evitar falhas de alta consequência no futuro.^[68] A pesquisa de interpretabilidade "interna" visa tornar os modelos de machine learning menos opacos. Um dos objetivos dessa pesquisa é identificar o que as ativações dos neurônios internos representam.^[69]^[70] Por exemplo, os pesquisadores identificaram um neurônio no CLIP^{[nota 2]} que responde a imagens de pessoas em trajes do homem-aranha, esboços do homem-aranha e a palavra "aranha".^[71] Ele também envolve a explicação das conexões entre esses neurônios ou "circuitos".^[72]^[73] Os pesquisadores identificaram mecanismos de correspondência de padrões na atenção transformadora ("transformer attention mechanism") que podem desempenhar um papel na forma como os modelos de linguagem aprendem com seu contexto.^[74] A "interpretabilidade interna" foi comparada à neurociência. Em ambos os casos, o objetivo é entender o que está acontecendo em um sistema complexo, embora os pesquisadores de ML tenham a vantagem de poder fazer medições perfeitas e realizar ablações arbitrárias.^[75]

Detecção de cavalos de troia[editar | editar código-fonte]

Os modelos de machine learning podem conter "cavalos de troia" ou "backdoors": vulnerabilidades que os agentes mal-intencionados criam maliciosamente em um sistema de IA. Por exemplo, um sistema de reconhecimento facial com cavalo de troia poderia conceder acesso quando uma peça específica de joalheria estiver à vista;^[30] ou um veículo autônomo com o vírus pode funcionar normalmente até que um gatilho específico esteja visível.^[76] É importante ressaltar que um invasor deve ter acesso aos dados de treinamento do sistema para plantar um cavalo de troia. Isso pode não ser difícil de fazer com alguns modelos grandes, como o CLIP ou o GPT-3, pois eles são treinados com dados da internet disponíveis publicamente.^[77] Os pesquisadores conseguiram instalar um cavalo de troia em um classificador de imagens alterando apenas 3 de 3 milhões de imagens de treinamento.^[78] Além de representar um risco à segurança, os pesquisadores argumentam que esses vírus fornecem um cenário concreto para testar e desenvolver melhores ferramentas de monitoramento.^[46]

Alinhamento[editar | editar código-fonte]

No campo da inteligência artificial, a pesquisa de alinhamento tem como objetivo direcionar os sistemas de IA para as metas, preferências ou princípios éticos pretendidos pelos seres humanos. Um sistema de inteligência artificial é considerado alinhado se ele alcança os objetivos pretendidos. Um sistema de IA desalinhado é competente em promover alguns objetivos, mas não os pretendidos.^[79]^{[nota 3]}^{[nota 4]}

Pode ser um desafio para os desenvolvedores de IA alinhar um sistema de inteligência artificial, porque pode ser difícil especificar toda a gama de comportamentos desejados e indesejados. Para evitar essa dificuldade, eles geralmente usam metas substitutas mais simples, como obter aprovação humana. No entanto, essa abordagem pode criar brechas, ignorar as restrições necessárias ou recompensar o sistema de IA por parecer alinhado.^[79]^[81]

Sistemas de IA desalinhados podem funcionar mal ou causar danos. Eles podem encontrar brechas que lhes permitam atingir suas metas de proxy de forma eficiente, mas de maneiras não intencionais e, às vezes, prejudiciais ("reward hacking").^[79]^[82]^[83] Os sistemas de inteligência artificial também podem desenvolver estratégias instrumentais ("instrumental strategies") indesejadas, como a busca de poder ou sobrevivência, porque essas estratégias os ajudam a atingir seus objetivos explícitos.^[84]^[85]^[79] Além disso, eles podem desenvolver objetivos emergentes indesejáveis que podem ser difíceis de detectar antes de o sistema ser implementado, situação na qual este enfrenta novas situações e distribuições de dados ("domain adaptation").^[86]^[87]

Atualmente, esses problemas afetam os sistemas comerciais, como modelos de linguagem,^[88]^[89]^[90] robôs,^[91] veículos autônomos^[92] e mecanismos de recomendação de mídia social.^[85]^[85]^[93] Alguns pesquisadores de IA argumentam que os sistemas futuros mais capazes serão afetados de forma mais grave, pois esses problemas resultam parcialmente do fato de os sistemas serem altamente capazes.^[81]^[82]^[94]

Cientistas da computação relevantes, como Geoffrey Hinton e Stuart Russell, argumentam que a inteligência artificial está se aproximando de capacidades sobre-humanas e pode colocar em risco a civilização humana se estiver desalinhada.^[85]^[95]^{[nota 5]}

A comunidade de pesquisa de inteligência artificial e as Nações Unidas pediram soluções de pesquisa técnica e políticas para garantir que os sistemas de IA estejam alinhados com os valores humanos.^[91]

O alinhamento da IA é, portanto, um subcampo da segurança da inteligência artificial.^[97] Outros subcampos da segurança da IA incluem robustez, monitoramento e controle de capacidade ("capability control").^[98] Os desafios de pesquisa em alinhamento incluem incutir valores complexos na inteligência artificial, desenvolver IA honesta, supervisão escalável, auditoria e interpretação de modelos de IA e evitar comportamentos emergentes da inteligência artificial, como a busca de poder.^[27] A pesquisa de alinhamento possui conexões com a pesquisa de interpretabilidade,^[99]^[100] robustez (adversária),^[27] detecção de anomalias, incerteza calibrada ("uncertainty quantification"),^[27] verificação formal,^[101] aprendizagem de preferências ("preference learning"),^[102]^[103]^[104] engenharia de segurança crítica (SCS em inglês),^[105] teoria dos jogos,^[106] justiça algorítmica,^{[nota 6]}^[27]^[107] ciências sociais,^[108] entre outros.

Segurança sistêmica e fatores sociotécnicos[editar | editar código-fonte]

É comum que os riscos da inteligência artificial (e os riscos tecnológicos em geral) sejam categorizados como uso indevido ou acidentes.^[109] Alguns estudiosos sugerem que essa estrutura é insuficiente.^[109] Por exemplo, a Crise dos Mísseis de Cuba não foi um acidente ou um uso indevido de tecnologia.^[109] Os analistas de políticas Zwetsloot e Dafoe escreveram: "as perspectivas de uso indevido e acidente tendem a se concentrar apenas na última etapa de uma cadeia causal que leva a um dano: ou seja, a pessoa que usou indevidamente a tecnologia ou o sistema que se comportou de maneira não intencional... Muitas vezes, porém, a cadeia causal relevante é muito mais longa". Os riscos geralmente surgem de fatores "estruturais" ou "sistêmicos", como pressões competitivas, difusão de danos, desenvolvimento acelerado, altos níveis de incerteza e cultura de segurança inadequada.^[109] No contexto mais amplo da engenharia de segurança, fatores estruturais como "cultura de segurança organizacional" desempenham um papel central na popular estrutura de análise de risco STAMP (em inglês).^[110]

Inspirados pela perspectiva estrutural, alguns pesquisadores enfatizam a importância de usar o ML para melhorar os fatores de segurança sociotécnica, por exemplo, usar o machine learning para defesa cibernética, melhorando a tomada de decisões institucionais e facilitando a cooperação.^[30]

Defesa cibernética[editar | editar código-fonte]

Alguns estudiosos estão preocupados com o fato de a IA exacerbar o jogo já desequilibrado entre os atacantes e os defensores cibernéticos^[110], o que incentivaria o "primeiro ataque" e poderia levar a ataques mais agressivos e desestabilizadores. Para mitigar esse risco, alguns defendem uma maior ênfase na defesa cibernética. Além disso, a segurança do software é essencial para evitar que modelos poderosos de inteligência artificial sejam roubados e usados indevidamente.^[9]

Melhorando a tomada de decisões institucionais[editar | editar código-fonte]

O avanço da IA nos domínios econômico e militar pode precipitar desafios políticos sem precedentes.^[111] Alguns estudiosos comparam a dinâmica da corrida da inteligência artificial à da Guerra Fria, na qual o julgamento cuidadoso de um pequeno número de tomadores de decisão muitas vezes fazia a diferença entre a estabilidade e a catástrofe.^[112] Os pesquisadores de inteligência artificial argumentam que essas tecnologias também poderiam ser usadas para auxiliar na tomada de decisões.^[30] Por exemplo, estão começando a ser desenvolvidos sistemas de previsão^[113] e de consultoria de inteligência artificial.^[114]

Facilitando a cooperação[editar | editar código-fonte]

Muitas das maiores ameaças globais (guerra nuclear,^[115] mudança climática,^[116] etc.) foram enquadradas como desafios de cooperação. Como no conhecido cenário do dilema do prisioneiro, algumas dinâmicas podem levar a resultados ruins para todos os participantes, mesmo quando eles estão agindo de forma ideal. Por exemplo, nenhum ator isolado tem fortes incentivos para lidar com as mudanças climáticas, embora as consequências possam ser significativas se ninguém intervir.^[117]

Um desafio importante da cooperação em IA é evitar uma "corrida para o fundo do poço" ("race to the bottom").^[118] Nesse cenário, países ou empresas correm para construir sistemas de inteligência artificial mais capazes e negligenciam a segurança, levando a um acidente catastrófico que prejudica todos os envolvidos. As preocupações com cenários como esse inspiraram esforços políticos^[119] e técnicos^[120] para facilitar a cooperação entre humanos e, possivelmente, também entre sistemas de IA. A maioria das pesquisas sobre inteligência artificial concentra-se na criação de agentes individuais para atender a funções isoladas (geralmente em jogos para um jogador).^[121] Os especialistas sugerem que, à medida que os sistemas de IA se tornam mais autônomos, pode ser essencial estudar e moldar a maneira como eles interagem.^[122]

Na governança[editar | editar código-fonte]

A governança da inteligência artificial lida com a criação de normas, padrões e regulamentações para orientar o uso e o desenvolvimento de sistemas de IA^[123], o que envolve a formulação e a implementação de recomendações concretas, bem como a realização de pesquisas mais fundamentais para informar quais devem ser essas recomendações. Esta seção se concentra nos aspectos da governança da inteligência artificial que estão especificamente relacionados a garantir que os sistemas de inteligência artificial sejam seguros e benéficos.

Pesquisa[editar | editar código-fonte]

A pesquisa de governança da segurança da inteligência artificial abrange desde investigações fundamentais sobre os possíveis impactos da IA até aplicações específicas. No aspecto fundamental, os pesquisadores argumentam que a IA poderia transformar muitos aspectos da sociedade devido à sua ampla aplicabilidade, comparando-a à eletricidade e o motor a vapor.^[124] Alguns trabalhos se concentraram em antecipar riscos específicos que podem surgir desses impactos - por exemplo, riscos de desemprego em massa,^[125] armamento,^[126] desinformação,^[127] vigilância^[128] e concentração de poder.^[129] Outros trabalhos exploram os fatores de risco subjacentes, como a dificuldade de monitorar o setor de inteligência artificial em rápida evolução,^[130] a disponibilidade de modelos de IA,^[131] e a dinâmica de "corrida para o fundo do poço".^[118]^[132] Allan Dafoe, chefe de governança e estratégia de longo prazo da DeepMind, enfatizou os perigos da corrida e a possível necessidade de cooperação: "pode ser quase uma condição necessária e suficiente para a segurança e o alinhamento da IA que haja um alto grau de cautela antes da implementação de sistemas avançados e poderosos; no entanto, se os atores estiverem competindo em um domínio com grandes retornos para os pioneiros ou vantagem relativa, eles serão pressionados a escolher um nível de cautela abaixo do ideal".^[119]

Ação governamental[editar | editar código-fonte]

Alguns especialistas argumentam que é muito cedo para regulamentar a IA, expressando preocupações de que as regulamentações dificultem a inovação e que não faria sentido "apressar a regulamentação por ignorância".^[133]^[134] Outros, como o magnata dos negócios Elon Musk, pedem uma ação preventiva para mitigar riscos catastróficos.^[135] Até o momento, pouca regulamentação de segurança da inteligência artificial foi aprovada ao redor do mundo, embora muitos projetos de lei tenham sido apresentados. Um exemplo importante é a Lei de Inteligência Artificial da União Europeia ("AI Act"), que regulamenta determinados aplicativos de IA de "alto risco" e restringe usos potencialmente prejudiciais, como reconhecimento facial, manipulação subliminar e pontuação de crédito social.^[136]

Fora da legislação formal, agências governamentais de determinados países apresentaram recomendações éticas e de segurança. Em março de 2021, a Comissão de Segurança Nacional dos EUA sobre Inteligência Artificial ("US National Security Commission on Artificial Intelligence") relatou que os avanços na IA podem tornar cada vez mais importante "garantir que os sistemas estejam alinhados com metas e valores, incluindo segurança, robustez e confiabilidade".^[137] Posteriormente, o Instituto Nacional de Padrões e Tecnologia ("National Institute of Standards and Technology") elaborou uma estrutura para gerenciar o risco de IA, que aconselha que, quando "riscos catastróficos estiverem presentes, o desenvolvimento e a implantação devem ser interrompidos de maneira segura até que os riscos possam ser suficientemente gerenciados".^[138]

Em setembro de 2021, a República Popular da China publicou diretrizes éticas para o uso de IA no país, enfatizando que as decisões sobre inteligência artificial devem permanecer sob controle humano e exigindo mecanismos de responsabilidade. No mesmo mês, o Reino Unido publicou sua Estratégia Nacional de IA de 10 anos,^[139] que afirma que o governo britânico "leva a sério o risco de longo prazo da Inteligência Artificial Geral não alinhada e as mudanças imprevisíveis que isso significaria para o mundo."^[140] A estratégia descreve ações para avaliar os riscos de IA de longo prazo, incluindo riscos catastróficos.^[140]

As organizações governamentais, principalmente nos Estados Unidos, também incentivaram o desenvolvimento de pesquisas técnicas de segurança de inteligência artificial. A Atividade de Projetos de Pesquisa Avançada de Inteligência ("The Intelligence Advanced Research Projects Activity") iniciou o projeto TrojAI para identificar e proteger contra ataques de cavalos de troia em sistemas de IA.^[141] A Agência de Projetos de Pesquisa Avançada de Defesa ("Defense Advanced Research Projects Agency") está envolvida em pesquisas sobre inteligência artificial explicável e melhoria da robustez contra ataques adversários,^[142]^[143] e a Fundação Nacional de Ciências apoia o Centro para Machine Learning Confiável ("Center for Trustworthy Machine Learning") e está fornecendo milhões em financiamento para pesquisas empíricas de segurança de inteligência artificial.^[144]

Autorregulamentação corporativa[editar | editar código-fonte]

Os laboratórios e as empresas de inteligência artificial geralmente seguem práticas e normas de segurança que não se enquadram na legislação formal.^[145] Um dos objetivos dos pesquisadores de governança é moldar essas normas. Exemplos de recomendações de segurança encontradas na literatura incluem a realização de auditorias por terceiros,^[146] a oferta de recompensas por falhas encontradas,^[146] o compartilhamento de incidentes de IA^[146] (um banco de dados de incidentes de IA sendo criado para esse fim),^[147] o cumprimento de diretrizes para determinar se a pesquisa ou os modelos devem ser publicados,^[131] e a melhoria das informações e da segurança cibernética nos laboratórios de inteligência artificial.^[148]

As empresas também assumem compromissos concretos. A Cohere, a OpenAI e a AI21 propuseram e concordaram com as "práticas recomendadas para a implementação de modelos de linguagem", com foco na redução do uso indevido.^[149] Para evitar contribuir com a dinâmica de corrida, a OpenAI também declarou em seu estatuto que "se um projeto alinhado a valores e consciente da segurança se aproximar da construção de inteligência artificial geral (AGI) antes de nós, nos comprometemos a parar de competir e começar a ajudar esse projeto."^[150] Além disso, líderes do setor, como o CEO da DeepMind Demis Hassabis e o diretor de IA do Facebook Yann LeCun, assinaram cartas abertas, como os Princípios de Asilomar^[26] e a Carta Aberta sobre Armas Autônomas.^[151]

Ver também[editar | editar código-fonte]

Ética na inteligência artificial

Notas[editar | editar código-fonte]

↑ "AI Race" em inglês: conceito no qual a corrida pelo avanço da IA poderia minar a questão da segurança.
↑ Uma rede neural que aprende com eficiência conceitos visuais a partir da supervisão de linguagem natural.
↑ A distinção entre IA desalinhada e IA incompetente foi formalizada em determinados contextos.^[30]
↑ Essa seção é um excerto do artigo ^[80] "AI alignment" da Wikipédia em inglês.
↑ Por exemplo, em uma entrevista de TV em 2016, Geoffrey Hinton, vencedor do prêmio Turing, observou^[96]:

Hinton
Obviamente, ter outros seres superinteligentes que são mais inteligentes do que nós é algo que nos deixa nervosos [...].

Entrevistador
Que aspecto disso o deixa nervoso?

Hinton
Bem, será que eles serão legais conosco?

Entrevistador
É como nos filmes. Você está preocupado com aquele cenário dos filmes...

Hinton
Em um prazo muito longo, sim. Acho que nos próximos 5 a 10 anos [2021 a 2026] não precisaremos nos preocupar com isso. Além disso, os filmes sempre a retratam como uma inteligência individual. Acho que pode ser que ela vá em uma direção diferente, em que nós meio que nos desenvolvemos em conjunto com essas coisas. Portanto, as coisas não são totalmente autônomas; elas são desenvolvidas para nos ajudar; são como assistentes pessoais. E nós nos desenvolveremos com eles. E será mais uma simbiose do que uma rivalidade. Mas não sabemos.

Entrevistador
Isso é uma expectativa ou uma esperança?

Hinton
É uma esperança.
↑ As decisões tomadas por computadores após um processo de ML podem ser consideradas injustas se forem baseadas em variáveis consideradas sensíveis. Exemplos desses tipos de variáveis incluem gênero, etnia, orientação sexual, deficiência e outros.

Referências[editar | editar código-fonte]

↑ ^a ^b Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain (31 de julho de 2018). «Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts». Journal of Artificial Intelligence Research (em inglês). 62: 729–754. ISSN 1076-9757. doi:10.1613/jair.1.11222. Consultado em 28 de novembro de 2022. Cópia arquivada em 10 de fevereiro de 2023
↑ Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (5 de maio de 2021). «Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers» (em inglês). arXiv:2105.02117
↑ Stein-Perlman, Zach; Weinstein-Raun, Benjamin; Grace (4 de agosto de 2022). «2022 Expert Survey on Progress in AI». AI Impacts (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022
↑ Michael, Julian; Holtzman, Ari; Parrish, Alicia; Mueller, Aaron; Wang, Alex; Chen, Angelica; Madaan, Divyam; Nangia, Nikita; Pang, Richard Yuanzhe; Phang, Jason; Bowman, Samuel R. (26 de agosto de 2022). «What Do NLP Researchers Believe? Results of the NLP Community Metasurvey» (em inglês). arXiv:2208.12852
↑ De-Arteaga, Maria (13 de maio de 2020). Machine Learning in High-Stakes Settings: Risks and Opportunities (PhD) (em inglês). Carnegie Mellon University
↑ Mehrabi, Ninareh; Morstatter, Fred; Saxena, Nripsuta; Lerman, Kristina; Galstyan, Aram (2021). «A Survey on Bias and Fairness in Machine Learning». ACM Computing Surveys (em inglês). 54 (6): 1–35. ISSN 0360-0300. arXiv:1908.09635. doi:10.1145/3457607. Consultado em 28 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022
↑ Feldstein, Steven (2019). The Global Expansion of AI Surveillance (Relatório) (em inglês). Carnegie Endowment for International Peace
↑ Barnes, Beth (2021). «Risks from AI persuasion». Lesswrong (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022
↑ ^a ^b ^c Brundage, Miles; Avin, Shahar; Clark, Jack; Toner, Helen; Eckersley, Peter; Garfinkel, Ben; Dafoe, Allan; Scharre, Paul; Zeitzoff, Thomas; Filar, Bobby; Anderson, Hyrum; Roff, Heather; Allen, Gregory C; Steinhardt, Jacob; Flynn, Carrick (30 de abril de 2018). Apollo-University Of Cambridge Repository, Apollo-University Of Cambridge Repository. «The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation». Apollo - University of Cambridge Repository. doi:10.17863/cam.22520. Consultado em 28 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022
↑ Carlsmith, Joseph (16 de junho de 2022). «Is Power-Seeking AI an Existential Risk?» (em inglês). arXiv:2206.13353
↑ Shermer, Michael (2017). «Artificial Intelligence Is Not a Threat---Yet». Scientific American (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 1 de dezembro de 2017
↑ Dafoe, Allan (2016). «Yes, We Are Worried About the Existential Risk of Artificial Intelligence». MIT Technology Review (em inglês). Consultado em 28 de novembro de 2022. Cópia arquivada em 28 de novembro de 2022
↑ Markoff, John (20 de maio de 2013). «In 1949, He Imagined an Age of Robots». The New York Times (em inglês). ISSN 0362-4331. Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022
↑ AAAI. «AAAI Presidential Panel on Long-Term AI Futures» (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 1 de setembro de 2022
↑ Yampolskiy, Roman V.; Spellchecker, M. S. (25 de outubro de 2016). «Artificial Intelligence Safety and Cybersecurity: a Timeline of AI Failures» (em inglês). arXiv:1610.07997
↑ «PT-AI 2011 - Philosophy and Theory of Artificial Intelligence (PT-AI 2011)». Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022
↑ Yampolskiy, Roman V. (2013), Müller, Vincent C., ed., «Artificial Intelligence Safety Engineering: Why Machine Ethics Is a Wrong Approach», ISBN 978-3-642-31673-9, Berlin, Heidelberg: Springer Berlin Heidelberg, Philosophy and Theory of Artificial Intelligence, Studies in Applied Philosophy, Epistemology and Rational Ethics, 5, pp. 389–396, doi:10.1007/978-3-642-31674-6_29, consultado em 23 de novembro de 2022, cópia arquivada em 15 de março de 2023
↑ Elon Musk [@elonmusk] (3 de Agosto de 2014). «Worth reading Superintelligence by Bostrom. We need to be super careful with AI. Potentially more dangerous than nukes.» (Tweet) – via Twitter
↑ Kaiser Kuo (31 de março de 2015). Baidu CEO Robin Li interviews Bill Gates and Elon Musk at the Boao Forum, March 29 2015. Em cena em 55:49. Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022
↑ Cellan-Jones, Rory (2 de dezembro de 2014). «Stephen Hawking warns artificial intelligence could end mankind». BBC News. Consultado em 23 de novembro de 2022. Cópia arquivada em 30 de outubro de 2015
↑ Future of Life Institute. «Research Priorities for Robust and Beneficial Artificial Intelligence: An Open Letter». Future of Life Institute (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022
↑ Future of Life Institute. «AI Research Grants Program». Future of Life Institute (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022
↑ «SafArtInt 2016» (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022
↑ Bach, Deborah (2016). «UW to host first of four White House public workshops on artificial intelligence». UW News (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022
↑ Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (25 de julho de 2016). «Concrete Problems in AI Safety» (em inglês). arXiv:1606.06565
↑ ^a ^b Future of Life Institute. «AI Principles». Future of Life Institute (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022
↑ ^a ^b ^c ^d ^e Research, DeepMind Safety (27 de setembro de 2018). «Building safe artificial intelligence: specification, robustness, and assurance». Medium (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 10 de fevereiro de 2023
↑ «SafeML ICLR 2019 Workshop» (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022
↑ Research, DeepMind Safety (27 de setembro de 2018). «Building safe artificial intelligence: specification, robustness, and assurance». Medium (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 10 de fevereiro de 2023
↑ ^a ^b ^c ^d ^e ^f Hendrycks, Dan; Carlini, Nicholas; Schulman, John; Steinhardt, Jacob (16 de junho de 2022). «Unsolved Problems in ML Safety» (em inglês). arXiv:2109.13916
↑ Kirilenko, Andrei; Kyle, Albert S.; Samadi, Mehrdad; Tuzun, Tugkan (2017). «The Flash Crash: High-Frequency Trading in an Electronic Market: The Flash Crash». The Journal of Finance (em inglês). 72 (3): 967–998. doi:10.1111/jofi.12498. hdl:10044/1/49798. Consultado em 28 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022
↑ Newman, Mej (2005). «Power laws, Pareto distributions and Zipf's law». Contemporary Physics (em inglês). 46 (5): 323–351. Bibcode:2005ConPh..46..323N. ISSN 0010-7514. arXiv:cond-mat/0412004. doi:10.1080/00107510500052444. Consultado em 28 de novembro de 2022. Cópia arquivada em 16 de novembro de 2022
↑ Eliot, Lance. «Whether Those Endless Edge Or Corner Cases Are The Long-Tail Doom For AI Self-Driving Cars». Forbes (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022
↑ Goodfellow, Ian; Papernot, Nicolas; Huang, Sandy; Duan, Rocky; Abbeel, Pieter; Clark, Jack (24 de fevereiro de 2017). «Attacking Machine Learning with Adversarial Examples». OpenAI (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022
↑ ^a ^b Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (19 de fevereiro de 2014). «Intriguing properties of neural networks» (em inglês). arXiv:1312.6199
↑ Kurakin, Alexey; Goodfellow, Ian; Bengio, Samy (10 de fevereiro de 2017). «Adversarial examples in the physical world» (em inglês). arXiv:1607.02533
↑ Madry, Aleksander; Makelov, Aleksandar; Schmidt, Ludwig; Tsipras, Dimitris; Vladu, Adrian (4 de setembro de 2019). «Towards Deep Learning Models Resistant to Adversarial Attacks» (em inglês). arXiv:1706.06083
↑ Kannan, Harini; Kurakin, Alexey; Goodfellow, Ian (16 de março de 2018). «Adversarial Logit Pairing» (em inglês). arXiv:1803.06373
↑ Gilmer, Justin; Adams, Ryan P.; Goodfellow, Ian; Andersen, David; Dahl, George E. (19 de julho de 2018). «Motivating the Rules of the Game for Adversarial Example Research» (em inglês). arXiv:1807.06732
↑ Carlini, Nicholas; Wagner, David (29 de março de 2018). «Audio Adversarial Examples: Targeted Attacks on Speech-to-Text» (em inglês). arXiv:1801.01944
↑ Sheatsley, Ryan; Papernot, Nicolas; Weisman, Michael; Verma, Gunjan; McDaniel, Patrick (9 de setembro de 2022). «Adversarial Examples in Constrained Domains» (em inglês). arXiv:2011.01183
↑ Suciu, Octavian; Coull, Scott E.; Johns, Jeffrey (13 de abril de 2019). «Exploring Adversarial Examples in Malware Detection» (em inglês). arXiv:1810.08280
↑ Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, John; Hilton, Jacob; Kelton, Fraser; Miller, Luke; Simens, Maddie (4 de março de 2022). «Training language models to follow instructions with human feedback» (em inglês). arXiv:2203.02155
↑ Gao, Leo; Schulman, John; Hilton, Jacob (19 de outubro de 2022). «Scaling Laws for Reward Model Overoptimization» (em inglês). arXiv:2210.10760
↑ Yu, Sihyun; Ahn, Sungsoo; Song, Le; Shin, Jinwoo (27 de outubro de 2021). «RoMA: Robust Model Adaptation for Offline Model-based Optimization» (em inglês). arXiv:2110.14188
↑ ^a ^b Hendrycks, Dan; Mazeika, Mantas (20 de setembro de 2022). «X-Risk Analysis for AI Research» (em inglês). arXiv:2206.05862
↑ «Robust and Secure AI» (PDF). Carnegie Mellon University (em inglês). 2021
↑ Tran, Khoa A.; Kondrashova, Olga; Bradley, Andrew; Williams, Elizabeth D.; Pearson, John V.; Waddell, Nicola (2021). «Deep learning in cancer diagnosis, prognosis and treatment selection». Genome Medicine (em inglês). 13 (1). 152 páginas. ISSN 1756-994X. PMC 8477474. PMID 34579788. doi:10.1186/s13073-021-00968-x
↑ Guo, Chuan; Pleiss, Geoff; Sun, Yu; Weinberger, Kilian Q. (6 de agosto de 2017). «On calibration of modern neural networks». Proceedings of the 34th international conference on machine learning. Proceedings of machine learning research (em inglês). 70. PMLR. pp. 1321–1330
↑ Ovadia, Yaniv; Fertig, Emily; Ren, Jie; Nado, Zachary; Sculley, D.; Nowozin, Sebastian; Dillon, Joshua V.; Lakshminarayanan, Balaji; Snoek, Jasper (17 de dezembro de 2019). «Can You Trust Your Model's Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift» (em inglês). arXiv:1906.02530
↑ Bogdoll, Daniel; Breitenstein, Jasmin; Heidecker, Florian; Bieshaar, Maarten; Sick, Bernhard; Fingscheidt, Tim; Zöllner, J. Marius (2021). «Description of Corner Cases in Automated Driving: Goals and Challenges». 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW) (em inglês): 1023–1028. ISBN 978-1-6654-0191-3. arXiv:2109.09607. doi:10.1109/ICCVW54120.2021.00119
↑ Hendrycks, Dan; Mazeika, Mantas; Dietterich, Thomas (28 de janeiro de 2019). «Deep Anomaly Detection with Outlier Exposure» (em inglês). arXiv:1812.04606
↑ Wang, Haoqi; Li, Zhizhong; Feng, Litong; Zhang, Wayne (21 de março de 2022). «ViM: Out-Of-Distribution with Virtual-logit Matching» (em inglês). arXiv:2203.10807
↑ Hendrycks, Dan; Gimpel, Kevin (3 de outubro de 2018). «A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks» (em inglês). arXiv:1610.02136
↑ Urbina, Fabio; Lentzos, Filippa; Invernizzi, Cédric; Ekins, Sean (2022). «Dual use of artificial-intelligence-powered drug discovery». Nature Machine Intelligence (em inglês). 4 (3): 189–191. ISSN 2522-5839. PMC 9544280. PMID 36211133. doi:10.1038/s42256-022-00465-9
↑ Center for Security and Emerging Technology; Buchanan, Ben; Lohn, Andrew; Musser, Micah; Sedova, Katerina (2021). «Truth, Lies, and Automation: How Language Models Could Change Disinformation». doi:10.51593/2021ca003. Consultado em 28 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022
↑ «Propaganda-as-a-service may be on the horizon if large language models are abused». VentureBeat. 14 de dezembro de 2021. Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022
↑ Center for Security and Emerging Technology; Buchanan, Ben; Bansemer, John; Cary, Dakota; Lucas, Jack; Musser, Micah (2020). «Automating Cyber Attacks: Hype and Reality». Center for Security and Emerging Technology. doi:10.51593/2020ca002. Consultado em 28 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022
↑ «Lessons Learned on Language Model Safety and Misuse». OpenAI (em inglês). 3 de março de 2022. Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022
↑ Markov, Todor; Zhang, Chong; Agarwal, Sandhini; Eloundou, Tyna; Lee, Teddy; Adler, Steven; Jiang, Angela; Weng, Lilian (10 de agosto de 2022). «New-and-Improved Content Moderation Tooling». OpenAI (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 11 de janeiro de 2023
↑ Center for Security and Emerging Technology; Rudner, Tim; Toner, Helen (2021). «Key Concepts in AI Safety: Interpretability in Machine Learning» (em inglês). doi:10.51593/20190042. Consultado em 28 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022
↑ McFarland, Matt (19 de março de 2018). «Uber pulls self-driving cars after first fatal crash of autonomous vehicle». CNNMoney (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022
↑ ^a ^b Doshi-Velez, Finale; Kortz, Mason; Budish, Ryan; Bavitz, Chris; Gershman, Sam; O'Brien, David; Scott, Kate; Schieber, Stuart; Waldo, James; Weinberger, David; Weller, Adrian; Wood, Alexandra (20 de dezembro de 2019). «Accountability of AI Under the Law: The Role of Explanation» (em inglês). arXiv:1711.01134
↑ Savage, Neil (29 de março de 2022). «Breaking into the black box of artificial intelligence». Nature. PMID 35352042. doi:10.1038/d41586-022-00858-1. Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022
↑ Fong, Ruth; Vedaldi, Andrea (2017). «Interpretable Explanations of Black Boxes by Meaningful Perturbation». 2017 IEEE International Conference on Computer Vision (ICCV) (em inglês): 3449–3457. ISBN 978-1-5386-1032-9. arXiv:1704.03296. doi:10.1109/ICCV.2017.371
↑ Meng, Kevin; Bau, David; Andonian, Alex; Belinkov, Yonatan (2022). «Locating and editing factual associations in GPT». Advances in Neural Information Processing Systems (em inglês). 35. arXiv:2202.05262
↑ Bau, David; Liu, Steven; Wang, Tongzhou; Zhu, Jun-Yan; Torralba, Antonio (30 de julho de 2020). «Rewriting a Deep Generative Model» (em inglês). arXiv:2007.15646
↑ Räuker, Tilman; Ho, Anson; Casper, Stephen; Hadfield-Menell, Dylan (5 de setembro de 2022). «Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks» (em inglês). arXiv:2207.13243
↑ Bau, David; Zhou, Bolei; Khosla, Aditya; Oliva, Aude; Torralba, Antonio (19 de abril de 2017). «Network Dissection: Quantifying Interpretability of Deep Visual Representations» (em inglês). arXiv:1704.05796
↑ McGrath, Thomas; Kapishnikov, Andrei; Tomašev, Nenad; Pearce, Adam; Wattenberg, Martin; Hassabis, Demis; Kim, Been; Paquet, Ulrich; Kramnik, Vladimir (22 de novembro de 2022). «Acquisition of chess knowledge in AlphaZero». Proceedings of the National Academy of Sciences (em inglês). 119 (47): e2206625119. Bibcode:2022PNAS..11906625M. ISSN 0027-8424. PMC 9704706. PMID 36375061. arXiv:2111.09259. doi:10.1073/pnas.2206625119
↑ Goh, Gabriel; Cammarata, Nick; Voss, Chelsea; Carter, Shan; Petrov, Michael; Schubert, Ludwig; Radford, Alec; Olah, Chris (2021). «Multimodal neurons in artificial neural networks». Distill (em inglês). 6 (3). doi:10.23915/distill.00030
↑ Olah, Chris; Cammarata, Nick; Schubert, Ludwig; Goh, Gabriel; Petrov, Michael; Carter, Shan (2020). «Zoom in: An introduction to circuits». Distill (em inglês). 5 (3). doi:10.23915/distill.00024.001
↑ Cammarata, Nick; Goh, Gabriel; Carter, Shan; Voss, Chelsea; Schubert, Ludwig; Olah, Chris (2021). «Curve circuits». Distill (em inglês). 6 (1). doi:10.23915/distill.00024.006 (inativo 31 de dezembro de 2022). Consultado em 5 de dezembro de 2022. Cópia arquivada em 5 de dezembro de 2022
↑ Olsson, Catherine; Elhage, Nelson; Nanda, Neel; Joseph, Nicholas; DasSarma, Nova; Henighan, Tom; Mann, Ben; Askell, Amanda; Bai, Yuntao; Chen, Anna; Conerly, Tom; Drain, Dawn; Ganguli, Deep; Hatfield-Dodds, Zac; Hernandez, Danny; Johnston, Scott; Jones, Andy; Kernion, Jackson; Lovitt, Liane; Ndousse, Kamal; Amodei, Dario; Brown, Tom; Clark, Jack; Kaplan, Jared; McCandlish, Sam; Olah, Chris (2022). «In-context learning and induction heads». Transformer Circuits Thread (em inglês). arXiv:2209.11895
↑ Olah, Christopher. «Interpretability vs Neuroscience [rough note]» (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022
↑ Gu, Tianyu; Dolan-Gavitt, Brendan; Garg, Siddharth (11 de março de 2019). «BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain» (em inglês). arXiv:1708.06733
↑ Chen, Xinyun; Liu, Chang; Li, Bo; Lu, Kimberly; Song, Dawn (14 de dezembro de 2017). «Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning» (em inglês). arXiv:1712.05526
↑ Carlini, Nicholas; Terzis, Andreas (28 de março de 2022). «Poisoning and Backdooring Contrastive Learning» (em inglês). arXiv:2106.09667
↑ ^a ^b ^c ^d Russell, Stuart J.; Norvig, Peter (2020). Artificial intelligence: A modern approach (em inglês) 4th ed. [S.l.]: Pearson. ISBN 978-1-292-40113-3. OCLC 1303900751. Consultado em 12 de setembro de 2022. Cópia arquivada em 15 de julho de 2022
↑ [1]
↑ ^a ^b Ngo, Richard; Chan, Lawrence; Mindermann, Sören (22 de fevereiro de 2023). «The alignment problem from a deep learning perspective» (em inglês). arXiv:2209.00626 [cs.AI]
↑ ^a ^b Pan, Alexander; Bhatia, Kush; Steinhardt, Jacob (14 de fevereiro de 2022). The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models. International Conference on Learning Representations. Consultado em 21 de julho de 2022
↑ Zhuang, Simon; Hadfield-Menell, Dylan (2020). «Consequences of Misaligned AI». Advances in Neural Information Processing Systems. 33. Curran Associates, Inc. pp. 15763–15773. Consultado em 11 de março de 2023
↑ Carlsmith, Joseph (16 de junho de 2022). «Is Power-Seeking AI an Existential Risk?» (em inglês). arXiv:2206.13353 [cs.CY]
↑ ^a ^b ^c ^d Russell, Stuart J. (2020). Human compatible: Artificial intelligence and the problem of control (em inglês). [S.l.]: Penguin Random House. ISBN 9780525558637. OCLC 1113410915
↑ Christian, Brian (2020). The alignment problem: Machine learning and human values (em inglês). [S.l.]: W. W. Norton & Company. ISBN 978-0-393-86833-3. OCLC 1233266753. Consultado em 12 de setembro de 2022. Cópia arquivada em 10 de fevereiro de 2023
↑ Langosco, Lauro Langosco Di; Koch, Jack; Sharkey, Lee D.; Pfau, Jacob; Krueger, David (28 de junho de 2022). «Goal Misgeneralization in Deep Reinforcement Learning». Proceedings of the 39th International Conference on Machine Learning. International Conference on Machine Learning (em inglês). PMLR. pp. 12004–12019. Consultado em 11 de março de 2023
↑ Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette; Bosselut, Antoine; Brunskill, Emma; Brynjolfsson, Erik (12 de julho de 2022). «On the Opportunities and Risks of Foundation Models». Stanford CRFM. arXiv:2108.07258
↑ Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, J.; Hilton, Jacob; Kelton, Fraser; Miller, Luke E.; Simens, Maddie; Askell, Amanda; Welinder, P.; Christiano, P.; Leike, J.; Lowe, Ryan J. (2022). «Training language models to follow instructions with human feedback». arXiv:2203.02155 [cs.CL]
↑ Zaremba, Wojciech; Brockman, Greg; OpenAI (10 de agosto de 2021). «OpenAI Codex». OpenAI (em inglês). Consultado em 23 de julho de 2022. Cópia arquivada em 3 de fevereiro de 2023
↑ ^a ^b Kober, Jens; Bagnell, J. Andrew; Peters, Jan (1º de setembro de 2013). «Reinforcement learning in robotics: A survey». The International Journal of Robotics Research (em inglês). 32 (11): 1238–1274. ISSN 0278-3649. doi:10.1177/0278364913495721. Consultado em 12 de setembro de 2022. Cópia arquivada em 15 de outubro de 2022
↑ Knox, W. Bradley; Allievi, Alessandro; Banzhaf, Holger; Schmitt, Felix; Stone, Peter (1 de março de 2023). «Reward (Mis)design for autonomous driving». Artificial Intelligence (em inglês). 316. 103829 páginas. ISSN 0004-3702. doi:10.1016/j.artint.2022.103829
↑ Stray, Jonathan (2020). «Aligning AI Optimization to Community Well-Being». International Journal of Community Well-Being (em inglês). 3 (4): 443–463. ISSN 2524-5295. PMC 7610010. PMID 34723107. doi:10.1007/s42413-020-00086-3
↑ Russell, Stuart; Norvig, Peter. «Artificial Intelligence: A Modern Approach, 4th US ed.». aima.cs.berkeley.edu (em inglês). p. 1010. ISBN 978-0-13-604259-4. Consultado em 31 de maio de 2023
↑ Smith, Craig S. «Geoff Hinton, AI's Most Famous Researcher, Warns Of 'Existential Threat'». Forbes (em inglês). Consultado em 4 de maio de 2023
↑ Geoffrey Hinton (3 de março de 2016). The Code That Runs Our Lives. The Agenda. Em cena em 10:00. Consultado em 13 de março de 2023
↑ Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (21 de junho de 2016). «Concrete Problems in AI Safety» (em inglês). arXiv:1606.06565 [cs.AI]
↑ Ortega, Pedro A.; Maini, Vishal; DeepMind safety team (27 de setembro de 2018). «Building safe artificial intelligence: specification, robustness, and assurance». DeepMind Safety Research - Medium (em inglês). Consultado em 18 de julho de 2022. Cópia arquivada em 10 de fevereiro de 2023
↑ Rorvig, Mordechai (14 de abril de 2022). «Researchers Gain New Understanding From Simple AI». Quanta Magazine (em inglês). Consultado em 18 de julho de 2022. Cópia arquivada em 10 de fevereiro de 2023
↑
Doshi-Velez, Finale; Kim, Been (2 de março de 2017). «Towards A Rigorous Science of Interpretable Machine Learning». arXiv:1702.08608 [stat.ML]
- Wiblin, Robert (4 de agosto de 2021). «Chris Olah on what the hell is going on inside neural networks» (Podcast). 80,000 hours (em inglês). Consultado em 23 de julho de 2022
↑ Russell, Stuart; Dewey, Daniel; Tegmark, Max (31 de dezembro de 2015). «Research Priorities for Robust and Beneficial Artificial Intelligence». AI Magazine (em inglês). 36 (4): 105–114. ISSN 2371-9621. doi:10.1609/aimag.v36i4.2577. hdl:1721.1/108478. Consultado em 12 de setembro de 2022. Cópia arquivada em 2 de fevereiro de 2023
↑ Wirth, Christian; Akrour, Riad; Neumann, Gerhard; Fürnkranz, Johannes (2017). «A survey of preference-based reinforcement learning methods». Journal of Machine Learning Research. 18 (136): 1–46
↑ Christiano, Paul F.; Leike, Jan; Brown, Tom B.; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). «Deep reinforcement learning from human preferences». Proceedings of the 31st International Conference on Neural Information Processing Systems. NIPS'17. Red Hook, NY, USA: Curran Associates Inc. pp. 4302–4310. ISBN 978-1-5108-6096-4
↑ Heaven, Will Douglas (27 de janeiro de 2022). «The new version of GPT-3 is much better behaved (and should be less toxic)». MIT Technology Review (em inglês). Consultado em 18 de julho de 2022. Cópia arquivada em 10 de fevereiro de 2023
↑ Mohseni, Sina; Wang, Haotao; Yu, Zhiding; Xiao, Chaowei; Wang, Zhangyang; Yadawa, Jay (7 de março de 2022). «Taxonomy of Machine Learning Safety: A Survey and Primer». arXiv:2106.04823 [cs.LG]
↑
Clifton, Jesse (2020). «Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda». Center on Long-Term Risk (em inglês). Consultado em 18 de julho de 2022. Cópia arquivada em 1 de janeiro de 2023
- Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (6 de maio de 2021). «Cooperative AI: machines must learn to find common ground». Nature (em inglês). 593 (7857): 33–36. Bibcode:2021Natur.593...33D. ISSN 0028-0836. PMID 33947992. doi:10.1038/d41586-021-01170-0. Consultado em 12 de setembro de 2022. Cópia arquivada em 18 de dezembro de 2022
↑ Prunkl, Carina; Whittlestone, Jess (7 de fevereiro de 2020). «Beyond Near- and Long-Term: Towards a Clearer Account of Research Priorities in AI Ethics and Society». New York NY USA: ACM. Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society (em inglês): 138–143. ISBN 978-1-4503-7110-0. doi:10.1145/3375627.3375803. Consultado em 12 de setembro de 2022. Cópia arquivada em 16 de outubro de 2022
↑ Irving, Geoffrey; Askell, Amanda (19 de fevereiro de 2019). «AI Safety Needs Social Scientists». Distill (em inglês). 4 (2): 10.23915/distill.00014. ISSN 2476-0757. doi:10.23915/distill.00014. Consultado em 12 de setembro de 2022. Cópia arquivada em 10 de fevereiro de 2023
↑ ^a ^b ^c ^d Zwetsloot, Remco; Dafoe, Allan (11 de fevereiro de 2019). «Thinking About Risks From AI: Accidents, Misuse and Structure». Lawfare (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022
↑ ^a ^b Zhang, Yingyu; Dong, Chuntong; Guo, Weiqun; Dai, Jiabao; Zhao, Ziming (2022). «Systems theoretic accident model and process (STAMP): A literature review». Safety Science (em inglês). 152. 105596 páginas. doi:10.1016/j.ssci.2021.105596. Consultado em 28 de novembro de 2022. Cópia arquivada em 15 de março de 2023
↑ Center for Security and Emerging Technology; Imbrie, Andrew; Kania, Elsa (2019). «AI Safety, Security, and Stability Among Great Powers: Options, Challenges, and Lessons Learned for Pragmatic Engagement». doi:10.51593/20190051. Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022
↑ Future of Life Institute (27 de março de 2019). AI Strategy, Policy, and Governance (Allan Dafoe) (em inglês). Em cena em 22:05. Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022
↑ Zou, Andy; Xiao, Tristan; Jia, Ryan; Kwon, Joe; Mazeika, Mantas; Li, Richard; Song, Dawn; Steinhardt, Jacob; Evans, Owain; Hendrycks, Dan (9 de outubro de 2022). «Forecasting Future World Events with Neural Networks» (em inglês). arXiv:2206.15474
↑ Gathani, Sneha; Hulsebos, Madelon; Gale, James; Haas, Peter J.; Demiralp, Çağatay (8 de fevereiro de 2022). «Augmenting Decision Making via Interactive What-If Analysis» (em inglês). arXiv:2109.06160
↑ Lindelauf, Roy (2021), Osinga, Frans; Sweijs, Tim, eds., «Nuclear Deterrence in the Algorithmic Age: Game Theory Revisited», ISBN 978-94-6265-418-1, The Hague: T.M.C. Asser Press, NL ARMS Netherlands Annual Review of Military Studies 2020, Nl Arms (em inglês), pp. 421–436, doi:10.1007/978-94-6265-419-8_22, consultado em 24 de novembro de 2022, cópia arquivada em 15 de março de 2023
↑ Newkirk II, Vann R. (21 de abril de 2016). «Is Climate Change a Prisoner's Dilemma or a Stag Hunt?». The Atlantic. Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022
↑ Newkirk II, Vann R. (21 de abril de 2016). «Is Climate Change a Prisoner's Dilemma or a Stag Hunt?». The Atlantic (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022
↑ ^a ^b Armstrong, Stuart; Bostrom, Nick; Shulman, Carl. Racing to the Precipice: a Model of Artificial Intelligence Development (Relatório) (em inglês). Future of Humanity Institute, Oxford University
↑ ^a ^b Dafoe, Allan. AI Governance: A Research Agenda (Relatório) (em inglês). Centre for the Governance of AI, Future of Humanity Institute, University of Oxford
↑ Dafoe, Allan; Hughes, Edward; Bachrach, Yoram; Collins, Tantum; McKee, Kevin R.; Leibo, Joel Z.; Larson, Kate; Graepel, Thore (15 de dezembro de 2020). «Open Problems in Cooperative AI» (em inglês). arXiv:2012.08630
↑ Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (2021). «Cooperative AI: machines must learn to find common ground». Nature (em inglês). 593 (7857): 33–36. Bibcode:2021Natur.593...33D. PMID 33947992. doi:10.1038/d41586-021-01170-0. Consultado em 24 de novembro de 2022. Cópia arquivada em 11 de novembro de 2022
↑ Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (2021). «Cooperative AI: machines must learn to find common ground». Nature (em inglês). 593 (7857): 33–36. Bibcode:2021Natur.593...33D. PMID 33947992. doi:10.1038/d41586-021-01170-0. Consultado em 24 de novembro de 2022. Cópia arquivada em 22 de novembro de 2022
↑ Future of Life Institute (27 de março de 2019). AI Strategy, Policy, and Governance (Allan Dafoe) (em inglês). Em cena em 22:05. Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022
↑ Crafts, Nicholas (23 de setembro de 2021). «Artificial intelligence as a general-purpose technology: an historical perspective». Oxford Review of Economic Policy (em inglês). 37 (3): 521–536. ISSN 0266-903X. doi:10.1093/oxrep/grab012. Consultado em 28 de novembro de 2022. Cópia arquivada em 24 de novembro de 2011
↑ 葉俶禎; 黃子君; 張媁雯; 賴志樫 (1 de dezembro de 2020). «Labor Displacement in Artificial Intelligence Era: A Systematic Literature Review». 臺灣東亞文明研究學刊 (em inglês). 17 (2). ISSN 1812-6243. doi:10.6163/TJEAS.202012_17(2).0002
↑ Johnson, James (3 de abril de 2019). «Artificial intelligence & future warfare: implications for international security». Defense & Security Analysis (em inglês). 35 (2): 147–169. ISSN 1475-1798. doi:10.1080/14751798.2019.1600800. Consultado em 28 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022
↑ Kertysova, Katarina (12 de dezembro de 2018). «Artificial Intelligence and Disinformation: How AI Changes the Way Disinformation is Produced, Disseminated, and Can Be Countered». Security and Human Rights (em inglês). 29 (1–4): 55–81. ISSN 1874-7337. doi:10.1163/18750230-02901005. Consultado em 28 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022
↑ Feldstein, Steven (2019). The Global Expansion of AI Surveillance (em inglês). Carnegie Endowment for International Peace
↑ The economics of artificial intelligence : an agenda (em inglês). Ajay Agrawal, Joshua Gans, Avi Goldfarb. Chicago: [s.n.] 2019. ISBN 978-0-226-61347-5. OCLC 1099435014. Consultado em 28 de novembro de 2022. Cópia arquivada em 15 de março de 2023
↑ Whittlestone, Jess; Clark, Jack (31 de agosto de 2021). «Why and How Governments Should Monitor AI Development» (em inglês). arXiv:2108.12427
↑ ^a ^b Shevlane, Toby (2022). «Sharing Powerful AI Models | GovAI Blog». Center for the Governance of AI (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022
↑ Askell, Amanda; Brundage, Miles; Hadfield, Gillian (10 de julho de 2019). «The Role of Cooperation in Responsible AI Development» (em inglês). arXiv:1907.04534
↑ Ziegler, Bart. «Is It Time to Regulate AI?». WSJ (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022
↑ Reed, Chris (13 de setembro de 2018). «How should we regulate artificial intelligence?». Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences (em inglês). 376 (2128). 20170360 páginas. Bibcode:2018RSPTA.37670360R. ISSN 1364-503X. PMC 6107539. PMID 30082306. doi:10.1098/rsta.2017.0360
↑ Belton, Keith B. (7 de março de 2019). «How Should AI Be Regulated?». IndustryWeek (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 29 de janeiro de 2022
↑ «Artificial Intelligence Act: Council calls for promoting safe AI that respects fundamental rights». Conselho Europeu (em inglês). 6 de dezembro de 2022
↑ National Security Commission on Artificial Intelligence (2021), Final Report
↑ National Institute of Standards and Technology (12 de julho de 2021). «AI Risk Management Framework». NIST (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022
↑ Richardson, Tim (2021). «Britain publishes 10-year National Artificial Intelligence Strategy» (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 10 de fevereiro de 2023
↑ ^a ^b Office for Artificial Intelligence, Department for Digital, Culture, Media & Sport, and Department for Business, Energy & Industrial Strategy (2021). «Guidance: National AI Strategy». GOV.UK (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 10 de fevereiro de 2023
↑ Office of the Director of National Intelligence; Office of the Director of National Intelligence, Intelligence Advanced Research Projects Activity. «IARPA - TrojAI» (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022
↑ Turek, Matt. «Explainable Artificial Intelligence» (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 19 de fevereiro de 2021
↑ Draper, Bruce. «Guaranteeing AI Robustness Against Deception». Defense Advanced Research Projects Agency (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 9 de janeiro de 2023
↑ National Science Foundation. «Safe Learning-Enabled Systems» (em inglês). Consultado em 27 de fevereiro de 2023. Cópia arquivada em 26 de fevereiro de 2023
↑ Mäntymäki, Matti; Minkkinen, Matti; Birkstedt, Teemu; Viljanen, Mika (2022). «Defining organizational AI governance». AI and Ethics (em inglês). 2 (4): 603–609. ISSN 2730-5953. doi:10.1007/s43681-022-00143-x. Consultado em 28 de novembro de 2022. Cópia arquivada em 15 de março de 2023
↑ ^a ^b ^c Brundage, Miles; Avin, Shahar; Wang, Jasmine; Belfield, Haydn; Krueger, Gretchen; Hadfield, Gillian; Khlaaf, Heidy; Yang, Jingying; Toner, Helen; Fong, Ruth; Maharaj, Tegan; Koh, Pang Wei; Hooker, Sara; Leung, Jade; Trask, Andrew (20 de abril de 2020). «Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims» (em inglês). arXiv:2004.07213
↑ «Welcome to the Artificial Intelligence Incident Database» (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022
↑ Wiblin, Robert; Harris, Keiran (2022). «Nova DasSarma on why information security may be critical to the safe development of AI systems». 80,000 Hours (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022
↑ OpenAI (2 de junho de 2022). «Best Practices for Deploying Language Models». OpenAI (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 15 de março de 2023
↑ OpenAI. «OpenAI Charter». OpenAI (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 4 de março de 2021
↑ Future of Life Institute (2016). «Autonomous Weapons Open Letter: AI & Robotics Researchers». Future of Life Institute (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022

[26] "AI Race" em inglês: conceito no qual a corrida pelo avanço da IA poderia minar a questão da segurança.

[72] Uma rede neural que aprende com eficiência conceitos visuais a partir da supervisão de linguagem natural.

[82] A distinção entre IA desalinhada e IA incompetente foi formalizada em determinados contextos.^[30]

[84] Essa seção é um excerto do artigo ^[80] "AI alignment" da Wikipédia em inglês.

[101] Por exemplo, em uma entrevista de TV em 2016, Geoffrey Hinton, vencedor do prêmio Turing, observou^[96]:

Hinton
Obviamente, ter outros seres superinteligentes que são mais inteligentes do que nós é algo que nos deixa nervosos [...].

Entrevistador
Que aspecto disso o deixa nervoso?

Hinton
Bem, será que eles serão legais conosco?

Entrevistador
É como nos filmes. Você está preocupado com aquele cenário dos filmes...

Hinton
Em um prazo muito longo, sim. Acho que nos próximos 5 a 10 anos [2021 a 2026] não precisaremos nos preocupar com isso. Além disso, os filmes sempre a retratam como uma inteligência individual. Acho que pode ser que ela vá em uma direção diferente, em que nós meio que nos desenvolvemos em conjunto com essas coisas. Portanto, as coisas não são totalmente autônomas; elas são desenvolvidas para nos ajudar; são como assistentes pessoais. E nós nos desenvolveremos com eles. E será mais uma simbiose do que uma rivalidade. Mas não sabemos.

Entrevistador
Isso é uma expectativa ou uma esperança?

Hinton
É uma esperança.

[112] As decisões tomadas por computadores após um processo de ML podem ser consideradas injustas se forem baseadas em variáveis consideradas sensíveis. Exemplos desses tipos de variáveis incluem gênero, etnia, orientação sexual, deficiência e outros.

[:110-1] Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain (31 de julho de 2018). «Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts». Journal of Artificial Intelligence Research (em inglês). 62: 729–754. ISSN 1076-9757. doi:10.1613/jair.1.11222. Consultado em 28 de novembro de 2022. Cópia arquivada em 10 de fevereiro de 2023

[2] Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (5 de maio de 2021). «Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers» (em inglês). arXiv:2105.02117

[3] Stein-Perlman, Zach; Weinstein-Raun, Benjamin; Grace (4 de agosto de 2022). «2022 Expert Survey on Progress in AI». AI Impacts (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022

[4] Michael, Julian; Holtzman, Ari; Parrish, Alicia; Mueller, Aaron; Wang, Alex; Chen, Angelica; Madaan, Divyam; Nangia, Nikita; Pang, Richard Yuanzhe; Phang, Jason; Bowman, Samuel R. (26 de agosto de 2022). «What Do NLP Researchers Believe? Results of the NLP Community Metasurvey» (em inglês). arXiv:2208.12852

[5] De-Arteaga, Maria (13 de maio de 2020). Machine Learning in High-Stakes Settings: Risks and Opportunities (PhD) (em inglês). Carnegie Mellon University

[:3-6] Mehrabi, Ninareh; Morstatter, Fred; Saxena, Nripsuta; Lerman, Kristina; Galstyan, Aram (2021). «A Survey on Bias and Fairness in Machine Learning». ACM Computing Surveys (em inglês). 54 (6): 1–35. ISSN 0360-0300. arXiv:1908.09635. doi:10.1145/3457607. Consultado em 28 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022

[7] Feldstein, Steven (2019). The Global Expansion of AI Surveillance (Relatório) (em inglês). Carnegie Endowment for International Peace

[8] Barnes, Beth (2021). «Risks from AI persuasion». Lesswrong (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022

[:13-9] Brundage, Miles; Avin, Shahar; Clark, Jack; Toner, Helen; Eckersley, Peter; Garfinkel, Ben; Dafoe, Allan; Scharre, Paul; Zeitzoff, Thomas; Filar, Bobby; Anderson, Hyrum; Roff, Heather; Allen, Gregory C; Steinhardt, Jacob; Flynn, Carrick (30 de abril de 2018). Apollo-University Of Cambridge Repository, Apollo-University Of Cambridge Repository. «The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation». Apollo - University of Cambridge Repository. doi:10.17863/cam.22520. Consultado em 28 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022

[10] Carlsmith, Joseph (16 de junho de 2022). «Is Power-Seeking AI an Existential Risk?» (em inglês). arXiv:2206.13353

[11] Shermer, Michael (2017). «Artificial Intelligence Is Not a Threat---Yet». Scientific American (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 1 de dezembro de 2017

[12] Dafoe, Allan (2016). «Yes, We Are Worried About the Existential Risk of Artificial Intelligence». MIT Technology Review (em inglês). Consultado em 28 de novembro de 2022. Cópia arquivada em 28 de novembro de 2022

[13] Markoff, John (20 de maio de 2013). «In 1949, He Imagined an Age of Robots». The New York Times (em inglês). ISSN 0362-4331. Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022

[14] AAAI. «AAAI Presidential Panel on Long-Term AI Futures» (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 1 de setembro de 2022

[15] Yampolskiy, Roman V.; Spellchecker, M. S. (25 de outubro de 2016). «Artificial Intelligence Safety and Cybersecurity: a Timeline of AI Failures» (em inglês). arXiv:1610.07997

[16] «PT-AI 2011 - Philosophy and Theory of Artificial Intelligence (PT-AI 2011)». Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022

[17] Yampolskiy, Roman V. (2013), Müller, Vincent C., ed., «Artificial Intelligence Safety Engineering: Why Machine Ethics Is a Wrong Approach», ISBN 978-3-642-31673-9, Berlin, Heidelberg: Springer Berlin Heidelberg, Philosophy and Theory of Artificial Intelligence, Studies in Applied Philosophy, Epistemology and Rational Ethics, 5, pp. 389–396, doi:10.1007/978-3-642-31674-6_29, consultado em 23 de novembro de 2022, cópia arquivada em 15 de março de 2023

[18] Elon Musk [@elonmusk] (3 de Agosto de 2014). «Worth reading Superintelligence by Bostrom. We need to be super careful with AI. Potentially more dangerous than nukes.» (Tweet) – via Twitter

[19] Kaiser Kuo (31 de março de 2015). Baidu CEO Robin Li interviews Bill Gates and Elon Musk at the Boao Forum, March 29 2015. Em cena em 55:49. Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022

[20] Cellan-Jones, Rory (2 de dezembro de 2014). «Stephen Hawking warns artificial intelligence could end mankind». BBC News. Consultado em 23 de novembro de 2022. Cópia arquivada em 30 de outubro de 2015

[21] Future of Life Institute. «Research Priorities for Robust and Beneficial Artificial Intelligence: An Open Letter». Future of Life Institute (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022

[22] Future of Life Institute. «AI Research Grants Program». Future of Life Institute (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022

[23] «SafArtInt 2016» (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022

[24] Bach, Deborah (2016). «UW to host first of four White House public workshops on artificial intelligence». UW News (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022

[25] Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (25 de julho de 2016). «Concrete Problems in AI Safety» (em inglês). arXiv:1606.06565

[:21-27] Future of Life Institute. «AI Principles». Future of Life Institute (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022

[:8-28] Research, DeepMind Safety (27 de setembro de 2018). «Building safe artificial intelligence: specification, robustness, and assurance». Medium (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 10 de fevereiro de 2023

[29] «SafeML ICLR 2019 Workshop» (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022

[:82-30] Research, DeepMind Safety (27 de setembro de 2018). «Building safe artificial intelligence: specification, robustness, and assurance». Medium (em inglês). Consultado em 23 de novembro de 2022. Cópia arquivada em 10 de fevereiro de 2023

[:7-31] ↑ ^a ^b ^c ^d ^e ^f Hendrycks, Dan; Carlini, Nicholas; Schulman, John; Steinhardt, Jacob (16 de junho de 2022). «Unsolved Problems in ML Safety» (em inglês). arXiv:2109.13916

[32] Kirilenko, Andrei; Kyle, Albert S.; Samadi, Mehrdad; Tuzun, Tugkan (2017). «The Flash Crash: High-Frequency Trading in an Electronic Market: The Flash Crash». The Journal of Finance (em inglês). 72 (3): 967–998. doi:10.1111/jofi.12498. hdl:10044/1/49798. Consultado em 28 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022

[33] Newman, Mej (2005). «Power laws, Pareto distributions and Zipf's law». Contemporary Physics (em inglês). 46 (5): 323–351. Bibcode:2005ConPh..46..323N. ISSN 0010-7514. arXiv:cond-mat/0412004. doi:10.1080/00107510500052444. Consultado em 28 de novembro de 2022. Cópia arquivada em 16 de novembro de 2022

[34] Eliot, Lance. «Whether Those Endless Edge Or Corner Cases Are The Long-Tail Doom For AI Self-Driving Cars». Forbes (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022

[35] Goodfellow, Ian; Papernot, Nicolas; Huang, Sandy; Duan, Rocky; Abbeel, Pieter; Clark, Jack (24 de fevereiro de 2017). «Attacking Machine Learning with Adversarial Examples». OpenAI (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022

[:4-36] Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (19 de fevereiro de 2014). «Intriguing properties of neural networks» (em inglês). arXiv:1312.6199

[37] Kurakin, Alexey; Goodfellow, Ian; Bengio, Samy (10 de fevereiro de 2017). «Adversarial examples in the physical world» (em inglês). arXiv:1607.02533

[38] Madry, Aleksander; Makelov, Aleksandar; Schmidt, Ludwig; Tsipras, Dimitris; Vladu, Adrian (4 de setembro de 2019). «Towards Deep Learning Models Resistant to Adversarial Attacks» (em inglês). arXiv:1706.06083

[39] Kannan, Harini; Kurakin, Alexey; Goodfellow, Ian (16 de março de 2018). «Adversarial Logit Pairing» (em inglês). arXiv:1803.06373

[40] Gilmer, Justin; Adams, Ryan P.; Goodfellow, Ian; Andersen, David; Dahl, George E. (19 de julho de 2018). «Motivating the Rules of the Game for Adversarial Example Research» (em inglês). arXiv:1807.06732

[41] Carlini, Nicholas; Wagner, David (29 de março de 2018). «Audio Adversarial Examples: Targeted Attacks on Speech-to-Text» (em inglês). arXiv:1801.01944

[42] Sheatsley, Ryan; Papernot, Nicolas; Weisman, Michael; Verma, Gunjan; McDaniel, Patrick (9 de setembro de 2022). «Adversarial Examples in Constrained Domains» (em inglês). arXiv:2011.01183

[43] Suciu, Octavian; Coull, Scott E.; Johns, Jeffrey (13 de abril de 2019). «Exploring Adversarial Examples in Malware Detection» (em inglês). arXiv:1810.08280

[44] Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, John; Hilton, Jacob; Kelton, Fraser; Miller, Luke; Simens, Maddie (4 de março de 2022). «Training language models to follow instructions with human feedback» (em inglês). arXiv:2203.02155

[:02-45] Gao, Leo; Schulman, John; Hilton, Jacob (19 de outubro de 2022). «Scaling Laws for Reward Model Overoptimization» (em inglês). arXiv:2210.10760

[46] Yu, Sihyun; Ahn, Sungsoo; Song, Le; Shin, Jinwoo (27 de outubro de 2021). «RoMA: Robust Model Adaptation for Offline Model-based Optimization» (em inglês). arXiv:2110.14188

[X-Risk_Analysis_for_AI_Research-47] Hendrycks, Dan; Mazeika, Mantas (20 de setembro de 2022). «X-Risk Analysis for AI Research» (em inglês). arXiv:2206.05862

[48] «Robust and Secure AI» (PDF). Carnegie Mellon University (em inglês). 2021

[49] Tran, Khoa A.; Kondrashova, Olga; Bradley, Andrew; Williams, Elizabeth D.; Pearson, John V.; Waddell, Nicola (2021). «Deep learning in cancer diagnosis, prognosis and treatment selection». Genome Medicine (em inglês). 13 (1). 152 páginas. ISSN 1756-994X. PMC 8477474. PMID 34579788. doi:10.1186/s13073-021-00968-x

[50] Guo, Chuan; Pleiss, Geoff; Sun, Yu; Weinberger, Kilian Q. (6 de agosto de 2017). «On calibration of modern neural networks». Proceedings of the 34th international conference on machine learning. Proceedings of machine learning research (em inglês). 70. PMLR. pp. 1321–1330

[51] Ovadia, Yaniv; Fertig, Emily; Ren, Jie; Nado, Zachary; Sculley, D.; Nowozin, Sebastian; Dillon, Joshua V.; Lakshminarayanan, Balaji; Snoek, Jasper (17 de dezembro de 2019). «Can You Trust Your Model's Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift» (em inglês). arXiv:1906.02530

[52] Bogdoll, Daniel; Breitenstein, Jasmin; Heidecker, Florian; Bieshaar, Maarten; Sick, Bernhard; Fingscheidt, Tim; Zöllner, J. Marius (2021). «Description of Corner Cases in Automated Driving: Goals and Challenges». 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW) (em inglês): 1023–1028. ISBN 978-1-6654-0191-3. arXiv:2109.09607. doi:10.1109/ICCVW54120.2021.00119

[53] Hendrycks, Dan; Mazeika, Mantas; Dietterich, Thomas (28 de janeiro de 2019). «Deep Anomaly Detection with Outlier Exposure» (em inglês). arXiv:1812.04606

[54] Wang, Haoqi; Li, Zhizhong; Feng, Litong; Zhang, Wayne (21 de março de 2022). «ViM: Out-Of-Distribution with Virtual-logit Matching» (em inglês). arXiv:2203.10807

[55] Hendrycks, Dan; Gimpel, Kevin (3 de outubro de 2018). «A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks» (em inglês). arXiv:1610.02136

[56] Urbina, Fabio; Lentzos, Filippa; Invernizzi, Cédric; Ekins, Sean (2022). «Dual use of artificial-intelligence-powered drug discovery». Nature Machine Intelligence (em inglês). 4 (3): 189–191. ISSN 2522-5839. PMC 9544280. PMID 36211133. doi:10.1038/s42256-022-00465-9

[57] Center for Security and Emerging Technology; Buchanan, Ben; Lohn, Andrew; Musser, Micah; Sedova, Katerina (2021). «Truth, Lies, and Automation: How Language Models Could Change Disinformation». doi:10.51593/2021ca003. Consultado em 28 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022

[58] «Propaganda-as-a-service may be on the horizon if large language models are abused». VentureBeat. 14 de dezembro de 2021. Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022

[59] Center for Security and Emerging Technology; Buchanan, Ben; Bansemer, John; Cary, Dakota; Lucas, Jack; Musser, Micah (2020). «Automating Cyber Attacks: Hype and Reality». Center for Security and Emerging Technology. doi:10.51593/2020ca002. Consultado em 28 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022

[60] «Lessons Learned on Language Model Safety and Misuse». OpenAI (em inglês). 3 de março de 2022. Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022

[61] Markov, Todor; Zhang, Chong; Agarwal, Sandhini; Eloundou, Tyna; Lee, Teddy; Adler, Steven; Jiang, Angela; Weng, Lilian (10 de agosto de 2022). «New-and-Improved Content Moderation Tooling». OpenAI (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 11 de janeiro de 2023

[62] Center for Security and Emerging Technology; Rudner, Tim; Toner, Helen (2021). «Key Concepts in AI Safety: Interpretability in Machine Learning» (em inglês). doi:10.51593/20190042. Consultado em 28 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022

[63] McFarland, Matt (19 de março de 2018). «Uber pulls self-driving cars after first fatal crash of autonomous vehicle». CNNMoney (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022

[:6-64] Doshi-Velez, Finale; Kortz, Mason; Budish, Ryan; Bavitz, Chris; Gershman, Sam; O'Brien, David; Scott, Kate; Schieber, Stuart; Waldo, James; Weinberger, David; Weller, Adrian; Wood, Alexandra (20 de dezembro de 2019). «Accountability of AI Under the Law: The Role of Explanation» (em inglês). arXiv:1711.01134

[:5-65] Savage, Neil (29 de março de 2022). «Breaking into the black box of artificial intelligence». Nature. PMID 35352042. doi:10.1038/d41586-022-00858-1. Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022

[66] Fong, Ruth; Vedaldi, Andrea (2017). «Interpretable Explanations of Black Boxes by Meaningful Perturbation». 2017 IEEE International Conference on Computer Vision (ICCV) (em inglês): 3449–3457. ISBN 978-1-5386-1032-9. arXiv:1704.03296. doi:10.1109/ICCV.2017.371

[67] Meng, Kevin; Bau, David; Andonian, Alex; Belinkov, Yonatan (2022). «Locating and editing factual associations in GPT». Advances in Neural Information Processing Systems (em inglês). 35. arXiv:2202.05262

[68] Bau, David; Liu, Steven; Wang, Tongzhou; Zhu, Jun-Yan; Torralba, Antonio (30 de julho de 2020). «Rewriting a Deep Generative Model» (em inglês). arXiv:2007.15646

[69] Räuker, Tilman; Ho, Anson; Casper, Stephen; Hadfield-Menell, Dylan (5 de setembro de 2022). «Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks» (em inglês). arXiv:2207.13243

[70] Bau, David; Zhou, Bolei; Khosla, Aditya; Oliva, Aude; Torralba, Antonio (19 de abril de 2017). «Network Dissection: Quantifying Interpretability of Deep Visual Representations» (em inglês). arXiv:1704.05796

[71] McGrath, Thomas; Kapishnikov, Andrei; Tomašev, Nenad; Pearce, Adam; Wattenberg, Martin; Hassabis, Demis; Kim, Been; Paquet, Ulrich; Kramnik, Vladimir (22 de novembro de 2022). «Acquisition of chess knowledge in AlphaZero». Proceedings of the National Academy of Sciences (em inglês). 119 (47): e2206625119. Bibcode:2022PNAS..11906625M. ISSN 0027-8424. PMC 9704706. PMID 36375061. arXiv:2111.09259. doi:10.1073/pnas.2206625119

[73] Goh, Gabriel; Cammarata, Nick; Voss, Chelsea; Carter, Shan; Petrov, Michael; Schubert, Ludwig; Radford, Alec; Olah, Chris (2021). «Multimodal neurons in artificial neural networks». Distill (em inglês). 6 (3). doi:10.23915/distill.00030

[74] Olah, Chris; Cammarata, Nick; Schubert, Ludwig; Goh, Gabriel; Petrov, Michael; Carter, Shan (2020). «Zoom in: An introduction to circuits». Distill (em inglês). 5 (3). doi:10.23915/distill.00024.001

[75] Cammarata, Nick; Goh, Gabriel; Carter, Shan; Voss, Chelsea; Schubert, Ludwig; Olah, Chris (2021). «Curve circuits». Distill (em inglês). 6 (1). doi:10.23915/distill.00024.006 (inativo 31 de dezembro de 2022). Consultado em 5 de dezembro de 2022. Cópia arquivada em 5 de dezembro de 2022

[76] Olsson, Catherine; Elhage, Nelson; Nanda, Neel; Joseph, Nicholas; DasSarma, Nova; Henighan, Tom; Mann, Ben; Askell, Amanda; Bai, Yuntao; Chen, Anna; Conerly, Tom; Drain, Dawn; Ganguli, Deep; Hatfield-Dodds, Zac; Hernandez, Danny; Johnston, Scott; Jones, Andy; Kernion, Jackson; Lovitt, Liane; Ndousse, Kamal; Amodei, Dario; Brown, Tom; Clark, Jack; Kaplan, Jared; McCandlish, Sam; Olah, Chris (2022). «In-context learning and induction heads». Transformer Circuits Thread (em inglês). arXiv:2209.11895

[77] Olah, Christopher. «Interpretability vs Neuroscience [rough note]» (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022

[78] Gu, Tianyu; Dolan-Gavitt, Brendan; Garg, Siddharth (11 de março de 2019). «BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain» (em inglês). arXiv:1708.06733

[79] Chen, Xinyun; Liu, Chang; Li, Bo; Lu, Kimberly; Song, Dawn (14 de dezembro de 2017). «Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning» (em inglês). arXiv:1712.05526

[80] Carlini, Nicholas; Terzis, Andreas (28 de março de 2022). «Poisoning and Backdooring Contrastive Learning» (em inglês). arXiv:2106.09667

[aima4-81] Russell, Stuart J.; Norvig, Peter (2020). Artificial intelligence: A modern approach (em inglês) 4th ed. [S.l.]: Pearson. ISBN 978-1-292-40113-3. OCLC 1303900751. Consultado em 12 de setembro de 2022. Cópia arquivada em 15 de julho de 2022

[83] [1]

[:2-85] Ngo, Richard; Chan, Lawrence; Mindermann, Sören (22 de fevereiro de 2023). «The alignment problem from a deep learning perspective» (em inglês). arXiv:2209.00626 [cs.AI]

[mmmm2022-86] Pan, Alexander; Bhatia, Kush; Steinhardt, Jacob (14 de fevereiro de 2022). The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models. International Conference on Learning Representations. Consultado em 21 de julho de 2022

[87] Zhuang, Simon; Hadfield-Menell, Dylan (2020). «Consequences of Misaligned AI». Advances in Neural Information Processing Systems. 33. Curran Associates, Inc. pp. 15763–15773. Consultado em 11 de março de 2023

[88] Carlsmith, Joseph (16 de junho de 2022). «Is Power-Seeking AI an Existential Risk?» (em inglês). arXiv:2206.13353 [cs.CY]

[:2102-89] Russell, Stuart J. (2020). Human compatible: Artificial intelligence and the problem of control (em inglês). [S.l.]: Penguin Random House. ISBN 9780525558637. OCLC 1113410915

[Christian2020-90] Christian, Brian (2020). The alignment problem: Machine learning and human values (em inglês). [S.l.]: W. W. Norton & Company. ISBN 978-0-393-86833-3. OCLC 1233266753. Consultado em 12 de setembro de 2022. Cópia arquivada em 10 de fevereiro de 2023

[gmdrl-91] Langosco, Lauro Langosco Di; Koch, Jack; Sharkey, Lee D.; Pfau, Jacob; Krueger, David (28 de junho de 2022). «Goal Misgeneralization in Deep Reinforcement Learning». Proceedings of the 39th International Conference on Machine Learning. International Conference on Machine Learning (em inglês). PMLR. pp. 12004–12019. Consultado em 11 de março de 2023

[Opportunities_Risks-92] Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette; Bosselut, Antoine; Brunskill, Emma; Brynjolfsson, Erik (12 de julho de 2022). «On the Opportunities and Risks of Foundation Models». Stanford CRFM. arXiv:2108.07258

[feedback2022-93] Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, J.; Hilton, Jacob; Kelton, Fraser; Miller, Luke E.; Simens, Maddie; Askell, Amanda; Welinder, P.; Christiano, P.; Leike, J.; Lowe, Ryan J. (2022). «Training language models to follow instructions with human feedback». arXiv:2203.02155 [cs.CL]

[OpenAICodex-94] Zaremba, Wojciech; Brockman, Greg; OpenAI (10 de agosto de 2021). «OpenAI Codex». OpenAI (em inglês). Consultado em 23 de julho de 2022. Cópia arquivada em 3 de fevereiro de 2023

[:9-95] Kober, Jens; Bagnell, J. Andrew; Peters, Jan (1º de setembro de 2013). «Reinforcement learning in robotics: A survey». The International Journal of Robotics Research (em inglês). 32 (11): 1238–1274. ISSN 0278-3649. doi:10.1177/0278364913495721. Consultado em 12 de setembro de 2022. Cópia arquivada em 15 de outubro de 2022

[96] Knox, W. Bradley; Allievi, Alessandro; Banzhaf, Holger; Schmitt, Felix; Stone, Peter (1 de março de 2023). «Reward (Mis)design for autonomous driving». Artificial Intelligence (em inglês). 316. 103829 páginas. ISSN 0004-3702. doi:10.1016/j.artint.2022.103829

[97] Stray, Jonathan (2020). «Aligning AI Optimization to Community Well-Being». International Journal of Community Well-Being (em inglês). 3 (4): 443–463. ISSN 2524-5295. PMC 7610010. PMID 34723107. doi:10.1007/s42413-020-00086-3

[98] Russell, Stuart; Norvig, Peter. «Artificial Intelligence: A Modern Approach, 4th US ed.». aima.cs.berkeley.edu (em inglês). p. 1010. ISBN 978-0-13-604259-4. Consultado em 31 de maio de 2023

[99] Smith, Craig S. «Geoff Hinton, AI's Most Famous Researcher, Warns Of 'Existential Threat'». Forbes (em inglês). Consultado em 4 de maio de 2023

[100] Geoffrey Hinton (3 de março de 2016). The Code That Runs Our Lives. The Agenda. Em cena em 10:00. Consultado em 13 de março de 2023

[concrete2016-102] Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (21 de junho de 2016). «Concrete Problems in AI Safety» (em inglês). arXiv:1606.06565 [cs.AI]

[building2018-103] Ortega, Pedro A.; Maini, Vishal; DeepMind safety team (27 de setembro de 2018). «Building safe artificial intelligence: specification, robustness, and assurance». DeepMind Safety Research - Medium (em inglês). Consultado em 18 de julho de 2022. Cópia arquivada em 10 de fevereiro de 2023

[:333-104] Rorvig, Mordechai (14 de abril de 2022). «Researchers Gain New Understanding From Simple AI». Quanta Magazine (em inglês). Consultado em 18 de julho de 2022. Cópia arquivada em 10 de fevereiro de 2023

[105] Doshi-Velez, Finale; Kim, Been (2 de março de 2017). «Towards A Rigorous Science of Interpretable Machine Learning». arXiv:1702.08608 [stat.ML]
Wiblin, Robert (4 de agosto de 2021). «Chris Olah on what the hell is going on inside neural networks» (Podcast). 80,000 hours (em inglês). Consultado em 23 de julho de 2022

[107] Wiblin, Robert (4 de agosto de 2021). «Chris Olah on what the hell is going on inside neural networks» (Podcast). 80,000 hours (em inglês). Consultado em 23 de julho de 2022

[106] Russell, Stuart; Dewey, Daniel; Tegmark, Max (31 de dezembro de 2015). «Research Priorities for Robust and Beneficial Artificial Intelligence». AI Magazine (em inglês). 36 (4): 105–114. ISSN 2371-9621. doi:10.1609/aimag.v36i4.2577. hdl:1721.1/108478. Consultado em 12 de setembro de 2022. Cópia arquivada em 2 de fevereiro de 2023

[prefsurvey2017-107] Wirth, Christian; Akrour, Riad; Neumann, Gerhard; Fürnkranz, Johannes (2017). «A survey of preference-based reinforcement learning methods». Journal of Machine Learning Research. 18 (136): 1–46

[drlfhp-108] Christiano, Paul F.; Leike, Jan; Brown, Tom B.; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). «Deep reinforcement learning from human preferences». Proceedings of the 31st International Conference on Neural Information Processing Systems. NIPS'17. Red Hook, NY, USA: Curran Associates Inc. pp. 4302–4310. ISBN 978-1-5108-6096-4

[LessToxic-109] Heaven, Will Douglas (27 de janeiro de 2022). «The new version of GPT-3 is much better behaved (and should be less toxic)». MIT Technology Review (em inglês). Consultado em 18 de julho de 2022. Cópia arquivada em 10 de fevereiro de 2023

[110] Mohseni, Sina; Wang, Haotao; Yu, Zhiding; Xiao, Chaowei; Wang, Zhangyang; Yadawa, Jay (7 de março de 2022). «Taxonomy of Machine Learning Safety: A Survey and Primer». arXiv:2106.04823 [cs.LG]

[111] Clifton, Jesse (2020). «Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda». Center on Long-Term Risk (em inglês). Consultado em 18 de julho de 2022. Cópia arquivada em 1 de janeiro de 2023
Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (6 de maio de 2021). «Cooperative AI: machines must learn to find common ground». Nature (em inglês). 593 (7857): 33–36. Bibcode:2021Natur.593...33D. ISSN 0028-0836. PMID 33947992. doi:10.1038/d41586-021-01170-0. Consultado em 12 de setembro de 2022. Cópia arquivada em 18 de dezembro de 2022

[114] Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (6 de maio de 2021). «Cooperative AI: machines must learn to find common ground». Nature (em inglês). 593 (7857): 33–36. Bibcode:2021Natur.593...33D. ISSN 0028-0836. PMID 33947992. doi:10.1038/d41586-021-01170-0. Consultado em 12 de setembro de 2022. Cópia arquivada em 18 de dezembro de 2022

[113] Prunkl, Carina; Whittlestone, Jess (7 de fevereiro de 2020). «Beyond Near- and Long-Term: Towards a Clearer Account of Research Priorities in AI Ethics and Society». New York NY USA: ACM. Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society (em inglês): 138–143. ISBN 978-1-4503-7110-0. doi:10.1145/3375627.3375803. Consultado em 12 de setembro de 2022. Cópia arquivada em 16 de outubro de 2022

[114] Irving, Geoffrey; Askell, Amanda (19 de fevereiro de 2019). «AI Safety Needs Social Scientists». Distill (em inglês). 4 (2): 10.23915/distill.00014. ISSN 2476-0757. doi:10.23915/distill.00014. Consultado em 12 de setembro de 2022. Cópia arquivada em 10 de fevereiro de 2023

[:12-115] Zwetsloot, Remco; Dafoe, Allan (11 de fevereiro de 2019). «Thinking About Risks From AI: Accidents, Misuse and Structure». Lawfare (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022

[:10-116] Zhang, Yingyu; Dong, Chuntong; Guo, Weiqun; Dai, Jiabao; Zhao, Ziming (2022). «Systems theoretic accident model and process (STAMP): A literature review». Safety Science (em inglês). 152. 105596 páginas. doi:10.1016/j.ssci.2021.105596. Consultado em 28 de novembro de 2022. Cópia arquivada em 15 de março de 2023

[117] Center for Security and Emerging Technology; Imbrie, Andrew; Kania, Elsa (2019). «AI Safety, Security, and Stability Among Great Powers: Options, Challenges, and Lessons Learned for Pragmatic Engagement». doi:10.51593/20190051. Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022

[:11-118] Future of Life Institute (27 de março de 2019). AI Strategy, Policy, and Governance (Allan Dafoe) (em inglês). Em cena em 22:05. Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022

[119] Zou, Andy; Xiao, Tristan; Jia, Ryan; Kwon, Joe; Mazeika, Mantas; Li, Richard; Song, Dawn; Steinhardt, Jacob; Evans, Owain; Hendrycks, Dan (9 de outubro de 2022). «Forecasting Future World Events with Neural Networks» (em inglês). arXiv:2206.15474

[120] Gathani, Sneha; Hulsebos, Madelon; Gale, James; Haas, Peter J.; Demiralp, Çağatay (8 de fevereiro de 2022). «Augmenting Decision Making via Interactive What-If Analysis» (em inglês). arXiv:2109.06160

[121] Lindelauf, Roy (2021), Osinga, Frans; Sweijs, Tim, eds., «Nuclear Deterrence in the Algorithmic Age: Game Theory Revisited», ISBN 978-94-6265-418-1, The Hague: T.M.C. Asser Press, NL ARMS Netherlands Annual Review of Military Studies 2020, Nl Arms (em inglês), pp. 421–436, doi:10.1007/978-94-6265-419-8_22, consultado em 24 de novembro de 2022, cópia arquivada em 15 de março de 2023

[:14-122] Newkirk II, Vann R. (21 de abril de 2016). «Is Climate Change a Prisoner's Dilemma or a Stag Hunt?». The Atlantic. Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022

[:142-123] Newkirk II, Vann R. (21 de abril de 2016). «Is Climate Change a Prisoner's Dilemma or a Stag Hunt?». The Atlantic (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022

[:16-124] Armstrong, Stuart; Bostrom, Nick; Shulman, Carl. Racing to the Precipice: a Model of Artificial Intelligence Development (Relatório) (em inglês). Future of Humanity Institute, Oxford University

[:17-125] Dafoe, Allan. AI Governance: A Research Agenda (Relatório) (em inglês). Centre for the Governance of AI, Future of Humanity Institute, University of Oxford

[126] Dafoe, Allan; Hughes, Edward; Bachrach, Yoram; Collins, Tantum; McKee, Kevin R.; Leibo, Joel Z.; Larson, Kate; Graepel, Thore (15 de dezembro de 2020). «Open Problems in Cooperative AI» (em inglês). arXiv:2012.08630

[:15-127] Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (2021). «Cooperative AI: machines must learn to find common ground». Nature (em inglês). 593 (7857): 33–36. Bibcode:2021Natur.593...33D. PMID 33947992. doi:10.1038/d41586-021-01170-0. Consultado em 24 de novembro de 2022. Cópia arquivada em 11 de novembro de 2022

[:152-128] Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (2021). «Cooperative AI: machines must learn to find common ground». Nature (em inglês). 593 (7857): 33–36. Bibcode:2021Natur.593...33D. PMID 33947992. doi:10.1038/d41586-021-01170-0. Consultado em 24 de novembro de 2022. Cópia arquivada em 22 de novembro de 2022

[:112-129] Future of Life Institute (27 de março de 2019). AI Strategy, Policy, and Governance (Allan Dafoe) (em inglês). Em cena em 22:05. Consultado em 23 de novembro de 2022. Cópia arquivada em 23 de novembro de 2022

[130] Crafts, Nicholas (23 de setembro de 2021). «Artificial intelligence as a general-purpose technology: an historical perspective». Oxford Review of Economic Policy (em inglês). 37 (3): 521–536. ISSN 0266-903X. doi:10.1093/oxrep/grab012. Consultado em 28 de novembro de 2022. Cópia arquivada em 24 de novembro de 2011

[131] 葉俶禎; 黃子君; 張媁雯; 賴志樫 (1 de dezembro de 2020). «Labor Displacement in Artificial Intelligence Era: A Systematic Literature Review». 臺灣東亞文明研究學刊 (em inglês). 17 (2). ISSN 1812-6243. doi:10.6163/TJEAS.202012_17(2).0002

[132] Johnson, James (3 de abril de 2019). «Artificial intelligence & future warfare: implications for international security». Defense & Security Analysis (em inglês). 35 (2): 147–169. ISSN 1475-1798. doi:10.1080/14751798.2019.1600800. Consultado em 28 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022

[133] Kertysova, Katarina (12 de dezembro de 2018). «Artificial Intelligence and Disinformation: How AI Changes the Way Disinformation is Produced, Disseminated, and Can Be Countered». Security and Human Rights (em inglês). 29 (1–4): 55–81. ISSN 1874-7337. doi:10.1163/18750230-02901005. Consultado em 28 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022

[134] Feldstein, Steven (2019). The Global Expansion of AI Surveillance (em inglês). Carnegie Endowment for International Peace

[135] The economics of artificial intelligence : an agenda (em inglês). Ajay Agrawal, Joshua Gans, Avi Goldfarb. Chicago: [s.n.] 2019. ISBN 978-0-226-61347-5. OCLC 1099435014. Consultado em 28 de novembro de 2022. Cópia arquivada em 15 de março de 2023

[136] Whittlestone, Jess; Clark, Jack (31 de agosto de 2021). «Why and How Governments Should Monitor AI Development» (em inglês). arXiv:2108.12427

[:20-137] Shevlane, Toby (2022). «Sharing Powerful AI Models | GovAI Blog». Center for the Governance of AI (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022

[138] Askell, Amanda; Brundage, Miles; Hadfield, Gillian (10 de julho de 2019). «The Role of Cooperation in Responsible AI Development» (em inglês). arXiv:1907.04534

[139] Ziegler, Bart. «Is It Time to Regulate AI?». WSJ (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022

[140] Reed, Chris (13 de setembro de 2018). «How should we regulate artificial intelligence?». Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences (em inglês). 376 (2128). 20170360 páginas. Bibcode:2018RSPTA.37670360R. ISSN 1364-503X. PMC 6107539. PMID 30082306. doi:10.1098/rsta.2017.0360

[141] Belton, Keith B. (7 de março de 2019). «How Should AI Be Regulated?». IndustryWeek (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 29 de janeiro de 2022

[142] «Artificial Intelligence Act: Council calls for promoting safe AI that respects fundamental rights». Conselho Europeu (em inglês). 6 de dezembro de 2022

[143] National Security Commission on Artificial Intelligence (2021), Final Report

[144] National Institute of Standards and Technology (12 de julho de 2021). «AI Risk Management Framework». NIST (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022

[145] Richardson, Tim (2021). «Britain publishes 10-year National Artificial Intelligence Strategy» (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 10 de fevereiro de 2023

[:18-146] Office for Artificial Intelligence, Department for Digital, Culture, Media & Sport, and Department for Business, Energy & Industrial Strategy (2021). «Guidance: National AI Strategy». GOV.UK (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 10 de fevereiro de 2023

[147] Office of the Director of National Intelligence; Office of the Director of National Intelligence, Intelligence Advanced Research Projects Activity. «IARPA - TrojAI» (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022

[148] Turek, Matt. «Explainable Artificial Intelligence» (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 19 de fevereiro de 2021

[149] Draper, Bruce. «Guaranteeing AI Robustness Against Deception». Defense Advanced Research Projects Agency (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 9 de janeiro de 2023

[150] National Science Foundation. «Safe Learning-Enabled Systems» (em inglês). Consultado em 27 de fevereiro de 2023. Cópia arquivada em 26 de fevereiro de 2023

[151] Mäntymäki, Matti; Minkkinen, Matti; Birkstedt, Teemu; Viljanen, Mika (2022). «Defining organizational AI governance». AI and Ethics (em inglês). 2 (4): 603–609. ISSN 2730-5953. doi:10.1007/s43681-022-00143-x. Consultado em 28 de novembro de 2022. Cópia arquivada em 15 de março de 2023

[:19-152] Brundage, Miles; Avin, Shahar; Wang, Jasmine; Belfield, Haydn; Krueger, Gretchen; Hadfield, Gillian; Khlaaf, Heidy; Yang, Jingying; Toner, Helen; Fong, Ruth; Maharaj, Tegan; Koh, Pang Wei; Hooker, Sara; Leung, Jade; Trask, Andrew (20 de abril de 2020). «Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims» (em inglês). arXiv:2004.07213

[153] «Welcome to the Artificial Intelligence Incident Database» (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022

[154] Wiblin, Robert; Harris, Keiran (2022). «Nova DasSarma on why information security may be critical to the safe development of AI systems». 80,000 Hours (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022

[155] OpenAI (2 de junho de 2022). «Best Practices for Deploying Language Models». OpenAI (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 15 de março de 2023

[156] OpenAI. «OpenAI Charter». OpenAI (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 4 de março de 2021

[157] Future of Life Institute (2016). «Autonomous Weapons Open Letter: AI & Robotics Researchers». Future of Life Institute (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[nota 1]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[nota 2]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[nota 3]

[nota 4]

[81]

[82]

[83]

[84]

[85]

[86]

[87]

[88]

[89]

[90]

[91]

[92]

[93]

[94]

[95]

[nota 5]

[97]

v d e Inteligência artificial / Inteligência computacional
Temas	Alinhamento de IA Aprendizado de IA Aprendizagem profunda Ética na IA Explosão de IA Progresso da IA Segurança da IA
Tópicos	Alucinação Cérebro artificial Cérebro positrônico Comportamento da Máquina Computação bioinspirada Computação evolucionária Computação social Raciocínio automatizado Raciocínio baseado em casos Rebelião das máquinas Robótica em nuvem
Tipos	Inteligência computacional IA Distribuída IA Explicável IA Generativa IA Geral IA para TI Inteligência de conteúdo Inteligência de enxame Máquina autorreplicadora Máquina Moral Máquina de vetores de suporte Sistema de reconhecimento facial Sistema especialista Sistema multiagente Sistema Tutorial Inteligente Sistemas de Processamento de Informações Neurais Sistemas periciais
Heurísticas	A* Subida de encosta
Meta-heurísticas	Algoritmo genético Pesquisa tabu Colônia de formigas Enxame de partículas GRASP
Aplicações	Adestramento de Cães Arte na IA Classificação estatística Corretor gramatical Governo por algoritmo IA na Música Processamento de linguagem natural Retificação de imagem Reconhecimento de entidade mencionada Reconhecimento de fala Reconhecimento ótico de caracteres
Categoria