Saltar para o conteúdo

Aprendizagem profunda

Origem: Wikipédia, a enciclopédia livre.

A aprendizagem profunda é um subconjunto do aprendizado de máquina que se concentra na utilização de redes neurais para executar tarefas como classificação, regressão e aprendizagem de representação. O campo se inspira na neurociência biológica e é centrado em empilhar neurônios artificiais em camadas e "treiná-los" para processar dados. O adjetivo "profunda" se refere ao uso de múltiplas camadas (variando de três a várias centenas ou milhares) na rede. Os métodos usados podem ser supervisionados, semissupervisionados ou não serem supervisionados.[1]

Algumas arquiteturas comuns de redes de aprendizagem profunds incluem redes totalmente conectadas, redes de crenças profundas, redes neurais recorrentes, redes neurais convolucionais, redes adversárias generativas, transformadoras e campos de radiância neural. Essas arquiteturas foram aplicadas a campos como visão computacional, reconhecimento de fala, processamento de linguagem natural, tradução automática, bioinformática, design de medicamentos, análise de imagens médicas, ciência do clima, inspeção de materiais e programas de jogos de tabuleiro, onde produziram resultados comparáveis e, em alguns casos, superando o desempenho de especialistas humanos.[2][3][4]

As primeiras formas de redes neurais foram inspiradas pelo processamento de informações e nós de comunicação distribuídos em sistemas biológicos, particularmente o cérebro humano. No entanto, as redes neurais atuais não pretendem modelar a função cerebral dos organismos e são geralmente vistas como modelos de baixa qualidade para esse propósito.[5]

A maioria dos modelos modernos de aprendizagem profunda são baseados em redes neurais multicamadas, como redes neurais convolucionais e transformadoras, embora também possam incluir fórmulas proposicionais ou variáveis latentes organizadas em camadas em modelos generativos profundos, como os nós em redes de crenças profundas e máquinas de Boltzmann profundas.[6]

Fundamentalmente, a aprendizagem profunda se refere a uma classe de algoritmos de aprendizado de máquina em que uma hierarquia de camadas é usada para transformar dados de entrada em uma representação progressivamente mais abstrata e composta. Por exemplo, em um modelo de reconhecimento de imagem, a entrada bruta pode ser uma imagem (representada como um tensor de pixels). A primeira camada representacional pode tentar identificar formas básicas, como linhas e círculos, a segunda camada pode compor e codificar arranjos de bordas, a terceira camada pode codificar um nariz e olhos, e a quarta camada pode reconhecer que a imagem contém um rosto.

É importante ressaltar que um processo de aprendizagem profunda pode aprender quais recursos posicionar de forma ideal em qual nível por conta própria. Antes da aprendizagem profunda, as técnicas de aprendizado de máquina frequentemente envolviam engenharia de recursos feita à mão para transformar os dados em uma representação mais adequada para um algoritmo de classificação operar. Na abordagem de aprendizagem profunda, os recursos não são feitos à mão e o modelo descobre representações úteis de recursos a partir dos dados automaticamente. Isso não elimina a necessidade de ajuste manual; por exemplo, números variados de camadas e tamanhos de camadas podem fornecer diferentes graus de abstração.[7][1]

A palavra "profunda" em "aprendizagem profunda" se refere ao número de camadas através das quais os dados são transformados. Mais precisamente, os sistemas de aprendizagem profunda têm uma profundidade substancial de caminho de atribuição de crédito (CAP). O caminho de atribuição de crédito é a sequência de transformações de entrada para saída. Os caminhos de atribuição de crédito descrevem conexões potencialmente causais entre entrada e saída. Para uma rede neural feedforward, a profundidade dos caminhos de atribuição de crédito é a da rede e é o número de camadas ocultas mais uma (já que a camada de saída também é parametrizada). Para redes neurais recorrentes, nas quais um sinal pode se propagar através de uma camada mais de uma vez, a profundidade do caminho de atribuição de crédito é potencialmente ilimitada.[8] Nenhum limite universalmente acordado de profundidade divide a aprendizagem superficial da aprendizagem profunda, mas a maioria dos pesquisadores concorda que a aprendizagem profunda envolve profundidade de caminho de atribuição de crédito maior que dois. O caminho de atribuição de crédito de profundidade dois demonstrou ser um aproximador universal no sentido de que pode emular qualquer função.[9] Além disso, mais camadas não aumentam a capacidade de aproximação de função da rede. Modelos profundos (caminho de atribuição de crédito maior que dois) conseguem extrair melhores características do que modelos superficiais e, portanto, camadas extras ajudam a aprender as características de forma eficaz.

Arquiteturas de aprendizagem profunda podem ser construídas com um método ganancioso camada por camada.[10] A aprendizagem profunda ajuda a desembaraçar essas abstrações e escolher quais recursos melhoram o desempenho.[7]

Algoritmos de aprendizagem profunda podem ser aplicados a tarefas de aprendizado que não são supervisionadas. Este é um benefício importante porque dados que não são rotulados são mais abundantes do que os dados rotulados. Exemplos de estruturas profundas que podem ser treinadas de maneira que não é supervisionada são redes de crenças profundas.[7][11]

O termo aprendizagem profunda foi introduzido na comunidade de aprendizado de máquina por Rina Dechter em 1986,[12] e nas redes neurais artificiais por Igor Aizenberg e colegas em 2000, no contexto de neurônios de limiar booleano.[13][14] Embora a história de seu surgimento seja aparentemente mais complicada.[15]

Interpretações

[editar | editar código-fonte]

Redes neurais profundas são geralmente interpretadas em termos do teorema da aproximação universal[16][17][18][19][20] ou da inferência probabilística.[21][22][7][8][23]

O teorema clássico da aproximação universal diz respeito à capacidade das redes neurais feedforward com uma única camada oculta de tamanho finito para aproximar funções contínuas.[16][17][18][19] Em 1989, a primeira prova foi publicada por George Cybenko para funções de ativação sigmoides[16] e foi generalizada para arquiteturas multicamadas feed-forward em 1991 por Kurt Hornik.[17] Trabalhos recentes também mostraram que a aproximação universal também é válida para funções de ativação que não são limitadas, como a unidade linear retificada (ReLU) de Kunihiko Fukushima.[24][25]

O teorema da aproximação universal para redes neurais profundas diz respeito à capacidade de redes com largura limitada, mas a profundidade pode crescer. Lu et al.[20] provaram que se a largura de uma rede neural profunda com ativação de unidade linear retificada (ReLU) for estritamente maior do que a dimensão de entrada, então a rede pode aproximar qualquer função integrável de Lebesgue; se a largura for menor ou igual à dimensão de entrada, então uma rede neural profunda não é um aproximador universal.

A interpretação probabilística[23] deriva do campo do aprendizado de máquina. Ela apresenta inferência,[22][6][7][8][11][23] bem como os conceitos de otimização de treinamento e teste, relacionados ao ajuste e generalização, respectivamente. Mais especificamente, a interpretação probabilística considera a não linearidade de ativação como uma função de distribuição cumulativa.[23] A interpretação probabilística levou à introdução do abandono (dropout) ou da diluição como regularizador em redes neurais. A interpretação probabilística foi introduzida por pesquisadores como Hopfield, Widrow, e Narendra e popularizada em pesquisas como a de Bishop.[26]

Antes de 1980

[editar | editar código-fonte]

Existem dois tipos de redes neurais artificiais (ANNs): redes neurais feedforward (FNNs) ou perceptrons multicamadas (MLPs) e redes neurais recorrentes (RNNs). As redes neurais recorrentes têm ciclos em suas estruturas de conectividade, as redes neurais feedforward não. Na década de 1920, Wilhelm Lenz e Ernst Ising criaram o modelo de Ising[27][28] que é essencialmente uma arquitetura de rede neural recorrente que não é de aprendizagem consistindo de elementos de limiar semelhantes a neurônios. Em 1972, Shun'ichi Amari tornou essa arquitetura adaptável.[29][30] Sua rede neural recorrente de aprendizagem foi republicada por John Hopfield em 1982.[31] Outras redes neurais recorrentes anteriores foram publicadas por Kaoru Nakano em 1971.[32][33] Já em 1948, Alan Turing produziu um trabalho sobre "Maquinário Inteligente" que não foi publicado em sua vida,[34] contendo "ideias relacionadas a redes neurais recorrentes de aprendizagem e evolução artificiais".[30]

Frank Rosenblatt (1958)[35] propôs a perceptron, uma perceptron multicamadas com 3 camadas: uma camada de entrada, uma camada oculta com pesos aleatórios que não aprendiam e uma camada de saída. Mais tarde, ele publicou um livro em 1962 que também introduziu experimentos de computador e variantes, incluindo uma versão com perceptrons de quatro camadas "com redes pré-terminais adaptativas" onde as duas últimas camadas aprenderam pesos (aqui ele dá créditos a H. D. Block e B. W. Knight).[36]:secção 16 O livro cita uma rede anterior de R. D. Joseph (1960)[37] "funcionalmente equivalente a uma variação" deste sistema de quatro camadas (o livro menciona Joseph mais de 30 vezes). Joseph deve, portanto, ser considerado o criador das perceptrons multicamadas adaptativas com unidades ocultas de aprendizagem próprias? Infelizmente, o algoritmo de aprendizagem não era funcional e caiu no esquecimento.

O primeiro algoritmo de aprendizagem profunda funcional foi o método de manipulação de dados de grupo, um método para treinar redes neurais profundas arbitrariamente, publicado por Alexey Ivakhnenko e Lapa em 1965. Eles o consideraram uma forma de regressão polinomial,[38] ou uma generalização da perceptron de Rosenblatt.[39] Um artigo de 1971 descreveu uma rede profunda com oito camadas treinada por este método,[40] que é baseado no treinamento de camada por camada por meio de análise de regressão. Unidades ocultas supérfluas são podadas usando um conjunto de validação separado. Como as funções de ativação dos nós são polinômios de Kolmogorov e Gabor, essas também foram as primeiras redes profundas com "portas" ou unidades multiplicativas.[30]

A primeira perceptron multicamadas de aprendizagem profunda treinada por descida de gradiente estocástica[41] foi publicada em 1967 por Shun'ichi Amari.[42] Em experimentos de computador conduzidos pelo aluno de Amari, Saito, uma perceptron multicamadas de cinco camadas com duas camadas modificáveis aprendeu representações internas para classificar classes de padrões que não são separáveis linearmente.[30] Desenvolvimentos subsequentes em ajustes de hiperparâmetros e hardware fizeram da descida de gradiente estocástica de ponta a ponta a técnica de treinamento dominante atualmente.

Em 1969, Kunihiko Fukushima introduziu a função de ativação de ReLU (unidade linear retificada).[24][30] A retificadora se tornou a função de ativação mais popular para aprendizagem profunda.[43]

As arquiteturas de aprendizagem profunda para redes neurais convolucionais (CNNs) com camadas convolucionais e camadas de redução de amostragem começaram com a Neocognitron introduzida por Kunihiko Fukushima em 1979, embora não ter sido treinada por retropropagação.[44][45]

A retropropagação é uma aplicação eficiente da regra sequencial derivada por Gottfried Wilhelm Leibniz em 1673[46] para redes de nós diferenciáveis. A terminologia "erros de retropropagação" foi realmente introduzida em 1962 por Rosenblatt,[36] mas ele não sabia como implementar isso, embora Henry J. Kelley tivesse um precursor contínuo da retropropagação em 1960 no contexto da teoria de controle.[47] A forma moderna de retropropagação foi publicada pela primeira vez na tese de mestrado de Seppo Linnainmaa (1970).[48][49][30] G.M. Ostrovski et al. republicaram em 1971.[50][51] Paul Werbos aplicou a retropropagação às redes neurais em 1982[52] (sua tese de doutorado de 1974, reimpressa em um livro de 1994,[53] ainda não descreveu o algoritmo[51]). Em 1986, David E. Rumelhart et al. popularizaram a retropropagação, mas não citaram o trabalho original.[54][55]

Décadas de 1980 a 2000

[editar | editar código-fonte]

A rede neural de atraso de tempo (TDNN) foi introduzida em 1987 por Alex Waibel para aplicar rede neural convolucional ao reconhecimento de fonemas. Ela usava convoluções, compartilhamento de peso e retropropagação.[56][57] Em 1988, Wei Zhang aplicou uma rede neural convolucional treinada em retropropagação ao reconhecimento de alfabeto.[58] Em 1989, Yann LeCun et al. criaram uma rede neural convolucional chamada LeNet para reconhecer códigos postais manuscritos em correspondências. O treinamento levou 3 dias.[59] Em 1990, Wei Zhang implementou uma rede neural convolucional em hardware de computação óptica.[60] Em 1991, uma rede neural convolucional foi aplicada à segmentação de objetos de imagens médicas[61] e à detecção de câncer de mama em mamografias.[62] A LeNet-5 (1998), uma rede neural convolucional de 7 níveis de Yann LeCun et al., que classifica dígitos, foi aplicada por vários bancos para reconhecer números manuscritos em cheques digitalizados em imagens de 32x32 pixels.[63]

As redes neurais recorrentes (RNNs)[27][29] foram desenvolvidas ainda mais na década de 1980. A recorrência é usada para processamento de sequências e, quando uma rede recorrente é desenrolada, ela se assemelha matematicamente a uma camada de feedforward profunda. Consequentemente, elas têm propriedades e problemas semelhantes, e seus desenvolvimentos tiveram influências mútuas. Em redes neurais recorrentes, dois primeiros trabalhos influentes foram a rede de Jordan (1986)[64] e a rede de Elman (1990),[65] que aplicaram redes neurais recorrentes para estudar problemas em psicologia cognitiva.

Na década de 1980, a retropropagação não funcionou bem para aprendizagem profunda com longos caminhos de atribuição de crédito. Para superar esse problema, em 1991, Jürgen Schmidhuber propôs uma hierarquia de redes neurais recorrentes pré-treinadas um nível de cada vez por aprendizado autossupervisionado, onde cada rede neural recorrente tenta prever sua própria próxima entrada, que é a próxima entrada inesperada da rede neural recorrente abaixo.[66][67] Este "compressor de histórico neural" usa codificação preditiva para aprender representações internas em múltiplas escalas de tempo auto-organizadas. Isso pode facilitar substancialmente a aprendizagem profunda a jusante. A hierarquia da rede neural recorrente pode ser colapsada em uma única rede neural recorrente, destilando uma rede fragmentadora de nível superior em uma rede automatizadora de nível inferior.[66][67][30] Em 1993, um compressor de histórico neural resolveu uma tarefa de "aprendizagem muito profunda" que exigia mais de 1000 camadas subsequentes em uma rede neural recorrente desdobrada no tempo.[68] O "P" em ChatGPT se refere a esse pré-treinamento.

A tese de diploma de Sepp Hochreiter (1991)[69] implementou o compressor de história neural,[66] e identificou e analisou o problema do gradiente de desaparecimento.[69][70] Hochreiter propôs conexões residuais recorrentes para resolver o problema do gradiente de desaparecimento. Isso levou à memória de curto prazo longa (LSTM), publicada em 1995.[71] A memória de curto prazo longa pode aprender tarefas de "aprendizagem muito profunda"[8] com longos caminhos de atribuição de crédito que exigem memórias de eventos que aconteceram milhares de passos de tempo discretos antes. Essa memória de curto prazo longa ainda não era a arquitetura moderna, que exigia uma "portão de esquecimento", introduzido em 1999,[72] que se tornou a arquitetura de rede neural recorrente padrão.

Em 1991, Jürgen Schmidhuber também publicou redes neurais adversárias que competem entre si na forma de um jogo de soma zero, onde o ganho de uma rede é a perda da outra rede.[73][74] A primeira rede é um modelo generativo que modela uma distribuição de probabilidade sobre padrões de saída. A segunda rede aprende por descida do gradiente para prever as reações do ambiente a esses padrões. Isso foi chamado de "curiosidade artificial". Em 2014, esse princípio foi usado em redes adversárias generativas (GANs).[75]

Durante 1985–1995, inspirados pela mecânica estatística, várias arquiteturas e métodos foram desenvolvidos por Terry Sejnowski, Peter Dayan, Geoffrey Hinton, etc., incluindo a máquina de Boltzmann,[76] a máquina de Boltzmann restrita,[77] a máquina de Helmholtz,[78] e o algoritmo de vigília e sono.[79] Eles foram projetados para aprendizado que não é supervisionado de modelos generativos profundos. No entanto, esses eram mais caros computacionalmente em comparação com a retropropagação. O algoritmo de aprendizado de máquina de Boltzmann, publicado em 1985, foi brevemente popular antes de ser eclipsado pelo algoritmo de retropropagação em 1986. (p. 112 [80]). Uma rede de 1988 se tornou o estado da arte na predição das estruturas de proteínas, uma aplicação inicial da aprendizagem profunda à bioinformática.[81]

Tanto a aprendizagem superficial quanto a profunda (por exemplo, redes recorrentes) de redes neurais artificiais para reconhecimento de fala têm sido explorados por muitos anos.[82][83][84] Esses métodos nunca superaram a tecnologia do modelo de mistura gaussiana/modelo de Markov oculto (GMM-HMM) manual interno que não é uniforme baseada em modelos generativos de fala treinados discriminativamente.[85] As principais dificuldades foram analisadas, incluindo a diminuição de gradiente[69] e a estrutura de correlação temporal fraca em modelos preditivos neurais.[86][87] Dificuldades adicionais foram a falta de dados de treinamento e poder de computação limitado.

A maioria dos pesquisadores de reconhecimento de fala se afastou das redes neurais para buscar modelagem generativa. Uma exceção foi no SRI International no final da década de 1990. Financiado pela NSA e pela DARPA do governo dos EUA, o SRI pesquisou em reconhecimentos de fala e falante. A equipe de reconhecimento de falante liderada por Larry Heck relatou sucesso significativo com redes neurais profundas no processamento de fala no benchmark de reconhecimento de falante do NIST de 1998.[88][89] Foi implantado no Nuance Verifier, representando a primeira grande aplicação industrial da aprendizagem profunda.[90]

O princípio de elevar características "brutas" sobre otimização manual foi explorado pela primeira vez com sucesso na arquitetura do autocodificador profundo nas características de bancos de filtros lineares ou espectrogramas "brutos" no final da década de 1990,[89] mostrando sua superioridade sobre as características Mel-Cepstrais que contêm estágios de transformações fixas a partir de espectrogramas. As características brutas da fala, as formas das ondas, mais tarde produziram excelentes resultados em larga escala.[91]

Décadas de 2000

[editar | editar código-fonte]

As redes neurais entraram em declínio, e modelos mais simples que usam recursos artesanais específicos para tarefas, como filtros de Gabor e máquinas de vetores de suporte (SVMs), tornaram-se as escolhas preferidas nas décadas de 1990 e 2000, devido ao custo computacional das redes neurais artificiais e à falta de compreensão de como o cérebro conecta suas redes biológicas.

Em 2003, a memória de curto prazo longa tornou-se competitiva com os reconhecedores de fala tradicionais em certas tarefas.[92] Em 2006, Alex Graves, Santiago Fernández, Faustino Gomez e Schmidhuber combinaram-na com a classificação temporal conexionista (CTC)[93] em pilhas de memórias de curto prazo longas.[94] Em 2009, tornou-se a primeira rede neural recorrente a vencer um concurso de reconhecimento de padrões, em reconhecimento de escrita manual conectada.[95][8]

Em 2006, publicações de Geoff Hinton, Ruslan Salakhutdinov, Osindero e Teh[96][97] redes de crenças profundas foram desenvolvidas para modelagem generativa. Elas são treinadas treinando uma máquina de Boltzmann restrita, então congelando-a e treinando outra em cima da primeira, e assim por diante, então opcionalmente ajustadas usando retropropagação supervisionada.[98] Elas poderiam modelar distribuições de probabilidade de alta dimensão, como a distribuição de imagens do Banco de dados do Instituto Nacional de Padrões e Tecnologia modificado (MNIST), mas a convergência era lenta.[99][100][101]

O impacto da aprendizagem profunda na indústria começou no início dos anos 2000, quando as redes neurais convolucionais já processavam cerca de 10% a 20% de todos os cheques emitidos nos EUA, de acordo com Yann LeCun.[102] As aplicações industriais da aprendizagem profunda para reconhecimento de fala em larga escala começaram por volta de 2010.

A Oficina sobre Sistemas de Processamento de Informações Neurais (NIPS) de 2009 sobre Aprendizagem Profunds para Reconhecimento de Fala foi motivada pelas limitações de modelos generativos profundos de fala e pela possibilidade de que, dado hardware mais capaz e conjuntos de dados em larga escala, as redes neurais profundas pudessem se tornar práticas. Acreditava-se que o pré-treinamento de redes neurais profundas usando modelos generativos de redes de crenças profundas superaria as principais dificuldades das redes neurais. No entanto, descobriu-se que a substituição do pré-treinamento por grandes quantidades de dados de treinamento para retropropagação direta ao usar redes neurais profundas com grandes camadas de saída dependentes do contexto produzia taxas de erros dramaticamente menores do que o modelo de mistura gaussiana/modelo de Markov oculto de então última geração e também do que sistemas baseados em modelos generativos mais avançados.[103] A natureza dos erros de reconhecimento produzidos pelos dois tipos de sistemas era caracteristicamente diferente,[104] oferecendo percepções técnicas sobre como integrar a aprendizagem profunda no sistema de decodificação de fala altamente eficiente e em tempo de execução existente, implantado por todos os principais sistemas de reconhecimento de fala.[22][105][106] A análise por volta de 2009 e 2010, contrastando o modelo de mistura gaussiana (e outros modelos de fala generativa) versus modelos de redes neurais profundas, estimulou o investimento industrial inicial em aprendizagem profunda para reconhecimento de fala.[104] Essa análise foi feita com desempenho comparável (menos de 1,5% na taxa de erros) entre modelos generativos e redes neurais profundas discriminativos.[103][104][107] Em 2010, os pesquisadores estenderam a aprendizagem profunda a partir do TIMIT para o reconhecimento de fala de vocabulário grande, adotando grandes camadas de saída da rede neural profunda com base em estados do modelo de Markov oculto dependentes do contexto construídos por árvores de decisões.[108][109][110][105]

Revolução da aprendizagem profunda

[editar | editar código-fonte]
Como a aprendizagem profunda é um subconjunto do aprendizado de máquina e como o aprendizado de máquina é um subconjunto da inteligência artificial (IA)

A revolução da aprendizagem profunda começou em torno da visão computacional baseada em redes neurais convolucionais e em GPUs.

Embora as redes neurais convolucionais treinadas por retropropagação já existissem há décadas e implementações de redes neurais em GPUs há anos,[111] incluindo redes neurais convolucionais,[112] implementações mais rápidas de redes neurais convolucionais em GPUs eram necessárias para progredir na visão computacional. Mais tarde, conforme a aprendizagem profunda se tornou difundido, otimizações de algoritmo e hardware especializados foram desenvolvidos especificamente para aprendizagem profunda.[113]

Um avanço fundamental para a revolução da aprendizagem profunda foram os avanços de hardware, especialmente GPUs. Alguns trabalhos iniciais datam de 2004.[111][112] Em 2009, Raina, Madhavan e Andrew Ng relataram uma rede de crenças profundas de 100M treinada em 30 GPUs GeForce GTX 280 da Nvidia, uma demonstração inicial de aprendizagem profunda baseada em GPUs. Eles relataram um treinamento até 70 vezes mais rápido.[114]

Em 2011, uma rede neural convolucional chamada DanNet[115][116] por Dan Ciresan, Ueli Meier, Jonathan Masci, Luca Maria Gambardella e Jürgen Schmidhuber alcançou pela primeira vez um desempenho sobre-humano em um concurso de reconhecimento de padrões visuais, superando os métodos tradicionais por um fator de 3.[8] Em seguida, ganhou mais concursos.[117][118] Eles também mostraram como o pool máximo de redes neurais convolucionais em GPUs melhorou significativamente o desempenho.[2]

Em 2012, Andrew Ng e Jeff Dean criaram uma rede neural feedforward que aprendeu a reconhecer conceitos de nível superior, como gatos, apenas assistindo a imagens que não são rotuladas tiradas de vídeos do YouTube.[119]

Em outubro de 2012, AlexNet por Alex Krizhevsky, Ilya Sutskever e Geoffrey Hinton[3] venceu a competição ImageNet em larga escala por uma margem significativa sobre métodos de aprendizado de máquina rasos. Outras melhorias incrementais incluíram a rede VGG-16 por Karen Simonyan e Andrew Zisserman[120] e a Inceptionv3 do Google.[121]

O sucesso na classificação de imagens foi então estendido para a tarefa mais desafiadora de gerar descrições (legendas) para imagens, geralmente como uma combinação de redes neurais convolucionais e memórias de curto prazo longas.[122][123][124]

Em 2014, o estado da arte era treinar "rede neural muito profunda" com 20 a 30 camadas.[125] Empilhar muitas camadas levou a uma redução acentuada na precisão do treinamento,[126] conhecida como problema de "degradação".[127] Em 2015, duas técnicas foram desenvolvidas para treinar redes muito profundas: a Highway Network foi publicada em maio de 2015, e a rede neural residual (ResNet)[128] em dezembro de 2015. A ResNet se comporta como uma Highway Net de portas abertas.

Na mesma época, a aprendizagem profunda começou a impactar o campo da arte. Os primeiros exemplos incluíram o DeepDream do Google (2015) e a transferência de estilo neural (2015),[129] ambos baseados em redes neurais de classificação de imagens pré-treinadas, como a VGG-19.

A rede adversária generativa (GAN) (de Ian Goodfellow et al., 2014)[130] (com base no princípio da curiosidade artificial de Jürgen Schmidhuber[73][75]) tornou-se o estado da arte na modelagem generativa durante o período de 2014 a 2018. Excelente qualidade de imagem é alcançada pela StyleGAN da Nvidia (2018)[131] com base na rede adversária generativa progressiva de Tero Karras et al.[132] Aqui, o gerador da rede adversária generativa é desenvolvido de pequena para grande escala de forma piramidal. A geração de imagens por rede adversária generativa alcançou sucesso popular e provocou discussões sobre deepfakes.[133] Os modelos de difusão (2015)[134] eclipsaram as redes adversárias generativas na modelagem generativa desde então, com sistemas como DALL·E 2 (2022) e Stable Diffusion (2022).

Em 2015, o reconhecimento de fala do Google melhorou em 49% por um modelo baseado em memória de curto prazo longa, que eles disponibilizaram por meio do Google Voice Search em smartphones.[135][136]

A aprendizagem profunda faz parte de sistemas de última geração em várias disciplinas, particularmente visão computacional e reconhecimento de fala automático (ASR). Os resultados em conjuntos de avaliação comumente usados, como o TIMIT (ASR) e o MNIST (classificação de imagens), bem como uma variedade de tarefas de reconhecimento de fala de vocabulário amplo, melhoraram constantemente.[103][137] As redes neurais convolucionais foram substituídas para reconhecimento automático de fala por memórias de curto prazo longas,[136][138][139][140] mas são mais bem-sucedidas em visão computacional.

Yoshua Bengio, Geoffrey Hinton e Yann LeCun receberam o Prêmio Turing de 2018 por "avanços conceituais e de engenharia que tornaram as redes neurais profundas um componente crítico da computação".[141]

Redes neurais

[editar | editar código-fonte]
Exemplo simplificado de treinamento de uma rede neural na detecção de objetos: A rede é treinada por várias imagens que são conhecidas por representar estrelas do mar e ouriços-do-mar, que são correlacionadas com "nós" que representam características visuais. As estrelas do mar combinam com uma textura anelada e um contorno de estrela, enquanto a maioria dos ouriços-do-mar combinam com uma textura listrada e formato oval. No entanto, a instância de um ouriço-do-mar com textura anelar cria uma associação fracamente ponderada entre eles.
Execução subsequente da rede em uma imagem de entrada (esquerda):[142] A rede detecta corretamente a estrela-do-mar. No entanto, a associação fracamente ponderada entre textura anelada e ouriço-do-mar também confere um sinal fraco a este último de um dos dois nós intermediários. Além disso, uma concha que não foi incluída no treinamento fornece um sinal fraco para a forma oval, resultando também em um sinal fraco para a saída do ouriço-do-mar. Esses sinais fracos podem resultar em um resultado falso positivo para o ouriço-do-mar. Na realidade, texturas e contornos não seriam representados por nós únicos, mas sim por padrões de peso associados de vários nós.

Redes neurais artificiais (ANNs) ou sistemas conexionistas são sistemas de computação inspirados nas redes neurais biológicas que constituem os cérebros dos animais. Tais sistemas aprendem (melhoram progressivamente sua capacidade de) fazer tarefas considerando exemplos, geralmente sem programação específica para a tarefa. Por exemplo, no reconhecimento de imagens, eles podem aprender a identificar imagens que contêm gatos analisando imagens de exemplo que foram rotuladas manualmente como "gato" ou "sem gato" e usando os resultados analíticos para identificar gatos em outras imagens. Eles encontraram mais uso em aplicações difíceis de expressar com um algoritmo de computador tradicional usando programação baseada em regras.

Uma rede neural artificial (RNA) é baseada em uma coleção de unidades conectadas chamadas neurônios artificiais (análogos aos neurônios biológicos em um cérebro biológico). Cada conexão (sinapse) entre neurônios pode transmitir um sinal para outro neurônio. O neurônio receptor (pós-sináptico) pode processar o(s) sinal(ais) e então sinalizar os neurônios a jusante conectados a ele. Os neurônios podem ter estado, geralmente representados por números reais, tipicamente entre 0 e 1. Neurônios e sinapses também podem ter um peso que varia conforme o aprendizado prossegue, o que pode aumentar ou diminuir a força do sinal que ele envia a jusante.

Normalmente, os neurônios são organizados em camadas. Camadas diferentes podem executar diferentes tipos de transformações em suas entradas. Os sinais viajam da primeira (entrada) para a última camada (saída), possivelmente após atravessar as camadas várias vezes.

O objetivo original da abordagem da rede neural era resolver problemas da mesma forma que um cérebro humano faria. Com o tempo, a atenção se concentrou em combinar habilidades mentais específicas, levando a desvios da biologia, como retropropagação ou passagem de informações na direção reversa e ajuste da rede para refletir essas informações.

As redes neurais têm sido usadas em uma variedade de tarefas, incluindo visão computacional, reconhecimento de fala, tradução automática, filtragem de redes sociais, jogos de tabuleiro e vídeo, e diagnóstico médico.

Em 2017, as redes neurais normalmente tinham alguns milhares a alguns milhões de unidades e milhões de conexões. Apesar desse número ser várias ordens de magnitude menor do que o número de neurônios em um cérebro humano, essas redes podem executar muitas tarefas em um nível além do dos humanos (por exemplo, reconhecer rostos ou jogar "Go"[143]).

Redes neurais profundas

[editar | editar código-fonte]

Uma rede neural profunda (DNN) é uma rede neural artificial com múltiplas camadas entre as camadas de entrada e saída.[6][8] Existem diferentes tipos de redes neurais, mas elas sempre consistem nos mesmos componentes: neurônios, sinapses, pesos, vieses e funções.[144] Esses componentes como um todo funcionam de uma forma que imita funções do cérebro humano e podem ser treinados como qualquer outro algoritmo de aprendizado de máquina.

Por exemplo, uma rede neural profunda treinada para reconhecer raças de cães examinará a imagem fornecida e calculará a probabilidade de que o cão na imagem seja de uma determinada raça. O usuário pode revisar os resultados e selecionar quais probabilidades a rede deve exibir (acima de um certo limite, etc.) e retornar o rótulo proposto. Cada manipulação matemática como tal é considerada uma camada,[145] e redes neurais profundas complexas têm muitas camadas, daí o nome redes "profundas".

As redes neurais profundas podem modelar relacionamentos que não são lineares complexos. As arquiteturas dad redes neurais profundas geram modelos composicionais onde o objeto é expresso como uma composição em camadas de primitivos.[146] As camadas extras permitem a composição de recursos de camadas inferiores, potencialmente modelando dados complexos com menos unidades do que uma rede rasa de desempenho semelhante.[6] Por exemplo, foi provado que polinômios multivariados esparsos são exponencialmente mais fáceis de aproximar com redes neurais profundas do que com redes rasas.[147]

As arquiteturas profundas incluem muitas variantes de algumas abordagens básicas. Cada arquitetura obteve sucesso em domínios específicos. Nem sempre é possível comparar o desempenho de múltiplas arquiteturas, a menos que tenham sido avaliadas nos mesmos conjuntos de dados.[145]

As redes neurais profundas são tipicamente redes feedforward nas quais os dados fluem da camada de entrada para a camada de saída sem fazer loopback. Primeiramente, a rede neural profunda cria um mapa de neurônios virtuais e atribui valores numéricos aleatórios, ou "pesos", às conexões entre eles. Os pesos e entradas são multiplicados e retornam uma saída entre 0 e 1. Se a rede não reconhecesse com precisão um padrão específico, um algoritmo ajustaria os pesos.[148] Dessa forma, o algoritmo pode tornar certos parâmetros mais influentes, até determinar a manipulação matemática correta para processar completamente os dados.

As redes neurais recorrentes, nas quais os dados podem fluir em qualquer direção, são usadas para aplicações como modelagem de linguagem.[149][150][151][152][153] A memória de curto prazo longa é particularmente eficaz para esse uso.[154][155]

As redes neurais convolucionais (CNNs) são usadas em visão computacional.[156] As redes neurais convolucionais também foram aplicadas à modelagem acústica para reconhecimento automático de fala (ASR).[157]

Assim como com redes neurais artificiais, muitos problemas podem surgir com redes neurais profundas treinadas ingenuamente. Dois problemas comuns são o ajuste excessivo e o tempo de computação.

As redes neurais profundas são propensas a ajuste excessivo por causa das camadas de abstração adicionadas, que permitem que elas modelem dependências raras nos dados de treinamento. Métodos de regularização como a poda de unidade de Ivakhnenko[40] ou o decaimento de peso (regularização de ) ou esparsidade (regularização de ) podem ser aplicados durante o treinamento para combater ajuste excessivo.[158] Alternativamente, a regularização de abandono omite aleatoriamente unidades das camadas ocultas durante o treinamento. Isso ajuda a excluir dependências raras.[159] Outro desenvolvimento recente interessante é a pesquisa em modelos de complexidade suficiente por meio de uma estimativa da complexidade intrínseca da tarefa que está sendo modelada. Essa abordagem foi aplicada com sucesso para tarefas de previsão de séries temporais multivariadas, como previsão de tráfego.[160] Finalmente, os dados podem ser aumentados por meio de métodos como corte e rotação, de modo que conjuntos de treinamento menores possam ser aumentados em tamanho para reduzir as chances de ajuste excessivo.[161]

As redes neurais profundas devem considerar muitos parâmetros de treinamento, como o tamanho (número de camadas e número de unidades por camada), a taxa de aprendizado e pesos iniciais. Varrer o espaço de parâmetros para parâmetros ideais pode não ser viável devido ao custo em tempo e recursos computacionais. Vários truques, como loteamento (computação do gradiente em vários exemplos de treinamento de uma vez em vez de exemplos individuais)[162] aceleram a computação. Grandes capacidades de processamento de arquiteturas de muitos núcleos (como GPUs ou o Intel Xeon Phi) produziram acelerações significativas no treinamento, devido à adequação de tais arquiteturas de processamento para as computações de matriz e vetor.[163][164]

Alternativamente, os engenheiros podem procurar outros tipos de redes neurais com algoritmos de treinamento mais diretos e convergentes. A controladora de articulação de modelo cerebelar (CMAC) é uma desses tipos de rede neural. Ela não requer taxas de aprendizado ou pesos iniciais randomizados. O processo de treinamento pode ser garantido para convergir em uma etapa com um novo lote de dados, e a complexidade computacional do algoritmo de treinamento é linear em relação ao número de neurônios envolvidos.[165][166]

Desde a década de 2010, os avanços em algoritmos de aprendizado de máquina e hardware de computador levaram a métodos mais eficientes para treinar redes neurais profundas que contêm muitas camadas de unidades ocultas que não são lineares e uma camada de saída muito grande.[167] Em 2019, unidades de processamento gráfico (GPUs), geralmente com aprimoramentos específicos de IA, substituíram as CPUs como o método dominante para treinar IA de nuvem comercial em larga escala.[168] A OpenAI estimou a computação de hardware usada nos maiores projetos de aprendizagem profunda de AlexNet (2012) a AlphaZero (2017) e encontrou um aumento de 300.000 vezes na quantidade de computação necessária, com uma linha de tendência de tempo de duplicação de 3,4 meses.[169][170]

Circuitos eletrônicos especiais chamados processadores de aprendizagem profunda foram projetados para acelerar algoritmos de aprendizagem profunda. Os processadores de aprendizagem profunda incluem unidades de processamento neural (NPUs) em celulares Huawei[171] e servidores de computação em nuvem, como unidades de processamento tensorial (TPU) na Google Cloud Platform.[172] A Cerebras Systems também construiu um sistema dedicado para lidar com grandes modelos de aprendizagem profunda, o CS-2, baseado no maior processador do setor, o Wafer Scale Engine de segunda geração (WSE-2).[173][174]

Semicondutores atomicamente finos são considerados promissores para hardware de aprendizagem profunda com eficiência energética, onde a mesma estrutura básica do dispositivo é usada para operações lógicas e armazenamento de dados. Em 2020, Marega et al. publicaram experimentos com um material de canal ativo de grande área para desenvolver dispositivos e circuitos lógicos na memória baseados em transistores de efeito de campo de porta flutuante (FGFETs).[175]

Em 2021, J. Feldmann et al. propuseram um acelerador de hardware fotônico integrado para processamento convolucional paralelo.[176] Os autores identificam duas vantagens principais da fotônica integrada sobre suas contrapartes eletrônicas: (1) transferência de dados massivamente paralela por meio de multiplexação por divisão de comprimento de onda em conjunto com pentes de frequência e (2) velocidades de modulação de dados extremamente altas.[176] Seu sistema pode executar trilhões de operações de multiplicação e acumulação por segundo, indicando o potencial da fotônica integrada em aplicações de IA com muitos dados.[176]

Reconhecimento automático de fala

[editar | editar código-fonte]

O reconhecimento automático de fala em larga escala é o primeiro e mais convincente caso bem-sucedido de aprendizado profundo. Redes neurais recorrentes de memórias de curto prazo longas podem aprender tarefas de "Aprendizado Muito Profundo"[8] que envolvem intervalos de vários segundos contendo eventos de fala separados por milhares de passos de tempo discretos, onde um passo de tempo corresponde a cerca de 10 milissegundos. Memórias de curto prazo longas com portas de esquecimento[155] são competitivas com reconhecedores de fala tradicionais em certas tarefas.[92]

O sucesso inicial no reconhecimento de fala foi baseado em tarefas de reconhecimento em pequena escala baseadas no TIMIT. O conjunto de dados contém 630 falantes de oito dialetos principais do inglês americano, onde cada falante lê 10 frases.[177] Seu pequeno tamanho permite que muitas configurações sejam tentadas. Mais importante, a tarefa TIMIT diz respeito ao reconhecimento de sequência de fonemas, que, diferentemente do reconhecimento de sequência de palavras, permite modelos de linguagem de bigramas de fonemas fracos. Isso permite que a força dos aspectos de modelagem acústica do reconhecimento de fala seja mais facilmente analisada. As taxas de erro listadas abaixo, incluindo esses resultados iniciais e medidas como taxas de erro de fonemas percentuais (PER), foram resumidas desde 1991.

Método Taxa de erro de fonemas
percentual (PER) (%)
Randomly Initialized RNN[178] 26,1
Bayesian Triphone GMM-HMM 25,6
Hidden Trajectory (Generative) Model 24,8
Monophone Randomly Initialized DNN 23,4
Monophone DBN-DNN 22,4
Triphone GMM-HMM with BMMI Training 21,7
Monophone DBN-DNN on fbank 20,7
Convolutional DNN[179] 20,0
Convolutional DNN w. Heterogeneous Pooling 18,7
Ensemble DNN/CNN/RNN[180] 18,3
Bidirectional LSTM 17,8
Hierarchical Convolutional Deep Maxout Network[181] 16,5

A estreia das redes neurais profundas para reconhecimento de falantes no final da década de 1990 e do reconhecimento de fala por volta de 2009 a 2011 e da memória de curto prazo longa por volta de 2003 a 2007, acelerou o progresso em oito áreas principais:[22][107][105]

  • Treinamento e decodificação de rede neural profunda de aceleração e expansão vertical/horizontal
  • Treinamento discriminativo de sequência
  • Processamento de recursos por modelos profundos com sólida compreensão dos mecanismos subjacentes
  • Adaptação de redes neurais profundas e modelos profundos relacionados
  • Aprendizado multitarefa e de transferência por redes neurais profundas e modelos profundos relacionados
  • Redes neurais convolucionais e como projetá-las para melhor explorar o conhecimento de domínio da fala
  • Rede neural recorrente e suas ricas variantes de memória de curto prazo longa
  • Outros tipos de modelos profundos, incluindo modelos baseados em tensores e modelos discriminativos/generativos profundos integrados.

Todos os principais sistemas comerciais de reconhecimento de fala (por exemplo, Microsoft Cortana, Xbox, Skype Translator, Amazon Alexa, Google Now, Apple Siri, Baidu e pesquisa por voz da iFlyTek e uma variedade de produtos de fala da Nuance, etc.) são baseados em aprendizado profundo.[22][182][183]

Reconhecimento de imagens

[editar | editar código-fonte]

Um conjunto de avaliação comum para classificação de imagens é o conjunto de dados do banco de dados do MNIST. O MNIST é composto de dígitos manuscritos e inclui 60.000 exemplos de treinamento e 10.000 exemplos de teste. Assim como o TIMIT, seu tamanho pequeno permite que os usuários testem várias configurações. Uma lista abrangente de resultados neste conjunto está disponível.[184]

O reconhecimento de imagens baseado em aprendizagem profunda se tornou "super-humano", produzindo resultados mais precisos do que concorrentes humanos. Isso ocorreu pela primeira vez em 2011 no reconhecimento de sinais de trânsito e, em 2014, com o reconhecimento de rostos humanos.[185][186]

Veículos treinados em aprendizado profundo agora interpretam visualizações de câmera de 360°.[187] Outro exemplo é a Análise de Novas Dismorfologias Faciais (FDNA), usada para analisar casos de malformações humanas conectados a um grande banco de dados de síndromes genéticas.

Processamento de artes visuais

[editar | editar código-fonte]
Processamento de arte visual de Jimmy Wales na França, com o estilo de "O Grito" de Munch aplicado usando transferência de estilo neural

Estreitamente relacionada ao progresso que foi feito no reconhecimento de imagens está a aplicação crescente de técnicas de aprendizado profundo a várias tarefas de artes visuais. As redes neurais profundas provaram ser capazes, por exemplo, de

  • identificar o período de estilo de uma determinada pintura[188][189]
  • Transferência de estilo neural – capturar o estilo de uma determinada obra de arte e aplicá-lo de uma maneira visualmente agradável a uma fotografia ou vídeo arbitrário[188][189]
  • gerar imagens impressionantes com base em campos de entrada visual aleatórios.[188][189]

Processamento de linguagem natural

[editar | editar código-fonte]

As redes neurais têm sido usadas para implementar modelos de linguagem desde o início dos anos 2000.[149] A memória de curto prazo longa ajudou a melhorar a tradução automática e a modelagem de linguagem.[150][151][152]

Outras técnicas-chave neste campo são a amostragem negativa[190] e a incorporação de palavras. A incorporação de palavras, como word2vec, pode ser considerada uma camada representacional em uma arquitetura de aprendizagem profunda que transforma uma palavra atômica em uma representação posicional da palavra em relação a outras palavras no conjunto de dados; a posição é representada como um ponto em um espaço vetorial. Usar a incorporação de palavras como uma camada de entrada da rede neural recorrente permite que a rede analise sentenças e frases usando uma gramática vetorial composicional eficaz. Uma gramática vetorial composicional pode ser considerada uma gramática livre de contexto probabilística (PCFG) implementada por uma rede neural recorrente.[191] Os autocodificadores recursivos construídos sobre incorporações de palavras podem avaliar a similaridade de sentenças e detectar paráfrases.[191] Arquiteturas neurais profundas fornecem os melhores resultados para análise de constituintes,[192] análise de sentimentos,[193] recuperação de informações,[194][195] compreensão de linguagem falada,[196] tradução automática,[150][197] vinculação de entidades contextuais,[197] reconhecimento de estilo de escrita,[198] reconhecimento de entidades nomeadas (classificação de tokens),[199] classificação de texto e outros.[200]

Desenvolvimentos recentes generalizam a incorporação de palavras para a incorporação de frases.

O Google Translate (GT) usa uma grande rede de memória de curto prazo longa (LSTM) de ponta a ponta.[201][202][203][204] A Google Neural Machine Translation (GNMT) usa um método de tradução automática baseada em exemplos no qual o sistema "aprende com milhões de exemplos".[202] Ela traduz "frases inteiras de uma vez, em vez de partes". O Google Translate oferece suporte a mais de cem idiomas.[202] A rede codifica a "semântica da frase em vez de simplesmente memorizar traduções frase a frase".[202][205] O Google Translate usa o inglês como intermediário entre a maioria dos pares de idiomas.[205]

Descoberta de medicamentos e toxicologia

[editar | editar código-fonte]
 Nota: Para mais informações, veja Toxicologia.

Uma grande porcentagem de medicamentos candidatos não consegue obter aprovação regulatória. Essas falhas são causadas por eficácia insuficiente (efeito no alvo), interações indesejadas (efeitos fora do alvo) ou efeitos tóxicos imprevistos.[206][207] A pesquisa explorou o uso de aprendizagem profunda para prever os alvos biomoleculares,[208][209] alvos fora do alvo e efeitos tóxicos de produtos químicos ambientais em nutrientes, produtos domésticos e medicamentos.[210][211][212]

A AtomNet é um sistema de aprendizagem profunda para design de medicamentos racional baseado em estrutura.[213] A AtomNet foi usada para prever novas biomoléculas candidatas para alvos de doenças como o vírus Ebola[214] e esclerose múltipla.[215][214]

Em 2017, redes neurais de grafos foram usadas pela primeira vez para prever várias propriedades de moléculas em um grande conjunto de dados de toxicologia.[216] Em 2019, redes neurais generativas foram usadas para produzir moléculas que foram validadas experimentalmente em camundongos.[217][218]

Gestão de relacionamento com o cliente

[editar | editar código-fonte]

A aprendizagem de reforço profunda tem sido usada para aproximar o valor de possíveis ações de marketing direto, definidas em termos de variáveis ​​de recenticidade, frequência, e valor monetário (RFM). A função de valor estimado demonstrou ter uma interpretação natural como valor de vida útil do cliente.[219]

Sistemas de recomendações

[editar | editar código-fonte]

Os sistemas de recomendações têm usado o aprendizagem profunda para extrair recursos significativos para um modelo de fator latente para recomendações de músicas e periódicos baseadas em conteúdo.[220][221] A aprendizagem profunda multivisualização foi aplicada para aprender as preferências dos usuários de vários domínios.[222] O modelo usa uma abordagem híbrida colaborativa e baseada em conteúdo e aprimora as recomendações em várias tarefas.

Bioinformática

[editar | editar código-fonte]

Uma rede neural artificial autocodificadora foi usada em bioinformática para prever relações entre funções genéticas e anotações de ontologia genética.[223]

Na informática médica, a aprendizagem profunda foi usada para prever a qualidade do sono com base em dados de wearables[224] e previsões de complicações de saúde a partir de dados de registros de saúde eletrônicos.[225]

Redes neurais profundas têm mostrado desempenho incomparável na previsão de estruturas de proteínas, de acordo com a sequência dos aminoácidos que as compõem. Em 2020, a AlphaFold, um sistema baseado em aprendizagem profunda, atingiu um nível de precisão significativamente maior do que todos os métodos computacionais anteriores.[226][227]

Estimativas de redes neurais profundas

[editar | editar código-fonte]

Redes neurais profundas podem ser usadas para estimar a entropia de um processo estocástico e chamadas de estimadora de entropia conjunta neural (NJEE).[228] Tal estimativa fornece percepções sobre os efeitos de variáveis ​​aleatórias de entrada em uma variável aleatória independente. Praticamente, a rede neural profunda é treinada como uma classificadora que mapeia um vetor ou uma matriz X de entrada para uma distribuição de probabilidade de saída sobre as classes possíveis da variável aleatória Y, dada a entrada X. Por exemplo, em tarefas de classificação de imagens, a estimadora de entropia conjunta neural mapeia um vetor de valores de cores de pixels para probabilidades sobre possíveis classes de imagens. Na prática, a distribuição de probabilidade de Y é obtida por uma camada de Softmax com número de nós que é igual ao tamanho do alfabeto de Y. A estimadora de entropia conjunta neural usa funções de ativação continuamente diferenciáveis, de modo que as condições para o teorema de aproximação universal sejam mantidas. É mostrado que este método fornece uma estimadora consistente fortemente e supera outros métodos no caso de tamanhos de alfabetos grandes.[228]

Análise de imagens médicas

[editar | editar código-fonte]

Foi demonstrado que a aprendizagem profunda produz resultados competitivos em aplicações médicas, como classificação de células cancerígenas, detecção de lesões, segmentação de órgãos e aprimoramento de imagens.[229][230] As ferramentas modernas de aprendizagem profunda demonstram a alta precisão na detecção de várias doenças e a utilidade de seu uso por especialistas para melhorar a eficiência do diagnóstico.[231][232]

Publicidade móvel

[editar | editar código-fonte]

Encontrar o público móvel apropriado para publicidade móvel é sempre desafiador, pois muitos pontos de dados devem ser considerados e analisados ​​antes que um segmento alvo possa ser criado e usado na veiculação de anúncios por qualquer servidor de anúncios.[233] A aprendizagem profunda tem sido usada para interpretar grandes conjuntos de dados de publicidade multidimensionais. Muitos pontos de dados são coletados durante o ciclo de solicitação/veiculação/clique de publicidade na Internet. Essas informações podem formar a base do aprendizado de máquina para melhorar a seleção de anúncios.

Restauração de imagens

[editar | editar código-fonte]

A aprendizagem profunda foi aplicada com sucesso a problemas inversos, como redução de ruído, super-resolução, pintura interna e colorização de filmes.[234] Essas aplicações incluem métodos de aprendizado como "campos de encolhimento para restauração eficaz de imagens"[235], que treina em um conjunto de dados de imagens, e Deep Image Prior, que treina na imagem que precisa de restauração.

Detecção de fraudes financeiras

[editar | editar código-fonte]

A aprendizagem profunda está sendo aplicada com sucesso à detecção de fraudes financeiras, à detecção de evasão fiscal[236] e ao combate à lavagem de dinheiro.[237]

Ciência dos materiais

[editar | editar código-fonte]

Em novembro de 2023, pesquisadores da Google DeepMind e do Lawrence Berkeley National Laboratory anunciaram que desenvolveram um sistema de IA conhecido como GNoME. Este sistema contribuiu para a ciência dos materiais ao descobrir mais de 2 milhões de novos materiais em um período de tempo relativamente curto. O GNoME emprega técnicas de aprendizagem profunda para explorar com eficiência potenciais estruturas de materiais, alcançando um aumento significativo na identificação de estruturas cristalinas inorgânicas estáveis. As previsões do sistema foram validadas por meio de experimentos robóticos autônomos, demonstrando uma notável taxa de sucesso de 71%. Os dados de materiais recém-descobertos estão disponíveis publicamente por meio do banco de dados do Materials Project, oferecendo aos pesquisadores a oportunidade de identificar materiais com propriedades desejadas para várias aplicações. Este desenvolvimento tem implicações para o futuro da descoberta científica e a integração da IA ​​na pesquisa de ciência dos materiais, potencialmente agilizando a inovação de materiais e reduzindo custos no desenvolvimento de produtos. O uso de IA e aprendizagem profunda sugere a possibilidade de minimizar ou eliminar experimentos manuais de laboratório e permitir que os cientistas se concentrem mais no design e na análise de compostos exclusivos.[238][239][240]

O Departamento de Defesa dos Estados Unidos aplicou o aprendizagem profunda para treinar robôs em novas tarefas por meio da observação.[241]

Equações diferenciais parciais

[editar | editar código-fonte]

Redes neurais informadas por física têm sido usadas para resolver equações diferenciais parciais em problemas diretos e inversos de uma maneira orientada por dados.[242] Um exemplo é a reconstrução do fluxo de fluido governado pelas equações de Navier e Stokes. Usar redes neurais informadas por física não requer a geração de malha frequentemente cara da qual os métodos de fluidodinâmica computacional (CFD) convencionais dependem.[243][244]

Método de equação diferencial estocástica regressiva profundo

[editar | editar código-fonte]

O método de equação diferencial estocástica regressiva profunda é um método numérico que combina aprendizagem profunda com equação diferencial estocástica regressiva (BSDE). Este método é particularmente útil para resolver problemas de alta dimensão em matemática financeira. Ao alavancar os poderosos recursos de aproximação de função de redes neurais profundas, a equação diferencial estocástica regressiva profunda aborda os desafios computacionais enfrentados por métodos numéricos tradicionais em configurações de altas dimensões. Especificamente, métodos tradicionais como métodos de diferença finita ou simulações de Monte Carlo frequentemente lutam com a maldição da dimensionalidade, onde o custo computacional aumenta exponencialmente com o número de dimensões. Os métodos de equação diferencial estocástica regressiva profunda, no entanto, empregam redes neurais profundas para aproximar soluções de equações diferenciais parciais (PDEs) de altas dimensões, reduzindo efetivamente a carga computacional.[245]


Além disso, a integração de redes neurais informadas por física (PINNs) na estrutura de equação diferencial estocástica regressiva profunda aumenta sua capacidade ao incorporar as leis físicas subjacentes diretamente na arquitetura da rede neural. Isso garante que as soluções não apenas se ajustem aos dados, mas também adiram às equações diferenciais estocásticas governantes. As redes neurais informadas por física alavancam o poder da aprendizagem profunda, respeitando as restrições impostas pelos modelos físicos, resultando em soluções mais precisas e confiáveis ​​para problemas de matemática financeira.

Reconstrução de imagens

[editar | editar código-fonte]

A reconstrução de imagens é a reconstrução das imagens subjacentes a partir das medições relacionadas às imagens. Vários trabalhos mostraram o desempenho melhor e superior dos métodos de aprendizagem profunda em comparação aos métodos analíticos para várias aplicações, por exemplo, imagens espectrais [246] e imagens de ultrassom.[247]

Previsão do tempo

[editar | editar código-fonte]

Os sistemas tradicionais de previsão do tempo resolvem um sistema muito complexo de equações diferenciais parciais. O GraphCast é um modelo baseado em aprendizagem profunda, treinado em um longo histórico de dados meteorológicos para prever como os padrões climáticos mudam ao longo do tempo. Ele é capaz de prever as condições climáticas por até 10 dias globalmente, em um nível muito detalhado e em menos de um minuto, com precisão semelhante aos sistemas de última geração.[248][249]

Relógio epigenético

[editar | editar código-fonte]

Um relógio epigenético é um teste bioquímico que pode ser usado para medir a idade. Galkin et al. usaram redes neurais profundas para treinar um relógio de envelhecimento epigenético de precisão sem precedentes usando mais de 6.000 amostras de sangue.[250] O relógio usa informações de 1000 sítios CpG e prevê pessoas com certas condições mais velhas do que controles saudáveis: doença inflamatória intestinal (DII), demência frontotemporal, câncer ovariano, obesidade. O relógio de envelhecimento foi planejado para ser lançado para uso público em 2021 por uma empresa subproduto da Insilico Medicine, a Deep Longevity.

Relação com o desenvolvimento cerebral e cognitivo humano

[editar | editar código-fonte]

A aprendizagem profunda está intimamente relacionado a uma classe de teorias de desenvolvimento cerebral (especificamente, desenvolvimento neocortical) propostas por neurocientistas cognitivos no início da década de 1990.[251][252][253][254] Essas teorias de desenvolvimento foram instanciadas em modelos computacionais, tornando-as predecessoras de sistemas de aprendizagem profunda. Esses modelos de desenvolvimento compartilham a propriedade de que várias dinâmicas de aprendizado propostas no cérebro (por exemplo, uma onda de fator de crescimento nervoso) suportam a auto-organização de forma um tanto análoga às redes neurais utilizadas em modelos de aprendizagem profunda. Como o neocórtex, as redes neurais empregam uma hierarquia de filtros em camadas em que cada camada considera informações de uma camada anterior (ou do ambiente operacional) e, em seguida, passa sua saída (e possivelmente a entrada original) para outras camadas. Esse processo produz uma pilha auto-organizada de transdutores, bem ajustada ao seu ambiente operacional. Uma descrição de 1995 declarou: "...o cérebro do bebê parece se organizar sob a influência de ondas dos chamados fatores tróficos... diferentes regiões do cérebro se conectam sequencialmente, com uma camada de tecido amadurecendo antes da outra e assim por diante até que todo o cérebro esteja maduro".[255]

Uma variedade de abordagens tem sido usada para investigar a plausibilidade de modelos de aprendizagem profunda de uma perspectiva neurobiológica. Por um lado, várias variantes do algoritmo de retropropagação foram propostas para aumentar seu realismo de processamento.[256][257] Outros pesquisadores argumentaram que formas não supervisionadas de aprendizagem profunda, como aquelas baseadas em modelos generativos hierárquicos e redes de crenças profundas, podem estar mais próximas da realidade biológica.[258][259] A esse respeito, modelos de rede neural generativa têm sido relacionados a evidências neurobiológicas sobre processamento baseado em amostragem no córtex cerebral.[260]

Embora uma comparação sistemática entre a organização do cérebro humano e a codificação neuronal em redes profundas ainda não tenha sido estabelecida, várias analogias foram relatadas. Por exemplo, as computações realizadas por unidades de aprendizagem profunda podem ser semelhantes às de neurônios reais[261] e populações neurais.[262] Da mesma forma, as representações desenvolvidas por modelos de aprendizagem profunda são semelhantes às medidas no sistema visual de primatas[263] tanto nos níveis de unidade única[264] quanto nos níveis de população.[265]

Atividade comercial

[editar | editar código-fonte]

O laboratório de IA do Facebook realiza tarefas como marcar automaticamente fotos carregadas com os nomes das pessoas nelas.[266]

A DeepMind Technologies do Google desenvolveu um sistema capaz de aprender a jogar videogames Atari usando apenas pixels como entrada de dados. Em 2015, eles demonstraram seu sistema AlphaGo, que aprendeu o jogo Go bem o suficiente para vencer um jogador profissional de Go.[267][268][269] O Google Translate usa uma rede neural para traduzir entre mais de 100 idiomas.

Em 2017, foi lançado o Covariant.ai, que se concentra na integração da aprendizagem profunda em fábricas.[270]

Em 2008,[271] pesquisadores da Universidade do Texas em Austin (UT) desenvolveram uma estrutura de aprendizado de máquina chamada Treinando um Agente Manualmente via Reforço Avaliativo, ou TAMER, que propôs novos métodos para robôs ou programas de computador aprenderem a executar tarefas interagindo com um instrutor humano.[241] Desenvolvido inicialmente como TAMER, um novo algoritmo chamado Deep TAMER foi posteriormente introduzido em 2018 durante uma colaboração entre o Laboratório de Pesquisa do Exército dos EUA (ARL) e pesquisadores da UT. O Deep TAMER usou a aprendizagem profunda para fornecer a um robô a capacidade de aprender novas tarefas por meio da observação.[241] Usando o Deep TAMER, um robô aprendeu uma tarefa com um treinador humano, assistindo a transmissões de vídeo ou observando um humano executar uma tarefa pessoalmente. O robô posteriormente praticou a tarefa com a ajuda de algum treinamento do treinador, que forneceu feedback como "bom trabalho" e "trabalho ruim".[272]

Críticas e comentários

[editar | editar código-fonte]

A aprendizagem profunda atraiu críticas e comentários, em alguns casos de fora do campo da ciência da computação.

Uma crítica principal diz respeito à falta de teoria em torno de alguns métodos.[273] A aprendizagem nas arquiteturas profundas mais comuns é implementada usando a descida de gradiente bem compreendida. No entanto, a teoria em torno de outros algoritmos, como a divergência contrastiva, é menos clara. (por exemplo, Converge? Se sim, quão rápido? O que está se aproximando?) Os métodos de aprendizagem profunda são frequentemente vistos como uma caixa-preta, com a maioria das confirmações feitas empiricamente, em vez de teoricamente.[274]

Outros apontam que a aprendizagem profunda deve ser vista como um passo em direção à realização de uma IA forte, não como uma solução abrangente. Apesar do poder dos métodos de aprendizagem profunda, eles ainda carecem de grande parte da funcionalidade necessária para atingir esse objetivo inteiramente. O psicólogo pesquisador Gary Marcus observou:

Realisticamente, a aprendizagem profunda é apenas parte do desafio maior de construir máquinas inteligentes. Tais técnicas carecem de maneiras de representar relações causais (...) não têm maneiras óbvias de realizar inferências lógicas, e também ainda estão muito longe de integrar conhecimento abstrato, como informações sobre o que são objetos, para que servem e como são normalmente usados. Os sistemas de I.A. mais poderosos, como o Watson (...) usam técnicas como aprendizagem profunda como apenas um elemento em um conjunto muito complicado de técnicas, que vão da técnica estatística de inferência bayesiana ao raciocínio dedutivo.[275]

Em referência adicional à ideia de que a sensibilidade artística pode ser inerente a níveis relativamente baixos da hierarquia cognitiva, uma série publicada de representações gráficas dos estados internos de redes neurais profundas (20-30 camadas) tentando discernir dentro de dados essencialmente aleatórios as imagens nas quais foram treinadas[276] demonstra um apelo visual: o aviso de pesquisa original recebeu bem mais de 1.000 comentários e foi o assunto do que foi por um tempo o artigo mais acessado no site do The Guardian.[277]

Algumas arquiteturas de aprendizagem profunda apresentam comportamentos problemáticos,[278] como classificar com segurança imagens irreconhecíveis como pertencentes a uma categoria familiar de imagens comuns (2014)[279] e classificar incorretamente perturbações minúsculas de imagens classificadas corretamente (2013).[280] Goertzel levantou a hipótese de que esses comportamentos são devidos a limitações em suas representações internas e que essas limitações inibiriam a integração em arquiteturas heterogêneas de inteligência artificial geral (AGI) multicomponente.[278] Essas questões podem ser possivelmente abordadas por arquiteturas de aprendizagem profunda que formam internamente estados homólogos às decomposições de gramática de imagem[281] de entidades e eventos observados.[278] Aprender uma gramática (visual ou linguística) a partir de dados de treinamento seria equivalente a restringir o sistema ao raciocínio de senso comum que opera em conceitos em termos de regras de produção gramatical e é um objetivo básico tanto da aquisição da linguagem humana[282] quanto da inteligência artificial (IA).[283]

Ameaça cibernética

[editar | editar código-fonte]

À medida que a aprendizagem profunda sai do laboratório para o mundo, pesquisas e experiências mostram que redes neurais artificiais são vulneráveis ​​a hacks e enganos.[284] Ao identificar os padrões que esses sistemas usam para funcionar, os invasores podem modificar entradas para as redes neurais artificiais de tal forma que a rede neural artificial encontre uma correspondência que observadores humanos não reconheceriam. Por exemplo, um invasor pode fazer mudanças sutis em uma imagem de tal forma que a rede neural artificial encontre uma correspondência, mesmo que a imagem não pareça nada com o alvo da pesquisa para um humano. Tal manipulação é denominada "ataque adversário".[285]

Em 2016, pesquisadores usaram uma rede neural artificial para manipular imagens por tentativa e erro, identificar os pontos focais de outra e, assim, gerar imagens que a enganassem. As imagens modificadas não pareciam diferentes aos olhos humanos. Outro grupo mostrou que impressões de imagens manipuladas e depois fotografadas enganaram com sucesso um sistema de classificação de imagens.[286] Uma defesa é a busca reversa de imagens, na qual uma possível imagem falsa é enviada a um site como o TinEye, que pode então encontrar outras instâncias dela. Um refinamento é pesquisar usando apenas partes da imagem, para identificar imagens das quais aquela parte pode ter sido retirada.[287]

Outro grupo mostrou que certos espetáculos psicodélicos poderiam enganar um sistema de reconhecimento facial, fazendo-o pensar que pessoas comuns eram celebridades, potencialmente permitindo que uma pessoa se passasse por outra. Em 2017, pesquisadores adicionaram adesivos a placas de pare e fizeram com que uma rede neural artificial as classificasse incorretamente.[286]

As redes neurais artificiais podem, no entanto, ser mais treinadas para detectar tentativas de engano, potencialmente levando atacantes e defensores a uma corrida armamentista semelhante ao tipo que já define a indústria de defesa contra malware. As redes neurais artificiais foram treinadas para derrotar software antimalware baseado em rede neural artificial, atacando repetidamente uma defesa com malware que foi continuamente alterado por um algoritmo genético até enganar o antimalware, mantendo sua capacidade de danificar o alvo.[286]

Em 2016, outro grupo demonstrou que certos sons poderiam fazer o sistema de comando de voz do Google Now abrir um endereço da web específico e levantou a hipótese de que isso poderia "servir como um trampolim para novos ataques (por exemplo, abrir uma página da web que hospeda malware drive-by)".[286]

No "envenenamento de dados", dados falsos são continuamente contrabandeados para o conjunto de treinamento de um sistema de aprendizado de máquina para evitar que ele alcance a maestria.[286]

Ética na coleta de dados

[editar | editar código-fonte]

Os sistemas de aprendizagem profunda que são treinados usando aprendizagem supervisionada geralmente dependem de dados criados e/ou anotados por humanos.[288] Foi argumentado que não apenas o trabalho de clique mal pago (como no Amazon Mechanical Turk) é regularmente implantado para esse propósito, mas também formas implícitas de microtrabalho humano que muitas vezes não são reconhecidas como tal.[289] O filósofo Rainer Mühlhoff distingue cinco tipos de "captura maquínica" do microtrabalho humano para gerar dados de treinamento: (1) gamificação (a incorporação de tarefas de anotação ou computação no fluxo de um jogo), (2) "captura e rastreamento" (por exemplo, CAPTCHAs para reconhecimento de imagem ou rastreamento de cliques nas páginas de resultados de pesquisas do Google), (3) exploração de motivações sociais (por exemplo, marcar rostos no Facebook para obter imagens faciais rotuladas), (4) mineração de informações (por exemplo, alavancando dispositivos de autoquantificação, como rastreadores de atividade) e (5) trabalho de clique.[289]

Referências

  1. a b LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). «Deep Learning» (PDF). Nature. 521 (7553): 436–444. Bibcode:2015Natur.521..436L. PMID 26017442. doi:10.1038/nature14539 
  2. a b Ciresan, D.; Meier, U.; Schmidhuber, J. (2012). «Multi-column deep neural networks for image classification». 2012 IEEE Conference on Computer Vision and Pattern Recognition. [S.l.: s.n.] pp. 3642–3649. ISBN 978-1-4673-1228-8. arXiv:1202.2745Acessível livremente. doi:10.1109/cvpr.2012.6248110 
  3. a b Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey (2012). «ImageNet Classification with Deep Convolutional Neural Networks» (PDF). NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada. Consultado em 24 de maio de 2017. Cópia arquivada (PDF) em 10 de janeiro de 2017 
  4. «Google's AlphaGo AI wins three-match series against the world's best Go player». TechCrunch. 25 de maio de 2017. Consultado em 17 de junho de 2018. Cópia arquivada em 17 de junho de 2018 
  5. «Study urges caution when comparing neural networks to the brain». MIT News | Massachusetts Institute of Technology (em inglês). 2 de novembro de 2022. Consultado em 6 de dezembro de 2023 
  6. a b c d Bengio, Yoshua (2009). «Learning Deep Architectures for AI» (PDF). Foundations and Trends in Machine Learning. 2 (1): 1–127. CiteSeerX 10.1.1.701.9550Acessível livremente. doi:10.1561/2200000006. Consultado em 3 de setembro de 2015. Arquivado do original (PDF) em 4 de março de 2016 
  7. a b c d e Bengio, Y.; Courville, A.; Vincent, P. (2013). «Representation Learning: A Review and New Perspectives». IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1798–1828. PMID 23787338. arXiv:1206.5538Acessível livremente. doi:10.1109/tpami.2013.50 
  8. a b c d e f g h Schmidhuber, J. (2015). «Deep Learning in Neural Networks: An Overview». Neural Networks. 61: 85–117. PMID 25462637. arXiv:1404.7828Acessível livremente. doi:10.1016/j.neunet.2014.09.003 
  9. Shigeki, Sugiyama (12 de abril de 2019). Human Behavior and Another Kind in Consciousness: Emerging Research and Opportunities: Emerging Research and Opportunities (em inglês). [S.l.]: IGI Global. ISBN 978-1-5225-8218-2 
  10. Bengio, Yoshua; Lamblin, Pascal; Popovici, Dan; Larochelle, Hugo (2007). Greedy layer-wise training of deep networks (PDF). Advances in neural information processing systems. pp. 153–160. Consultado em 6 de outubro de 2019. Cópia arquivada (PDF) em 20 de outubro de 2019 
  11. a b Hinton, G.E. (2009). «Deep belief networks». Scholarpedia. 4 (5): 5947. Bibcode:2009SchpJ...4.5947H. doi:10.4249/scholarpedia.5947Acessível livremente 
  12. Rina Dechter (1986). Learning while searching in constraint-satisfaction problems (em inglês). University of California, Computer Science Department, Cognitive Systems Laboratory.Online Arquivado em 2016-04-19 no Wayback Machine
  13. Aizenberg, I.N.; Aizenberg, N.N.; Vandewalle, J. (2000). Multi-Valued and Universal Binary Neurons. [S.l.]: Science & Business Media. ISBN 978-0-7923-7824-2. doi:10.1007/978-1-4757-3115-6. Consultado em 27 de dezembro de 2023 
  14. Co-evolving recurrent neurons learn deep memory POMDPs (em inglês). Proc. GECCO, Washington, D. C., pp. 1795–1802, ACM Press, New York, NY, USA, 2005.
  15. Fradkov, Alexander L. (1 de janeiro de 2020). «Early History of Machine Learning». IFAC-PapersOnLine. 21st IFAC World Congress. 53 (2): 1385–1390. ISSN 2405-8963. doi:10.1016/j.ifacol.2020.12.1888Acessível livremente 
  16. a b c Cybenko (1989). «Approximations by superpositions of sigmoidal functions» (PDF). Mathematics of Control, Signals, and Systems. 2 (4): 303–314. Bibcode:1989MCSS....2..303C. doi:10.1007/bf02551274. Arquivado do original (PDF) em 10 de outubro de 2015 
  17. a b c Hornik, Kurt (1991). «Approximation Capabilities of Multilayer Feedforward Networks». Neural Networks. 4 (2): 251–257. doi:10.1016/0893-6080(91)90009-t 
  18. a b Haykin, Simon S. (1999). Neural Networks: A Comprehensive Foundation. [S.l.]: Prentice Hall. ISBN 978-0-13-273350-2 
  19. a b Hassoun, Mohamad H. (1995). Fundamentals of Artificial Neural Networks. [S.l.]: MIT Press. p. 48. ISBN 978-0-262-08239-6 
  20. a b Lu, Z., Pu, H., Wang, F., Hu, Z., & Wang, L. (2017). The Expressive Power of Neural Networks: A View from the Width (em inglês) Arquivado em 2019-02-13 no Wayback Machine. Neural Information Processing Systems, 6231-6239.
  21. Orhan, A. E.; Ma, W. J. (2017). «Efficient probabilistic inference in generic neural networks trained with non-probabilistic feedback». Nature Communications. 8 (1). 138 páginas. Bibcode:2017NatCo...8..138O. PMC 5527101Acessível livremente. PMID 28743932. doi:10.1038/s41467-017-00181-8Acessível livremente 
  22. a b c d e Deng, L.; Yu, D. (2014). «Deep Learning: Methods and Applications» (PDF). Foundations and Trends in Signal Processing. 7 (3–4): 1–199. doi:10.1561/2000000039. Consultado em 18 de outubro de 2014. Cópia arquivada (PDF) em 14 de março de 2016 
  23. a b c d Murphy, Kevin P. (24 de agosto de 2012). Machine Learning: A Probabilistic Perspective. [S.l.]: MIT Press. ISBN 978-0-262-01802-9 
  24. a b Fukushima, K. (1969). «Visual feature extraction by a multilayered network of analog threshold elements». IEEE Transactions on Systems Science and Cybernetics. 5 (4): 322–333. doi:10.1109/TSSC.1969.300225 
  25. Sonoda, Sho; Murata, Noboru (2017). «Neural network with unbounded activation functions is universal approximator». Applied and Computational Harmonic Analysis. 43 (2): 233–268. arXiv:1505.03654Acessível livremente. doi:10.1016/j.acha.2015.12.005 
  26. Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning (PDF). [S.l.]: Springer. ISBN 978-0-387-31073-2. Consultado em 6 de agosto de 2017. Cópia arquivada (PDF) em 11 de janeiro de 2017 
  27. a b «bibliotheca Augustana». www.hs-augsburg.de 
  28. Brush, Stephen G. (1967). «History of the Lenz-Ising Model». Reviews of Modern Physics. 39 (4): 883–893. Bibcode:1967RvMP...39..883B. doi:10.1103/RevModPhys.39.883 
  29. a b Amari, Shun-Ichi (1972). «Learning patterns and pattern sequences by self-organizing nets of threshold elements». IEEE Transactions. C (21): 1197–1206 
  30. a b c d e f g Schmidhuber, Jürgen (2022). «Annotated History of Modern AI and Deep Learning». arXiv:2212.11279Acessível livremente [cs.NE] 
  31. Hopfield, J. J. (1982). «Neural networks and physical systems with emergent collective computational abilities». Proceedings of the National Academy of Sciences. 79 (8): 2554–2558. Bibcode:1982PNAS...79.2554H. PMC 346238Acessível livremente. PMID 6953413. doi:10.1073/pnas.79.8.2554Acessível livremente 
  32. Nakano, Kaoru (1971). «Learning Process in a Model of Associative Memory». Pattern Recognition and Machine Learning. [S.l.: s.n.] pp. 172–186. ISBN 978-1-4615-7568-9. doi:10.1007/978-1-4615-7566-5_15 
  33. Nakano, Kaoru (1972). «Associatron-A Model of Associative Memory». IEEE Transactions on Systems, Man, and Cybernetics. SMC-2 (3): 380–388. doi:10.1109/TSMC.1972.4309133 
  34. Turing, Alan (1948). «Intelligent Machinery». Unpublished (Later Published in Ince DC, Editor, Collected Works of AM Turing—Mechanical Intelligence, Elsevier Science Publishers, 1992) 
  35. Rosenblatt, F. (1958). «The perceptron: A probabilistic model for information storage and organization in the brain.». Psychological Review (em inglês). 65 (6): 386–408. ISSN 1939-1471. PMID 13602029. doi:10.1037/h0042519 
  36. a b Rosenblatt, Frank (1962). Principles of Neurodynamics. [S.l.]: Spartan, New York 
  37. Joseph, R. D. (1960). Contributions to Perceptron Theory, Cornell Aeronautical Laboratory Report No. VG-11 96--G-7, Buffalo. [S.l.: s.n.] 
  38. Ivakhnenko, A. G.; Lapa, V. G. (1967). Cybernetics and Forecasting Techniques. [S.l.]: American Elsevier Publishing Co. ISBN 978-0-444-00020-0 
  39. Ivakhnenko, A.G. (março de 1970). «Heuristic self-organization in problems of engineering cybernetics». Automatica (em inglês). 6 (2): 207–219. doi:10.1016/0005-1098(70)90092-0 
  40. a b Ivakhnenko, Alexey (1971). «Polynomial theory of complex systems» (PDF). IEEE Transactions on Systems, Man, and Cybernetics. SMC-1 (4): 364–378. doi:10.1109/TSMC.1971.4308320. Consultado em 5 de novembro de 2019. Cópia arquivada (PDF) em 29 de agosto de 2017 
  41. Robbins, H.; Monro, S. (1951). «A Stochastic Approximation Method». The Annals of Mathematical Statistics. 22 (3). 400 páginas. doi:10.1214/aoms/1177729586Acessível livremente 
  42. Amari, Shun'ichi (1967). «A theory of adaptive pattern classifier». IEEE Transactions. EC (16): 279–307 
  43. Ramachandran, Prajit; Barret, Zoph; Quoc, V. Le (16 de outubro de 2017). «Searching for Activation Functions». arXiv:1710.05941Acessível livremente [cs.NE] 
  44. Fukushima, K. (1979). «Neural network model for a mechanism of pattern recognition unaffected by shift in position—Neocognitron». Trans. IECE (em japonês). J62-A (10): 658–665. PMID 7370364. doi:10.1007/bf00344251 
  45. Fukushima, K. (1980). «Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position». Biol. Cybern. 36 (4): 193–202. PMID 7370364. doi:10.1007/bf00344251 
  46. Leibniz, Gottfried Wilhelm Freiherr von (1920). The Early Mathematical Manuscripts of Leibniz: Translated from the Latin Texts Published by Carl Immanuel Gerhardt with Critical and Historical Notes (Leibniz published the chain rule in a 1676 memoir) (em inglês). [S.l.]: Open court publishing Company. ISBN 9780598818461 
  47. Kelley, Henry J. (1960). «Gradient theory of optimal flight paths». ARS Journal. 30 (10): 947–954. doi:10.2514/8.5282 
  48. Linnainmaa, Seppo (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors (Masters) (em finlandês). University of Helsinki. p. 6–7 
  49. Linnainmaa, Seppo (1976). «Taylor expansion of the accumulated rounding error». BIT Numerical Mathematics. 16 (2): 146–160. doi:10.1007/bf01931367 
  50. Ostrovski, G.M., Volin,Y.M., and Boris, W.W. (1971). On the computation of derivatives (em inglês). Wiss. Z. Tech. Hochschule for Chemistry, 13:382–384.
  51. a b Schmidhuber, Juergen (25 de outubro de 2014). «Who Invented Backpropagation?». IDSIA, Switzerland. Consultado em 14 de setembro de 2024. Cópia arquivada em 30 de julho de 2024 
  52. Werbos, Paul (1982). «Applications of advances in nonlinear sensitivity analysis» (PDF). System modeling and optimization. [S.l.]: Springer. pp. 762–770. Consultado em 2 de julho de 2017. Cópia arquivada (PDF) em 14 de abril de 2016 
  53. Werbos, Paul J. (1994). The Roots of Backpropagation : From Ordered Derivatives to Neural Networks and Political Forecasting. New York: John Wiley & Sons. ISBN 0-471-59897-6 
  54. Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (outubro de 1986). «Learning representations by back-propagating errors». Nature (em inglês). 323 (6088): 533–536. Bibcode:1986Natur.323..533R. ISSN 1476-4687. doi:10.1038/323533a0 
  55. Rumelhart, David E., Geoffrey E. Hinton, and R. J. Williams. "Learning Internal Representations by Error Propagation (em inglês ) Arquivado em 2022-10-13 no Wayback Machine". David E. Rumelhart, James L. McClelland, and the PDP research group. (editors), Parallel distributed processing: Explorations in the microstructure of cognition (em inglês), Volume 1: Foundation. MIT Press, 1986.
  56. Waibel, Alex (dezembro de 1987). Phoneme Recognition Using Time-Delay Neural Networks (PDF). Meeting of the Institute of Electrical, Information and Communication Engineers (IEICE). Tokyo, Japan 
  57. Alexander Waibel et al., Phoneme Recognition Using Time-Delay Neural Networks, IEEE Transactions on Acoustics, Speech, and Signal Processing, Volume 37, No. 3, pp. 328. – 339 03-1989.
  58. Zhang, Wei (1988). «Shift-invariant pattern recognition neural network and its optical architecture». Proceedings of Annual Conference of the Japan Society of Applied Physics 
  59. LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition", Neural Computation, 1, pp. 541–551, 1989.
  60. Zhang, Wei (1990). «Parallel distributed processing model with local space-invariant interconnections and its optical architecture». Applied Optics. 29 (32): 4790–7. Bibcode:1990ApOpt..29.4790Z. PMID 20577468. doi:10.1364/AO.29.004790 
  61. Zhang, Wei (1991). «Image processing of human corneal endothelium based on a learning network». Applied Optics. 30 (29): 4211–7. Bibcode:1991ApOpt..30.4211Z. PMID 20706526. doi:10.1364/AO.30.004211 
  62. Zhang, Wei (1994). «Computerized detection of clustered microcalcifications in digital mammograms using a shift-invariant artificial neural network». Medical Physics. 21 (4): 517–24. Bibcode:1994MedPh..21..517Z. PMID 8058017. doi:10.1118/1.597177 
  63. LeCun, Yann; Léon Bottou; Yoshua Bengio; Patrick Haffner (1998). «Gradient-based learning applied to document recognition» (PDF). Proceedings of the IEEE. 86 (11): 2278–2324. CiteSeerX 10.1.1.32.9552Acessível livremente. doi:10.1109/5.726791. Consultado em 7 de outubro de 2016 
  64. Jordan, Michael I. (1986). «Attractor dynamics and parallelism in a connectionist sequential machine». Proceedings of the Annual Meeting of the Cognitive Science Society (em inglês). 8 
  65. Elman, Jeffrey L. (março de 1990). «Finding Structure in Time». Cognitive Science (em inglês). 14 (2): 179–211. ISSN 0364-0213. doi:10.1207/s15516709cog1402_1 
  66. a b c Schmidhuber, Jürgen (abril de 1991). «Neural Sequence Chunkers» (PDF). TR FKI-148, TU Munich 
  67. a b Schmidhuber, Jürgen (1992). «Learning complex, extended sequences using the principle of history compression (based on TR FKI-148, 1991)» (PDF). Neural Computation. 4 (2): 234–242. doi:10.1162/neco.1992.4.2.234 
  68. Schmidhuber, Jürgen (1993). Habilitation thesis: System modeling and optimization (PDF). [S.l.: s.n.] Arquivado do original (PDF) em 16 de maio de 2022  As páginas 150 e seguintes demonstram a atribuição de crédito em um equivalente a 1.200 camadas em uma rede neural recorrente desdobrada.
  69. a b c S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen". Arquivado em 2015-03-06 no Wayback Machine. Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber, 1991.
  70. Hochreiter, S.; et al. (15 de janeiro de 2001). «Gradient flow in recurrent nets: the difficulty of learning long-term dependencies». In: Kolen, John F.; Kremer, Stefan C. A Field Guide to Dynamical Recurrent Networks. [S.l.]: John Wiley & Sons. ISBN 978-0-7803-5369-5 
  71. Sepp Hochreiter; Jürgen Schmidhuber (21 de agosto de 1995), Long Short Term Memory, Wikidata Q98967430 
  72. Gers, Felix; Schmidhuber, Jürgen; Cummins, Fred (1999). «Learning to forget: Continual prediction with LSTM». 9th International Conference on Artificial Neural Networks: ICANN '99. 1999. [S.l.: s.n.] pp. 850–855. ISBN 0-85296-721-7. doi:10.1049/cp:19991218 
  73. a b Schmidhuber, Jürgen (1991). «A possibility for implementing curiosity and boredom in model-building neural controllers». Proc. SAB'1991. MIT Press/Bradford Books. pp. 222–227 
  74. Schmidhuber, Jürgen (2010). «Formal Theory of Creativity, Fun, and Intrinsic Motivation (1990-2010)». IEEE Transactions on Autonomous Mental Development. 2 (3): 230–247. doi:10.1109/TAMD.2010.2056368 
  75. a b Schmidhuber, Jürgen (2020). «Generative Adversarial Networks are Special Cases of Artificial Curiosity (1990) and also Closely Related to Predictability Minimization (1991)». Neural Networks (em inglês). 127: 58–66. PMID 32334341. arXiv:1906.04493Acessível livremente. doi:10.1016/j.neunet.2020.04.008 
  76. Ackley, David H.; Hinton, Geoffrey E.; Sejnowski, Terrence J. (1 de janeiro de 1985). «A learning algorithm for boltzmann machines». Cognitive Science. 9 (1): 147–169. ISSN 0364-0213. doi:10.1016/S0364-0213(85)80012-4 
  77. Smolensky, Paul (1986). «Chapter 6: Information Processing in Dynamical Systems: Foundations of Harmony Theory» (PDF). In: Rumelhart, David E.; McLelland, James L. Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Volume 1: Foundations. [S.l.]: MIT Press. pp. 194–281. ISBN 0-262-68053-X 
  78. Peter, Dayan; Hinton, Geoffrey E.; Neal, Radford M.; Zemel, Richard S. (1995). «The Helmholtz machine.». Neural Computation. 7 (5): 889–904. PMID 7584891. doi:10.1162/neco.1995.7.5.889. hdl:21.11116/0000-0002-D6D3-EAcessível livremente  Acesso fechado
  79. Hinton, Geoffrey E.; Dayan, Peter; Frey, Brendan J.; Neal, Radford (26 de maio de 1995). «The wake-sleep algorithm for unsupervised neural networks». Science. 268 (5214): 1158–1161. Bibcode:1995Sci...268.1158H. PMID 7761831. doi:10.1126/science.7761831 
  80. Sejnowski, Terrence J. (2018). The deep learning revolution. Cambridge, Massachusetts: The MIT Press. ISBN 978-0-262-03803-4 
  81. Qian, Ning; Sejnowski, Terrence J. (20 de agosto de 1988). «Predicting the secondary structure of globular proteins using neural network models». Journal of Molecular Biology. 202 (4): 865–884. ISSN 0022-2836. PMID 3172241. doi:10.1016/0022-2836(88)90564-5 
  82. Morgan, Nelson; Bourlard, Hervé; Renals, Steve; Cohen, Michael; Franco, Horacio (1 de agosto de 1993). «Hybrid neural network/hidden markov model systems for continuous speech recognition». International Journal of Pattern Recognition and Artificial Intelligence. 07 (4): 899–916. ISSN 0218-0014. doi:10.1142/s0218001493000455 
  83. Robinson, T. (1992). «A real-time recurrent error propagation network word recognition system». ICASSP. Icassp'92: 617–620. ISBN 9780780305328. Consultado em 12 de junho de 2017. Cópia arquivada em 9 de maio de 2021 
  84. Waibel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, K. J. (março de 1989). «Phoneme recognition using time-delay neural networks» (PDF). IEEE Transactions on Acoustics, Speech, and Signal Processing. 37 (3): 328–339. ISSN 0096-3518. doi:10.1109/29.21701. hdl:10338.dmlcz/135496. Consultado em 24 de setembro de 2019. Cópia arquivada (PDF) em 27 de abril de 2021 
  85. Baker, J.; Deng, Li; Glass, Jim; Khudanpur, S.; Lee, C.-H.; Morgan, N.; O'Shaughnessy, D. (2009). «Research Developments and Directions in Speech Recognition and Understanding, Part 1». IEEE Signal Processing Magazine. 26 (3): 75–80. Bibcode:2009ISPM...26...75B. doi:10.1109/msp.2009.932166. hdl:1721.1/51891 
  86. Bengio, Y. (1991). «Artificial Neural Networks and their Application to Speech/Sequence Recognition». McGill University Ph.D. thesis. Consultado em 12 de junho de 2017. Cópia arquivada em 9 de maio de 2021 
  87. Deng, L.; Hassanein, K.; Elmasry, M. (1994). «Analysis of correlation structure for a neural predictive model with applications to speech recognition». Neural Networks. 7 (2): 331–339. doi:10.1016/0893-6080(94)90027-2 
  88. Doddington, G.; Przybocki, M.; Martin, A.; Reynolds, D. (2000). «The NIST speaker recognition evaluation ± Overview, methodology, systems, results, perspective». Speech Communication. 31 (2): 225–254. doi:10.1016/S0167-6393(99)00080-1 
  89. a b Heck, L.; Konig, Y.; Sonmez, M.; Weintraub, M. (2000). «Robustness to Telephone Handset Distortion in Speaker Recognition by Discriminative Feature Design». Speech Communication. 31 (2): 181–192. doi:10.1016/s0167-6393(99)00077-1 
  90. L.P Heck and R. Teunen. "Secure and Convenient Transactions with Nuance Verifier". Nuance Users Conference, April 1998.
  91. «Acoustic Modeling with Deep Neural Networks Using Raw Time Signal for LVCSR (PDF Download Available)». ResearchGate. Consultado em 14 de junho de 2017. Cópia arquivada em 9 de maio de 2021 
  92. a b Graves, Alex; Eck, Douglas; Beringer, Nicole; Schmidhuber, Jürgen (2003). «Biologically Plausible Speech Recognition with LSTM Neural Nets» (PDF). 1st Intl. Workshop on Biologically Inspired Approaches to Advanced Information Technology, Bio-ADIT 2004, Lausanne, Switzerland. pp. 175–184. Consultado em 9 de abril de 2016. Cópia arquivada (PDF) em 9 de maio de 2021 
  93. Graves, Alex; Fernández, Santiago; Gomez, Faustino; Schmidhuber, Jürgen (2006). «Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks». Proceedings of the International Conference on Machine Learning, ICML 2006: 369–376. CiteSeerX 10.1.1.75.6306Acessível livremente 
  94. Santiago Fernandez, Alex Graves, and Jürgen Schmidhuber (2007). An application of recurrent neural networks to discriminative keyword spotting Arquivado em 2018-11-18 no Wayback Machine. Proceedings of ICANN (2), pp. 220–229.
  95. Graves, Alex; & Schmidhuber, Jürgen; Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks, in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.), Advances in Neural Information Processing Systems 22 (NIPS'22), December 7th–10th, 2009, Vancouver, BC, Neural Information Processing Systems (NIPS) Foundation, 2009, pp. 545–552
  96. Hinton, Geoffrey E. (1 de outubro de 2007). «Learning multiple layers of representation». Trends in Cognitive Sciences. 11 (10): 428–434. ISSN 1364-6613. PMID 17921042. doi:10.1016/j.tics.2007.09.004. Consultado em 12 de junho de 2017. Cópia arquivada em 11 de outubro de 2013 
  97. Hinton, G. E.; Osindero, S.; Teh, Y. W. (2006). «A Fast Learning Algorithm for Deep Belief Nets» (PDF). Neural Computation. 18 (7): 1527–1554. PMID 16764513. doi:10.1162/neco.2006.18.7.1527. Consultado em 20 de julho de 2011. Cópia arquivada (PDF) em 23 de dezembro de 2015 
  98. G. E. Hinton., "Learning multiple layers of representation". Arquivado em 2018-05-22 no Wayback Machine. Trends in Cognitive Sciences, 11, pp. 428–434, 2007.
  99. Hinton, Geoffrey E. (outubro de 2007). «Learning multiple layers of representation». Trends in Cognitive Sciences (em inglês). 11 (10): 428–434. PMID 17921042. doi:10.1016/j.tics.2007.09.004 
  100. Hinton, Geoffrey E.; Osindero, Simon; Teh, Yee-Whye (julho de 2006). «A Fast Learning Algorithm for Deep Belief Nets». Neural Computation (em inglês). 18 (7): 1527–1554. ISSN 0899-7667. PMID 16764513. doi:10.1162/neco.2006.18.7.1527 
  101. Hinton, Geoffrey E. (31 de maio de 2009). «Deep belief networks». Scholarpedia (em inglês). 4 (5). 5947 páginas. Bibcode:2009SchpJ...4.5947H. ISSN 1941-6016. doi:10.4249/scholarpedia.5947Acessível livremente 
  102. Yann LeCun (2016). Slides on Deep Learning Online Arquivado em 2016-04-23 no Wayback Machine
  103. a b c Hinton, G.; Deng, L.; Yu, D.; Dahl, G.; Mohamed, A.; Jaitly, N.; Senior, A.; Vanhoucke, V.; Nguyen, P.; Sainath, T.; Kingsbury, B. (2012). «Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups». IEEE Signal Processing Magazine. 29 (6): 82–97. Bibcode:2012ISPM...29...82H. doi:10.1109/msp.2012.2205597 
  104. a b c Deng, L.; Hinton, G.; Kingsbury, B. (maio de 2013). «New types of deep neural network learning for speech recognition and related applications: An overview (ICASSP)» (PDF). Microsoft. Consultado em 27 de dezembro de 2023. Cópia arquivada (PDF) em 26 de setembro de 2017 
  105. a b c Yu, D.; Deng, L. (2014). Automatic Speech Recognition: A Deep Learning Approach (Publisher: Springer). [S.l.]: Springer. ISBN 978-1-4471-5779-3 
  106. «Deng receives prestigious IEEE Technical Achievement Award - Microsoft Research». Microsoft Research. 3 de dezembro de 2015. Consultado em 16 de março de 2018. Cópia arquivada em 16 de março de 2018 
  107. a b Li, Deng (setembro de 2014). «Keynote talk: 'Achievements and Challenges of Deep Learning - From Speech Analysis and Recognition To Language and Multimodal Processing'». Interspeech. Consultado em 12 de junho de 2017. Cópia arquivada em 26 de setembro de 2017 
  108. Yu, D.; Deng, L. (2010). «Roles of Pre-Training and Fine-Tuning in Context-Dependent DBN-HMMs for Real-World Speech Recognition». NIPS Workshop on Deep Learning and Unsupervised Feature Learning. Consultado em 14 de junho de 2017. Cópia arquivada em 12 de outubro de 2017 
  109. Seide, F.; Li, G.; Yu, D. (2011). «Conversational speech transcription using context-dependent deep neural networks». Interspeech 2011. [S.l.: s.n.] pp. 437–440. doi:10.21437/Interspeech.2011-169. Consultado em 14 de junho de 2017. Cópia arquivada em 12 de outubro de 2017 
  110. Deng, Li; Li, Jinyu; Huang, Jui-Ting; Yao, Kaisheng; Yu, Dong; Seide, Frank; Seltzer, Mike; Zweig, Geoff; He, Xiaodong (1 de maio de 2013). «Recent Advances in Deep Learning for Speech Research at Microsoft». Microsoft Research. Consultado em 14 de junho de 2017. Cópia arquivada em 12 de outubro de 2017 
  111. a b Oh, K.-S.; Jung, K. (2004). «GPU implementation of neural networks». Pattern Recognition. 37 (6): 1311–1314. Bibcode:2004PatRe..37.1311O. doi:10.1016/j.patcog.2004.01.013 
  112. a b Chellapilla, Kumar; Puri, Sidd; Simard, Patrice (2006), High performance convolutional neural networks for document processing, consultado em 14 de fevereiro de 2021, cópia arquivada em 18 de maio de 2020 
  113. Sze, Vivienne; Chen, Yu-Hsin; Yang, Tien-Ju; Emer, Joel (2017). «Efficient Processing of Deep Neural Networks: A Tutorial and Survey». arXiv:1703.09039Acessível livremente [cs.CV] 
  114. Raina, Rajat; Madhavan, Anand; Ng, Andrew Y. (14 de junho de 2009). «Large-scale deep unsupervised learning using graphics processors». Proceedings of the 26th Annual International Conference on Machine Learning. Col: ICML '09. New York, NY, USA: Association for Computing Machinery. pp. 873–880. ISBN 978-1-60558-516-1. doi:10.1145/1553374.1553486 
  115. Cireşan, Dan Claudiu; Meier, Ueli; Gambardella, Luca Maria; Schmidhuber, Jürgen (21 de setembro de 2010). «Deep, Big, Simple Neural Nets for Handwritten Digit Recognition». Neural Computation. 22 (12): 3207–3220. ISSN 0899-7667. PMID 20858131. arXiv:1003.0358Acessível livremente. doi:10.1162/neco_a_00052 
  116. Ciresan, D. C.; Meier, U.; Masci, J.; Gambardella, L.M.; Schmidhuber, J. (2011). «Flexible, High Performance Convolutional Neural Networks for Image Classification» (PDF). International Joint Conference on Artificial Intelligence. doi:10.5591/978-1-57735-516-8/ijcai11-210. Consultado em 13 de junho de 2017. Cópia arquivada (PDF) em 29 de setembro de 2014 
  117. Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Jürgen (2012). Pereira, F.; Burges, C. J. C.; Bottou, L.; Weinberger, K. Q., eds. Advances in Neural Information Processing Systems 25 (PDF). [S.l.]: Curran Associates, Inc. pp. 2843–2851. Consultado em 13 de junho de 2017. Cópia arquivada (PDF) em 9 de agosto de 2017 
  118. Ciresan, D.; Giusti, A.; Gambardella, L.M.; Schmidhuber, J. (2013). «Mitosis Detection in Breast Cancer Histology Images with Deep Neural Networks». Medical Image Computing and Computer-Assisted Intervention – MICCAI 2013. Col: Lecture Notes in Computer Science. 7908. [S.l.: s.n.] pp. 411–418. ISBN 978-3-642-38708-1. PMID 24579167. doi:10.1007/978-3-642-40763-5_51 
  119. Ng, Andrew; Dean, Jeff (2012). «Building High-level Features Using Large Scale Unsupervised Learning». arXiv:1112.6209Acessível livremente [cs.LG] 
  120. Simonyan, Karen; Andrew, Zisserman (2014). «Very Deep Convolution Networks for Large Scale Image Recognition». arXiv:1409.1556Acessível livremente [cs.CV] 
  121. Szegedy, Christian (2015). «Going deeper with convolutions» (PDF). Cvpr2015. arXiv:1409.4842Acessível livremente 
  122. Vinyals, Oriol; Toshev, Alexander; Bengio, Samy; Erhan, Dumitru (2014). «Show and Tell: A Neural Image Caption Generator». arXiv:1411.4555Acessível livremente [cs.CV] .
  123. Fang, Hao; Gupta, Saurabh; Iandola, Forrest; Srivastava, Rupesh; Deng, Li; Dollár, Piotr; Gao, Jianfeng; He, Xiaodong; Mitchell, Margaret; Platt, John C; Lawrence Zitnick, C; Zweig, Geoffrey (2014). «From Captions to Visual Concepts and Back». arXiv:1411.4952Acessível livremente [cs.CV] .
  124. Kiros, Ryan; Salakhutdinov, Ruslan; Zemel, Richard S (2014). «Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models». arXiv:1411.2539Acessível livremente [cs.LG] 
  125. Simonyan, Karen; Zisserman, Andrew (10 de abril de 2015), Very Deep Convolutional Networks for Large-Scale Image Recognition, arXiv:1409.1556Acessível livremente 
  126. He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). «Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification». arXiv:1502.01852Acessível livremente [cs.CV] 
  127. He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (10 de dezembro de 2015). Deep Residual Learning for Image Recognition. arXiv:1512.03385Acessível livremente 
  128. He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE. pp. 770–778. ISBN 978-1-4673-8851-1. arXiv:1512.03385Acessível livremente. doi:10.1109/CVPR.2016.90 
  129. Gatys, Leon A.; Ecker, Alexander S.; Bethge, Matthias (26 de agosto de 2015). «A Neural Algorithm of Artistic Style». arXiv:1508.06576Acessível livremente [cs.CV] 
  130. Goodfellow, Ian; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014). Generative Adversarial Networks (PDF). Proceedings of the International Conference on Neural Information Processing Systems (NIPS 2014). pp. 2672–2680. Consultado em 20 de agosto de 2019. Cópia arquivada (PDF) em 22 de novembro de 2019 
  131. «GAN 2.0: NVIDIA's Hyperrealistic Face Generator». SyncedReview.com. 14 de dezembro de 2018. Consultado em 3 de outubro de 2019 
  132. Karras, T.; Aila, T.; Laine, S.; Lehtinen, J. (26 de fevereiro de 2018). «Progressive Growing of GANs for Improved Quality, Stability, and Variation». arXiv:1710.10196Acessível livremente [cs.NE] 
  133. «Prepare, Don't Panic: Synthetic Media and Deepfakes». witness.org. Consultado em 25 de novembro de 2020. Cópia arquivada em 2 de dezembro de 2020 
  134. Sohl-Dickstein, Jascha; Weiss, Eric; Maheswaranathan, Niru; Ganguli, Surya (1 de junho de 2015). «Deep Unsupervised Learning using Nonequilibrium Thermodynamics» (PDF). PMLR. Proceedings of the 32nd International Conference on Machine Learning (em inglês). 37: 2256–2265. arXiv:1503.03585Acessível livremente 
  135. Google Research Blog. The neural networks behind Google Voice transcription. 11-08-2015. By Françoise Beaufays http://googleresearch.blogspot.co.at/2015/08/the-neural-networks-behind-google-voice.html
  136. a b Sak, Haşim; Senior, Andrew; Rao, Kanishka; Beaufays, Françoise; Schalkwyk, Johan (setembro de 2015). «Google voice search: faster and more accurate». Consultado em 9 de abril de 2016. Cópia arquivada em 9 de março de 2016 
  137. Singh, Premjeet; Saha, Goutam; Sahidullah, Md (2021). «Non-linear frequency warping using constant-Q transformation for speech emotion recognition». 2021 International Conference on Computer Communication and Informatics (ICCCI). [S.l.: s.n.] pp. 1–4. ISBN 978-1-7281-5875-4. arXiv:2102.04029Acessível livremente. doi:10.1109/ICCCI50826.2021.9402569 
  138. Sak, Hasim; Senior, Andrew; Beaufays, Francoise (2014). «Long Short-Term Memory recurrent neural network architectures for large scale acoustic modeling» (PDF). Arquivado do original (PDF) em 24 de abril de 2018 
  139. Li, Xiangang; Wu, Xihong (2014). «Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition». arXiv:1410.4281Acessível livremente [cs.CL] 
  140. Zen, Heiga; Sak, Hasim (2015). «Unidirectional Long Short-Term Memory Recurrent Neural Network with Recurrent Output Layer for Low-Latency Speech Synthesis» (PDF). Google.com. ICASSP. pp. 4470–4474. Consultado em 13 de junho de 2017. Cópia arquivada (PDF) em 9 de maio de 2021 
  141. «2018 ACM A.M. Turing Award Laureates». awards.acm.org (em inglês). Consultado em 7 de agosto de 2024 
  142. Ferrie, C., & Kaiser, S. (2019). Neural Networks for Babies. [S.l.]: Sourcebooks. ISBN 978-1492671206 
  143. Silver, David; Huang, Aja; Maddison, Chris J.; Guez, Arthur; Sifre, Laurent; Driessche, George van den; Schrittwieser, Julian; Antonoglou, Ioannis; Panneershelvam, Veda (janeiro de 2016). «Mastering the game of Go with deep neural networks and tree search». Nature. 529 (7587): 484–489. Bibcode:2016Natur.529..484S. ISSN 1476-4687. PMID 26819042. doi:10.1038/nature16961 
  144. A Guide to Deep Learning and Neural Networks, consultado em 16 de novembro de 2020, cópia arquivada em 2 de novembro de 2020 
  145. a b Kumar, Nishant; Raubal, Martin (2021). «Applications of deep learning in congestion detection, prediction and alleviation: A survey». Transportation Research Part C: Emerging Technologies. 133. 103432 páginas. Bibcode:2021TRPC..13303432K. arXiv:2102.09759Acessível livremente. doi:10.1016/j.trc.2021.103432Acessível livremente. hdl:10230/42143Acessível livremente 
  146. Szegedy, Christian; Toshev, Alexander; Erhan, Dumitru (2013). «Deep neural networks for object detection». Advances in Neural Information Processing Systems: 2553–2561. Consultado em 13 de junho de 2017. Cópia arquivada em 29 de junho de 2017 
  147. Rolnick, David; Tegmark, Max (2018). «The power of deeper networks for expressing natural functions». International Conference on Learning Representations. ICLR 2018. Consultado em 5 de janeiro de 2021. Cópia arquivada em 7 de janeiro de 2021 
  148. Hof, Robert D. «Is Artificial Intelligence Finally Coming into Its Own?». MIT Technology Review. Consultado em 10 de julho de 2018. Cópia arquivada em 31 de março de 2019 
  149. a b Gers, Felix A.; Schmidhuber, Jürgen (2001). «LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages». IEEE Transactions on Neural Networks. 12 (6): 1333–1340. PMID 18249962. doi:10.1109/72.963769. Consultado em 25 de fevereiro de 2020. Cópia arquivada em 26 de janeiro de 2020 
  150. a b c Sutskever, L.; Vinyals, O.; Le, Q. (2014). «Sequence to Sequence Learning with Neural Networks» (PDF). Proc. NIPS. Bibcode:2014arXiv1409.3215S. arXiv:1409.3215Acessível livremente. Consultado em 13 de junho de 2017. Cópia arquivada (PDF) em 9 de maio de 2021 
  151. a b Jozefowicz, Rafal; Vinyals, Oriol; Schuster, Mike; Shazeer, Noam; Wu, Yonghui (2016). «Exploring the Limits of Language Modeling». arXiv:1602.02410Acessível livremente [cs.CL] 
  152. a b Gillick, Dan; Brunk, Cliff; Vinyals, Oriol; Subramanya, Amarnag (2015). «Multilingual Language Processing from Bytes». arXiv:1512.00103Acessível livremente [cs.CL] 
  153. Mikolov, T.; et al. (2010). «Recurrent neural network based language model» (PDF). Interspeech: 1045–1048. doi:10.21437/Interspeech.2010-343. Consultado em 13 de junho de 2017. Cópia arquivada (PDF) em 16 de maio de 2017 
  154. Hochreiter, Sepp; Schmidhuber, Jürgen (1 de novembro de 1997). «Long Short-Term Memory». Neural Computation. 9 (8): 1735–1780. ISSN 0899-7667. PMID 9377276. doi:10.1162/neco.1997.9.8.1735 
  155. a b «Learning Precise Timing with LSTM Recurrent Networks (PDF Download Available)». ResearchGate. Consultado em 13 de junho de 2017. Cópia arquivada em 9 de maio de 2021 
  156. LeCun, Y.; et al. (1998). «Gradient-based learning applied to document recognition». Proceedings of the IEEE. 86 (11): 2278–2324. doi:10.1109/5.726791 
  157. Sainath, Tara N.; Mohamed, Abdel-Rahman; Kingsbury, Brian; Ramabhadran, Bhuvana (2013). «Deep convolutional neural networks for LVCSR». 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. [S.l.: s.n.] pp. 8614–8618. ISBN 978-1-4799-0356-6. doi:10.1109/icassp.2013.6639347 
  158. Bengio, Yoshua; Boulanger-Lewandowski, Nicolas; Pascanu, Razvan (2013). «Advances in optimizing recurrent networks». 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. [S.l.: s.n.] pp. 8624–8628. CiteSeerX 10.1.1.752.9151Acessível livremente. ISBN 978-1-4799-0356-6. arXiv:1212.0901Acessível livremente. doi:10.1109/icassp.2013.6639349 
  159. Dahl, G.; et al. (2013). «Improving DNNs for LVCSR using rectified linear units and dropout» (PDF). ICASSP. Consultado em 13 de junho de 2017. Cópia arquivada (PDF) em 12 de agosto de 2017 
  160. Kumar, Nishant; Martin, Henry; Raubal, Martin (2024). «Enhancing Deep Learning-Based City-Wide Traffic Prediction Pipelines Through Complexity Analysis». Data Science for Transportation. 6 (3): Article 24. doi:10.1007/s42421-024-00109-xAcessível livremente. hdl:20.500.11850/695425Acessível livremente 
  161. «Data Augmentation - deeplearning.ai | Coursera». Coursera. Consultado em 30 de novembro de 2017. Cópia arquivada em 1 de dezembro de 2017 
  162. Hinton, G. E. (2010). «A Practical Guide to Training Restricted Boltzmann Machines». Tech. Rep. UTML TR 2010-003. Consultado em 13 de junho de 2017. Cópia arquivada em 9 de maio de 2021 
  163. You, Yang; Buluç, Aydın; Demmel, James (novembro de 2017). «Scaling deep learning on GPU and knights landing clusters». Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis on - SC '17. [S.l.]: SC '17, ACM. pp. 1–12. ISBN 9781450351140. doi:10.1145/3126908.3126912. Consultado em 5 de março de 2018. Cópia arquivada em 29 de julho de 2020 
  164. Viebke, André; Memeti, Suejb; Pllana, Sabri; Abraham, Ajith (2019). «CHAOS: a parallelization scheme for training convolutional neural networks on Intel Xeon Phi». The Journal of Supercomputing. 75: 197–227. Bibcode:2017arXiv170207908V. arXiv:1702.07908Acessível livremente. doi:10.1007/s11227-017-1994-x 
  165. Ting Qin, et al. "A learning algorithm of CMAC based on RLS" (em inglês). Neural Processing Letters 19.1 (2004): 49-61.
  166. Ting Qin, et al. "Continuous CMAC-QRLS and its systolic array" (em inglês). Arquivado em 2018-11-18 no Wayback Machine. Neural Processing Letters 22.1 (2005): 1-16.
  167. Research, AI (23 de outubro de 2015). «Deep Neural Networks for Acoustic Modeling in Speech Recognition». airesearch.com. Consultado em 23 de outubro de 2015. Cópia arquivada em 1 de fevereiro de 2016 
  168. «GPUs Continue to Dominate the AI Accelerator Market for Now». InformationWeek (em inglês). Dezembro de 2019. Consultado em 11 de junho de 2020. Cópia arquivada em 10 de junho de 2020 
  169. Ray, Tiernan (2019). «AI is changing the entire nature of computation». ZDNet (em inglês). Consultado em 11 de junho de 2020. Cópia arquivada em 25 de maio de 2020 
  170. «AI and Compute». OpenAI (em inglês). 16 de maio de 2018. Consultado em 11 de junho de 2020. Cópia arquivada em 17 de junho de 2020 
  171. «HUAWEI Reveals the Future of Mobile AI at IFA 2017 | HUAWEI Latest News | HUAWEI Global». consumer.huawei.com 
  172. P, JouppiNorman; YoungCliff; PatilNishant; PattersonDavid; AgrawalGaurav; BajwaRaminder; BatesSarah; BhatiaSuresh; BodenNan; BorchersAl; BoyleRick (24 de junho de 2017). «In-Datacenter Performance Analysis of a Tensor Processing Unit». ACM SIGARCH Computer Architecture News (em inglês). 45 (2): 1–12. arXiv:1704.04760Acessível livremente. doi:10.1145/3140659.3080246Acessível livremente 
  173. Woodie, Alex (1 de novembro de 2021). «Cerebras Hits the Accelerator for Deep Learning Workloads». Datanami. Consultado em 3 de agosto de 2022 
  174. «Cerebras launches new AI supercomputing processor with 2.6 trillion transistors». VentureBeat (em inglês). 20 de abril de 2021. Consultado em 3 de agosto de 2022 
  175. Marega, Guilherme Migliato; Zhao, Yanfei; Avsar, Ahmet; Wang, Zhenyu; Tripati, Mukesh; Radenovic, Aleksandra; Kis, Anras (2020). «Logic-in-memory based on an atomically thin semiconductor». Nature. 587 (2): 72–77. Bibcode:2020Natur.587...72M. PMC 7116757Acessível livremente. PMID 33149289. doi:10.1038/s41586-020-2861-0 
  176. a b c Feldmann, J.; Youngblood, N.; Karpov, M.; et al. (2021). «Parallel convolutional processing using an integrated photonic tensor». Nature. 589 (2): 52–58. PMID 33408373. arXiv:2002.00281Acessível livremente. doi:10.1038/s41586-020-03070-1 
  177. Garofolo, J.S.; Lamel, L.F.; Fisher, W.M.; Fiscus, J.G.; Pallett, D.S.; Dahlgren, N.L.; Zue, V. (1993). TIMIT Acoustic-Phonetic Continuous Speech Corpus. [S.l.]: Linguistic Data Consortium. ISBN 1-58563-019-5. doi:10.35111/17gk-bn40. Consultado em 27 de dezembro de 2023 
  178. Robinson, Tony (30 de setembro de 1991). «Several Improvements to a Recurrent Error Propagation Network Phone Recognition System». Cambridge University Engineering Department Technical Report. CUED/F-INFENG/TR82. doi:10.13140/RG.2.2.15418.90567 
  179. Abdel-Hamid, O.; et al. (2014). «Convolutional Neural Networks for Speech Recognition». IEEE/ACM Transactions on Audio, Speech, and Language Processing. 22 (10): 1533–1545. doi:10.1109/taslp.2014.2339736. Consultado em 20 de abril de 2018. Cópia arquivada em 22 de setembro de 2020 
  180. Deng, L.; Platt, J. (2014). «Ensemble Deep Learning for Speech Recognition». Proc. Interspeech: 1915–1919. doi:10.21437/Interspeech.2014-433 
  181. Tóth, Laszló (2015). «Phone Recognition with Hierarchical Convolutional Deep Maxout Networks» (PDF). EURASIP Journal on Audio, Speech, and Music Processing. 2015. doi:10.1186/s13636-015-0068-3Acessível livremente. Consultado em 1 de abril de 2019. Cópia arquivada (PDF) em 24 de setembro de 2020 
  182. McMillan, Robert (17 de dezembro de 2014). «How Skype Used AI to Build Its Amazing New Language Translator | WIRED». Wired. Consultado em 14 de junho de 2017. Cópia arquivada em 8 de junho de 2017 
  183. Hannun, Awni; Case, Carl; Casper, Jared; Catanzaro, Bryan; Diamos, Greg; Elsen, Erich; Prenger, Ryan; Satheesh, Sanjeev; Sengupta, Shubho; Coates, Adam; Ng, Andrew Y (2014). «Deep Speech: Scaling up end-to-end speech recognition». arXiv:1412.5567Acessível livremente [cs.CL] 
  184. «MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges». yann.lecun.com. Consultado em 28 de janeiro de 2014. Cópia arquivada em 13 de janeiro de 2014 
  185. Cireşan, Dan; Meier, Ueli; Masci, Jonathan; Schmidhuber, Jürgen (agosto de 2012). «Multi-column deep neural network for traffic sign classification». Neural Networks. Selected Papers from IJCNN 2011. 32: 333–338. CiteSeerX 10.1.1.226.8219Acessível livremente. PMID 22386783. doi:10.1016/j.neunet.2012.02.023 
  186. Chaochao Lu; Xiaoou Tang (2014). «Surpassing Human Level Face Recognition». arXiv:1404.3840Acessível livremente [cs.CV] 
  187. Nvidia Demos a Car Computer Trained with "Deep Learning" (06-01-2015), David Talbot, MIT Technology Review
  188. a b c G. W. Smith; Frederic Fol Leymarie (10 de abril de 2017). «The Machine as Artist: An Introduction». Arts. 6 (4). 5 páginas. doi:10.3390/arts6020005Acessível livremente 
  189. a b c Blaise Agüera y Arcas (29 de setembro de 2017). «Art in the Age of Machine Intelligence». Arts. 6 (4). 18 páginas. doi:10.3390/arts6040018Acessível livremente 
  190. Goldberg, Yoav; Levy, Omar (2014). «word2vec Explained: Deriving Mikolov et al.'s Negative-Sampling Word-Embedding Method». arXiv:1402.3722Acessível livremente [cs.CL] 
  191. a b Socher, Richard; Manning, Christopher. «Deep Learning for NLP» (PDF). Consultado em 26 de outubro de 2014. Cópia arquivada (PDF) em 6 de julho de 2014 
  192. Socher, Richard; Bauer, John; Manning, Christopher; Ng, Andrew (2013). «Parsing With Compositional Vector Grammars» (PDF). Proceedings of the ACL 2013 Conference. Consultado em 3 de setembro de 2014. Cópia arquivada (PDF) em 27 de novembro de 2014 
  193. Socher, R.; Perelygin, A.; Wu, J.; Chuang, J.; Manning, C.D.; Ng, A.; Potts, C. (outubro de 2013). «Recursive Deep Models for Semantic Compositionality over a Sentiment Treebank» (PDF). Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. [S.l.]: Association for Computational Linguistics. pp. 1631–1642. doi:10.18653/v1/D13-1170. Consultado em 21 de dezembro de 2023. Cópia arquivada (PDF) em 28 de dezembro de 2016 
  194. Shen, Yelong; He, Xiaodong; Gao, Jianfeng; Deng, Li; Mesnil, Gregoire (1 de novembro de 2014). «A Latent Semantic Model with Convolutional-Pooling Structure for Information Retrieval». Microsoft Research. Consultado em 14 de junho de 2017. Cópia arquivada em 27 de outubro de 2017 
  195. Huang, Po-Sen; He, Xiaodong; Gao, Jianfeng; Deng, Li; Acero, Alex; Heck, Larry (1 de outubro de 2013). «Learning Deep Structured Semantic Models for Web Search using Clickthrough Data». Microsoft Research. Consultado em 14 de junho de 2017. Cópia arquivada em 27 de outubro de 2017 
  196. Mesnil, G.; Dauphin, Y.; Yao, K.; Bengio, Y.; Deng, L.; Hakkani-Tur, D.; He, X.; Heck, L.; Tur, G.; Yu, D.; Zweig, G. (2015). «Using recurrent neural networks for slot filling in spoken language understanding». IEEE Transactions on Audio, Speech, and Language Processing. 23 (3): 530–539. doi:10.1109/taslp.2014.2383614 
  197. a b Gao, Jianfeng; He, Xiaodong; Yih, Scott Wen-tau; Deng, Li (1 de junho de 2014). «Learning Continuous Phrase Representations for Translation Modeling». Microsoft Research. Consultado em 14 de junho de 2017. Cópia arquivada em 27 de outubro de 2017 
  198. Brocardo, Marcelo Luiz; Traore, Issa; Woungang, Isaac; Obaidat, Mohammad S. (2017). «Authorship verification using deep belief network systems». International Journal of Communication Systems. 30 (12): e3259. doi:10.1002/dac.3259 
  199. Kariampuzha, William; Alyea, Gioconda; Qu, Sue; Sanjak, Jaleal; Mathé, Ewy; Sid, Eric; Chatelaine, Haley; Yadaw, Arjun; Xu, Yanji; Zhu, Qian (2023). «Precision information extraction for rare disease epidemiology at scale». Journal of Translational Medicine (em inglês). 21 (1): 157. PMC 9972634Acessível livremente. PMID 36855134. doi:10.1186/s12967-023-04011-yAcessível livremente 
  200. «Deep Learning for Natural Language Processing: Theory and Practice (CIKM2014 Tutorial) - Microsoft Research». Microsoft Research. Consultado em 14 de junho de 2017. Cópia arquivada em 13 de março de 2017 
  201. Turovsky, Barak (15 de novembro de 2016). «Found in translation: More accurate, fluent sentences in Google Translate». The Keyword Google Blog. Consultado em 23 de março de 2017. Cópia arquivada em 7 de abril de 2017 
  202. a b c d Schuster, Mike; Johnson, Melvin; Thorat, Nikhil (22 de novembro de 2016). «Zero-Shot Translation with Google's Multilingual Neural Machine Translation System». Google Research Blog. Consultado em 23 de março de 2017. Cópia arquivada em 10 de julho de 2017 
  203. Wu, Yonghui; Schuster, Mike; Chen, Zhifeng; Le, Quoc V; Norouzi, Mohammad; Macherey, Wolfgang; Krikun, Maxim; Cao, Yuan; Gao, Qin; Macherey, Klaus; Klingner, Jeff; Shah, Apurva; Johnson, Melvin; Liu, Xiaobing; Kaiser, Łukasz; Gouws, Stephan; Kato, Yoshikiyo; Kudo, Taku; Kazawa, Hideto; Stevens, Keith; Kurian, George; Patil, Nishant; Wang, Wei; Young, Cliff; Smith, Jason; Riesa, Jason; Rudnick, Alex; Vinyals, Oriol; Corrado, Greg; et al. (2016). «Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation». arXiv:1609.08144Acessível livremente [cs.CL] 
  204. Metz, Cade (27 de setembro de 2016). «An Infusion of AI Makes Google Translate More Powerful Than Ever». Wired. Consultado em 12 de outubro de 2017. Cópia arquivada em 8 de novembro de 2020 
  205. a b Boitet, Christian; Blanchon, Hervé; Seligman, Mark; Bellynck, Valérie (2010). «MT on and for the Web» (PDF). Consultado em 1 de dezembro de 2016. Arquivado do original (PDF) em 29 de março de 2017 
  206. Arrowsmith, J; Miller, P (2013). «Trial watch: Phase II and phase III attrition rates 2011-2012». Nature Reviews Drug Discovery. 12 (8). 569 páginas. PMID 23903212. doi:10.1038/nrd4090Acessível livremente 
  207. Verbist, B; Klambauer, G; Vervoort, L; Talloen, W; The Qstar, Consortium; Shkedy, Z; Thas, O; Bender, A; Göhlmann, H. W.; Hochreiter, S (2015). «Using transcriptomics to guide lead optimization in drug discovery projects: Lessons learned from the QSTAR project». Drug Discovery Today. 20 (5): 505–513. PMID 25582842. doi:10.1016/j.drudis.2014.12.014Acessível livremente. hdl:1942/18723Acessível livremente 
  208. «Merck Molecular Activity Challenge». kaggle.com. Consultado em 16 de julho de 2020. Cópia arquivada em 16 de julho de 2020 
  209. «Multi-task Neural Networks for QSAR Predictions | Data Science Association». www.datascienceassn.org. Consultado em 14 de junho de 2017. Cópia arquivada em 30 de abril de 2017 
  210. "Toxicology in the 21st century Data Challenge"
  211. «NCATS Announces Tox21 Data Challenge Winners». Consultado em 5 de março de 2015. Cópia arquivada em 8 de setembro de 2015 
  212. «NCATS Announces Tox21 Data Challenge Winners». Consultado em 5 de março de 2015. Arquivado do original em 28 de fevereiro de 2015 
  213. Wallach, Izhar; Dzamba, Michael; Heifets, Abraham (9 de outubro de 2015). «AtomNet: A Deep Convolutional Neural Network for Bioactivity Prediction in Structure-based Drug Discovery». arXiv:1510.02855Acessível livremente [cs.LG] 
  214. a b «Toronto startup has a faster way to discover effective medicines». The Globe and Mail. Consultado em 9 de novembro de 2015. Cópia arquivada em 20 de outubro de 2015 
  215. «Startup Harnesses Supercomputers to Seek Cures». KQED Future of You. 27 de maio de 2015. Consultado em 9 de novembro de 2015. Cópia arquivada em 24 de dezembro de 2015 
  216. Gilmer, Justin; Schoenholz, Samuel S.; Riley, Patrick F.; Vinyals, Oriol; Dahl, George E. (12 de junho de 2017). «Neural Message Passing for Quantum Chemistry». arXiv:1704.01212Acessível livremente [cs.LG] 
  217. Zhavoronkov, Alex (2019). «Deep learning enables rapid identification of potent DDR1 kinase inhibitors». Nature Biotechnology. 37 (9): 1038–1040. PMID 31477924. doi:10.1038/s41587-019-0224-x 
  218. Gregory, Barber. «A Molecule Designed By AI Exhibits 'Druglike' Qualities». Wired. Consultado em 5 de setembro de 2019. Cópia arquivada em 30 de abril de 2020 
  219. Tkachenko, Yegor (8 de abril de 2015). «Autonomous CRM Control via CLV Approximation with Deep Reinforcement Learning in Discrete and Continuous Action Space». arXiv:1504.01840Acessível livremente [cs.LG] 
  220. van den Oord, Aaron; Dieleman, Sander; Schrauwen, Benjamin (2013). Burges, C. J. C.; Bottou, L.; Welling, M.; Ghahramani, Z.; Weinberger, K. Q., eds. Advances in Neural Information Processing Systems 26 (PDF). [S.l.]: Curran Associates, Inc. pp. 2643–2651. Consultado em 14 de junho de 2017. Cópia arquivada (PDF) em 16 de maio de 2017 
  221. Feng, X.Y.; Zhang, H.; Ren, Y.J.; Shang, P.H.; Zhu, Y.; Liang, Y.C.; Guan, R.C.; Xu, D. (2019). «The Deep Learning–Based Recommender System "Pubmender" for Choosing a Biomedical Publication Venue: Development and Validation Study». Journal of Medical Internet Research. 21 (5): e12957. PMC 6555124Acessível livremente. PMID 31127715. doi:10.2196/12957Acessível livremente 
  222. Elkahky, Ali Mamdouh; Song, Yang; He, Xiaodong (1 de maio de 2015). «A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems». Microsoft Research. Consultado em 14 de junho de 2017. Cópia arquivada em 25 de janeiro de 2018 
  223. Chicco, Davide; Sadowski, Peter; Baldi, Pierre (1 de janeiro de 2014). «Deep autoencoder neural networks for gene ontology annotation predictions». Proceedings of the 5th ACM Conference on Bioinformatics, Computational Biology, and Health Informatics. [S.l.]: ACM. pp. 533–540. ISBN 9781450328944. doi:10.1145/2649387.2649442. hdl:11311/964622. Consultado em 23 de novembro de 2015. Cópia arquivada em 9 de maio de 2021 
  224. Sathyanarayana, Aarti (1 de janeiro de 2016). «Sleep Quality Prediction From Wearable Data Using Deep Learning». JMIR mHealth and uHealth. 4 (4): e125. PMC 5116102Acessível livremente. PMID 27815231. doi:10.2196/mhealth.6562Acessível livremente 
  225. Choi, Edward; Schuetz, Andy; Stewart, Walter F.; Sun, Jimeng (13 de agosto de 2016). «Using recurrent neural network models for early detection of heart failure onset». Journal of the American Medical Informatics Association. 24 (2): 361–370. ISSN 1067-5027. PMC 5391725Acessível livremente. PMID 27521897. doi:10.1093/jamia/ocw112 
  226. «DeepMind's protein-folding AI has solved a 50-year-old grand challenge of biology». MIT Technology Review (em inglês). Consultado em 10 de maio de 2024 
  227. Shead, Sam (30 de novembro de 2020). «DeepMind solves 50-year-old 'grand challenge' with protein folding A.I.». CNBC (em inglês). Consultado em 10 de maio de 2024 
  228. a b Shalev, Y.; Painsky, A.; Ben-Gal, I. (2022). «Neural Joint Entropy Estimation» (PDF). IEEE Transactions on Neural Networks and Learning Systems (em inglês). PP (4): 5488–5500. PMID 36155469. arXiv:2012.11197Acessível livremente. doi:10.1109/TNNLS.2022.3204919 
  229. Litjens, Geert; Kooi, Thijs; Bejnordi, Babak Ehteshami; Setio, Arnaud Arindra Adiyoso; Ciompi, Francesco; Ghafoorian, Mohsen; van der Laak, Jeroen A.W.M.; van Ginneken, Bram; Sánchez, Clara I. (dezembro de 2017). «A survey on deep learning in medical image analysis». Medical Image Analysis. 42: 60–88. Bibcode:2017arXiv170205747L. PMID 28778026. arXiv:1702.05747Acessível livremente. doi:10.1016/j.media.2017.07.005 
  230. Forslid, Gustav; Wieslander, Hakan; Bengtsson, Ewert; Wahlby, Carolina; Hirsch, Jan-Michael; Stark, Christina Runow; Sadanandan, Sajith Kecheril (2017). «Deep Convolutional Neural Networks for Detecting Cellular Changes Due to Malignancy». 2017 IEEE International Conference on Computer Vision Workshops (ICCVW). [S.l.: s.n.] pp. 82–89. ISBN 9781538610343. doi:10.1109/ICCVW.2017.18. Consultado em 12 de novembro de 2019. Cópia arquivada em 9 de maio de 2021 
  231. Dong, Xin; Zhou, Yizhao; Wang, Lantian; Peng, Jingfeng; Lou, Yanbo; Fan, Yiqun (2020). «Liver Cancer Detection Using Hybridized Fully Convolutional Neural Network Based on Deep Learning Framework». IEEE Access. 8: 129889–129898. Bibcode:2020IEEEA...8l9889D. ISSN 2169-3536. doi:10.1109/ACCESS.2020.3006362Acessível livremente 
  232. Lyakhov, Pavel Alekseevich; Lyakhova, Ulyana Alekseevna; Nagornov, Nikolay Nikolaevich (3 de abril de 2022). «System for the Recognizing of Pigmented Skin Lesions with Fusion and Analysis of Heterogeneous Data Based on a Multimodal Neural Network». Cancers (em inglês). 14 (7). 1819 páginas. ISSN 2072-6694. PMC 8997449Acessível livremente. PMID 35406591. doi:10.3390/cancers14071819Acessível livremente 
  233. De, Shaunak; Maity, Abhishek; Goel, Vritti; Shitole, Sanjay; Bhattacharya, Avik (2017). «Predicting the popularity of instagram posts for a lifestyle magazine using deep learning». 2017 2nd International Conference on Communication Systems, Computing and IT Applications (CSCITA). [S.l.: s.n.] pp. 174–177. ISBN 978-1-5090-4381-1. doi:10.1109/CSCITA.2017.8066548 
  234. «Colorizing and Restoring Old Images with Deep Learning». FloydHub Blog (em inglês). 13 de novembro de 2018. Consultado em 11 de outubro de 2019. Cópia arquivada em 11 de outubro de 2019 
  235. Schmidt, Uwe; Roth, Stefan. Shrinkage Fields for Effective Image Restoration (PDF). Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on. Consultado em 1 de janeiro de 2018. Cópia arquivada (PDF) em 2 de janeiro de 2018 
  236. Kleanthous, Christos; Chatzis, Sotirios (2020). «Gated Mixture Variational Autoencoders for Value Added Tax audit case selection». Knowledge-Based Systems. 188: 105048. doi:10.1016/j.knosys.2019.105048 
  237. Czech, Tomasz (28 de junho de 2018). «Deep learning: the next frontier for money laundering detection». Global Banking and Finance Review. Consultado em 15 de julho de 2018. Cópia arquivada em 16 de novembro de 2018 
  238. Nuñez, Michael (29 de novembro de 2023). «Google DeepMind's materials AI has already discovered 2.2 million new crystals». VentureBeat (em inglês). Consultado em 19 de dezembro de 2023 
  239. Merchant, Amil; Batzner, Simon; Schoenholz, Samuel S.; Aykol, Muratahan; Cheon, Gowoon; Cubuk, Ekin Dogus (dezembro de 2023). «Scaling deep learning for materials discovery». Nature (em inglês). 624 (7990): 80–85. Bibcode:2023Natur.624...80M. ISSN 1476-4687. PMC 10700131Acessível livremente Verifique |pmc= (ajuda). PMID 38030720 Verifique |pmid= (ajuda). doi:10.1038/s41586-023-06735-9Acessível livremente 
  240. Peplow, Mark (29 de novembro de 2023). «Google AI and robots join forces to build new materials». Nature (em inglês). PMID 38030771 Verifique |pmid= (ajuda). doi:10.1038/d41586-023-03745-5 
  241. a b c «Army researchers develop new algorithms to train robots». EurekAlert!. Consultado em 29 de agosto de 2018. Cópia arquivada em 28 de agosto de 2018 
  242. Raissi, M.; Perdikaris, P.; Karniadakis, G. E. (1 de fevereiro de 2019). «Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations». Journal of Computational Physics (em inglês). 378: 686–707. Bibcode:2019JCoPh.378..686R. ISSN 0021-9991. OSTI 1595805. doi:10.1016/j.jcp.2018.10.045Acessível livremente 
  243. Mao, Zhiping; Jagtap, Ameya D.; Karniadakis, George Em (1 de março de 2020). «Physics-informed neural networks for high-speed flows». Computer Methods in Applied Mechanics and Engineering (em inglês). 360. 112789 páginas. Bibcode:2020CMAME.360k2789M. ISSN 0045-7825. doi:10.1016/j.cma.2019.112789Acessível livremente 
  244. Raissi, Maziar; Yazdani, Alireza; Karniadakis, George Em (28 de fevereiro de 2020). «Hidden fluid mechanics: Learning velocity and pressure fields from flow visualizations». Science. 367 (6481): 1026–1030. Bibcode:2020Sci...367.1026R. PMC 7219083Acessível livremente. PMID 32001523. doi:10.1126/science.aaw4741 
  245. Han, J.; Jentzen, A.; E, W. (2018). «Solving high-dimensional partial differential equations using deep learning». Proceedings of the National Academy of Sciences. 115 (34): 8505–8510. Bibcode:2018PNAS..115.8505H. PMC 6112690Acessível livremente. PMID 30082389. arXiv:1707.02568Acessível livremente. doi:10.1073/pnas.1718942115Acessível livremente 
  246. Oktem, Figen S.; Kar, Oğuzhan Fatih; Bezek, Can Deniz; Kamalabadi, Farzad (2021). «High-Resolution Multi-Spectral Imaging With Diffractive Lenses and Learned Reconstruction». IEEE Transactions on Computational Imaging. 7: 489–504. ISSN 2333-9403. arXiv:2008.11625Acessível livremente. doi:10.1109/TCI.2021.3075349 
  247. Bernhardt, Melanie; Vishnevskiy, Valery; Rau, Richard; Goksel, Orcun (dezembro de 2020). «Training Variational Networks With Multidomain Simulations: Speed-of-Sound Image Reconstruction». IEEE Transactions on Ultrasonics, Ferroelectrics, and Frequency Control. 67 (12): 2584–2594. ISSN 1525-8955. PMID 32746211. arXiv:2006.14395Acessível livremente. doi:10.1109/TUFFC.2020.3010186 
  248. Lam, Remi; Sanchez-Gonzalez, Alvaro; Willson, Matthew; Wirnsberger, Peter; Fortunato, Meire; Alet, Ferran; Ravuri, Suman; Ewalds, Timo; Eaton-Rosen, Zach; Hu, Weihua; Merose, Alexander; Hoyer, Stephan; Holland, George; Vinyals, Oriol; Stott, Jacklynn (22 de dezembro de 2023). «Learning skillful medium-range global weather forecasting». Science (em inglês). 382 (6677): 1416–1421. Bibcode:2023Sci...382.1416L. ISSN 0036-8075. PMID 37962497 Verifique |pmid= (ajuda). arXiv:2212.12794Acessível livremente. doi:10.1126/science.adi2336Acessível livremente 
  249. Sivakumar, Ramakrishnan (27 de novembro de 2023). «GraphCast: A breakthrough in Weather Forecasting». Medium (em inglês). Consultado em 19 de maio de 2024 
  250. Galkin, F.; Mamoshina, P.; Kochetov, K.; Sidorenko, D.; Zhavoronkov, A. (2020). «DeepMAge: A Methylation Aging Clock Developed with Deep Learning». Aging and Disease. doi:10.14336/ADAcessível livremente 
  251. Utgoff, P. E.; Stracuzzi, D. J. (2002). «Many-layered learning». Neural Computation. 14 (10): 2497–2529. PMID 12396572. doi:10.1162/08997660260293319 
  252. Elman, Jeffrey L. (1998). Rethinking Innateness: A Connectionist Perspective on Development. [S.l.]: MIT Press. ISBN 978-0-262-55030-7 
  253. Shrager, J.; Johnson, MH (1996). «Dynamic plasticity influences the emergence of function in a simple cortical array». Neural Networks. 9 (7): 1119–1129. PMID 12662587. doi:10.1016/0893-6080(96)00033-0 
  254. Quartz, SR; Sejnowski, TJ (1997). «The neural basis of cognitive development: A constructivist manifesto». Behavioral and Brain Sciences. 20 (4): 537–556. CiteSeerX 10.1.1.41.7854Acessível livremente. PMID 10097006. doi:10.1017/s0140525x97001581 
  255. S. Blakeslee, "In brain's early growth, timetable may be critical" (em inglês), The New York Times, Science Section, pp. B5–B6, 1995.
  256. Mazzoni, P.; Andersen, R. A.; Jordan, M. I. (15 de maio de 1991). «A more biologically plausible learning rule for neural networks.». Proceedings of the National Academy of Sciences. 88 (10): 4433–4437. Bibcode:1991PNAS...88.4433M. ISSN 0027-8424. PMC 51674Acessível livremente. PMID 1903542. doi:10.1073/pnas.88.10.4433Acessível livremente 
  257. O'Reilly, Randall C. (1 de julho de 1996). «Biologically Plausible Error-Driven Learning Using Local Activation Differences: The Generalized Recirculation Algorithm». Neural Computation. 8 (5): 895–938. ISSN 0899-7667. doi:10.1162/neco.1996.8.5.895 
  258. Testolin, Alberto; Zorzi, Marco (2016). «Probabilistic Models and Generative Neural Networks: Towards an Unified Framework for Modeling Normal and Impaired Neurocognitive Functions». Frontiers in Computational Neuroscience. 10. 73 páginas. ISSN 1662-5188. PMC 4943066Acessível livremente. PMID 27468262. doi:10.3389/fncom.2016.00073Acessível livremente 
  259. Testolin, Alberto; Stoianov, Ivilin; Zorzi, Marco (setembro de 2017). «Letter perception emerges from unsupervised deep learning and recycling of natural image features». Nature Human Behaviour. 1 (9): 657–664. ISSN 2397-3374. PMID 31024135. doi:10.1038/s41562-017-0186-2 
  260. Buesing, Lars; Bill, Johannes; Nessler, Bernhard; Maass, Wolfgang (3 de novembro de 2011). «Neural Dynamics as Sampling: A Model for Stochastic Computation in Recurrent Networks of Spiking Neurons». PLOS Computational Biology. 7 (11): e1002211. Bibcode:2011PLSCB...7E2211B. ISSN 1553-7358. PMC 3207943Acessível livremente. PMID 22096452. doi:10.1371/journal.pcbi.1002211Acessível livremente 
  261. Cash, S.; Yuste, R. (fevereiro de 1999). «Linear summation of excitatory inputs by CA1 pyramidal neurons». Neuron. 22 (2): 383–394. ISSN 0896-6273. PMID 10069343. doi:10.1016/s0896-6273(00)81098-3Acessível livremente 
  262. Olshausen, B; Field, D (1 de agosto de 2004). «Sparse coding of sensory inputs». Current Opinion in Neurobiology. 14 (4): 481–487. ISSN 0959-4388. PMID 15321069. doi:10.1016/j.conb.2004.07.007 
  263. Yamins, Daniel L K; DiCarlo, James J (março de 2016). «Using goal-driven deep learning models to understand sensory cortex». Nature Neuroscience. 19 (3): 356–365. ISSN 1546-1726. PMID 26906502. doi:10.1038/nn.4244 
  264. Zorzi, Marco; Testolin, Alberto (19 de fevereiro de 2018). «An emergentist perspective on the origin of number sense». Phil. Trans. R. Soc. B. 373 (1740). 20170043 páginas. ISSN 0962-8436. PMC 5784047Acessível livremente. PMID 29292348. doi:10.1098/rstb.2017.0043 
  265. Güçlü, Umut; van Gerven, Marcel A. J. (8 de julho de 2015). «Deep Neural Networks Reveal a Gradient in the Complexity of Neural Representations across the Ventral Stream». Journal of Neuroscience. 35 (27): 10005–10014. PMC 6605414Acessível livremente. PMID 26157000. arXiv:1411.6422Acessível livremente. doi:10.1523/jneurosci.5023-14.2015 
  266. Metz, C. (12 de dezembro de 2013). «Facebook's 'Deep Learning' Guru Reveals the Future of AI». Wired. Consultado em 26 de agosto de 2017. Cópia arquivada em 28 de março de 2014 
  267. Gibney, Elizabeth (2016). «Google AI algorithm masters ancient game of Go». Nature. 529 (7587): 445–446. Bibcode:2016Natur.529..445G. PMID 26819021. doi:10.1038/529445aAcessível livremente 
  268. Silver, David; Huang, Aja; Maddison, Chris J.; Guez, Arthur; Sifre, Laurent; Driessche, George van den; Schrittwieser, Julian; Antonoglou, Ioannis; Panneershelvam, Veda; Lanctot, Marc; Dieleman, Sander; Grewe, Dominik; Nham, John; Kalchbrenner, Nal; Sutskever, Ilya; Lillicrap, Timothy; Leach, Madeleine; Kavukcuoglu, Koray; Graepel, Thore; Hassabis, Demis (28 de janeiro de 2016). «Mastering the game of Go with deep neural networks and tree search». Nature. 529 (7587): 484–489. Bibcode:2016Natur.529..484S. ISSN 0028-0836. PMID 26819042. doi:10.1038/nature16961 Acesso fechado
  269. «A Google DeepMind Algorithm Uses Deep Learning and More to Master the Game of Go | MIT Technology Review». MIT Technology Review. Consultado em 30 de janeiro de 2016. Arquivado do original em 1 de fevereiro de 2016 
  270. Metz, Cade (6 de novembro de 2017). «A.I. Researchers Leave Elon Musk Lab to Begin Robotics Start-Up». The New York Times. Consultado em 5 de julho de 2019. Cópia arquivada em 7 de julho de 2019 
  271. Bradley Knox, W.; Stone, Peter (2008). «TAMER: Training an Agent Manually via Evaluative Reinforcement». 2008 7th IEEE International Conference on Development and Learning. [S.l.: s.n.] pp. 292–297. ISBN 978-1-4244-2661-4. doi:10.1109/devlrn.2008.4640845 
  272. «Talk to the Algorithms: AI Becomes a Faster Learner». governmentciomedia.com (em inglês). 16 de maio de 2018. Consultado em 29 de agosto de 2018. Cópia arquivada em 28 de agosto de 2018 
  273. Marcus, Gary (14 de janeiro de 2018). «In defense of skepticism about deep learning». Gary Marcus. Consultado em 11 de outubro de 2018. Cópia arquivada em 12 de outubro de 2018 
  274. Knight, Will (14 de março de 2017). «DARPA is funding projects that will try to open up AI's black boxes». MIT Technology Review. Consultado em 2 de novembro de 2017. Cópia arquivada em 4 de novembro de 2019 
  275. Marcus, Gary (25 de novembro de 2012). «Is "Deep Learning" a Revolution in Artificial Intelligence?». The New Yorker. Consultado em 14 de junho de 2017. Cópia arquivada em 27 de novembro de 2009 
  276. Alexander Mordvintsev; Christopher Olah; Mike Tyka (17 de junho de 2015). «Inceptionism: Going Deeper into Neural Networks». Google Research Blog. Consultado em 20 de junho de 2015. Cópia arquivada em 3 de julho de 2015 
  277. Alex Hern (18 de junho de 2015). «Yes, androids do dream of electric sheep». The Guardian. Consultado em 20 de junho de 2015. Cópia arquivada em 19 de junho de 2015 
  278. a b c Goertzel, Ben (2015). «Are there Deep Reasons Underlying the Pathologies of Today's Deep Learning Algorithms?» (PDF). Consultado em 10 de maio de 2015. Cópia arquivada (PDF) em 13 de maio de 2015 
  279. Nguyen, Anh; Yosinski, Jason; Clune, Jeff (2014). «Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images». arXiv:1412.1897Acessível livremente [cs.CV] 
  280. Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (2013). «Intriguing properties of neural networks». arXiv:1312.6199Acessível livremente [cs.CV] 
  281. Zhu, S.C.; Mumford, D. (2006). «A stochastic grammar of images». Found. Trends Comput. Graph. Vis. 2 (4): 259–362. CiteSeerX 10.1.1.681.2190Acessível livremente. doi:10.1561/0600000018 
  282. Miller, G. A., and N. Chomsky. "Pattern conception" (em inglês). Paper for Conference on pattern detection, University of Michigan. 1957.
  283. Eisner, Jason. «Deep Learning of Recursive Structure: Grammar Induction». Consultado em 10 de maio de 2015. Arquivado do original em 30 de dezembro de 2017 
  284. «Hackers Have Already Started to Weaponize Artificial Intelligence». Gizmodo. 11 de setembro de 2017. Consultado em 11 de outubro de 2019. Cópia arquivada em 11 de outubro de 2019 
  285. «How hackers can force AI to make dumb mistakes». The Daily Dot (em inglês). 18 de junho de 2018. Consultado em 11 de outubro de 2019. Cópia arquivada em 11 de outubro de 2019 
  286. a b c d e «AI Is Easy to Fool—Why That Needs to Change». Singularity Hub. 10 de outubro de 2017. Consultado em 11 de outubro de 2017. Cópia arquivada em 11 de outubro de 2017 
  287. Gibney, Elizabeth (2017). «The scientist who spots fake videos». Nature. doi:10.1038/nature.2017.22784. Consultado em 11 de outubro de 2017. Cópia arquivada em 10 de outubro de 2017 
  288. Tubaro, Paola (2020). «Whose intelligence is artificial intelligence?». Global Dialogue (em inglês): 38–39 
  289. a b Mühlhoff, Rainer (6 de novembro de 2019). «Human-aided artificial intelligence: Or, how to run large computations in human brains? Toward a media sociology of machine learning». New Media & Society (em inglês). 22 (10): 1868–1884. ISSN 1461-4448. doi:10.1177/1461444819885334Acessível livremente 

Leitura adicional

[editar | editar código-fonte]