Saltar para o conteúdo

Aprendizagem profunda: diferenças entre revisões

Origem: Wikipédia, a enciclopédia livre.
Conteúdo apagado Conteúdo adicionado
Criado ao traduzir a página "Deep learning"
 
Incorporando as alterações feitas no artigo original desde o início da tradução; +{{em tradução|en:Deep learning|data=outubro de 2016}}; +refs copiadas do original
Linha 1: Linha 1:
A '''aprendizagem profunda''' (também conhecida como '''aprendizado estruturado profundo''', '''aprendizado hierárquico''' ou '''aprendizado de máquina profundo''') é um ramo de [[aprendizado de máquina]] baseado em um conjunto de [[Algoritmo|algoritmos]] que tentam modelar abstrações de alto nível de dados usando várias camadas de processamento, com estruturas complexas ou de outra forma, compostos de várias transformações não [[Transformação linear|lineares]].<ref name="BOOK2014"><cite class="citation journal">Deng, L.; Yu, D. (2014). </cite></ref><ref name="BENGIODEEP"><cite class="citation journal">Bengio, Yoshua (2009). </cite></ref><ref name="BENGIO2012"><cite class="citation journal">Bengio, Y.; Courville, A.; Vincent, P. (2013). </cite></ref><ref name="SCHIDHUB"><cite class="citation journal">Schmidhuber, J. (2015). </cite></ref><ref name="NatureBengio"><cite class="citation journal">Bengio, Yoshua; LeCun, Yann; Hinton, Geoffrey (2015). </cite></ref><ref>Deep Machine Learning – A New Frontier in Artificial Intelligence Research – a survey paper by Itamar Arel, Derek C. Rose, and Thomas P. Karnowski. </ref><ref name="goodfellow2016">Ian Goodfellow, Yoshua Bengio, and Aaron Courville (2016). </ref><ref name="scholarpedia"><cite class="citation journal">Schmidhuber, Jürgen (2015). </cite></ref>
A '''aprendizagem profunda''' (também conhecida como '''aprendizado estruturado profundo''', '''aprendizado hierárquico''' ou '''aprendizado de máquina profundo''') é um ramo de [[aprendizado de máquina]] baseado em um conjunto de [[Algoritmo|algoritmos]] que tentam modelar abstrações de alto nível de dados usando um grafo profundo com várias camadas de processamento, compostas de várias transformações [[Transformação linear|lineares]] e não lineares.<ref name="goodfellow2016">Ian Goodfellow, Yoshua Bengio, and Aaron Courville (2016). Deep Learning. MIT Press. [http://www.deeplearningbook.org Online]</ref><ref name="BOOK2014">{{cite journal |last1=Deng |first1=L. |last2=Yu |first2=D. |year=2014 |title=Deep Learning: Methods and Applications |url=http://research.microsoft.com/pubs/209355/DeepLearning-NowPublishing-Vol7-SIG-039.pdf |journal=Foundations and Trends in Signal Processing |volume=7 |issue=3-4 |pages=1–199 |doi=10.1561/2000000039}}</ref><ref name="BENGIODEEP">{{cite journal |first=Yoshua |last=Bengio |year=2009 |title=Learning Deep Architectures for AI |url=http://sanghv.com/download/soft/machine%20learning,%20artificial%20intelligence,%20mathematics%20ebooks/ML/learning%20deep%20architectures%20for%20AI%20%282009%29.pdf |journal=Foundations and Trends in Machine Learning |volume=2 |issue=1 |pages=1–127 |doi=10.1561/2200000006}}</ref><ref name="BENGIO2012">{{cite journal |last1=Bengio |first1=Y. |last2=Courville |first2=A. |last3=Vincent |first3=P. |year=2013 |title=Representation Learning: A Review and New Perspectives |journal=IEEE Transactions on Pattern Analysis and Machine Intelligence |volume=35 |issue=8 |pages=1798–1828 |arxiv=1206.5538 |doi=10.1109/tpami.2013.50}}</ref><ref name="SCHIDHUB">{{cite journal |last=Schmidhuber |first=J. |year=2015 |title=Deep Learning in Neural Networks: An Overview |journal=Neural Networks |volume=61 |pages=85–117 |arxiv=1404.7828 |doi=10.1016/j.neunet.2014.09.003}}</ref><ref name="NatureBengio">{{cite journal |last1=Bengio |first1=Yoshua |last2=LeCun |first2= Yann| last3=Hinton | first3= Geoffrey|year=2015 |title=Deep Learning |journal=Nature |volume=521 |pages=436–444 |doi=10.1038/nature14539}}</ref><ref>Deep Machine Learning – A New Frontier in Artificial Intelligence Research – a survey paper by Itamar Arel, Derek C. Rose, and Thomas P. Karnowski. IEEE Computational Intelligence Magazine, 2013</ref><ref name="scholarpedia"/><ref name="DLPATTERNS">{{Cite web | title=A Pattern Language for Deep Learning| author=Carlos E. Perez| url=http://www.deeplearningpatterns.com}}</ref>


A aprendizagem profunda é parte de uma família mais abrangente de métodos de [[aprendizado de máquina]] baseados na aprendizagem de representações de dados. Uma observação (por exemplo, uma imagem), pode ser representada de várias maneiras, tais como um [[Espaço vetorial|vetor]] de valores de intensidade por pixel, ou de uma forma mais abstrata como um conjunto de arestas, regiões com um formato particular, etc. Algumas representações são melhores do que outras para simplificar a tarefa de aprendizagem (por exemplo, reconhecimento facial ou reconhecimento de expressões faciais<ref><cite class="citation thesis">Glauner, P. (2015). </cite></ref>) a partir de exemplos. Uma das promessas da aprendizagem profunda é a substituição de características feitas manualmente por algoritmos eficientes para a aprendizagem de características supervisionada ou semissupervisionada e [[Extração de características|extração hierárquica de características]].<ref><cite class="citation book">Song, H.A.; Lee, S. Y. (2013). </cite></ref>
A aprendizagem profunda é parte de uma família mais abrangente de métodos de [[aprendizado de máquina]] baseados na aprendizagem de representações de dados. Uma observação (por exemplo, uma imagem), pode ser representada de várias maneiras, tais como um [[Espaço vetorial|vetor]] de valores de intensidade por pixel, ou de uma forma mais abstrata como um conjunto de arestas, regiões com um formato particular, etc. Algumas representações são melhores do que outras para simplificar a tarefa de aprendizagem (por exemplo, reconhecimento facial ou reconhecimento de expressões faciais<ref>{{cite thesis |last=Glauner |first=P. |year=2015 |title=Deep Convolutional Neural Networks for Smile Recognition |arxiv=1508.06535 |type=MSc Thesis |publisher=[[Imperial College London]], Department of Computing}}</ref>). Uma das promessas da aprendizagem profunda é a substituição de características feitas manualmente por algoritmos eficientes para a aprendizagem de características supervisionada ou semissupervisionada e [[Extração de características|extração hierárquica de características]].<ref>{{cite book |last1=Song |first1=H.A. |last2=Lee |first2=S. Y. |year=2013 |chapter=Hierarchical Representation Using NMF |title=Neural Information Processing |series=Lectures Notes in Computer Sciences |volume=8226 |issue= |pages=466–473 |publisher=[[Springer Berlin Heidelberg]] |isbn=978-3-642-42053-5 |doi=10.1007/978-3-642-42054-2_58}}</ref>


A pesquisa nesta área tenta fazer representações melhores e criar modelos para aprender essas representações a partir de dados não [[Codificação (ciências sociais)|rotulados]] em grande escala. Algumas das representações são inspiradas pelos avanços da [[neurociência]] e são vagamente baseadas na interpretação do processamento de informações e padrões de comunicação em um [[sistema nervoso]], tais como codificação neural que tenta definir uma relação entre vários estímulos e as respostas neuronais associados no [[Encéfalo|cérebro]].<ref><cite class="citation journal">Olshausen, B. A. (1996). </cite></ref>
A pesquisa nesta área tenta fazer representações melhores e criar modelos para aprender essas representações a partir de dados não [[Codificação (ciências sociais)|rotulados]] em grande escala. Algumas das representações são inspiradas pelos avanços da [[neurociência]] e são vagamente baseadas na interpretação do processamento de informações e padrões de comunicação em um [[sistema nervoso]], tais como codificação neural que tenta definir uma relação entre vários estímulos e as respostas neuronais associados no [[Encéfalo|cérebro]].<ref>{{cite journal |last1=Olshausen |first1=B. A. |year=1996 |title=Emergence of simple-cell receptive field properties by learning a sparse code for natural images |journal=Nature |volume=381 |issue=6583 |pages=607–609 |doi=10.1038/381607a0}}</ref>


Várias arquiteturas de aprendizagem profunda, tais como [[Deep learning#Deep neural network architectures|redes neurais profundas]], [[Rede neural convolucional|redes neurais profundas convolucionais]], redes de crenças profundas e redes neurais recorrentes têm sido aplicadas em áreas como [[visão computacional]], [[Reconhecimento de fala|reconhecimento automático de fala]], [[processamento de linguagem natural]], reconhecimento de áudio e [[bioinformática]], onde elas têm se mostrado capazes de produzir resultados do estado-da-arte em várias tarefas.
Várias arquiteturas de aprendizagem profunda, tais como [[:en:Deep learning#Deep neural network architectures|redes neurais profundas]], [[Rede neural convolucional|redes neurais profundas convolucionais]], redes de crenças profundas e redes neurais recorrentes têm sido aplicadas em áreas como [[visão computacional]], [[Reconhecimento de fala|reconhecimento automático de fala]], [[processamento de linguagem natural]], reconhecimento de áudio e [[bioinformática]], onde elas têm se mostrado capazes de produzir resultados do estado-da-arte em várias tarefas.


''Aprendizagem profunda'' foi caracterizada como a expressão na moda, ou uma recaracterização das [[Rede neural artificial|redes neurais]].<ref><cite class="citation audio-visual">Collobert, R. (April 2011). </cite></ref><ref><cite class="citation web">Gomes, L. (20 October 2014). </cite></ref>
''Aprendizagem profunda'' foi caracterizada como a expressão na moda, ou uma recaracterização das [[Rede neural artificial|redes neurais]].<ref>{{cite video |last=Collobert |first=R. |date=April 2011 |title=Deep Learning for Efficient Discriminative Parsing |url=http://videolectures.net/aistats2011_collobert_deep/ |website=VideoLectures.net |time=7min 45s}}</ref><ref>{{cite web |last=Gomes |first=L. |date=20 October 2014 |title=Machine-Learning Maestro Michael Jordan on the Delusions of Big Data and Other Huge Engineering Efforts |url=http://spectrum.ieee.org/robotics/artificial-intelligence/machinelearning-maestro-michael-jordan-on-the-delusions-of-big-data-and-other-huge-engineering-efforts |work=[[IEEE Spectrum]]}}</ref>


== Introdução ==
== Introdução ==


=== Definições ===
=== Definições ===
A área de aprendizagem profundo tem sido caracterizada de várias maneiras. Por exemplo, em 1986, Rina Dechter introduziu os conceitos de aprendizagem profunda de primeira e segunda ordens no contexto de satisfação de restrições.<ref name="dechter1986">Rina Dechter (1986). </ref> Posteriormente, a aprendizagem profunda foi caracterizada como uma classe
A área de aprendizagem profundo tem sido caracterizada de várias maneiras.{{citation needed|date=July 2016}} Por exemplo, em 1986, Rina Dechter introduziu os conceitos de aprendizagem profunda de primeira e segunda ordens no contexto de satisfação de restrições.<ref name="dechter1986"/> Posteriormente, a aprendizagem profunda foi caracterizada como uma classe
de [[Algoritmo|algoritmos]] de [[Aprendizado de máquina|aprendizagem de máquina]] que<ref name="BOOK2014"><cite class="citation journal">Deng, L.; Yu, D. (2014). </cite></ref><sup class="reference" style="white-space:nowrap;">(pp199–200)</sup>
de [[Algoritmo|algoritmos]] de [[Aprendizado de máquina|aprendizagem de máquina]] que<ref name="BOOK2014" />{{rp|pages=199–200}}
* usa uma cascata de diversas camadas de unidades de [[Filtro não linear|processamento não-linear]] para a [[Extração de características|extração]] e transformação de características. Cada camada sucessiva usa a saída da camada anterior como entrada. Os algoritmos podem ser supervisionados ou não supervisionados e as aplicações incluem a análise de padrões (não supervisionada) e de classificação (supervisionada).
* usa uma cascata de diversas camadas de unidades de [[Filtro não linear|processamento não-linear]] para a [[Extração de características|extração]] e transformação de características. Cada camada sucessiva usa a saída da camada anterior como entrada. Os algoritmos podem ser supervisionados ou não supervisionados e as aplicações incluem a análise de padrões (não supervisionada) e de classificação (supervisionada).
* são baseados na aprendizagem (supervisionada) de vários níveis de características ou representações dos dados. Características de nível superior são derivadas das características de nível inferior para formar uma representação hierárquica.
* são baseados na aprendizagem (supervisionada) de vários níveis de características ou representações dos dados. Características de nível superior são derivadas das características de nível inferior para formar uma representação hierárquica.
* fazem parte de uma área da aprendizagem de máquina mais ampla que é a aprendizagem de representações de dados.
* fazem parte de uma área da aprendizagem de máquina mais ampla que é a aprendizagem de representações de dados.
* aprendem vários níveis de representações que correspondem a diferentes níveis de abstração; os níveis formam uma hierarquia de conceitos.
* aprendem vários níveis de representações que correspondem a diferentes níveis de abstração; os níveis formam uma hierarquia de conceitos.
Estas definições tem em comum (1) várias camadas e unidades de processamento não linear e (2) a aprendizagem ou representação supervisionada ou não supervisionada de características em cada camada, com as camadas formando uma hierarquia das características de baixo nível para as de alto nível.<ref name="BOOK2014"><cite class="citation journal">Deng, L.; Yu, D. (2014). </cite></ref><sup class="reference" style="white-space:nowrap;">(p200)</sup> A composição de uma camada de unidades de processamento não linear usada em um algoritmo de aprendizagem profunda depende no problema a ser resolvido. Camadas que foram usadas em aprendizagem profunda incluem camadas ocultas de uma [[rede neural artificial]] e conjuntos de fórmulas propositionais complicadas.<ref name="BENGIODEEP"><cite class="citation journal">Bengio, Yoshua (2009). </cite></ref> Elas também podem incluir variáveis latentes organizadas em camadas em modelos geradores profundos tais como os nós em redes de crenças profundas e máquinas de Boltzmann profundas.
Estas definições tem em comum (1) várias camadas e unidades de processamento não linear e (2) a aprendizagem ou representação supervisionada ou não supervisionada de características em cada camada, com as camadas formando uma hierarquia das características de baixo nível para as de alto nível.<ref name="BOOK2014" />{{rp|page=200}} A composição de uma camada de unidades de processamento não linear usada em um algoritmo de aprendizagem profunda depende no problema a ser resolvido. Camadas que foram usadas em aprendizagem profunda incluem camadas ocultas de uma [[rede neural artificial]] e conjuntos de fórmulas proposicionais complicadas.<ref name="BENGIODEEP" /> Elas também podem incluir variáveis latentes organizadas em camadas em modelos geradores profundos tais como os nós em redes de crenças profundas e máquinas de Boltzmann profundas.


Algoritmos de aprendizagem profunda transformam suas entradas usando mais camadas do que algoritmos de aprendizagem mais superficial. Em cada camada, o sinal é transformado por uma unidade de processamento, como um neurônio artificial, cujos parâmetros são "aprendidos" por meio de treinamento.<ref name="SCHIDHUB" />{{rp|page=6}} Uma cadeia de transformações da entrada até a saída é um ''caminho de atribuição de crédito'' (em inglês, abreviado como CAP, '' credit assignment path''). Os CAP descrevem conexões potencialmente causais entre entradas e saídas e podem variar em comprimento. Para uma rede neural de alimentação direta, a profundidade dos CAPs, e, portanto, a profundidade da rede, é o número de camadas ocultas, mais um (a camada de saída também é parametrizado). Para as redes neurais recorrentes, nas quais um sinal pode se propagar por uma camada mais de uma vez, o CAP tem comprimento potencialmente ilimitado. Não há um limite aceito universalmente para distinguir aprendizagem superficial de aprendizagem profunda, mas a maioria dos pesquisadores da área concordam que a aprendizagem profunda tem várias camadas não-lineares (CAP > 2) e [[Juergen Schmidhuber]] considera CAP > 10 como aprendizagem muito profunda.<ref name="SCHIDHUB" />{{rp|page=7}}
De acordo com uma pesquisa,<ref name="scholarpedia"><cite class="citation journal">Schmidhuber, Jürgen (2015). </cite></ref> a expressão "aprendizagem profunda" trazida para a comunidade de [[Aprendizado de máquina|aprendizagem de máquina]] por Rina Dechter em 1986,<ref name="dechter1986">Rina Dechter (1986). </ref>
e depois para [[Rede neural artificial|redes neurais artificiais]] por Igor Aizenberg e colegas em 2000.<ref name="aizenberg2000">Igor Aizenberg, Naum N. Aizenberg, Joos P.L. Vandewalle (2000). </ref> Um gráfico do Google Ngram mostra que o uso da expressão ganhou força (realmente decolou) desde 2000.<ref name="DLchart">Google Ngram chart of the usage of the expression "deep learning" posted by Jürgen Schmidhuber (2015) [https://plus.google.com/100849856540000067209/posts/7N6z251w2Wd?pid=6127540521703625346&oid=100849856540000067209 Online]</ref>
Em 2006, uma plublicação por Geoffrey Hinton e Ruslan Salakhutdinov chamou mais atenção mostrando como redes neurais de alimentação direta poderiam ser pré-treinadas uma camada por vez, tratando cada uma delas como uma máquina de Boltzmann restrita não supervisionada, e então fazendo ajustes finos por meio de propagação reversa supervisionada.<ref name="HINTON2007">G. E. Hinton., "Learning multiple layers of representation," ''Trends in Cognitive Sciences'', 11, pp. 428–434, 2007.</ref> Em 1992, Schmidhuber já havia implementado uma ideia bastante similar para o caso mais geral de hierarquias profundas não supervisionadas de redes neurais recorrentes, e também mostrado experimentalmente a sua vantagem na aceleração do aprendizado supervisionado.<ref name="SCHMID1992">J. Schmidhuber., "Learning complex, extended sequences using the principle of history compression," ''Neural Computation'', 4, pp. 234–242, 1992.</ref><ref name="SCHMID1991">J. Schmidhuber., "My First Deep Learning System of 1991 + Deep Learning Timeline 1962–2013." </ref>

Algoritmos de aprendizagem profunda transformam suas entradas usando mais camadas do que algoritmos de aprendizagem mais superficial. Em cada camada, o sinal é transformado por uma unidade de processamento, como um neurônio artificial, cujos parâmetros são "aprendidos" por meio de treinamento.<ref name="SCHIDHUB"><cite class="citation journal">Schmidhuber, J. (2015). </cite></ref><sup class="reference" style="white-space:nowrap;">(p6)</sup> Uma cadeia de transformações da entrada até a saída é um ''caminho de atribuição de crédito'' (em inglês, abreviado como CAP, '' credit assignment path''). Os CAP descrevem conexões potencialmente causais entre entradas e saídas e podem variar em comprimento. Para uma rede neural de alimentação direta, a profundidade dos CAPs, e, portanto, a profundidade da rede, é o número de camadas ocultas, mais um (a camada de saída também é parametrizado). Para as redes neurais recorrentes, nas quais um sinal pode se propagar por uma camada mais de uma vez, o CAP tem comprimento potencialmente ilimitado. Não há um limite aceito universalmente para distinguir aprendizagem superficial de aprendizagem profunda, mas a maioria dos pesquisadores da área concordam que a aprendizagem profunda tem várias camadas não-lineares (CAP > 2) e Schmidhuber considera CAP > 10 como aprendizagem muito profunda.<ref name="SCHIDHUB"><cite class="citation journal">Schmidhuber, J. (2015). </cite></ref><sup class="reference" style="white-space:nowrap;">(p7)</sup>


=== Conceitos fundamentais ===
=== Conceitos fundamentais ===
Algoritmos de aprendizagem profunda são baseados em representações distribuídas. A suposição subjacente por trás de representações distribuídas é que os dados observados são gerados pelas interações de fatores organizados em camadas. A aprendizagem profunda inclui a suposição de que essas camadas de fatores correspondem a níveis de abstração ou de composição. Podem ser usadas quantidades e tamanhos de camadas diferentes para fornecer quantidades diferentes de abstração.<ref name="BENGIO2012"><cite class="citation journal">Bengio, Y.; Courville, A.; Vincent, P. (2013). </cite></ref>
Algoritmos de aprendizagem profunda são baseados em representações distribuídas. A suposição subjacente por trás de representações distribuídas é que os dados observados são gerados pelas interações de fatores organizados em camadas. A aprendizagem profunda inclui a suposição de que essas camadas de fatores correspondem a níveis de abstração ou de composição. Podem ser usadas quantidades e tamanhos de camadas diferentes para fornecer quantidades diferentes de abstração.<ref name="BENGIO2012"/>


A aprendizagem profunda explora essa ideia de fatores explicativos hierárquicos, em que conceitos de nível superior, mais abstratos, são aprendidas a partir dos de nível mais baixo. Muitas vezes essas arquiteturas são construídas com um método [[Algoritmo guloso|ganancioso]] camada-por-camada. A aprendizagem profunda ajuda a desvendar essas abstrações e a escolher quais características são úteis para a aprendizagem.<ref name="BENGIO2012"><cite class="citation journal">Bengio, Y.; Courville, A.; Vincent, P. (2013). </cite></ref>
A aprendizagem profunda explora essa ideia de fatores explicativos hierárquicos, em que conceitos de nível superior, mais abstratos, são aprendidas a partir dos de nível mais baixo. Muitas vezes essas arquiteturas são construídas com um método [[Algoritmo guloso|ganancioso]] camada-por-camada. A aprendizagem profunda ajuda a desvendar essas abstrações e a escolher quais características são úteis para a aprendizagem.<ref name="BENGIO2012"/>


Para tarefas de aprendizado supervisionado, os métodos de aprendizagem profunda tornam desnecessária a engenharia de características, convertendo os dados em representações intermediário compactas semelhantes às de [[Análise de componentes principais|componentes principais]], e derivam estruturas em camadas que removem redundâncias na representação.<ref name="BOOK2014"><cite class="citation journal">Deng, L.; Yu, D. (2014). </cite></ref>
Para tarefas de aprendizado supervisionado, os métodos de aprendizagem profunda tornam desnecessária a engenharia de características, convertendo os dados em representações intermediário compactas semelhantes às de [[Análise de componentes principais|componentes principais]], e derivam estruturas em camadas que removem redundâncias na representação.<ref name="BOOK2014"/>


Muitos algoritmos de aprendizagem profunda são aplicados em tarefas de aprendizagem supervisionada. Este é um benefício importante porque dados não rotulados geralmente são mais abundantes do que dados rotulados. Entre os exemplos de estruturas profundas que podem ser treinadas de forma não supervisionada estão compressores de histórias neurais<ref name="SCHMID1992">J. Schmidhuber., "Learning complex, extended sequences using the principle of history compression," ''Neural Computation'', 4, pp. 234–242, 1992.</ref> e redes de crença profundas.<ref name="BENGIO2012"><cite class="citation journal">Bengio, Y.; Courville, A.; Vincent, P. (2013). </cite></ref><ref name="SCHOLARDBNS"><cite class="citation journal">Hinton, G.E. "Deep belief networks". </cite></ref>
Muitos algoritmos de aprendizagem profunda são aplicados em tarefas de aprendizagem supervisionada. Este é um benefício importante porque dados não rotulados geralmente são mais abundantes do que dados rotulados. Entre os exemplos de estruturas profundas que podem ser treinadas de forma não supervisionada estão compressores de histórias neurais<ref name="SCHMID1992"/> e redes de crença profundas.<ref name="BENGIO2012"/><ref name="SCHOLARDBNS"/>


== Interpretações ==
== Interpretações ==
Redes neurais profundas geralmente são interpretadas em termos do teorema da aproximação universal<ref name="ReferenceB">Balázs Csanád Csáji. </ref><ref name="cyb"><cite class="citation journal">Cybenko (1989). </cite></ref><ref name="horn"><cite class="citation journal">Hornik, Kurt (1991). </cite></ref><ref name="Haykin, Simon 1998">Haykin, Simon (1998). </ref><ref name="Hassoun, M. 1995 p. 48">Hassoun, M. (1995) ''Fundamentals of Artificial Neural Networks'' MIT Press, p.&nbsp;48</ref> ou de [[Inferência bayesiana|inferência probabilística]].<ref name="BOOK2014"><cite class="citation journal">Deng, L.; Yu, D. (2014). </cite></ref><ref name="BENGIODEEP"><cite class="citation journal">Bengio, Yoshua (2009). </cite></ref><ref name="BENGIO2012"><cite class="citation journal">Bengio, Y.; Courville, A.; Vincent, P. (2013). </cite></ref><ref name="SCHIDHUB"><cite class="citation journal">Schmidhuber, J. (2015). </cite></ref><ref name="SCHOLARDBNS"><cite class="citation journal">Hinton, G.E. "Deep belief networks". </cite></ref><ref name="MURPHY">Murphy, K.P. (2012) ''Machine learning: a probabilistic perspective'' MIT Press</ref>
Redes neurais profundas geralmente são interpretadas em termos do teorema da aproximação universal<ref name="ReferenceB">Balázs Csanád Csáji. Approximation with Artificial Neural Networks; Faculty of Sciences; Eötvös Loránd University, Hungary</ref><ref name=cyb>{{cite journal | last1 = Cybenko | year = 1989 | title = Approximations by superpositions of sigmoidal functions | url = http://deeplearning.cs.cmu.edu/pdfs/Cybenko.pdf | format = PDF | journal = [[Mathematics of Control, Signals, and Systems]] | volume = 2 | issue = 4| pages = 303–314 | doi=10.1007/bf02551274}}</ref><ref name=horn>{{cite journal | last1 = Hornik | first1 = Kurt | year = 1991 | title = Approximation Capabilities of Multilayer Feedforward Networks | url = | journal = Neural Networks | volume = 4 | issue = 2| pages = 251–257 | doi=10.1016/0893-6080(91)90009-t}}</ref><ref name="Haykin, Simon 1998">Haykin, Simon (1998). ''Neural Networks: A Comprehensive Foundation'', Volume 2, Prentice Hall. ISBN 0-13-273350-1.</ref><ref name="Hassoun, M. 1995 p. 48">Hassoun, M. (1995) ''Fundamentals of Artificial Neural Networks'' MIT Press, p.&nbsp;48</ref> ou [[Inferência Bayesiana|inferência probabilística]].<ref name="BOOK2014" /><ref name="BENGIODEEP" /><ref name="BENGIO2012" /><ref name="SCHIDHUB" /><ref name="SCHOLARDBNS" /><ref name = MURPHY>Murphy, K.P. (2012) ''Machine learning: a probabilistic perspective'' MIT Press</ref>


=== Interpretação baseada no teorema da aproximação universal ===
=== Interpretação baseada no teorema da aproximação universal ===
O teorema da aproximação universal refere-se à capacidade de redes neural de alimentação direta com uma única camada oculta, de tamanho finito, de aproximar [[Função contínua|funções contínuas]].<ref name="ReferenceB">Balázs Csanád Csáji. </ref><ref name="cyb"><cite class="citation journal">Cybenko (1989). </cite></ref><ref name="horn"><cite class="citation journal">Hornik, Kurt (1991). </cite></ref><ref name="Haykin, Simon 1998">Haykin, Simon (1998). </ref><ref name="Hassoun, M. 1995 p. 48">Hassoun, M. (1995) ''Fundamentals of Artificial Neural Networks'' MIT Press, p.&nbsp;48</ref>
O teorema da aproximação universal refere-se à capacidade de redes neural de alimentação direta com uma única camada oculta, de tamanho finito, de aproximar [[Função contínua|funções contínuas]].<ref name="ReferenceB"/><ref name="cyb"/><ref name="horn"/><ref name="Haykin, Simon 1998"/><ref name="Hassoun, M. 1995 p. 48"/>


Em 1989, a primeira prova foi publicada por George Cybenko funções de ativação [[Função sigmóide|sigmóide]]<ref name="cyb"><cite class="citation journal">Cybenko (1989). </cite></ref> e foi generalizada para arquiteturas de alimentação direta multi-camada em 1991 por Kurt Hornik.<ref name="horn"><cite class="citation journal">Hornik, Kurt (1991). </cite></ref>
Em 1989, a primeira prova foi publicada por George Cybenko funções de ativação [[Função sigmóide|sigmóide]]<ref name=cyb /> e foi generalizada para arquiteturas de alimentação direta multi-camada em 1991 por Kurt Hornik.<ref name=horn />


=== Interpretação probabilística ===
=== Interpretação probabilística ===
A interpretação [[Probabilidade|probabilística]]<ref name="MURPHY">Murphy, K.P. (2012) ''Machine learning: a probabilistic perspective'' MIT Press</ref> deriva-se da área de [[Aprendizado de máquina|aprendizagem de máquina]]. Ela inclui inferência,<ref name="BOOK2014"><cite class="citation journal">Deng, L.; Yu, D. (2014). </cite></ref><ref name="BENGIODEEP"><cite class="citation journal">Bengio, Yoshua (2009). </cite></ref><ref name="BENGIO2012"><cite class="citation journal">Bengio, Y.; Courville, A.; Vincent, P. (2013). </cite></ref><ref name="SCHIDHUB"><cite class="citation journal">Schmidhuber, J. (2015). </cite></ref><ref name="SCHOLARDBNS"><cite class="citation journal">Hinton, G.E. "Deep belief networks". </cite></ref><ref name="MURPHY">Murphy, K.P. (2012) ''Machine learning: a probabilistic perspective'' MIT Press</ref> e também conceitos da [[otimização]] como [[treinamento]] e [[Prova (educação)|testes]], relacionados à adaptação e [[generalização]], respectivamente. Mais especificamente, a interpretação probabilística considera a não-linearidade da ativação como uma [[Função distribuição acumulada|função de distribuição cumulativa]].<ref name="MURPHY">Murphy, K.P. (2012) ''Machine learning: a probabilistic perspective'' MIT Press</ref> Ver rede de crença profunda. A interpretação probabilística levou à introdução de abandono como regularizador em redes neurais.<ref name="DROPOUT"><cite class="citation arxiv">Hinton, G. E.; Srivastava, N.; Krizhevsky, A.; Sutskever, I.; Salakhutdinov, R.R. (2012). </cite></ref>
A interpretação [[Probabilidade|probabilística]]<ref name="MURPHY" /> deriva-se da área de [[Aprendizado de máquina|aprendizagem de máquina]]. Ela inclui inferência,<ref name="BOOK2014" /><ref name="BENGIODEEP" /><ref name="BENGIO2012" /><ref name="SCHIDHUB" /><ref name="SCHOLARDBNS" /><ref name="MURPHY" /> e também conceitos da [[otimização]] como [[treinamento]] e [[Prova (educação)|testes]], relacionados à adaptação e [[generalização]], respectivamente. Mais especificamente, a interpretação probabilística considera a não-linearidade da ativação como uma [[Função distribuição acumulada|função de distribuição cumulativa]].<ref name="MURPHY" /> Ver [[rede de crença profunda]]. A interpretação probabilística levou à introdução de abandono como regularizador em redes neurais.<ref name="DROPOUT">{{cite arXiv |last1=Hinton |first1=G. E. |last2=Srivastava| first2 =N.|last3=Krizhevsky| first3=A.| last4 =Sutskever| first4=I.| last5=Salakhutdinov| first5=R.R.|eprint=1207.0580 |class=math.LG |title=Improving neural networks by preventing co-adaptation of feature detectors |date=2012}}</ref>


A interpretação probabilística foi introduzida e popularizada por Geoff Hinton, Yoshua Bengio, Yann LeCun e Juergen Schmidhuber.
A interpretação probabilística foi introduzida e popularizada por Geoff Hinton, Yoshua Bengio, Yann LeCun e Juergen Schmidhuber.


== História ==
== História ==
Os matemáticos da união soviética Ivakhnenko e Lapa, publicaram o primeiro algoritmo geral e funcional de aprendizagem para perceptrons multicamadas supervisionados de alimentação direta profunda em 1965.<ref name="ivak1965"><cite class="citation book">Ivakhnenko, Alexey (1965). </cite></ref> Um artigo de 1971 já descrevia uma rede profunda com 8 camadas treinada pelo algoritmo do [[método de grupo para manipulação de dados]] que ainda é popular no milênio atual.<ref name="ivak1971"><cite class="citation journal">Ivakhnenko, Alexey (1971). </cite></ref> Estas ideias foram implementadas em um sistema de identificação por computador "Alfa", que demonstrou o processo de aprendizagem. Outras arquiteturas de aprendizado profundo funcionais, especificamente aquelas construídas a partir de [[Rede neural artificial|redes neurais artificiais]] (ANN), são do tempo do Neocognitron introduzido por Kunihiko Fukushima, em 1980.<ref name="FUKU1980"><cite class="citation journal">Fukushima, K. (1980). </cite></ref> As próprias ANNs são ainda mais antigas. O desafio era como treinar redes com múltiplas camadas.
O primeiro algoritmo geral e funcional de aprendizagem para perceptrons multicamadas supervisionados de alimentação direta profunda foi publicado por [[Alexey Grigorevich Ivakhnenko|Ivakhnenko]] e Lapa em 1965.<ref name="ivak1965">{{Cite book|title=Cybernetic Predicting Devices|last=Ivakhnenko|first=Alexey|publisher=Naukova Dumka|year=1965|isbn=|location=Kiev|pages=}}</ref> Um artigo de 1971 já descrevia uma rede profunda com 8 camadas treinada pelo algoritmo do [[método de grupo para manipulação de dados]] que ainda é popular no milênio atual.<ref name="ivak1971">{{Cite journal|last=Ivakhnenko|first=Alexey|date=1971|title=Polynomial theory of complex systems|url=|journal=IEEE Transactions on Systems, Man and Cybernetics (4)|pages=364–378}}</ref> Estas ideias foram implementadas em um sistema de identificação por computador "Alfa", que demonstrou o processo de aprendizagem. Outras arquiteturas de aprendizado profundo funcionais, especificamente aquelas construídas a partir de [[Rede neural artificial|redes neurais artificiais]] (ANN), são do tempo do Neocognitron introduzido por Kunihiko Fukushima, em 1980.<ref name="FUKU1980">{{cite journal | last1 = Fukushima | first1 = K. | year = 1980 | title = Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position | url = | journal = Biol. Cybern. | volume = 36 | issue = | pages = 193–202 | doi=10.1007/bf00344251}}</ref> As próprias ANNs são ainda mais antigas. O desafio era como treinar redes com múltiplas camadas.
Em 1989, Yann LeCun et al. foram capazes de aplicar o algoritmo de [[retropropagação]] padrão, que esteve em uso como o modo inverso de [[diferenciação automática]] desde 1970,<ref name="lin1970">Seppo Linnainmaa (1970). </ref><ref name="grie2012">Griewank, Andreas (2012). </ref><ref name="WERBOS1974">P. Werbos., "Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences," ''PhD thesis, Harvard University'', 1974.</ref><ref name="werbos1982">Paul Werbos (1982). </ref> em uma rede rede neural profunda com o propósito de reconhecer códigos de CEP manuscritos em cartas. Apesar do sucesso na aplicação do algoritmo, o tempo para treinar a rede neste conjunto de dados era de aproximadamente 3 dias, tornando-se impraticável para uso geral.<ref name="LECUN1989">LeCun ''et al.'', "Backpropagation Applied to Handwritten Zip Code Recognition," ''Neural Computation'', 1, pp. 541–551, 1989.</ref>
Em 1989, [[Yann LeCun]] et al. foram capazes de aplicar o algoritmo de [[retropropagação]] padrão, que esteve em uso como o modo inverso de [[diferenciação automática]] desde 1970,,<ref name="lin1970"/><ref name="grie2012"/><ref name="WERBOS1974">P. Werbos., "Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences," ''PhD thesis, Harvard University'', 1974.</ref><ref name="werbos1982"/> em uma rede rede neural profunda com o propósito de reconhecer códigos de CEP manuscritos em cartas. Apesar do sucesso na aplicação do algoritmo, o tempo para treinar a rede neste conjunto de dados era de aproximadamente 3 dias, tornando-se impraticável para uso geral.<ref name="LECUN1989">LeCun ''et al.'', "Backpropagation Applied to Handwritten Zip Code Recognition," ''Neural Computation'', 1, pp. 541–551, 1989.</ref>
Em 1993, o compressor neural de história de Jürgen Schmidhuber<ref name="SCHMID1992">J. Schmidhuber., "Learning complex, extended sequences using the principle of history compression," ''Neural Computation'', 4, pp. 234–242, 1992.</ref> implementado como uma pilha não supervisionada de redes neurais recorrentes (RNNs) resolveu uma tarefa de "aprendizagem muito profunda",<ref name="SCHIDHUB"><cite class="citation journal">Schmidhuber, J. (2015). </cite></ref> que requer mais de 1.000 camadas subsequentes em uma RNN desenrolada no tempo.<ref name="schmidhuber1993">Jürgen Schmidhuber (1993). </ref>
Em 1993, o compressor neural de história de Jürgen Schmidhuber<ref name="SCHMID1992"/> implementado como uma pilha não supervisionada de redes neurais recorrentes (RNNs) resolveu uma tarefa de "aprendizagem muito profunda",<ref name="SCHIDHUB"/> que requer mais de 1.000 camadas subsequentes em uma RNN desenrolada no tempo.<ref name="schmidhuber1993"/>
Em 1995, Brendan Frey demonstrou que era possível treinar uma rede contendo seis camadas totalmente conectadas e várias centenas de unidades ocultas usando o [[algoritmo wake-sleep]], que foi codesenvolvido com Pedro Dayan e Geoffrey Hinton.<ref><cite class="citation journal">Hinton, Geoffrey E.; Dayan, Peter; Frey, Brendan J.; Neal, Radford (1995-05-26). </cite></ref> No Entanto, o treinamento levou dois dias.
Em 1995, Brendan Frey demonstrou que era possível treinar uma rede contendo seis camadas totalmente conectadas e várias centenas de unidades ocultas usando o [[algoritmo wake-sleep]], que foi codesenvolvido com Pedro Dayan e Geoffrey Hinton.<ref>{{Cite journal|title = The wake-sleep algorithm for unsupervised neural networks |journal = Science|date = 1995-05-26|pages = 1158–1161|volume = 268|issue = 5214|doi = 10.1126/science.7761831|first = Geoffrey E.|last = Hinton|first2 = Peter|last2 = Dayan|first3 = Brendan J.|last3 = Frey|first4 = Radford|last4 = Neal}}</ref> No Entanto, o treinamento levou dois dias.


Um dos vários fatores que contribuem para a baixa velocidade é o [[problema da dissipação do gradiente]], analisado em 1991, por Sepp Hochreiter.<ref name="HOCH1991">S. Hochreiter., "[http://people.idsia.ch/~juergen/SeppHochreiter1991ThesisAdvisorSchmidhuber.pdf Untersuchungen zu dynamischen neuronalen Netzen]," ''Diploma thesis. ''</ref><ref name="HOCH2001">S. Hochreiter ''et al.'', "Gradient flow in recurrent nets: the difficulty of learning long-term dependencies," ''In S. C. Kremer and J. F. Kolen, editors, A Field Guide to Dynamical Recurrent Neural Networks. ''</ref>
Um dos vários fatores que contribuem para a baixa velocidade é o [[problema da dissipação do gradiente]], analisado em 1991, por Sepp Hochreiter.<ref name="HOCH1991">S. Hochreiter., "[http://people.idsia.ch/~juergen/SeppHochreiter1991ThesisAdvisorSchmidhuber.pdf Untersuchungen zu dynamischen neuronalen Netzen]," ''Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber'', 1991.</ref><ref name="HOCH2001">S. Hochreiter ''et al.'', "Gradient flow in recurrent nets: the difficulty of learning long-term dependencies," ''In S. C. Kremer and J. F. Kolen, editors, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press'', 2001.</ref>


Enquanto em 1991 tais redes neurais eram usadas para reconhecer dígitos isolados manuscritos em 2-D, o reconhecimento de objetos 3-D era feito correspondendo imagens 2-D com um modelo 3-D do objeto feito à mão. Juyang Weng ''et al.'' sugeriram que o cérebro humano não usa um modelo 3-D monolítico do objeto, e em 1992, eles publicaram o Cresceptron,<ref name="Weng1992">J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronIJCNN1992.pdf Cresceptron: a self-organizing neural network which grows adaptively]," ''Proc. ''</ref><ref name="Weng1993">J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronICCV1993.pdf Learning recognition and segmentation of 3-D objects from 2-D images]," ''Proc. 4th International Conf. ''</ref><ref name="Weng1997">J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronIJCV.pdf Learning recognition and segmentation using the Cresceptron]," ''International Journal of Computer Vision'', vol. 25, no. 2, pp. 105-139, Nov. 1997.</ref> um método para realizar o reconhecimento de objetos 3-D diretamente a partir de cenas desordenadas. O Cresceptron é uma cascata de camadas semelhantes ao Neocognitron. Mas enquanto o Neocognitron requer que um programador humano junte características à mão, o Cresceptron aprende ''automaticamente'' um número aberto de características não supervisionadas em cada camada, em que cada característica é representada por um núcleo de convolução. O Cresceptron também segmentou cada objeto aprendido a partir de uma cena desordenada através de retroanálise ao longo da rede. [[Rede neural convolucional|Max poolling]], agora, muitas vezes, adotadas por redes neurais profundas (por exemplo, testes ImageNet), foi usado pela primeira vez no Cresceptron para reduzir a resolução de posição por um fator de (2x2) para 1 através da cascata para uma melhor generalização. Apesar dessas vantagens, os modelos mais simples que usam características feitas à mão específicas de cada tarefa tais como filtros de Gabor e [[Máquina de vetores de suporte|máquinas de vetores de suporte]] (SVMs) foram uma escolha popular nos décadas de 1990 e 2000, devido ao custo computacional de ANNs na época, e uma grande falta de entendimento de como o cérebro conecta de forma autônoma suas redes biológicas.
Enquanto em 1991 tais redes neurais eram usadas para reconhecer dígitos isolados manuscritos em 2-D, o reconhecimento de objetos 3-D era feito correspondendo imagens 2-D com um modelo 3-D do objeto feito à mão. Juyang Weng ''et al.'' sugeriram que o cérebro humano não usa um modelo 3-D monolítico do objeto, e em 1992, eles publicaram o Cresceptron,,<ref name="Weng1992">J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronIJCNN1992.pdf Cresceptron: a self-organizing neural network which grows adaptively]," ''Proc. International Joint Conference on Neural Networks'', Baltimore, Maryland, vol I, pp. 576-581, June, 1992.</ref><ref name="Weng1993">J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronICCV1993.pdf Learning recognition and segmentation of 3-D objects from 2-D images]," ''Proc. 4th International Conf. Computer Vision'', Berlin, Germany, pp. 121-128, May, 1993.</ref><ref name="Weng1997">J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronIJCV.pdf Learning recognition and segmentation using the Cresceptron]," ''International Journal of Computer Vision'', vol. 25, no. 2, pp. 105-139, Nov. 1997.</ref> um método para realizar o reconhecimento de objetos 3-D diretamente a partir de cenas desordenadas. O Cresceptron é uma cascata de camadas semelhantes ao Neocognitron. Mas enquanto o Neocognitron requer que um programador humano junte características à mão, o Cresceptron aprende ''automaticamente'' um número aberto de características não supervisionadas em cada camada, em que cada característica é representada por um núcleo de convolução. O Cresceptron também segmentou cada objeto aprendido a partir de uma cena desordenada através de retroanálise ao longo da rede. [[Rede neural convolucional|Max poolling]], agora, muitas vezes, adotadas por redes neurais profundas (por exemplo, testes [[ImageNet]]), foi usado pela primeira vez no Cresceptron para reduzir a resolução de posição por um fator de (2x2) para 1 através da cascata para uma melhor generalização. Apesar dessas vantagens, os modelos mais simples que usam características feitas à mão específicas de cada tarefa tais como filtros de Gabor e [[Máquina de vetores de suporte|máquinas de vetores de suporte]] (SVMs) foram uma escolha popular nos décadas de 1990 e 2000, devido ao custo computacional de ANNs na época, e uma grande falta de entendimento de como o cérebro conecta de forma autônoma suas redes biológicas.


Na longa história do reconhecimento de voz, tanto a aprendizagem rasa quanto a aprendizagem profunda de redes neurais artificiais (por exemplo, redes recorrentes) têm sido exploradas por muitos anos.<ref name="Morgan1993">Morgan, Bourlard, Renals, Cohen, Franco (1993) "Hybrid neural network/hidden Markov model systems for continuous speech recognition. </ref><ref name="Robinson1992">T. Robinson. (1992) A real-time recurrent error propagation network word recognition system, ICASSP.</ref><ref name="Waibel1989">Waibel, Hanazawa, Hinton, Shikano, Lang. (1989) "Phoneme recognition using time-delay neural networks. </ref>
Na longa história do reconhecimento de voz, tanto a aprendizagem rasa quanto a aprendizagem profunda de redes neurais artificiais (por exemplo, redes recorrentes) têm sido exploradas por muitos anos.<ref name="Morgan1993">Morgan, Bourlard, Renals, Cohen, Franco (1993) "Hybrid neural network/hidden Markov model systems for continuous speech recognition. ICASSP/IJPRAI"</ref><ref name="Robinson1992">T. Robinson. (1992) A real-time recurrent error propagation network word recognition system, ICASSP.</ref><ref name="Waibel1989">Waibel, Hanazawa, Hinton, Shikano, Lang. (1989) "Phoneme recognition using time-delay neural networks. IEEE Transactions on Acoustics, Speech and Signal Processing."</ref>
Mas esses métodos nunca superaram o trabalho manual interno não uniforme do [[Modelo mistura|modelo de mistura]] de Gaussianas/[[modelo oculto de Markov]] (GMM-HMM) baseados na tecnologia de modelos geradores de fala treinados de forma discriminada.<ref name="Baker2009"><cite class="citation journal">Baker, J.; Deng, Li; Glass, Jim; Khudanpur, S.; Lee, C.-H.; Morgan, N.; O'Shaughnessy, D. (2009). </cite></ref>
Mas esses métodos nunca superaram o trabalho manual interno não uniforme do [[Modelo mistura|modelo de mistura]] de Gaussianas/[[modelo oculto de Markov]] (GMM-HMM) baseados na tecnologia de modelos geradores de fala treinados de forma discriminada.<ref name="Baker2009">{{cite journal | last1 = Baker | first1 = J. | last2 = Deng | first2 = Li | last3 = Glass | first3 = Jim | last4 = Khudanpur | first4 = S. | last5 = Lee | first5 = C.-H. | last6 = Morgan | first6 = N. | last7 = O'Shaughnessy | first7 = D. | year = 2009 | title = Research Developments and Directions in Speech Recognition and Understanding, Part 1 | url = | journal = IEEE Signal Processing Magazine | volume = 26 | issue = 3| pages = 75–80 | doi=10.1109/msp.2009.932166}}</ref>
Algumas das principais dificuldades tem sido analisadas metodologicamente, incluindo a redução do gradiente<ref name="HOCH1991">S. Hochreiter., "[http://people.idsia.ch/~juergen/SeppHochreiter1991ThesisAdvisorSchmidhuber.pdf Untersuchungen zu dynamischen neuronalen Netzen]," ''Diploma thesis. ''</ref> e fraca estrutura de correlação temporal nos modelos neurais de previsão.<ref name="Bengio1991">Y. Bengio (1991). </ref><ref name="Deng1994"><cite class="citation journal">Deng, L.; Hassanein, K.; Elmasry, M. (1994). </cite></ref>
Algumas das principais dificuldades tem sido analisadas metodologicamente, incluindo a redução do gradiente<ref name="HOCH1991"/> e fraca estrutura de correlação temporal nos modelos neurais de previsão.<ref name="Bengio1991">Y. Bengio (1991). "Artificial Neural Networks and their Application to Speech/Sequence Recognition," Ph.D. thesis, McGill University, Canada.</ref><ref name="Deng1994">{{cite journal | last1 = Deng | first1 = L. | last2 = Hassanein | first2 = K. | last3 = Elmasry | first3 = M. | year = 1994 | title = Analysis of correlation structure for a neural predictive model with applications to speech recognition | url = | journal = Neural Networks | volume = 7 | issue = 2| pages = 331–339 | doi=10.1016/0893-6080(94)90027-2}}</ref>
Outras dificuldades foram a falta de grandes dados para treinamento e um poder de computação mais fraco nas etapas iniciais. Assim, a maioria dos pesquisadores de reconhecimento de voz que compreendiam essas barreiras, afastou-se das redes neurais para perseguir a modelagem geradora. Uma exceção estava no [[SRI International|SRI Internacional]] no final da década de 1990. Financiado pela [[Agência de Segurança Nacional|NSA]] e a [[Defense Advanced Research Projects Agency|DARPA]] do governo dos EUA, SRI realizou uma pesquisa sobre redes neurais profundas para o reconhecimento de voz e de falante. A equipe de reconhecimento de falante, liderada por [https://www.linkedin.com/in/larryheck Larry Heck], atingiu o primeiro grande sucesso com redes neurais profundas em processamento de fala, como demonstrado na[http://www.nist.gov/itl/iad/mig/sre.cfm  avaliação do reconhecimento de falante do NIST (Instituto Nacional de Padrões e Tecnologia)] em 1998 e, posteriormente, publicado na revista de Comunicação de Voz.<ref name="Heck2000"><cite class="citation journal">Heck, L.; Konig, Y.; Sonmez, M.; Weintraub, M. (2000). </cite></ref> Embora o SRI tenha obtido sucesso com redes neurais profundas no reconhecimento de falante, eles não tiveram êxito em demonstrar sucesso semelhante em reconhecimento de fala. Hinton et al. e Deng et al. revisaram parte desta recente história sobre como a sua colaboração uns com os outros e então com colegas de quatro grupos (Universidade de Toronto, Microsoft, Google e IBM) provocou um renascimento das redes neurais de alimentação direta no reconhecimento de fala.<ref name="HintonDengYu2012"><cite class="citation journal">Hinton, G.; Deng, L.; Yu, D.; Dahl, G.; Mohamed, A.; Jaitly, N.; Senior, A.; Vanhoucke, V.; Nguyen, P.; Sainath, T.; Kingsbury, B. (2012). </cite></ref><ref name="ReferenceICASSP2013"><cite class="citation journal">Deng, L.; Hinton, G.; Kingsbury, B. (2013). </cite></ref><ref name="HintonKeynoteICASSP2013">Keynote talk: Recent Developments in Deep Neural Networks. </ref><ref name="interspeech2014Keynote">Keynote talk: "Achievements and Challenges of Deep Learning - From Speech Analysis and Recognition To Language and Multimodal Processing," Interspeech, September 2014.</ref>
Outras dificuldades foram a falta de grandes dados para treinamento e um poder de computação mais fraco nas etapas iniciais. Assim, a maioria dos pesquisadores de reconhecimento de voz que compreendiam essas barreiras, afastou-se das redes neurais para perseguir a modelagem geradora. Uma exceção estava no [[SRI International|SRI Internacional]] no final da década de 1990. Financiado pela [[Agência de Segurança Nacional|NSA]] e a [[Defense Advanced Research Projects Agency|DARPA]] do governo dos EUA, SRI realizou uma pesquisa sobre redes neurais profundas para o reconhecimento de voz e de falante. A equipe de reconhecimento de falante, liderada por [https://www.linkedin.com/in/larryheck Larry Heck], atingiu o primeiro grande sucesso com redes neurais profundas em processamento de fala, como demonstrado na[http://www.nist.gov/itl/iad/mig/sre.cfm  avaliação do reconhecimento de falante do NIST (Instituto Nacional de Padrões e Tecnologia)] em 1998 e, posteriormente, publicado na revista de Comunicação de Voz.<ref name="Heck2000">{{cite journal | last1 = Heck | first1 = L. | last2 = Konig | first2 = Y. | last3 = Sonmez | first3 = M. | last4 = Weintraub | first4 = M. | year = 2000 | title = Robustness to Telephone Handset Distortion in Speaker Recognition by Discriminative Feature Design | url = | journal = Speech Communication | volume = 31 | issue = 2| pages = 181–192 | doi=10.1016/s0167-6393(99)00077-1}}</ref> Embora o SRI tenha obtido sucesso com redes neurais profundas no reconhecimento de falante, eles não tiveram êxito em demonstrar sucesso semelhante em reconhecimento de fala. Hinton et al. e Deng et al. revisaram parte desta recente história sobre como a sua colaboração uns com os outros e então com colegas de quatro grupos (Universidade de Toronto, Microsoft, Google e IBM) provocou um renascimento das redes neurais de alimentação direta no reconhecimento de fala.<ref name=HintonDengYu2012/><ref name="ReferenceICASSP2013">{{cite journal|last1=Deng|first1=L.|last2=Hinton|first2=G.|last3=Kingsbury|first3=B.|title=New types of deep neural network learning for speech recognition and related applications: An overview (ICASSP)| date=2013}}</ref><ref name="HintonKeynoteICASSP2013">Keynote talk: Recent Developments in Deep Neural Networks. ICASSP, 2013 (by Geoff Hinton).</ref><ref name="interspeech2014Keynote">Keynote talk: "Achievements and Challenges of Deep Learning - From Speech Analysis and Recognition To Language and Multimodal Processing," Interspeech, September 2014.</ref>


Hoje, no entanto, muitos aspectos do reconhecimento de voz foram tomados por um método de aprendizagem profunda chamado de longa memória de curto prazo (LSTM), uma rede neural recorrente publicada por Sepp Hochreiter & Jürgen Schmidhuber, em 1997.<ref name=lstm/> As RNNs LSTM evitam o problema da dissipação do gradiente e podem aprender tarefas de "Aprendizado Muito Profundo"<ref name="SCHIDHUB"/> que necessitam de memórias de eventos que aconteceram milhares de pequenos passos de tempo atrás, o que é importante para a fala. Em 2003, LSTM começou a tornar-se competitiva com os reconhecedores de voz tradicionais em determinadas tarefas.<ref name="graves2003"/> Posteriormente, ela foi combinada com CTC<ref name="graves2006"/> em pilhas de RNNs de LSTM.<ref name="fernandez2007keyword"/> Em 2015, o reconhecimento de voz do Google teria experimentado um salto dramático de desempenho de 49% por meio de LSTM treinada por CTC, que agora está disponível para todos os usuários de smartphones através [[Google Voice|do Google Voice]],<ref name="sak2015"/> e tornou-se uma demonstração da aprendizagem profunda.
Várias arquiteturas de aprendizagem profunda, tais como [//en.wikipedia.org/wiki/Deep_learning#Deep_neural_network_architectures redes neurais profundas], [[Rede neural convolucional|redes neurais profundas convolucionais]], redes de crenças profundas e redes neurais recorrentes têm sido aplicadas em áreas como [[visão computacional]], [[Reconhecimento de fala|reconhecimento automático de fala]], [[processamento de linguagem natural]], reconhecimento de áudio e [[bioinformática]], onde elas têm se mostrado capazes de produzir resultados do estado-da-arte em várias tarefas.


De acordo com uma pesquisa,<ref name="scholarpedia">{{cite journal | last1 = Schmidhuber | first1 = Jürgen | authorlink = Jürgen Schmidhuber | year = 2015 | title = Deep Learning | url = http://www.scholarpedia.org/article/Deep_Learning | journal = Scholarpedia | volume = 10 | issue = 11| page = 32832 | doi=10.4249/scholarpedia.32832}}</ref> a expressão "aprendizagem profunda" trazida para a comunidade de [[Aprendizado de máquina|aprendizagem de máquina]] por Rina Dechter em 1986,<ref name="dechter1986">[[Rina Dechter]] (1986). Learning while searching in constraint-satisfaction problems. University of California, Computer Science Department, Cognitive Systems Laboratory.[https://www.researchgate.net/publication/221605378_Learning_While_Searching_in_Constraint-Satisfaction-Problems Online]</ref>
Hoje, no entanto, muitos aspectos do reconhecimento de voz foram tomados por um método de aprendizagem profunda chamado de longa memória de curto prazo (LSTM), uma rede neural recorrente publicada por Sepp Hochreiter & Jürgen Schmidhuber, em 1997.<ref name="lstm">Hochreiter, Sepp; and Schmidhuber, Jürgen; ''Long Short-Term Memory'', Neural Computation, 9(8):1735–1780, 1997</ref> As RNNs LSTM evitam o problema da dissipação do gradiente e podem aprender tarefas de "Aprendizado Muito Profundo"<ref name="SCHIDHUB"><cite class="citation journal">Schmidhuber, J. (2015). </cite></ref> que necessitam de memórias de eventos que aconteceram milhares de pequenos passos de tempo atrás, o que é importante para a fala. Em 2003, LSTM começou a tornar-se competitiva com os reconhecedores de voz tradicionais em determinadas tarefas.<ref name="graves2003">Alex Graves, Douglas Eck, Nicole Beringer, and Jürgen Schmidhuber (2003). </ref> Posteriormente, ela foi combinada com CTC<ref name="graves2006">Alex Graves, Santiago Fernandez, Faustino Gomez, and Jürgen Schmidhuber (2006). </ref> em pilhas de RNNs de LSTM.<ref name="fernandez2007keyword">Santiago Fernandez, Alex Graves, and Jürgen Schmidhuber (2007). </ref> Em 2015, o reconhecimento de voz do Google teria experimentado um salto dramático de desempenho de 49% por meio de LSTM treinada por CTC, que agora está disponível para todos os usuários de smartphones através [[Google Voice|do Google Voice]],<ref name="sak2015">Haşim Sak, Andrew Senior, Kanishka Rao, Françoise Beaufays and Johan Schalkwyk (September 2015): [http://googleresearch.blogspot.ch/2015/09/google-voice-search-faster-and-more.html Google voice search: faster and more accurate.]</ref> e tornou-se uma demonstração da aprendizagem profunda.
e depois para [[Rede neural artificial|redes neurais artificiais]] por Igor Aizenberg e colegas em 2000.<ref name="aizenberg2000">Igor Aizenberg, Naum N. Aizenberg, Joos P.L. Vandewalle (2000). Multi-Valued and Universal Binary Neurons: Theory, Learning and Applications. Springer Science & Business Media.</ref> Um gráfico do Google Ngram mostra que o uso da expressão ganhou força (realmente decolou) desde 2000.<ref name="DLchart">Google Ngram chart of the usage of the expression "deep learning" posted by Jürgen Schmidhuber (2015) [https://plus.google.com/100849856540000067209/posts/7N6z251w2Wd?pid=6127540521703625346&oid=100849856540000067209 Online]</ref>
Em 2006, uma plublicação por Geoffrey Hinton e Ruslan Salakhutdinov chamou mais atenção mostrando como redes neurais de alimentação direta poderiam ser pré-treinadas uma camada por vez, tratando cada uma delas como uma máquina de Boltzmann restrita não supervisionada, e então fazendo ajustes finos por meio de propagação reversa supervisionada.<ref name="HINTON2007">G. E. Hinton., "Learning multiple layers of representation," ''Trends in Cognitive Sciences'', 11, pp. 428–434, 2007.</ref> Em 1992, Schmidhuber já havia implementado uma ideia bastante similar para o caso mais geral de hierarquias profundas não supervisionadas de redes neurais recorrentes, e também mostrado experimentalmente a sua vantagem na aceleração do aprendizado supervisionado.<ref name="SCHMID1992">J. Schmidhuber., "Learning complex, extended sequences using the principle of history compression," ''Neural Computation'', 4, pp. 234–242, 1992.</ref><ref name="SCHMID1991">J. Schmidhuber., "My First Deep Learning System of 1991 + Deep Learning Timeline 1962–2013." [http://people.idsia.ch/~juergen/firstdeeplearner.html Online]</ref>


Desde o seu resurgimento, a aprendizagem profunda se tornou parte de diversos sistemas de estado da arte em várias disciplinas, particularmente visão computacional e [[Reconhecimento de fala|reconhecimento automático de fala]] (ASR). Os resultados em conjuntos usados frequentemente para avaliação, tais como o TIMIT (ASR) e o MNIST ([[Visão computacional|classificação de image]]<nowiki/>ns), bem como uma gama de tarefas de reconhecimento de fala de grandes vocabulários estão constantemente sendo melhorados com novas aplicações de aprendizagem profunda.<ref name=HintonDengYu2012/><ref>http://research.microsoft.com/apps/pubs/default.aspx?id=189004</ref><ref name="MS2013">L. Deng et al. Recent Advances in Deep Learning for Speech Research at Microsoft, ICASSP, 2013.</ref> Recentemente, foi mostrado que arquiteturas de aprendizagem profunda na forma de [[Rede neural convolucional|redes neurais de convolução]] tem obtido praticamente o melhor desempenho;<ref name="CNNspeech2013">L. Deng, O. Abdel-Hamid, and D. Yu, A deep convolutional neural network using heterogeneous pooling for trading acoustic invariance with phonetic confusion, ICASSP, 2013.</ref><ref name="SAIN2013"/> no entanto, estas são usadas mais amplamente em visão computacional do que em ASR, e o reconhecimento moderno de fala em larga escala geralmente é baseado em CTC<ref name="graves2006"/> para LSTM.<ref name=lstm/><ref name="sak2015"/><ref name="sak2014"/><ref name="liwu2015"/><ref name="zen2015"/>
A área de aprendizagem profundo tem sido caracterizada de várias maneiras. Por exemplo, em 1986, Rina Dechter introduziu os conceitos de aprendizagem profunda de primeira e segunda ordens no contexto de satisfação de restrições.<ref name="dechter1986">Rina Dechter (1986). </ref> Posteriormente, a aprendizagem profunda foi caracterizada como uma classe
de [[Algoritmo|algoritmos]] de [[Aprendizado de máquina|aprendizagem de máquina]] que<ref name="BOOK2014"><cite class="citation journal">Deng, L.; Yu, D. (2014). </cite></ref><sup class="reference" style="white-space:nowrap;">(pp199–200)</sup>


O verdadeiro impacto da aprendizagem profunda na indústria começou, aparentemente, no início da década de 2000, quando as CNNs já processavam um percentual estimado de 10% a 20% de todos os cheques escritos nos EUA, no início da década de 2000, de acordo com Yann LeCun.<ref name="lecun2016slides">[[Yann LeCun]] (2016). Slides on Deep Learning [https://indico.cern.ch/event/510372/ Online]</ref> Aplicações industriais de aprendizagem profunda ao reconhecimento de voz de grande escala começaram por volta de 2010. No final de 2009, Li Deng convidou Geoffrey Hinton para trabalhar com ele e seus colegas na Microsoft Research em Redmond, Washington na aplicação de aprendizagem profunda no reconhecimento de fala. Eles co-organizaram o Workshop NIPS de 2009 em aprendizagem profunda para o reconhecimento de fala. O seminário foi motivado pelas limitações dos modelos geradores de fala profundos, e pela possibilidade de que a era da big-computação e do big-data justificavam testes sérios com redes neurais profundas (DNN). Acreditava-se que o pré-treinamento de DNNs usando modelos geradores de redes de crenças profundas (DBN) iria superar as principais dificuldades das redes neurais encontradas na década de 1990.<ref name="HintonKeynoteICASSP2013"/> No entanto, no início desta pesquisa na Microsoft, foi descoberto que, sem pré-treino, mas com o uso de grandes quantidades de dados de treinamento, e, especialmente, DNNs projetadas com igualmente grandes camadas de saída dependentes de contexto, eram produzidas taxas de erro drasticamente menores do que GMM-HMM de estado da arte e também do que sistemas mais avançados de reconhecimento de voz baseados em modelos geradores. Esta constatação foi verificada por vários outros grandes grupos de pesquisa em reconhecimento de fala.<ref name="HintonDengYu2012">{{cite journal | last1 = Hinton | first1 = G. | last2 = Deng | first2 = L. | last3 = Yu | first3 = D. | last4 = Dahl | first4 = G. | last5 = Mohamed | first5 = A. | last6 = Jaitly | first6 = N. | last7 = Senior | first7 = A. | last8 = Vanhoucke | first8 = V. | last9 = Nguyen | first9 = P. | last10 = Sainath | first10 = T. | last11 = Kingsbury | first11 = B. | year = 2012 | title = Deep Neural Networks for Acoustic Modeling in Speech Recognition --- The shared views of four research groups | url = | journal = IEEE Signal Processing Magazine | volume = 29 | issue = 6| pages = 82–97 | doi=10.1109/msp.2012.2205597}}</ref><ref name="patent2011">D. Yu, L. Deng, G. Li, and F. Seide (2011). "Discriminative pretraining of deep neural networks," U.S. Patent Filing.</ref> Além disso, a natureza dos erros de reconhecimento produzidos pelos dois tipos de sistemas se mostrou caracteristicamente diferente,<ref name="ReferenceICASSP2013"/><ref name=NIPS2009/> oferecendo ''insights'' técnicos sobre como integrar a aprendizagem profunda nos sistemas existentes e altamente eficientes de decodificação de fala implantados pelos principais membros da indústria de reconhecimento de fala. A história deste desenvolvimento significativo na aprendizagem profunda tem sido descrito e analisado em livros e artigos recentes.<ref name=BOOK2014 /><ref name="ReferenceA">{{cite journal|last1=Yu|first1=D.|last2=Deng|first2=L.|title=Automatic Speech Recognition: A Deep Learning Approach (Publisher: Springer)| date=2014}}</ref><ref>IEEE (2015)http://blogs.technet.com/b/inside_microsoft_research/archive/2015/12/03/deng-receives-prestigious-ieee-technical-achievement-award.aspx</ref>
Desde o seu resurgimento, a aprendizagem profunda se tornou parte de diversos sistemas de estado da arte em várias disciplinas, particularmente visão computacional e [[Reconhecimento de fala|reconhecimento automático de fala]] (ASR). Os resultados em conjuntos usados frequentemente para avaliação, tais como o TIMIT (ASR) e o MNIST ([[Visão computacional|classificação de image]]<nowiki/>ns), bem como uma gama de tarefas de reconhecimento de fala de grandes vocabulários estão constantemente sendo melhorados com novas aplicações de aprendizagem profunda.<ref name="HintonDengYu2012"><cite class="citation journal">Hinton, G.; Deng, L.; Yu, D.; Dahl, G.; Mohamed, A.; Jaitly, N.; Senior, A.; Vanhoucke, V.; Nguyen, P.; Sainath, T.; Kingsbury, B. (2012). </cite></ref><ref>http://research.microsoft.com/apps/pubs/default.aspx?id=189004</ref><ref name="MS2013">L. Deng et al. </ref> Recentemente, foi mostrado que arquiteturas de aprendizagem profunda na forma de [[Rede neural convolucional|redes neurais de convolução]] tem obtido praticamente o melhor desempenho;<ref name="CNNspeech2013">L. Deng, O. Abdel-Hamid, and D. Yu, A deep convolutional neural network using heterogeneous pooling for trading acoustic invariance with phonetic confusion, ICASSP, 2013.</ref><ref name="SAIN2013">T. Sainath ''et al.'', "Convolutional neural networks for LVCSR," ''ICASSP'', 2013.</ref> no entanto, estas são usadas mais amplamente em visão computacional do que em ASR, e o reconhecimento moderno de fala em larga escala geralmente é baseado em CTC<ref name="graves2006">Alex Graves, Santiago Fernandez, Faustino Gomez, and Jürgen Schmidhuber (2006). </ref> para LSTM.<ref name="lstm">Hochreiter, Sepp; and Schmidhuber, Jürgen; ''Long Short-Term Memory'', Neural Computation, 9(8):1735–1780, 1997</ref><ref name="sak2015">Haşim Sak, Andrew Senior, Kanishka Rao, Françoise Beaufays and Johan Schalkwyk (September 2015): [http://googleresearch.blogspot.ch/2015/09/google-voice-search-faster-and-more.html Google voice search: faster and more accurate.]</ref><ref name="sak2014">Hasim Sak and Andrew Senior and Francoise Beaufays (2014). </ref><ref name="liwu2015">Xiangang Li, Xihong Wu (2015). </ref><ref name="zen2015">Heiga Zen and Hasim Sak (2015). </ref>


Os avanços em hardware também foram importantes no sentido de renovar o interesse na aprendizagem profunda. Em particular, [[Unidade de processamento gráfico|unidades de processamento gráfico]] (GPUs) poderosas são bastante adequadas para o tipo de manipulação de números e matemática matricial e vetorial envolvidas na aprendizagem de máquina..<ref name="jung2004">{{cite journal | last1 = Oh | first1 = K.-S. | last2 = Jung | first2 = K. | year = 2004 | title = GPU implementation of neural networks | url = | journal = Pattern Recognition | volume = 37 | issue = 6| pages = 1311–1314 | doi=10.1016/j.patcog.2004.01.013}}</ref><ref name="chellapilla2006">Chellapilla, K., Puri, S., and Simard, P. (2006). High performance convolutional neural networks for
O verdadeiro impacto da aprendizagem profunda na indústria começou, aparentemente, no início da década de 2000, quando as CNNs já processavam um percentual estimado de 10% a 20% de todos os cheques escritos nos EUA, no início da década de 2000, de acordo com Yann LeCun.<ref name="lecun2016slides">Yann LeCun (2016). </ref> Aplicações industriais de reconhecimento de voz de grande escala começaram por volta de 2010. No final de 2009, Li Deng convidou Geoffrey Hinton para trabalhar com ele e seus colegas na Microsoft Research na aplicação de aprendizagem profunda no reconhecimento de fala. Eles co-organizaram o Workshop NIPS de 2009 em aprendizagem profunda para o reconhecimento de fala. O seminário foi motivado pelas limitações dos modelos geradores de fala profundos, e pela possibilidade de que a era da big-computação e do big-data justificavam testes sérios com redes neurais profundas (DNN). Acreditava-se que o pré-treinamento de DNNs usando modelos geradores de redes de crenças profundas (DBN) iria superar as principais dificuldades das redes neurais encontradas na década de 1990.<ref name="HintonKeynoteICASSP2013">Keynote talk: Recent Developments in Deep Neural Networks. </ref> No entanto, no início desta pesquisa na Microsoft, foi descoberto que, sem pré-treino, mas com o uso de grandes quantidades de dados de treinamento, e, especialmente, DNNs projetadas com igualmente grandes camadas de saída dependentes de contexto, eram produzidas taxas de erro drasticamente menores do que GMM-HMM de estado da arte e também do que sistemas mais avançados de reconhecimento de voz baseados em modelos geradores. Esta constatação foi verificada por vários outros grandes grupos de pesquisa em reconhecimento de fala.<ref name="HintonDengYu2012"><cite class="citation journal">Hinton, G.; Deng, L.; Yu, D.; Dahl, G.; Mohamed, A.; Jaitly, N.; Senior, A.; Vanhoucke, V.; Nguyen, P.; Sainath, T.; Kingsbury, B. (2012). </cite></ref><ref name="patent2011">D. Yu, L. Deng, G. Li, and F. Seide (2011). </ref> Além disso, a natureza dos erros de reconhecimento produzidos pelos dois tipos de sistemas se mostrou caracteristicamente diferente,<ref name="ReferenceICASSP2013"><cite class="citation journal">Deng, L.; Hinton, G.; Kingsbury, B. (2013). </cite></ref><ref name="NIPS2009">NIPS Workshop: Deep Learning for Speech Recognition and Related Applications, Whistler, BC, Canada, Dec. 2009 (Organizers: Li Deng, Geoff Hinton, D. Yu).</ref> oferecendo ''insights'' técnicos sobre como integrar a aprendizagem profunda nos sistemas existentes e altamente eficientes de decodificação de fala implantados pelos principais membros da indústria de reconhecimento de fala. A história deste desenvolvimento significativo na aprendizagem profunda tem sido descrito e analisado em livros e artigos recentes.<ref name="BOOK2014"><cite class="citation journal">Deng, L.; Yu, D. (2014). </cite></ref><ref name="ReferenceA"><cite class="citation journal">Yu, D.; Deng, L. (2014). </cite></ref><ref>IEEE (2015)http://blogs.technet.com/b/inside_microsoft_research/archive/2015/12/03/deng-receives-prestigious-ieee-technical-achievement-award.aspx</ref>
document processing. International Workshop on Frontiers in Handwriting Recognition.</ref> Tem sido mostrado que as GPUs aceleram algoritmos de treinamento em ordens de magnitude, trazendo os tempos de execução de semanas para dias.<ref name="CIRESAN2010">D. C. Ciresan ''et al.'', "Deep Big Simple Neural Nets for Handwritten Digit Recognition," ''Neural Computation'', 22, pp. 3207–3220, 2010.</ref><ref name="RAINA2009">R. Raina, A. Madhavan, A. Ng., "Large-scale Deep Unsupervised Learning using Graphics Processors," ''Proc. 26th Int. Conf. on Machine Learning'', 2009.</ref>

Os avanços em hardware também foram importantes no sentido de renovar o interesse na aprendizagem profunda. Em particular, [[Unidade de processamento gráfico|unidades de processamento gráfico]] (GPUs) poderosas são bastante adequadas para o tipo de manipulação de números e matemática matricial e vetorial envolvidas na aprendizagem de máquina.<ref name="jung2004"><cite class="citation journal">Oh, K.-S.; Jung, K. (2004). </cite></ref><ref name="chellapilla2006">Chellapilla, K., Puri, S., and Simard, P. (2006). </ref> Tem sido mostrado que as GPUs aceleram algoritmos de treinamento em ordens de magnitude, trazendo os tempos de execução de semanas para dias.<ref name="CIRESAN2010">D. C. Ciresan ''et al.'', "Deep Big Simple Neural Nets for Handwritten Digit Recognition," ''Neural Computation'', 22, pp. 3207–3220, 2010.</ref><ref name="RAINA2009">R. Raina, A. Madhavan, A. Ng., "Large-scale Deep Unsupervised Learning using Graphics Processors," ''Proc. 26th Int. ''</ref>


== Redes neurais artificiais ==
== Redes neurais artificiais ==
Alguns dos métodos mais bem sucedidos de aprendizagem profunda envolvem [[Rede neural artificial|redes neurais]]  artificiais. Redes neurais artificiais são inspiradas pelo modelo biológica de 1959 proposto por [[David Hubel|David H. Hubel]] e [[Torsten Wiesel]], ambos [[Laureados com o Nobel|premiados com o Nobel]], que descobriram que dois tipos de células no córtex visual primário: células simples e células complexas. Muitas redes neurais artificiais podem ser vistas como modelos em cascata<ref name="Weng1992">J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronIJCNN1992.pdf Cresceptron: a self-organizing neural network which grows adaptively]," ''Proc. ''</ref><ref name="Weng1993">J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronICCV1993.pdf Learning recognition and segmentation of 3-D objects from 2-D images]," ''Proc. 4th International Conf. ''</ref><ref name="Weng1997">J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronIJCV.pdf Learning recognition and segmentation using the Cresceptron]," ''International Journal of Computer Vision'', vol. 25, no. 2, pp. 105-139, Nov. 1997.</ref><ref><cite class="citation journal">Riesenhuber, M; Poggio, T (1999). </cite></ref> de tipos de células inspirados por estas observações biológicas.
Alguns dos métodos mais bem sucedidos de aprendizagem profunda envolvem [[Rede neural artificial|redes neurais]]  artificiais. Redes neurais artificiais são inspiradas pelo modelo biológica de 1959 proposto por [[David Hubel|David H. Hubel]] e [[Torsten Wiesel]], ambos [[Laureados com o Nobel|premiados com o Nobel]], que descobriram que dois tipos de células no córtex visual primário: células simples e células complexas. Muitas redes neurais artificiais podem ser vistas como modelos em cascata<ref name="Weng1992"/><ref name="Weng1993"/><ref name="Weng1997"/><ref>{{cite journal | last1 = Riesenhuber | first1 = M | last2 = Poggio | first2 = T | year = 1999 | title = Hierarchical models of object recognition in cortex | doi = 10.1038/14819 | journal = Nature Neuroscience | volume = 2 | issue = 11| pages = 1019–1025 }}</ref> de tipos de células inspirados por estas observações biológicas.

Neocognitron de Fukushima introduziu redes neurais [[Convolução|convolucionais]] parcialmente treinadas por aprendizagem não-supervisionada com características direcionadas por humanos no plano neural. Yann LeCun et al. (1989), aplicaram retropropagação supervisionada a estas arquiteturas.<ref name=LeCun1989>Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel. 1989 ''Backpropagation Applied to Handwritten Zip Code Recognition.'' Neural Computation, 1(4):541–551.</ref> Weng et al. (1992) publicaram redes neurais convolucionais Cresceptron<ref name="Weng1992"/><ref name="Weng1993"/><ref name="Weng1997"/> para o reconhecimento de objetos 3-D a partir de imagens de cenas desordenadas e para a segmentação de tais objetos a partir de imagens.


Uma necessidade óbvia para o reconhecimento de objetos 3-D em geral é uma menor invariância a deslocamentos e tolerância à deformação. O ''max-pooling'' parece ter sido proposto pela primeira vez por Cresceptron<ref name="Weng1992"/><ref name="Weng1993"/> para permitir que a rede tolerasse de pequenas a grandes deformações de uma forma hierárquica, ao mesmo tempo em que é utilizada a convolução. O ''max-pooling'' ajuda, mas não garante, invariância a deslocamentos no nível dos pixels.<ref name="Weng1997"/>
Neocognitron de Fukushima introduziu redes neurais [[Convolução|convolucionais]] parcialmente treinadas por aprendizagem não-supervisionada com características direcionadas por humanos no plano neural. Yann LeCun et al. (1989), aplicaram retropropagação supervisionada a estas arquiteturas.<ref name="LeCun1989">Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel. 1989 ''Backpropagation Applied to Handwritten Zip Code Recognition.'' </ref> Weng et al. (1992) publicaram redes neurais convolucionais Cresceptron<ref name="Weng1992">J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronIJCNN1992.pdf Cresceptron: a self-organizing neural network which grows adaptively]," ''Proc. ''</ref><ref name="Weng1993">J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronICCV1993.pdf Learning recognition and segmentation of 3-D objects from 2-D images]," ''Proc. 4th International Conf. ''</ref><ref name="Weng1997">J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronIJCV.pdf Learning recognition and segmentation using the Cresceptron]," ''International Journal of Computer Vision'', vol. 25, no. 2, pp. 105-139, Nov. 1997.</ref> para o reconhecimento de objetos 3-D a partir de imagens de cenas desordenadas e para a segmentação de tais objetos a partir de imagens.


Com o advento do algoritmo de retropropagação baseado na [[diferenciação automática]],<ref name="lin1970"/><ref name="WERBOS1974"/><ref name="werbos1982"/><ref name="grie2008"/><ref name="kelley1960"/><ref name="bryson1961"/><ref name="dreyfus1962"/><ref name="dreyfus1973"/><ref name="ROMELNAT">Rumelhart, D. E., Hinton, G. E. & Williams, R. J. , "Learning representations by back-propagating errors" ''nature'', 1974.</ref><ref name="dreyfus1990"/> muitos pesquisadores tentaram treinar [[Rede neural artificial|redes neurais artificiais]]  profundas supervisionadas a partir do zero, inicialmente com pouco sucesso. A tese de Sepp Hochreiter de 1991<ref name="HOCH1991"/><ref name="HOCH2001"/> identificou formalmente o motivo para esta falha como o problema da dissipação do gradiente, que afeta redes de alimentação direta de muitas camadas e redes neurais recorrentes. Redes recorrentes são treinadas desdobrando-as em redes de alimentação direta muito profundas, em que uma nova camada é criada para cada passo de tempo de uma seqüência de entrada processada pela rede. Conforme os erros se propagam de camada para camada, eles diminuem exponencialmente com o número de camadas, impedindo o ajuste dos pesos dos neurônio, que são baseados nesses erros.
Uma necessidade óbvia para o reconhecimento de objetos 3-D em geral é uma menor invariância a deslocamentos e tolerância à deformação. O ''max-pooling'' parece ter sido proposto pela primeira vez por Cresceptron<ref name="Weng1992">J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronIJCNN1992.pdf Cresceptron: a self-organizing neural network which grows adaptively]," ''Proc. ''</ref><ref name="Weng1993">J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronICCV1993.pdf Learning recognition and segmentation of 3-D objects from 2-D images]," ''Proc. 4th International Conf. ''</ref> para permitir que a rede tolerasse de pequenas a grandes deformações de uma forma hierárquica, ao mesmo tempo em que é utilizada a convolução. O ''max-pooling'' ajuda, mas não garante, invariância a deslocamentos no nível dos pixels.<ref name="Weng1997">J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronIJCV.pdf Learning recognition and segmentation using the Cresceptron]," ''International Journal of Computer Vision'', vol. 25, no. 2, pp. 105-139, Nov. 1997.</ref>


Para superar este problema, foram propostos vários métodos. Um deles é a hierarquia de vários níveis de redes de Jürgen Schmidhuber (1992), pré-treinada nível por nível por aprendizagem não supervisionado, ajustada por retropropagação.<ref name="SCHMID1992"/> Aqui, cada nível aprende uma representação compactada das observações que alimentam o próximo nível.
Com o advento do algoritmo de retropropagação baseado na [[diferenciação automática]],<ref name="lin1970">Seppo Linnainmaa (1970). </ref><ref name="WERBOS1974">P. Werbos., "Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences," ''PhD thesis, Harvard University'', 1974.</ref><ref name="werbos1982">Paul Werbos (1982). </ref><ref name="grie2008">Griewank, Andreas and Walther, A.. </ref><ref name="kelley1960">Henry J. Kelley (1960). </ref><ref name="bryson1961">Arthur E. Bryson (1961, April). </ref><ref name="dreyfus1962">Stuart Dreyfus (1962). </ref><ref name="dreyfus1973">Stuart Dreyfus (1973). </ref><ref name="ROMELNAT">Rumelhart, D. E., Hinton, G. E. & Williams, R. J. , "Learning representations by back-propagating errors" ''nature'', 1974.</ref><ref name="dreyfus1990">Stuart Dreyfus (1990). </ref> muitos pesquisadores tentaram treinar [[Rede neural artificial|redes neurais artificiais]]  profundas supervisionadas a partir do zero, inicialmente com pouco sucesso. A tese de Sepp Hochreiter de 1991<ref name="HOCH1991">S. Hochreiter., "[http://people.idsia.ch/~juergen/SeppHochreiter1991ThesisAdvisorSchmidhuber.pdf Untersuchungen zu dynamischen neuronalen Netzen]," ''Diploma thesis. ''</ref><ref name="HOCH2001">S. Hochreiter ''et al.'', "Gradient flow in recurrent nets: the difficulty of learning long-term dependencies," ''In S. C. Kremer and J. F. Kolen, editors, A Field Guide to Dynamical Recurrent Neural Networks. ''</ref> identificou formalmente o motivo para esta falha como o problema da dissipação do gradiente, que afeta redes de alimentação direta de muitas camadas e redes neurais recorrentes. Redes recorrentes são treinadas desdobrando-as em redes de alimentação direta muito profundas, em que uma nova camada é criada para cada passo de tempo de uma seqüência de entrada processada pela rede. Conforme os erros se propagam de camada para camada, eles diminuem exponencialmente com o número de camadas, impedindo o ajuste dos pesos dos neurônio, que são baseados nesses erros.


<!--
Para superar este problema, foram propostos vários métodos. Um deles é a hierarquia de vários níveis de redes de Jürgen Schmidhuber (1992), pré-treinada nível por nível por aprendizagem não supervisionado, ajustada por retropropagação.<ref name="SCHMID1992">J. Schmidhuber., "Learning complex, extended sequences using the principle of history compression," ''Neural Computation'', 4, pp. 234–242, 1992.</ref> Aqui, cada nível aprende uma representação compactada das observações que alimentam o próximo nível.
Another method is the [[long short term memory]] (LSTM) network of [[Sepp Hochreiter|Hochreiter]] & [[Jürgen Schmidhuber|Schmidhuber]] (1997).<ref name=lstm>[[Sepp Hochreiter|Hochreiter, Sepp]]; and [[Jürgen Schmidhuber|Schmidhuber, Jürgen]]; ''Long Short-Term Memory'', Neural Computation, 9(8):1735–1780, 1997</ref> In 2009, deep multidimensional LSTM networks won three ICDAR 2009 competitions in connected handwriting recognition, without any prior knowledge about the three languages to be learned.<ref name="graves2009">Graves, Alex; and Schmidhuber, Jürgen; ''Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks'', in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.), ''Advances in Neural Information Processing Systems 22 (NIPS'22), December 7th–10th, 2009, Vancouver, BC'', Neural Information Processing Systems (NIPS) Foundation, 2009, pp. 545–552</ref><ref>{{cite journal | last1 = Graves | first1 = A. | last2 = Liwicki | first2 = M. | last3 = Fernandez | first3 = S. | last4 = Bertolami | first4 = R. | last5 = Bunke | first5 = H. | last6 = Schmidhuber | first6 = J. | year = 2009 | title = A Novel Connectionist System for Improved Unconstrained Handwriting Recognition | doi = 10.1109/tpami.2008.137 | journal = IEEE Transactions on Pattern Analysis and Machine Intelligence | volume = 31 | issue = 5| pages = 855–868}}</ref>
-->


Sven Behnke, em 2003, baseou-se apenas no sinal do gradiente (Rprop) ao treinar a sua Pirâmide de Abstração Neural<ref>
A interpretação [[Probabilidade|probabilística]]<ref name="MURPHY">Murphy, K.P. (2012) ''Machine learning: a probabilistic perspective'' MIT Press</ref> deriva-se da área de [[Aprendizado de máquina|aprendizagem de máquina]]. Ela inclui inferência,<ref name="BOOK2014"><cite class="citation journal">Deng, L.; Yu, D. (2014). </cite></ref><ref name="BENGIODEEP"><cite class="citation journal">Bengio, Yoshua (2009). </cite></ref><ref name="BENGIO2012"><cite class="citation journal">Bengio, Y.; Courville, A.; Vincent, P. (2013). </cite></ref><ref name="SCHIDHUB"><cite class="citation journal">Schmidhuber, J. (2015). </cite></ref><ref name="SCHOLARDBNS"><cite class="citation journal">Hinton, G.E. "Deep belief networks". </cite></ref><ref name="MURPHY">Murphy, K.P. (2012) ''Machine learning: a probabilistic perspective'' MIT Press</ref> e também conceitos da [[otimização]] como [[treinamento]] e [[Prova (educação)|testes]], relacionados à adaptação e [[generalização]], respectivamente. Mais especificamente, a interpretação probabilística considera a não-linearidade da ativação como uma [[Função distribuição acumulada|função de distribuição cumulativa]].<ref name="MURPHY">Murphy, K.P. (2012) ''Machine learning: a probabilistic perspective'' MIT Press</ref> Ver rede de crença profunda. A interpretação probabilística levou à introdução de abandono como regularizador em redes neurais.<ref name="DROPOUT"><cite class="citation arxiv">Hinton, G. E.; Srivastava, N.; Krizhevsky, A.; Sutskever, I.; Salakhutdinov, R.R. (2012). </cite></ref>
{{cite book
|author=Sven Behnke
|year=2003
|title=Hierarchical Neural Networks for Image Interpretation.
|series=Lecture Notes in Computer Science |volume=2766
|publisher=Springer
|url=http://www.ais.uni-bonn.de/books/LNCS2766.pdf
}}</ref> para resolver problemas como a reconstrução de imagens e a localização de faces.


{{em tradução|:en:Deep learning|data=outubro de 2016}}
Sven Behnke, em 2003, baseou-se apenas no sinal do gradiente (Rprop) ao treinar a sua Pirâmide de Abstração Neural<ref><cite class="citation book">Sven Behnke (2003). </cite></ref> para resolver problemas como a reconstrução de imagens e a localização de faces.
<!--


=== Breve discussão das redes neurais artificiais ===
=== Breve discussão das redes neurais artificiais ===
Linha 172: Linha 181:


== Críticas e comentários ==
== Críticas e comentários ==
-->

== Bibliotecas de software ==
== Bibliotecas de software ==
<!--{{artigo principal|Comparação de software de aprendizagem profunda}}-->
* Caffe — Um framework de aprendizagem profunda especializado em reconhecimento de imagem.
* Caffe — Um framework de aprendizagem profunda especializado em reconhecimento de imagem.
* [[Deeplearning4j]] — Uma biblioteca de código aberto<ref>[https://github.com/deeplearning4j/deeplearning4j Deeplearning4j on Github]</ref> para aprendizagem profunda escrita para Java/C++ com LSTMs e redes convolucionais, suportada por [http://www.skymind.io/ Skymind]. Ela fornece paralelização com Spark em CPUs e GPUs.
* CNTK — conjunto de ferramentas de redes computacionais de aprendizagem profunda de código aberto<ref>[http://blogs.microsoft.com/next/2016/01/25/microsoft-releases-cntk-its-open-source-deep-learning-toolkit-on-github/ CNTK on Github]</ref> da Microsoft Research.
* ConvNetJS — Uma biblioteca em [[JavaScript|Javascript]] para treinar modelos de aprendizagem profunda. Ele contém demonstrações on-line.
* Deeplearning4j — Uma biblioteca de código aberto<ref>[https://github.com/deeplearning4j/deeplearning4j Deeplearning4j on Github]</ref> para aprendizagem profunda escrita para Java com LSTMs e redes convolucionais, e [http://www.skymind.io/ Skymind]. Ela fornece paralelização com CPUs e GPUs.
* Gensim — Um conjunto de ferramentas para processamento de linguagem natural implementado na linguagem de programação Python.
* Gensim — Um conjunto de ferramentas para processamento de linguagem natural implementado na linguagem de programação Python.
* Keras — um framework de aprendizagem profunda que pode ser executado sobre TensorFlow ou Theano.
* [[Keras]]uma framework de aprendizagem profunda de código aberto para a linguagem de programação Python.
* Microsoft [[CNTK]] (''Computational Network Toolkit'') — conjunto de ferramentas de código-aberto<ref>[https://github.com/Microsoft/CNTK CNTK no Github]</ref> da Microsoft para aprendizagem profunda, para Windows e Linux. ela fornece paralelização com CPUs e GPUs através de servidores múltiplos.<ref>[https://cntk.ai cntk.ai]</ref>
* [https://github.com/NervanaSystems/neon neon] - Neon é uma linguagem de código aberto baseada em Python criada por [http://www.nervanasys.com/ Nervana].
* NVIDIA cuDNN — Uma biblioteca de primitivas para redes neurais profundas acelerada por GPU.
* [[OpenNN]] — Uma biblioteca de código aberto em C++ que implementa redes neurais profundas e fornece paralelização com CPUs.
* [[OpenNN]] — Uma biblioteca de código aberto em C++ que implementa redes neurais profundas e fornece paralelização com CPUs.
* TensorFlow — biblioteca de código aberto do Google para o aprendizado de máquina em C++ e Python com APIs para ambas. Ela fornece paralelização com CPUs e GPUs.<ref name="DeanMonga2015"><cite class="citation web">Dean, Jeff; Monga, Rajat; et al. </cite></ref>
* TensorFlow — biblioteca de código aberto do Google para o aprendizado de máquina em C++ e Python com APIs para ambas. Ela fornece paralelização com CPUs e GPUs.<ref name="DeanMonga2015">{{cite web|last1=Dean|first1=Jeff|last2=Monga|first2=Rajat|authorlink1=Jeff Dean (computer scientist)|title=TensorFlow: Large-scale machine learning on heterogeneous systems|url=http://download.tensorflow.org/paper/whitepaper2015.pdf|website=TensorFlow.org|publisher=Google Research|accessdate=10 November 2015|date=November 9, 2015|display-authors=etal}}</ref>
* Theano — Uma biblioteca de código aberto para aprendizado de máquina para a linguagem Python.
* Theano — Uma biblioteca de código aberto para aprendizado de máquina para a linguagem Python, suportada pela Universidade de Montreal e o time de Yoshua Bengio.
* Torch — Uma biblioteca de software de código aberto para aprendizado de máquina baseada na linguagem de programação Lua.
* Torch — Uma biblioteca de software de código aberto para aprendizado de máquina baseada na linguagem de programação Lua e usada pelo Facebook.
* Apache SINGA — Uma plataforma geral de aprendizagem profunda distribuída.<ref>[https://singa.incubator.apache.org/ Apache SINGA Website]</ref>


== Ver também ==
== Ver também ==
* Aplicações de inteligência artificial
* Codificação esparsa
* [[Máquina de Boltzmann]]
* Amostragem compressiva
* Amostragem compressiva
* Conexionismo
* Conexionismo
* [[Echo state network]]
* Aplicações de inteligência artificial
* Lista de projetos de inteligência artificial
* Lista de projetos de inteligência artificial
* [[Máquina de estado líquido]]
* Lista de conjuntos de dados para pesquisas em aprendizagem de máquina
* Reservoir computing
* Reservoir computing
* Codificação esparsa
* [[Máquina de estado líquido]]
* Rede de estado de eco
* Rede de estado de eco
* Lista de conjuntos de dados para pesquisas em aprendizagem de máquina


== Referências ==
== Referências ==
Linha 204: Linha 212:


== Ligações externas ==
== Ligações externas ==
* [http://www.teglor.com/b/deep-learning-libraries-language-cm569/ Bibliotecas de aprendizagem profunda por linguagem de programação<br> ]
* [http://www.teglor.com/b/deep-learning-libraries-language-cm569/ Bibliotecas de aprendizagem profunda por linguagem de programação]
* [https://mitprofessionalx.mit.edu/courses/course-v1:MITProfessionalX+DSx+2016_T1/about Data Science: Data to Insights from MIT (deep learning)]

Revisão das 03h09min de 17 de outubro de 2016

A aprendizagem profunda (também conhecida como aprendizado estruturado profundo, aprendizado hierárquico ou aprendizado de máquina profundo) é um ramo de aprendizado de máquina baseado em um conjunto de algoritmos que tentam modelar abstrações de alto nível de dados usando um grafo profundo com várias camadas de processamento, compostas de várias transformações lineares e não lineares.[1][2][3][4][5][6][7][8][9]

A aprendizagem profunda é parte de uma família mais abrangente de métodos de aprendizado de máquina baseados na aprendizagem de representações de dados. Uma observação (por exemplo, uma imagem), pode ser representada de várias maneiras, tais como um vetor de valores de intensidade por pixel, ou de uma forma mais abstrata como um conjunto de arestas, regiões com um formato particular, etc. Algumas representações são melhores do que outras para simplificar a tarefa de aprendizagem (por exemplo, reconhecimento facial ou reconhecimento de expressões faciais[10]). Uma das promessas da aprendizagem profunda é a substituição de características feitas manualmente por algoritmos eficientes para a aprendizagem de características supervisionada ou semissupervisionada e extração hierárquica de características.[11]

A pesquisa nesta área tenta fazer representações melhores e criar modelos para aprender essas representações a partir de dados não rotulados em grande escala. Algumas das representações são inspiradas pelos avanços da neurociência e são vagamente baseadas na interpretação do processamento de informações e padrões de comunicação em um sistema nervoso, tais como codificação neural que tenta definir uma relação entre vários estímulos e as respostas neuronais associados no cérebro.[12]

Várias arquiteturas de aprendizagem profunda, tais como redes neurais profundas, redes neurais profundas convolucionais, redes de crenças profundas e redes neurais recorrentes têm sido aplicadas em áreas como visão computacional, reconhecimento automático de fala, processamento de linguagem natural, reconhecimento de áudio e bioinformática, onde elas têm se mostrado capazes de produzir resultados do estado-da-arte em várias tarefas.

Aprendizagem profunda foi caracterizada como a expressão na moda, ou uma recaracterização das redes neurais.[13][14]

Introdução

Definições

A área de aprendizagem profundo tem sido caracterizada de várias maneiras.[carece de fontes?] Por exemplo, em 1986, Rina Dechter introduziu os conceitos de aprendizagem profunda de primeira e segunda ordens no contexto de satisfação de restrições.[15] Posteriormente, a aprendizagem profunda foi caracterizada como uma classe de algoritmos de aprendizagem de máquina que[2](199–200)

  • usa uma cascata de diversas camadas de unidades de processamento não-linear para a extração e transformação de características. Cada camada sucessiva usa a saída da camada anterior como entrada. Os algoritmos podem ser supervisionados ou não supervisionados e as aplicações incluem a análise de padrões (não supervisionada) e de classificação (supervisionada).
  • são baseados na aprendizagem (supervisionada) de vários níveis de características ou representações dos dados. Características de nível superior são derivadas das características de nível inferior para formar uma representação hierárquica.
  • fazem parte de uma área da aprendizagem de máquina mais ampla que é a aprendizagem de representações de dados.
  • aprendem vários níveis de representações que correspondem a diferentes níveis de abstração; os níveis formam uma hierarquia de conceitos.

Estas definições tem em comum (1) várias camadas e unidades de processamento não linear e (2) a aprendizagem ou representação supervisionada ou não supervisionada de características em cada camada, com as camadas formando uma hierarquia das características de baixo nível para as de alto nível.[2](p200) A composição de uma camada de unidades de processamento não linear usada em um algoritmo de aprendizagem profunda depende no problema a ser resolvido. Camadas que foram usadas em aprendizagem profunda incluem camadas ocultas de uma rede neural artificial e conjuntos de fórmulas proposicionais complicadas.[3] Elas também podem incluir variáveis latentes organizadas em camadas em modelos geradores profundos tais como os nós em redes de crenças profundas e máquinas de Boltzmann profundas.

Algoritmos de aprendizagem profunda transformam suas entradas usando mais camadas do que algoritmos de aprendizagem mais superficial. Em cada camada, o sinal é transformado por uma unidade de processamento, como um neurônio artificial, cujos parâmetros são "aprendidos" por meio de treinamento.[5](p6) Uma cadeia de transformações da entrada até a saída é um caminho de atribuição de crédito (em inglês, abreviado como CAP, credit assignment path). Os CAP descrevem conexões potencialmente causais entre entradas e saídas e podem variar em comprimento. Para uma rede neural de alimentação direta, a profundidade dos CAPs, e, portanto, a profundidade da rede, é o número de camadas ocultas, mais um (a camada de saída também é parametrizado). Para as redes neurais recorrentes, nas quais um sinal pode se propagar por uma camada mais de uma vez, o CAP tem comprimento potencialmente ilimitado. Não há um limite aceito universalmente para distinguir aprendizagem superficial de aprendizagem profunda, mas a maioria dos pesquisadores da área concordam que a aprendizagem profunda tem várias camadas não-lineares (CAP > 2) e Juergen Schmidhuber considera CAP > 10 como aprendizagem muito profunda.[5](p7)

Conceitos fundamentais

Algoritmos de aprendizagem profunda são baseados em representações distribuídas. A suposição subjacente por trás de representações distribuídas é que os dados observados são gerados pelas interações de fatores organizados em camadas. A aprendizagem profunda inclui a suposição de que essas camadas de fatores correspondem a níveis de abstração ou de composição. Podem ser usadas quantidades e tamanhos de camadas diferentes para fornecer quantidades diferentes de abstração.[4]

A aprendizagem profunda explora essa ideia de fatores explicativos hierárquicos, em que conceitos de nível superior, mais abstratos, são aprendidas a partir dos de nível mais baixo. Muitas vezes essas arquiteturas são construídas com um método ganancioso camada-por-camada. A aprendizagem profunda ajuda a desvendar essas abstrações e a escolher quais características são úteis para a aprendizagem.[4]

Para tarefas de aprendizado supervisionado, os métodos de aprendizagem profunda tornam desnecessária a engenharia de características, convertendo os dados em representações intermediário compactas semelhantes às de componentes principais, e derivam estruturas em camadas que removem redundâncias na representação.[2]

Muitos algoritmos de aprendizagem profunda são aplicados em tarefas de aprendizagem supervisionada. Este é um benefício importante porque dados não rotulados geralmente são mais abundantes do que dados rotulados. Entre os exemplos de estruturas profundas que podem ser treinadas de forma não supervisionada estão compressores de histórias neurais[16] e redes de crença profundas.[4][17]

Interpretações

Redes neurais profundas geralmente são interpretadas em termos do teorema da aproximação universal[18][19][20][21][22] ou inferência probabilística.[2][3][4][5][17][23]

Interpretação baseada no teorema da aproximação universal

O teorema da aproximação universal refere-se à capacidade de redes neural de alimentação direta com uma única camada oculta, de tamanho finito, de aproximar funções contínuas.[18][19][20][21][22]

Em 1989, a primeira prova foi publicada por George Cybenko funções de ativação sigmóide[19] e foi generalizada para arquiteturas de alimentação direta multi-camada em 1991 por Kurt Hornik.[20]

Interpretação probabilística

A interpretação probabilística[23] deriva-se da área de aprendizagem de máquina. Ela inclui inferência,[2][3][4][5][17][23] e também conceitos da otimização como treinamento e testes, relacionados à adaptação e generalização, respectivamente. Mais especificamente, a interpretação probabilística considera a não-linearidade da ativação como uma função de distribuição cumulativa.[23] Ver rede de crença profunda. A interpretação probabilística levou à introdução de abandono como regularizador em redes neurais.[24]

A interpretação probabilística foi introduzida e popularizada por Geoff Hinton, Yoshua Bengio, Yann LeCun e Juergen Schmidhuber.

História

O primeiro algoritmo geral e funcional de aprendizagem para perceptrons multicamadas supervisionados de alimentação direta profunda foi publicado por Ivakhnenko e Lapa em 1965.[25] Um artigo de 1971 já descrevia uma rede profunda com 8 camadas treinada pelo algoritmo do método de grupo para manipulação de dados que ainda é popular no milênio atual.[26] Estas ideias foram implementadas em um sistema de identificação por computador "Alfa", que demonstrou o processo de aprendizagem. Outras arquiteturas de aprendizado profundo funcionais, especificamente aquelas construídas a partir de redes neurais artificiais (ANN), são do tempo do Neocognitron introduzido por Kunihiko Fukushima, em 1980.[27] As próprias ANNs são ainda mais antigas. O desafio era como treinar redes com múltiplas camadas. Em 1989, Yann LeCun et al. foram capazes de aplicar o algoritmo de retropropagação padrão, que esteve em uso como o modo inverso de diferenciação automática desde 1970,,[28][29][30][31] em uma rede rede neural profunda com o propósito de reconhecer códigos de CEP manuscritos em cartas. Apesar do sucesso na aplicação do algoritmo, o tempo para treinar a rede neste conjunto de dados era de aproximadamente 3 dias, tornando-se impraticável para uso geral.[32] Em 1993, o compressor neural de história de Jürgen Schmidhuber[16] implementado como uma pilha não supervisionada de redes neurais recorrentes (RNNs) resolveu uma tarefa de "aprendizagem muito profunda",[5] que requer mais de 1.000 camadas subsequentes em uma RNN desenrolada no tempo.[33] Em 1995, Brendan Frey demonstrou que era possível treinar uma rede contendo seis camadas totalmente conectadas e várias centenas de unidades ocultas usando o algoritmo wake-sleep, que foi codesenvolvido com Pedro Dayan e Geoffrey Hinton.[34] No Entanto, o treinamento levou dois dias.

Um dos vários fatores que contribuem para a baixa velocidade é o problema da dissipação do gradiente, analisado em 1991, por Sepp Hochreiter.[35][36]

Enquanto em 1991 tais redes neurais eram usadas para reconhecer dígitos isolados manuscritos em 2-D, o reconhecimento de objetos 3-D era feito correspondendo imagens 2-D com um modelo 3-D do objeto feito à mão. Juyang Weng et al. sugeriram que o cérebro humano não usa um modelo 3-D monolítico do objeto, e em 1992, eles publicaram o Cresceptron,,[37][38][39] um método para realizar o reconhecimento de objetos 3-D diretamente a partir de cenas desordenadas. O Cresceptron é uma cascata de camadas semelhantes ao Neocognitron. Mas enquanto o Neocognitron requer que um programador humano junte características à mão, o Cresceptron aprende automaticamente um número aberto de características não supervisionadas em cada camada, em que cada característica é representada por um núcleo de convolução. O Cresceptron também segmentou cada objeto aprendido a partir de uma cena desordenada através de retroanálise ao longo da rede. Max poolling, agora, muitas vezes, adotadas por redes neurais profundas (por exemplo, testes ImageNet), foi usado pela primeira vez no Cresceptron para reduzir a resolução de posição por um fator de (2x2) para 1 através da cascata para uma melhor generalização. Apesar dessas vantagens, os modelos mais simples que usam características feitas à mão específicas de cada tarefa tais como filtros de Gabor e máquinas de vetores de suporte (SVMs) foram uma escolha popular nos décadas de 1990 e 2000, devido ao custo computacional de ANNs na época, e uma grande falta de entendimento de como o cérebro conecta de forma autônoma suas redes biológicas.

Na longa história do reconhecimento de voz, tanto a aprendizagem rasa quanto a aprendizagem profunda de redes neurais artificiais (por exemplo, redes recorrentes) têm sido exploradas por muitos anos.[40][41][42] Mas esses métodos nunca superaram o trabalho manual interno não uniforme do modelo de mistura de Gaussianas/modelo oculto de Markov (GMM-HMM) baseados na tecnologia de modelos geradores de fala treinados de forma discriminada.[43] Algumas das principais dificuldades tem sido analisadas metodologicamente, incluindo a redução do gradiente[35] e fraca estrutura de correlação temporal nos modelos neurais de previsão.[44][45] Outras dificuldades foram a falta de grandes dados para treinamento e um poder de computação mais fraco nas etapas iniciais. Assim, a maioria dos pesquisadores de reconhecimento de voz que compreendiam essas barreiras, afastou-se das redes neurais para perseguir a modelagem geradora. Uma exceção estava no SRI Internacional no final da década de 1990. Financiado pela NSA e a DARPA do governo dos EUA, SRI realizou uma pesquisa sobre redes neurais profundas para o reconhecimento de voz e de falante. A equipe de reconhecimento de falante, liderada por Larry Heck, atingiu o primeiro grande sucesso com redes neurais profundas em processamento de fala, como demonstrado naavaliação do reconhecimento de falante do NIST (Instituto Nacional de Padrões e Tecnologia) em 1998 e, posteriormente, publicado na revista de Comunicação de Voz.[46] Embora o SRI tenha obtido sucesso com redes neurais profundas no reconhecimento de falante, eles não tiveram êxito em demonstrar sucesso semelhante em reconhecimento de fala. Hinton et al. e Deng et al. revisaram parte desta recente história sobre como a sua colaboração uns com os outros e então com colegas de quatro grupos (Universidade de Toronto, Microsoft, Google e IBM) provocou um renascimento das redes neurais de alimentação direta no reconhecimento de fala.[47][48][49][50]

Hoje, no entanto, muitos aspectos do reconhecimento de voz foram tomados por um método de aprendizagem profunda chamado de longa memória de curto prazo (LSTM), uma rede neural recorrente publicada por Sepp Hochreiter & Jürgen Schmidhuber, em 1997.[51] As RNNs LSTM evitam o problema da dissipação do gradiente e podem aprender tarefas de "Aprendizado Muito Profundo"[5] que necessitam de memórias de eventos que aconteceram milhares de pequenos passos de tempo atrás, o que é importante para a fala. Em 2003, LSTM começou a tornar-se competitiva com os reconhecedores de voz tradicionais em determinadas tarefas.[52] Posteriormente, ela foi combinada com CTC[53] em pilhas de RNNs de LSTM.[54] Em 2015, o reconhecimento de voz do Google teria experimentado um salto dramático de desempenho de 49% por meio de LSTM treinada por CTC, que agora está disponível para todos os usuários de smartphones através do Google Voice,[55] e tornou-se uma demonstração da aprendizagem profunda.

De acordo com uma pesquisa,[8] a expressão "aprendizagem profunda" trazida para a comunidade de aprendizagem de máquina por Rina Dechter em 1986,[15] e depois para redes neurais artificiais por Igor Aizenberg e colegas em 2000.[56] Um gráfico do Google Ngram mostra que o uso da expressão ganhou força (realmente decolou) desde 2000.[57] Em 2006, uma plublicação por Geoffrey Hinton e Ruslan Salakhutdinov chamou mais atenção mostrando como redes neurais de alimentação direta poderiam ser pré-treinadas uma camada por vez, tratando cada uma delas como uma máquina de Boltzmann restrita não supervisionada, e então fazendo ajustes finos por meio de propagação reversa supervisionada.[58] Em 1992, Schmidhuber já havia implementado uma ideia bastante similar para o caso mais geral de hierarquias profundas não supervisionadas de redes neurais recorrentes, e também mostrado experimentalmente a sua vantagem na aceleração do aprendizado supervisionado.[16][59]

Desde o seu resurgimento, a aprendizagem profunda se tornou parte de diversos sistemas de estado da arte em várias disciplinas, particularmente visão computacional e reconhecimento automático de fala (ASR). Os resultados em conjuntos usados frequentemente para avaliação, tais como o TIMIT (ASR) e o MNIST (classificação de imagens), bem como uma gama de tarefas de reconhecimento de fala de grandes vocabulários estão constantemente sendo melhorados com novas aplicações de aprendizagem profunda.[47][60][61] Recentemente, foi mostrado que arquiteturas de aprendizagem profunda na forma de redes neurais de convolução tem obtido praticamente o melhor desempenho;[62][63] no entanto, estas são usadas mais amplamente em visão computacional do que em ASR, e o reconhecimento moderno de fala em larga escala geralmente é baseado em CTC[53] para LSTM.[51][55][64][65][66]

O verdadeiro impacto da aprendizagem profunda na indústria começou, aparentemente, no início da década de 2000, quando as CNNs já processavam um percentual estimado de 10% a 20% de todos os cheques escritos nos EUA, no início da década de 2000, de acordo com Yann LeCun.[67] Aplicações industriais de aprendizagem profunda ao reconhecimento de voz de grande escala começaram por volta de 2010. No final de 2009, Li Deng convidou Geoffrey Hinton para trabalhar com ele e seus colegas na Microsoft Research em Redmond, Washington na aplicação de aprendizagem profunda no reconhecimento de fala. Eles co-organizaram o Workshop NIPS de 2009 em aprendizagem profunda para o reconhecimento de fala. O seminário foi motivado pelas limitações dos modelos geradores de fala profundos, e pela possibilidade de que a era da big-computação e do big-data justificavam testes sérios com redes neurais profundas (DNN). Acreditava-se que o pré-treinamento de DNNs usando modelos geradores de redes de crenças profundas (DBN) iria superar as principais dificuldades das redes neurais encontradas na década de 1990.[49] No entanto, no início desta pesquisa na Microsoft, foi descoberto que, sem pré-treino, mas com o uso de grandes quantidades de dados de treinamento, e, especialmente, DNNs projetadas com igualmente grandes camadas de saída dependentes de contexto, eram produzidas taxas de erro drasticamente menores do que GMM-HMM de estado da arte e também do que sistemas mais avançados de reconhecimento de voz baseados em modelos geradores. Esta constatação foi verificada por vários outros grandes grupos de pesquisa em reconhecimento de fala.[47][68] Além disso, a natureza dos erros de reconhecimento produzidos pelos dois tipos de sistemas se mostrou caracteristicamente diferente,[48][69] oferecendo insights técnicos sobre como integrar a aprendizagem profunda nos sistemas existentes e altamente eficientes de decodificação de fala implantados pelos principais membros da indústria de reconhecimento de fala. A história deste desenvolvimento significativo na aprendizagem profunda tem sido descrito e analisado em livros e artigos recentes.[2][70][71]

Os avanços em hardware também foram importantes no sentido de renovar o interesse na aprendizagem profunda. Em particular, unidades de processamento gráfico (GPUs) poderosas são bastante adequadas para o tipo de manipulação de números e matemática matricial e vetorial envolvidas na aprendizagem de máquina..[72][73] Tem sido mostrado que as GPUs aceleram algoritmos de treinamento em ordens de magnitude, trazendo os tempos de execução de semanas para dias.[74][75]

Redes neurais artificiais

Alguns dos métodos mais bem sucedidos de aprendizagem profunda envolvem redes neurais  artificiais. Redes neurais artificiais são inspiradas pelo modelo biológica de 1959 proposto por David H. Hubel e Torsten Wiesel, ambos premiados com o Nobel, que descobriram que dois tipos de células no córtex visual primário: células simples e células complexas. Muitas redes neurais artificiais podem ser vistas como modelos em cascata[37][38][39][76] de tipos de células inspirados por estas observações biológicas.

Neocognitron de Fukushima introduziu redes neurais convolucionais parcialmente treinadas por aprendizagem não-supervisionada com características direcionadas por humanos no plano neural. Yann LeCun et al. (1989), aplicaram retropropagação supervisionada a estas arquiteturas.[77] Weng et al. (1992) publicaram redes neurais convolucionais Cresceptron[37][38][39] para o reconhecimento de objetos 3-D a partir de imagens de cenas desordenadas e para a segmentação de tais objetos a partir de imagens.

Uma necessidade óbvia para o reconhecimento de objetos 3-D em geral é uma menor invariância a deslocamentos e tolerância à deformação. O max-pooling parece ter sido proposto pela primeira vez por Cresceptron[37][38] para permitir que a rede tolerasse de pequenas a grandes deformações de uma forma hierárquica, ao mesmo tempo em que é utilizada a convolução. O max-pooling ajuda, mas não garante, invariância a deslocamentos no nível dos pixels.[39]

Com o advento do algoritmo de retropropagação baseado na diferenciação automática,[28][30][31][78][79][80][81][82][83][84] muitos pesquisadores tentaram treinar redes neurais artificiais  profundas supervisionadas a partir do zero, inicialmente com pouco sucesso. A tese de Sepp Hochreiter de 1991[35][36] identificou formalmente o motivo para esta falha como o problema da dissipação do gradiente, que afeta redes de alimentação direta de muitas camadas e redes neurais recorrentes. Redes recorrentes são treinadas desdobrando-as em redes de alimentação direta muito profundas, em que uma nova camada é criada para cada passo de tempo de uma seqüência de entrada processada pela rede. Conforme os erros se propagam de camada para camada, eles diminuem exponencialmente com o número de camadas, impedindo o ajuste dos pesos dos neurônio, que são baseados nesses erros.

Para superar este problema, foram propostos vários métodos. Um deles é a hierarquia de vários níveis de redes de Jürgen Schmidhuber (1992), pré-treinada nível por nível por aprendizagem não supervisionado, ajustada por retropropagação.[16] Aqui, cada nível aprende uma representação compactada das observações que alimentam o próximo nível.


Sven Behnke, em 2003, baseou-se apenas no sinal do gradiente (Rprop) ao treinar a sua Pirâmide de Abstração Neural[85] para resolver problemas como a reconstrução de imagens e a localização de faces.

Bibliotecas de software

  • Caffe — Um framework de aprendizagem profunda especializado em reconhecimento de imagem.
  • Deeplearning4j — Uma biblioteca de código aberto[86] para aprendizagem profunda escrita para Java/C++ com LSTMs e redes convolucionais, suportada por Skymind. Ela fornece paralelização com Spark em CPUs e GPUs.
  • Gensim — Um conjunto de ferramentas para processamento de linguagem natural implementado na linguagem de programação Python.
  • Keras — uma framework de aprendizagem profunda de código aberto para a linguagem de programação Python.
  • Microsoft CNTK (Computational Network Toolkit) — conjunto de ferramentas de código-aberto[87] da Microsoft para aprendizagem profunda, para Windows e Linux. ela fornece paralelização com CPUs e GPUs através de servidores múltiplos.[88]
  • OpenNN — Uma biblioteca de código aberto em C++ que implementa redes neurais profundas e fornece paralelização com CPUs.
  • TensorFlow — biblioteca de código aberto do Google para o aprendizado de máquina em C++ e Python com APIs para ambas. Ela fornece paralelização com CPUs e GPUs.[89]
  • Theano — Uma biblioteca de código aberto para aprendizado de máquina para a linguagem Python, suportada pela Universidade de Montreal e o time de Yoshua Bengio.
  • Torch — Uma biblioteca de software de código aberto para aprendizado de máquina baseada na linguagem de programação Lua e usada pelo Facebook.

Ver também

Referências

Ligações externas

  1. Ian Goodfellow, Yoshua Bengio, and Aaron Courville (2016). Deep Learning. MIT Press. Online
  2. a b c d e f g Deng, L.; Yu, D. (2014). «Deep Learning: Methods and Applications» (PDF). Foundations and Trends in Signal Processing. 7 (3-4): 1–199. doi:10.1561/2000000039 
  3. a b c d Bengio, Yoshua (2009). «Learning Deep Architectures for AI» (PDF). Foundations and Trends in Machine Learning. 2 (1): 1–127. doi:10.1561/2200000006 
  4. a b c d e f Bengio, Y.; Courville, A.; Vincent, P. (2013). «Representation Learning: A Review and New Perspectives». IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1798–1828. arXiv:1206.5538Acessível livremente. doi:10.1109/tpami.2013.50 
  5. a b c d e f g Schmidhuber, J. (2015). «Deep Learning in Neural Networks: An Overview». Neural Networks. 61: 85–117. arXiv:1404.7828Acessível livremente. doi:10.1016/j.neunet.2014.09.003 
  6. Bengio, Yoshua; LeCun, Yann; Hinton, Geoffrey (2015). «Deep Learning». Nature. 521: 436–444. doi:10.1038/nature14539 
  7. Deep Machine Learning – A New Frontier in Artificial Intelligence Research – a survey paper by Itamar Arel, Derek C. Rose, and Thomas P. Karnowski. IEEE Computational Intelligence Magazine, 2013
  8. a b Schmidhuber, Jürgen (2015). «Deep Learning». Scholarpedia. 10 (11): 32832. doi:10.4249/scholarpedia.32832 
  9. Carlos E. Perez. «A Pattern Language for Deep Learning» 
  10. Glauner, P. (2015). Deep Convolutional Neural Networks for Smile Recognition (MSc Thesis). Imperial College London, Department of Computing. arXiv:1508.06535Acessível livremente 
  11. Song, H.A.; Lee, S. Y. (2013). «Hierarchical Representation Using NMF». Neural Information Processing. Col: Lectures Notes in Computer Sciences. 8226. [S.l.]: Springer Berlin Heidelberg. pp. 466–473. ISBN 978-3-642-42053-5. doi:10.1007/978-3-642-42054-2_58 
  12. Olshausen, B. A. (1996). «Emergence of simple-cell receptive field properties by learning a sparse code for natural images». Nature. 381 (6583): 607–609. doi:10.1038/381607a0 
  13. Collobert, R. (April 2011). Deep Learning for Efficient Discriminative Parsing. VideoLectures.net. Em cena em 7min 45s  Verifique data em: |data= (ajuda)
  14. Gomes, L. (20 October 2014). «Machine-Learning Maestro Michael Jordan on the Delusions of Big Data and Other Huge Engineering Efforts». IEEE Spectrum  Verifique data em: |data= (ajuda)
  15. a b Rina Dechter (1986). Learning while searching in constraint-satisfaction problems. University of California, Computer Science Department, Cognitive Systems Laboratory.Online
  16. a b c d J. Schmidhuber., "Learning complex, extended sequences using the principle of history compression," Neural Computation, 4, pp. 234–242, 1992.
  17. a b c Erro de citação: Etiqueta <ref> inválida; não foi fornecido texto para as refs de nome SCHOLARDBNS
  18. a b Balázs Csanád Csáji. Approximation with Artificial Neural Networks; Faculty of Sciences; Eötvös Loránd University, Hungary
  19. a b c Cybenko (1989). «Approximations by superpositions of sigmoidal functions» (PDF). Mathematics of Control, Signals, and Systems. 2 (4): 303–314. doi:10.1007/bf02551274 
  20. a b c Hornik, Kurt (1991). «Approximation Capabilities of Multilayer Feedforward Networks». Neural Networks. 4 (2): 251–257. doi:10.1016/0893-6080(91)90009-t 
  21. a b Haykin, Simon (1998). Neural Networks: A Comprehensive Foundation, Volume 2, Prentice Hall. ISBN 0-13-273350-1.
  22. a b Hassoun, M. (1995) Fundamentals of Artificial Neural Networks MIT Press, p. 48
  23. a b c d Murphy, K.P. (2012) Machine learning: a probabilistic perspective MIT Press
  24. Hinton, G. E.; Srivastava, N.; Krizhevsky, A.; Sutskever, I.; Salakhutdinov, R.R. (2012). «Improving neural networks by preventing co-adaptation of feature detectors». arXiv:1207.0580Acessível livremente [math.LG] 
  25. Ivakhnenko, Alexey (1965). Cybernetic Predicting Devices. Kiev: Naukova Dumka 
  26. Ivakhnenko, Alexey (1971). «Polynomial theory of complex systems». IEEE Transactions on Systems, Man and Cybernetics (4): 364–378 
  27. Fukushima, K. (1980). «Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position». Biol. Cybern. 36: 193–202. doi:10.1007/bf00344251 
  28. a b Erro de citação: Etiqueta <ref> inválida; não foi fornecido texto para as refs de nome lin1970
  29. Erro de citação: Etiqueta <ref> inválida; não foi fornecido texto para as refs de nome grie2012
  30. a b P. Werbos., "Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences," PhD thesis, Harvard University, 1974.
  31. a b Erro de citação: Etiqueta <ref> inválida; não foi fornecido texto para as refs de nome werbos1982
  32. LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition," Neural Computation, 1, pp. 541–551, 1989.
  33. Erro de citação: Etiqueta <ref> inválida; não foi fornecido texto para as refs de nome schmidhuber1993
  34. Hinton, Geoffrey E.; Dayan, Peter; Frey, Brendan J.; Neal, Radford (26 de maio de 1995). «The wake-sleep algorithm for unsupervised neural networks». Science. 268 (5214): 1158–1161. doi:10.1126/science.7761831 
  35. a b c S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen," Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber, 1991.
  36. a b S. Hochreiter et al., "Gradient flow in recurrent nets: the difficulty of learning long-term dependencies," In S. C. Kremer and J. F. Kolen, editors, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, 2001.
  37. a b c d J. Weng, N. Ahuja and T. S. Huang, "Cresceptron: a self-organizing neural network which grows adaptively," Proc. International Joint Conference on Neural Networks, Baltimore, Maryland, vol I, pp. 576-581, June, 1992.
  38. a b c d J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation of 3-D objects from 2-D images," Proc. 4th International Conf. Computer Vision, Berlin, Germany, pp. 121-128, May, 1993.
  39. a b c d J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation using the Cresceptron," International Journal of Computer Vision, vol. 25, no. 2, pp. 105-139, Nov. 1997.
  40. Morgan, Bourlard, Renals, Cohen, Franco (1993) "Hybrid neural network/hidden Markov model systems for continuous speech recognition. ICASSP/IJPRAI"
  41. T. Robinson. (1992) A real-time recurrent error propagation network word recognition system, ICASSP.
  42. Waibel, Hanazawa, Hinton, Shikano, Lang. (1989) "Phoneme recognition using time-delay neural networks. IEEE Transactions on Acoustics, Speech and Signal Processing."
  43. Baker, J.; Deng, Li; Glass, Jim; Khudanpur, S.; Lee, C.-H.; Morgan, N.; O'Shaughnessy, D. (2009). «Research Developments and Directions in Speech Recognition and Understanding, Part 1». IEEE Signal Processing Magazine. 26 (3): 75–80. doi:10.1109/msp.2009.932166 
  44. Y. Bengio (1991). "Artificial Neural Networks and their Application to Speech/Sequence Recognition," Ph.D. thesis, McGill University, Canada.
  45. Deng, L.; Hassanein, K.; Elmasry, M. (1994). «Analysis of correlation structure for a neural predictive model with applications to speech recognition». Neural Networks. 7 (2): 331–339. doi:10.1016/0893-6080(94)90027-2 
  46. Heck, L.; Konig, Y.; Sonmez, M.; Weintraub, M. (2000). «Robustness to Telephone Handset Distortion in Speaker Recognition by Discriminative Feature Design». Speech Communication. 31 (2): 181–192. doi:10.1016/s0167-6393(99)00077-1 
  47. a b c Hinton, G.; Deng, L.; Yu, D.; Dahl, G.; Mohamed, A.; Jaitly, N.; Senior, A.; Vanhoucke, V.; Nguyen, P.; Sainath, T.; Kingsbury, B. (2012). «Deep Neural Networks for Acoustic Modeling in Speech Recognition --- The shared views of four research groups». IEEE Signal Processing Magazine. 29 (6): 82–97. doi:10.1109/msp.2012.2205597 
  48. a b Deng, L.; Hinton, G.; Kingsbury, B. (2013). «New types of deep neural network learning for speech recognition and related applications: An overview (ICASSP)» 
  49. a b Keynote talk: Recent Developments in Deep Neural Networks. ICASSP, 2013 (by Geoff Hinton).
  50. Keynote talk: "Achievements and Challenges of Deep Learning - From Speech Analysis and Recognition To Language and Multimodal Processing," Interspeech, September 2014.
  51. a b Erro de citação: Etiqueta <ref> inválida; não foi fornecido texto para as refs de nome lstm
  52. Erro de citação: Etiqueta <ref> inválida; não foi fornecido texto para as refs de nome graves2003
  53. a b Erro de citação: Etiqueta <ref> inválida; não foi fornecido texto para as refs de nome graves2006
  54. Erro de citação: Etiqueta <ref> inválida; não foi fornecido texto para as refs de nome fernandez2007keyword
  55. a b Erro de citação: Etiqueta <ref> inválida; não foi fornecido texto para as refs de nome sak2015
  56. Igor Aizenberg, Naum N. Aizenberg, Joos P.L. Vandewalle (2000). Multi-Valued and Universal Binary Neurons: Theory, Learning and Applications. Springer Science & Business Media.
  57. Google Ngram chart of the usage of the expression "deep learning" posted by Jürgen Schmidhuber (2015) Online
  58. G. E. Hinton., "Learning multiple layers of representation," Trends in Cognitive Sciences, 11, pp. 428–434, 2007.
  59. J. Schmidhuber., "My First Deep Learning System of 1991 + Deep Learning Timeline 1962–2013." Online
  60. http://research.microsoft.com/apps/pubs/default.aspx?id=189004
  61. L. Deng et al. Recent Advances in Deep Learning for Speech Research at Microsoft, ICASSP, 2013.
  62. L. Deng, O. Abdel-Hamid, and D. Yu, A deep convolutional neural network using heterogeneous pooling for trading acoustic invariance with phonetic confusion, ICASSP, 2013.
  63. Erro de citação: Etiqueta <ref> inválida; não foi fornecido texto para as refs de nome SAIN2013
  64. Erro de citação: Etiqueta <ref> inválida; não foi fornecido texto para as refs de nome sak2014
  65. Erro de citação: Etiqueta <ref> inválida; não foi fornecido texto para as refs de nome liwu2015
  66. Erro de citação: Etiqueta <ref> inválida; não foi fornecido texto para as refs de nome zen2015
  67. Yann LeCun (2016). Slides on Deep Learning Online
  68. D. Yu, L. Deng, G. Li, and F. Seide (2011). "Discriminative pretraining of deep neural networks," U.S. Patent Filing.
  69. Erro de citação: Etiqueta <ref> inválida; não foi fornecido texto para as refs de nome NIPS2009
  70. Yu, D.; Deng, L. (2014). «Automatic Speech Recognition: A Deep Learning Approach (Publisher: Springer)» 
  71. IEEE (2015)http://blogs.technet.com/b/inside_microsoft_research/archive/2015/12/03/deng-receives-prestigious-ieee-technical-achievement-award.aspx
  72. Oh, K.-S.; Jung, K. (2004). «GPU implementation of neural networks». Pattern Recognition. 37 (6): 1311–1314. doi:10.1016/j.patcog.2004.01.013 
  73. Chellapilla, K., Puri, S., and Simard, P. (2006). High performance convolutional neural networks for document processing. International Workshop on Frontiers in Handwriting Recognition.
  74. D. C. Ciresan et al., "Deep Big Simple Neural Nets for Handwritten Digit Recognition," Neural Computation, 22, pp. 3207–3220, 2010.
  75. R. Raina, A. Madhavan, A. Ng., "Large-scale Deep Unsupervised Learning using Graphics Processors," Proc. 26th Int. Conf. on Machine Learning, 2009.
  76. Riesenhuber, M; Poggio, T (1999). «Hierarchical models of object recognition in cortex». Nature Neuroscience. 2 (11): 1019–1025. doi:10.1038/14819 
  77. Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel. 1989 Backpropagation Applied to Handwritten Zip Code Recognition. Neural Computation, 1(4):541–551.
  78. Erro de citação: Etiqueta <ref> inválida; não foi fornecido texto para as refs de nome grie2008
  79. Erro de citação: Etiqueta <ref> inválida; não foi fornecido texto para as refs de nome kelley1960
  80. Erro de citação: Etiqueta <ref> inválida; não foi fornecido texto para as refs de nome bryson1961
  81. Erro de citação: Etiqueta <ref> inválida; não foi fornecido texto para as refs de nome dreyfus1962
  82. Erro de citação: Etiqueta <ref> inválida; não foi fornecido texto para as refs de nome dreyfus1973
  83. Rumelhart, D. E., Hinton, G. E. & Williams, R. J. , "Learning representations by back-propagating errors" nature, 1974.
  84. Erro de citação: Etiqueta <ref> inválida; não foi fornecido texto para as refs de nome dreyfus1990
  85. Sven Behnke (2003). Hierarchical Neural Networks for Image Interpretation. (PDF). Col: Lecture Notes in Computer Science. 2766. [S.l.]: Springer 
  86. Deeplearning4j on Github
  87. CNTK no Github
  88. cntk.ai
  89. Dean, Jeff; Monga, Rajat; et al. (November 9, 2015). «TensorFlow: Large-scale machine learning on heterogeneous systems» (PDF). TensorFlow.org. Google Research. Consultado em 10 November 2015  Verifique data em: |acessodata=, |data= (ajuda)