Kernel de tangente neural

Origem: Wikipédia, a enciclopédia livre.

No estudo de redes neurais artificiais (RNAs), o kernel de tangente neural (KTN) é um kernel que descreve a evolução de redes neurais artificiais profundas durante seu treinamento por gradiente descendente . Ele permite que RNAs sejam estudadas usando algoritmos do tipo Máquina de vetores de suporte.

Para a maioria das arquiteturas de rede neural, no limite da largura da camada, o KTN se torna constante. Isso permite que declarações simples de forma fechada sejam feitas sobre previsões de rede neural, dinâmicas de treinamento, generalização e superfícies de perda. Por exemplo, ele garante que RNAs largas o suficiente convergem para um mínimo global quando treinados para minimizar uma perda empírica. O KTN de redes de grande largura também está relacionado a vários outros limites de largura de redes neurais.

O KTN foi lançado em 2018 por Arthur Jacot, Franck Gabriel e Clément Hongler.[1] Também estava implícito em alguns trabalhos contemporâneos.[2][3][4]

Definição[editar | editar código-fonte]

Caso de saída escalar[editar | editar código-fonte]

Uma RNA com saída escalar consiste em uma família de funções parametrizado por um vetor de parâmetros .

O KTN é um kernel definido por

Em uma SVM, o KTN é um kernel associado a uma feature .

Caso de saída vetorial[editar | editar código-fonte]

Uma RNA com saída vetorial de tamanho consiste em uma família de funções parametrizada por um vetor de parâmetros .

Neste caso o KTN é um SVM de saída vetorial com valores de e matrizes definidas por

Derivação[editar | editar código-fonte]

Ao otimizar os parâmetros de uma RNA para minimizar uma perda empírica através da método do gradiente, o KTN determina a dinâmica da função de saída da RNA durante todo o treinamento.

Caso de saída escalar[editar | editar código-fonte]

Para um dataset com rótulos escalares e uma função de perda associada a uma perda empírica, definida em funções é dada por

Ao treinar uma RNA é treinado para se ajustar ao conjunto de dados (ou seja, minimizar ) via método do gradiente por tempo contínuo os parâmetros evoluem através da função diferencial ordinária:

Durante o treinamento, a função de saída da RNA segue a evolução de uma equação diferencial dada em termos de KTN:

Esta equação mostra como o KTN conduz a dinâmica de no espaço das funções durante o treinamento.

Caso de saída vetorial[editar | editar código-fonte]

Para um dataset com vetores e uma função de perda a perda empírica correspondente em funções é definida por:

O treinamento de através do método do gradiente por tempo contínuo produz a seguinte evolução na função do espaço gerada pelo KTN:

Interpretação[editar | editar código-fonte]

O KTN representa a influência da perda de gradiente com respeito ao exemplo sobre a evolução da saída (produção) da RNA através de uma etapa do método do gradiente: no caso escalar, se lê:

Em particular, cada ponto de dados influencia a evolução do resultado para cada ao longo do treinamento, de modo que é capturada pelo KTN .

Grande limite de largura[editar | editar código-fonte]

Trabalhos teóricos e empíricos recentes em aprendizagem profunda mostraram que o desempenho das RNAs melhora estritamente à medida que a largura de suas camadas aumenta.[5][6] Para várias arquiteturas de RNA o KTN fornece uma visão precisa sobre o treinamento neste regime de grandes larguras.[1][7][8][9][10][11]

Referências

  1. a b Jacot, Arthur; Gabriel, Franck; Hongler, Clement (2018), Bengio, S.; Wallach, H.; Larochelle, H.; Grauman, K., eds., «Neural Tangent Kernel: Convergence and Generalization in Neural Networks» (PDF), Curran Associates, Inc., Advances in Neural Information Processing Systems 31: 8571–8580, Bibcode:2018arXiv180607572J, arXiv:1806.07572Acessível livremente, consultado em 27 de novembro de 2019 
  2. Li, Yuanzhi; Liang, Yingyu (2018). «Learning overparameterized neural networks via stochastic gradient descent on structured data». Advances in Neural Information Processing Systems 
  3. Allen-Zhu, Zeyuan; Li, Yuanzhi; Song, Zhao (2018). «A convergence theory for deep learning via overparameterization». International Conference on Machine Learning 
  4. Du, Simon S; Zhai, Xiyu; Poczos, Barnabas; Aarti, Singh (2019). «Gradient descent provably optimizes over-parameterized neural networks». International Conference on Learning Representations 
  5. Novak, Roman; Bahri, Yasaman; Abolafia, Daniel A.; Pennington, Jeffrey; Sohl-Dickstein, Jascha (15 de fevereiro de 2018). «Sensitivity and Generalization in Neural Networks: an Empirical Study». Bibcode:2018arXiv180208760N. arXiv:1802.08760Acessível livremente 
  6. Canziani, Alfredo; Paszke, Adam; Culurciello, Eugenio (4 de novembro de 2016). «An Analysis of Deep Neural Network Models for Practical Applications». Bibcode:2016arXiv160507678C. arXiv:1605.07678Acessível livremente 
  7. Allen-Zhu, Zeyuan; Li, Yuanzhi; Song, Zhao (9 de novembro de 2018). «A Convergence Theory for Deep Learning via Over-Parameterization». International Conference on Machine Learning (em inglês): 242–252. arXiv:1811.03962Acessível livremente 
  8. Du, Simon; Lee, Jason; Li, Haochuan; Wang, Liwei; Zhai, Xiyu (24 de maio de 2019). «Gradient Descent Finds Global Minima of Deep Neural Networks». International Conference on Machine Learning (em inglês): 1675–1685. arXiv:1811.03804Acessível livremente 
  9. Lee, Jaehoon; Xiao, Lechao; Schoenholz, Samuel S.; Bahri, Yasaman; Novak, Roman; Sohl-Dickstein, Jascha; Pennington, Jeffrey (15 de fevereiro de 2018). «Wide Neural Networks of Any Depth Evolve as Linear Models Under Gradient Descent». arXiv:1902.06720Acessível livremente 
  10. Arora, Sanjeev; Du, Simon S; Hu, Wei; Li, Zhiyuan; Salakhutdinov, Russ R; Wang, Ruosong (2019), «On Exact Computation with an Infinitely Wide Neural Net», NeurIPS: 8139–8148, arXiv:1904.11955Acessível livremente 
  11. Huang, Jiaoyang; Yau, Horng-Tzer (17 de setembro de 2019). «Dynamics of Deep Neural Networks and Neural Tangent Hierarchy». arXiv:1909.08156Acessível livremente 
Ícone de esboço Este artigo sobre computação é um esboço. Você pode ajudar a Wikipédia expandindo-o.