Otimização de Política Proximal – Wikipédia, a enciclopédia livre

Aprendizado de máquina e mineração de dados
Parte de uma série sobre

Problemas Classificação Agrupamento Regressão Detecção de anomalias AutoML Regras de associação Aprendizagem por reforço Predição estruturada Engenharia de características Aprendizagem de características Aprendizagem online Aprendizagem semissupervisionada Aprendizagem não supervisionada Aprendizagem de ordenação Aprendizado de ontologias Indução de gramática
Aprendizagem supervisionada (classificação • regressão) Árvores de decisão Ensembles Bagging Boosting Floresta aleatória k-NN Regressão linear Naive Bayes Redes neurais artificiais Regressão logística Máquina de vetores de relevância (RVM) Máquina de vetores de suporte (SVM) Otimização de Política Proximal Perceptron
Clustering BIRCH CURE Hierarchical Difuso k-means Maximização de expectativa (EM) DBSCAN OPTICS Mean-shift
Redução de dimensionalidade Análise fatorial CCA ICA LDA NMF PCA PGD t-SNE SDL
Predição estruturada Modelos gráficos Rede bayesiana Campo aleatório condicional Markov oculto
Detecção de anomalias RANSAC k-NN LOF Isolation Forest
Rede neural artificial Autoencoder Computação cognitiva Aprendizagem profunda DeepDream Perceptron multicamadas RNN LSTM GRU ESN Máquina de Boltzmann restrita GAN SOM Rede neural convolucional U-Net Transformer Spiking neural network Memtransistor RAM eletroquímica (ECRAM)
Aprendizagem por reforço Aprendizagem Q SARSA Diferença temporal (TD)
Teoria Equilíbrio entre viés e variância Teoria da aprendizagem computacional Minimização de risco empírico Aprendizagem Occam Aprendizagem PAC Aprendizagem estatística Teoria VC
Locais de aprendizado de máquina NeurIPS ICML ML JMLR ArXiv
Artigos relacionados Glossário de inteligência artificial Lista de conjuntos de dados para pesquisa em aprendizagem de máquina Visão geral da aprendizagem de máquina Função softmax
v d e

Otimização de Política Proximal (em inglês Proximal Policy Optimization (PPO)) é uma família de algoritmos de aprendizado por reforço sem modelo desenvolvido na OpenAI em 2017. Os algoritmos PPO são métodos de gradiente de política, o que significa que eles pesquisam o espaço de políticas em vez de atribuir valores a pares de estado-ação.

Os algoritmos PPO têm alguns dos benefícios dos algoritmos de otimização de política de região confiável (TRPO), mas são mais simples de implementar, mais gerais e têm uma complexidade de amostra melhor.^[1] Isso é feito usando uma função objetivo diferente.^[2]

Veja também[editar | editar código-fonte]

Aprendizagem por reforço
Aprendizagem por diferença temporal
Teoria do jogo

Referências[editar | editar código-fonte]

↑ Schulman, John; Wolski, Filip. «Proximal Policy Optimization Algorithms». arXiv:1707.06347
↑ «Proximal Policy Optimization». OpenAI. 2017

Veja também[editar | editar código-fonte]

Referências[editar | editar código-fonte]

Ligações externas[editar | editar código-fonte]