Aprendizagem por reforço

Aprendizagem por reforço (português europeu) ou Aprendizado por reforço (português brasileiro) (AR) é uma área interdisciplinar de aprendizado de máquina e controle ótimo que se preocupa com a forma como um agente inteligente deve tomar ações em um ambiente dinâmico para maximizar um sinal de recompensa. É um dos três paradigmas básicos de aprendizado de máquina, juntamente com o aprendizado supervisionado e o aprendizado não supervisionado .
O Q-learning, em sua forma mais simples, armazena dados em tabelas. Essa abordagem se torna inviável à medida que o número de estados/ações aumenta (por exemplo, se o espaço de estados ou o espaço de ações fosse contínuo), pois a probabilidade do agente visitar um estado específico e executar uma ação específica diminui. O aprendizado por reforço difere do aprendizado supervisionado por não precisar que pares de entrada-saída rotulados sejam apresentados e por não precisar que ações subótimas sejam explicitamente corrigidas. Em vez disso, o foco está em encontrar um equilíbrio entre a exploração (de território desconhecido) e a exploração (do conhecimento atual) com o objetivo de maximizar a recompensa cumulativa (cujo feedback pode ser incompleto ou atrasado).[1]
O ambiente é normalmente declarado na forma de um processo de decisão de Markov (PDM), já que muitos algoritmos de aprendizagem por reforço usam técnicas de programação dinâmica.[2] A principal diferença entre os métodos clássicos de programação dinâmica e os algoritmos de aprendizagem por reforço é que estes últimos não pressupõem o conhecimento de um modelo matemático exato do processo de decisão de Markov e têm como alvo grandes PDMs onde os métodos exatos se tornam inviáveis.[3]
Referências
- ↑ Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). «Reinforcement Learning: A Survey». Journal of Artificial Intelligence Research. 4: 237–285. arXiv:cs/9605103
. doi:10.1613/jair.301. Cópia arquivada em 20 de novembro de 2001
- ↑ van Otterlo, M.; Wiering, M. (2012). «Reinforcement Learning and Markov Decision Processes». Reinforcement Learning. Col: Adaptation, Learning, and Optimization. 12. [S.l.: s.n.] pp. 3–42. ISBN 978-3-642-27644-6. doi:10.1007/978-3-642-27645-3_1
- ↑ Li, Shengbo (2023). Reinforcement Learning for Sequential Decision and Optimal Control First ed. Springer Verlag, Singapore: [s.n.] pp. 1–460. ISBN 978-9-811-97783-1. doi:10.1007/978-981-19-7784-8