Saltar para o conteúdo

Aprendizagem por reforço

Origem: Wikipédia, a enciclopédia livre.
O enquadramento típico de um cenário de aprendizagem por reforço (LR): um agente realiza ações em um ambiente, que são interpretadas como uma recompensa e uma representação de estado, que são retornadas ao agente.

Aprendizagem por reforço (português europeu) ou Aprendizado por reforço (português brasileiro) (AR) é uma área interdisciplinar de aprendizado de máquina e controle ótimo que se preocupa com a forma como um agente inteligente deve tomar ações em um ambiente dinâmico para maximizar um sinal de recompensa. É um dos três paradigmas básicos de aprendizado de máquina, juntamente com o aprendizado supervisionado e o aprendizado não supervisionado .

O Q-learning, em sua forma mais simples, armazena dados em tabelas. Essa abordagem se torna inviável à medida que o número de estados/ações aumenta (por exemplo, se o espaço de estados ou o espaço de ações fosse contínuo), pois a probabilidade do agente visitar um estado específico e executar uma ação específica diminui. O aprendizado por reforço difere do aprendizado supervisionado por não precisar que pares de entrada-saída rotulados sejam apresentados e por não precisar que ações subótimas sejam explicitamente corrigidas. Em vez disso, o foco está em encontrar um equilíbrio entre a exploração (de território desconhecido) e a exploração (do conhecimento atual) com o objetivo de maximizar a recompensa cumulativa (cujo feedback pode ser incompleto ou atrasado).[1]

O ambiente é normalmente declarado na forma de um processo de decisão de Markov (PDM), já que muitos algoritmos de aprendizagem por reforço usam técnicas de programação dinâmica.[2] A principal diferença entre os métodos clássicos de programação dinâmica e os algoritmos de aprendizagem por reforço é que estes últimos não pressupõem o conhecimento de um modelo matemático exato do processo de decisão de Markov e têm como alvo grandes PDMs onde os métodos exatos se tornam inviáveis.[3]

Referências

  1. Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). «Reinforcement Learning: A Survey». Journal of Artificial Intelligence Research. 4: 237–285. arXiv:cs/9605103Acessível livremente. doi:10.1613/jair.301. Cópia arquivada em 20 de novembro de 2001 
  2. van Otterlo, M.; Wiering, M. (2012). «Reinforcement Learning and Markov Decision Processes». Reinforcement Learning. Col: Adaptation, Learning, and Optimization. 12. [S.l.: s.n.] pp. 3–42. ISBN 978-3-642-27644-6. doi:10.1007/978-3-642-27645-3_1 
  3. Li, Shengbo (2023). Reinforcement Learning for Sequential Decision and Optimal Control First ed. Springer Verlag, Singapore: [s.n.] pp. 1–460. ISBN 978-9-811-97783-1. doi:10.1007/978-981-19-7784-8 
Ícone de esboço Este artigo sobre computação é um esboço. Você pode ajudar a Wikipédia expandindo-o.