Aprendizado por reforço com feedback humano
No aprendizado de máquina, o aprendizado por reforço com feedback humano (ARFH) ou aprendizado por reforço das preferências humanas é uma técnica de aprendizado de máquina que treina um "modelo de recompensa" diretamente a partir da resposta ou feedback de um ser humano e usa o modelo como uma função de recompensa para otimizar a política de um agente usando aprendizado por reforço (AR) através de um algoritmo de otimização como Proximal Policy Optimization.[1][2] O modelo de recompensa é treinado antecipadamente para que a política seja otimizada para prever se um determinado resultado é bom (alta recompensa) ou ruim (baixa recompensa). O ARFH pode melhorar a robustez e a exploração dos agentes de AR, especialmente quando a função de recompensa é esparsa ou ruidosa.[3]
O feedback humano é mais comumente coletado pedindo-se aos humanos que classifiquem instâncias do comportamento do agente.[4][5][6] Essas classificações podem então ser usadas para pontuar resultados, por exemplo, com o sistema de classificação Elo.[7] Embora o julgamento de preferência seja amplamente adotado, existem outros tipos de feedback humano que fornecem informações mais ricas, como feedback numérico, feedback em linguagem natural e taxa de edição.[8]
O ARFH é usado em tarefas onde é difícil definir uma solução algorítmica clara, mas onde os humanos podem facilmente julgar a qualidade da saída do modelo. Por exemplo, se a tarefa é criar uma história convincente, os humanos podem avaliar diferentes histórias geradas por IA quanto à sua qualidade e o modelo pode usar o seu feedback para melhorar as suas capacidades de geração de histórias.
O ARFH tem sido aplicado a vários domínios do processamento de linguagem natural, como agentes conversacionais, resumo de texto e compreensão de linguagem natural.[9] O aprendizado por reforço comum, onde os agentes aprendem a partir das suas próprias ações com base numa "função de recompensa", é difícil de aplicar a tarefas de processamento de linguagem natural porque as recompensas, muitas das vezes, não são fáceis de definir ou medir, especialmente quando se lida com tarefas complexas que envolvem valores humanos subjetivos ou preferências. O ARFH pode permitir que modelos de linguagem forneçam respostas que se alinhem com esses valores complexos, gerem respostas mais detalhadas e rejeitem perguntas inadequadas ou fora do espaço de conhecimento do modelo.[10] Alguns exemplos de modelos de linguagem treinados em ARFH são o ChatGPT da OpenAI e seu antecessor InstructGPT,[11][12] bem como o Sparrow da DeepMind.[13]
O ARFH também foi aplicado em diversas outras áreas, como o desenvolvimento de bots de videogame. Como exemplo, a OpenAI e a DeepMind treinaram agentes para jogar jogos Atari com base nas preferências humanas.[14][15] Os agentes alcançaram forte desempenho em muitos dos ambientes testados, muitas vezes superando o desempenho humano.[16]
Desafios e limitações
[editar | editar código-fonte]A ARFH enfrenta uma série de desafios que podem ser divididos entre problemas com feedback humano, problemas com a aprendizagem de um modelo de recompensa e problemas com a otimização da política.[17]
Um grande desafio é a escalabilidade e o custo do feedback humano, que pode ser demasiado lento e caro, em comparação com a aprendizagem não supervisionada. A qualidade e a consistência do feedback humano também podem variar dependendo da tarefa, da interface e das preferências individuais dos humanos. Mesmo quando o feedback humano é viável, os modelos ARRH ainda podem apresentar comportamentos indesejáveis que não são capturados pelo feedback humano ou explorar lacunas no modelo de recompensa, o que traz à luz os desafios de alinhamento e robustez.[18]
A eficácia do ARFH depende da qualidade do feedback humano.[19] Se o feedback carecer de imparcialidade ou for inconsistente ou incorreto, o modelo pode tornar-se tendencioso e enviesado.[20] Existe também o risco de o modelo se ajustar excessivamente ao feedback que recebe. Por exemplo, se o feedback vier predominantemente de um grupo demográfico específico ou se refletir preconceitos específicos, o modelo poderá aprender não apenas o alinhamento geral pretendido no feedback, mas também quaisquer peculiaridades ou ruídos nele presentes.[21][22] Este alinhamento excessivo com o feedback específico que recebeu (ou com os preconceitos do grupo demográfico específico que o forneceu) pode levar a que o modelo tenha um desempenho abaixo do ideal em novos contextos ou quando utilizado por grupos diferentes.
Além disso, em alguns casos, pode haver o risco de o modelo aprender a manipular o processo de feedback ou manipular o sistema para obter recompensas mais elevadas, em vez de melhorar genuinamente o seu desempenho, o que indica uma falha na função de recompensa.[23]
Os pesquisadores pesquisaram uma série de limitações adicionais ao ARFH.[24]
Ver também
[editar | editar código-fonte]- Aprendizado por reforço
- ChatGPT
- Seleção baseada em recompensa
Referências
- ↑ Ziegler, Daniel M.; Stiennon, Nisan (2019). «Fine-Tuning Language Models from Human Preferences». arXiv:1909.08593 [cs.CL]
- ↑ Lambert, Nathan; Castricato, Louis; von Werra, Leandro; Havrilla, Alex. «Illustrating Reinforcement Learning from Human Feedback (RLHF)». huggingface.co. Consultado em 4 de março de 2023
- ↑ MacGlashan, James; Ho, Mark K; Loftin, Robert; Peng, Bei; Wang, Guan; Roberts, David L.; Taylor, Matthew E.; Littman, Michael L. (6 de agosto de 2017). «Interactive learning from policy-dependent human feedback». JMLR.org. Proceedings of the 34th International Conference on Machine Learning - Volume 70: 2285–2294. arXiv:1701.06049
- ↑ Ouyang, Long; Wu, Jeffrey; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina (31 de outubro de 2022). «Training language models to follow instructions with human feedback» (em inglês). arXiv:2203.02155
- ↑ Edwards, Benj (1 de dezembro de 2022). «OpenAI invites everyone to test ChatGPT, a new AI-powered chatbot—with amusing results». Ars Technica (em inglês). Consultado em 4 de março de 2023
- ↑ Abhishek, Gupta (5 de fevereiro de 2023). «Getting stakeholder engagement right in responsible AI». VentureBeat. Consultado em 4 de março de 2023
- ↑ Lambert, Nathan; Castricato, Louis; von Werra, Leandro; Havrilla, Alex. «Illustrating Reinforcement Learning from Human Feedback (RLHF)». huggingface.co. Consultado em 4 de março de 2023
- ↑ Fernandes, Patrick; Madaan, Aman (2023). «Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural Language Generation». arXiv:2305.00955 [cs.CL]
- ↑ Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina (2022). «Training language models to follow instructions with human feedback». arXiv:2203.02155
- ↑ Wiggers, Kyle (24 de fevereiro de 2023). «Can AI really be protected from text-based attacks?». TechCrunch. Consultado em 4 de março de 2023
- ↑ Edwards, Benj (1 de dezembro de 2022). «OpenAI invites everyone to test ChatGPT, a new AI-powered chatbot—with amusing results». Ars Technica (em inglês). Consultado em 4 de março de 2023
- ↑ Farseev, Aleks. «Council Post: Is Bigger Better? Why The ChatGPT Vs. GPT-3 Vs. GPT-4 'Battle' Is Just A Family Chat». Forbes (em inglês). Consultado em 4 de março de 2023
- ↑ Glaese, Amelia; McAleese, Nat (2022). «Improving alignment of dialogue agents via targeted human judgements». arXiv:2209.14375 [cs.LG]
- ↑ «Learning from human preferences». openai.com. Consultado em 4 de março de 2023
- ↑ «Learning through human feedback». www.deepmind.com (em inglês). Consultado em 4 de março de 2023
- ↑ Christiano, Paul F; Leike, Jan; Brown, Tom; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). «Deep Reinforcement Learning from Human Preferences». Curran Associates, Inc. Advances in Neural Information Processing Systems. 30. Consultado em 4 de março de 2023
- ↑ Casper, Stephen; Davies, Xander; Shi, Claudia; Gilbert, Thomas Krendl; Scheurer, Jérémy; Rando, Javier; Freedman, Rachel; Korbak, Tomasz; Lindner, David; Freire, Pedro; Wang, Tony; Marks, Samuel; Segerie, Charbel-Raphaël; Carroll, Micah; Peng, Andi; Christoffersen, Phillip; Damani, Mehul; Slocum, Stewart; Anwar, Usman; Siththaranjan, Anand; Nadeau, Max; Michaud, Eric J.; Pfau, Jacob; Krasheninnikov, Dmitrii; Chen, Xin; Langosco, Lauro; Hase, Peter; Bıyık, Erdem; Dragan, Anca; Krueger, David; Sadigh, Dorsa; Hadfield-Menell, Dylan (2023). «Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback». arXiv:2307.15217 [cs.AI]
- ↑ Christiano, Paul. «Thoughts on the impact of RLHF research» (em inglês). Consultado em 4 de março de 2023
- ↑ «Illustrating Reinforcement Learning from Human Feedback (RLHF)». Hugging Face
- ↑ Belenguer, Lorenzo (2022). «AI bias: exploring discriminatory algorithmic decision-making models and the application of possible machine-centric solutions adapted from the pharmaceutical industry». AI Ethics. AI and Ethics. 2 (4): 771–787. PMC 8830968. doi:10.1007/s43681-022-00138-8
- ↑ Wang, Austin. «Training Language Models to Follow Instructions with Human Feedback» (PDF). Princeton
- ↑ Zhang, Chiyuan; Bengio, Samy; Hardt, Moritz; Recht, Benjamin; Vinyals, Oriol (4 de novembro de 2016). «Understanding deep learning requires rethinking generalization». International Conference on Learning Representations
- ↑ «Faulty reward functions in the wild». OpenAI
- ↑ «Paper page - Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback». huggingface.co. 31 de julho de 2023. Consultado em 31 de julho de 2023