进组选强化学习研究方向,何去何从?

1个回答

写回答

Vivijoy

2026-02-17 19:38

+ 关注

公司
公司

就我个人的工作体会而言,我会选择RLHF。当前,公司的主流趋势是向大模型LLM靠拢。前面提到的RLHF是大公司普遍运用的一种方法,大家都希望借助强化学习提升LLM的性能,instructGPT就提供了相关范例。huggingface有相关讲解,网址为https://huggingface.co/blog/zh/rlhf微软也开源了RLHF的相关流程,网址是https://github.com/microsoft/DeepSpeedExamples/tree/master/applications/DeepSpeed - Chat/trAIning。还可以学习类似RLHF的方法,像阿里的RRHF、腾讯的RLTF、华为的RRTF,以及谷歌在今年9月提出的RLAIF。这些方法都能在LLM的微调方法汇总中找到,网址为https://github.com/eosphoros - AI/Awesome - Text2SQL - fine - tuning。当然,选择RLHF方法存在一个缺点,就是如果在实验室环境下,显卡可能会成为一个问题。(我正在学习强化学习,欢迎交流,以上建议仅供参考。)

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号