进组选强化学习研究方向，何去何从？

1个回答

Vivijoy

2026-02-17 19:38

公司

就我个人的工作体会而言，我会选择RLHF。当前，公司的主流趋势是向大模型LLM靠拢。前面提到的RLHF是大公司普遍运用的一种方法，大家都希望借助强化学习提升LLM的性能，instructGPT就提供了相关范例。huggingface有相关讲解，网址为https://huggingface.co/blog/zh/rlhf；微软也开源了RLHF的相关流程，网址是https://github.com/microsoft/DeepSpeedExamples/tree/master/applications/DeepSpeed - Chat/trAIning。还可以学习类似RLHF的方法，像阿里的RRHF、腾讯的RLTF、华为的RRTF，以及谷歌在今年9月提出的RLAIF。这些方法都能在LLM的微调方法汇总中找到，网址为https://github.com/eosphoros - AI/Awesome - Text2SQL - fine - tuning。当然，选择RLHF方法存在一个缺点，就是如果在实验室环境下，显卡可能会成为一个问题。（我正在学习强化学习，欢迎交流，以上建议仅供参考。）

举报有用（0）分享收藏

进组选强化学习研究方向，何去何从？

1个回答

Vivijoy

热门话题

相关问题