
公司
就我个人的工作体会而言,我会选择RLHF。当前,
公司的主流趋势是向大模型LLM靠拢。前面提到的RLHF是大
公司普遍运用的一种方法,大家都希望借助强化学习提升LLM的性能,instructGPT就提供了相关范例。huggingface有相关讲解,网址为
https://huggingface.co/blog/zh/rlhf;
微软也开源了RLHF的相关流程,网址是https://github.com/microsoft/DeepSpeedExamples/tree/master/applications/DeepSpeed - Chat/tr
AIning。还可以学习类似RLHF的方法,像
阿里的RRHF、
腾讯的RLTF、
华为的RRTF,以及
谷歌在今年9月提出的RL
AIF。这些方法都能在LLM的微调方法汇总中找到,网址为https://github.com/eosphoros -
AI/Awesome - Text2SQL - fine - tuning。当然,选择RLHF方法存在一个缺点,就是如果在实验室环境下,显卡可能会成为一个问题。(我正在学习强化学习,欢迎交流,以上建议仅供参考。)