
人类
通常情况下,模型经过预训练和微调后,性能已经相当出色。然而,在大规模测试或推理阶段,仍可能暴露出一些问题,比如答案虽然正确但存在偏见、不够标准,甚至有时仍是错误的。面对这种情况,大家的第一反应可能是直接改进模型或调整数据,但实际上这样做往往成本较高。团队成员这时可能会建议尝试强化学习的方法,通过构建一个外部环境(如人工反馈)来评估模型生成的答案质量,并让模型根据这些反馈自行调整参数。相比逐一手动修改结果,人工反馈显然更高效、更省力。因此,RLHF(基于
人类反馈的强化学习)应运而生。在RLHF中,
人类只需对模型生成的多个答案进行简单选择:哪些是更满意的,哪些是不满意的。基于这些偏好信息,模型会自动优化参数,朝着更符合期望的方向改进,同时避免偏离目标。那么,为什么不直接跳过预训练和微调,一开始就使用RLHF?实际上,这种方法的效果并不理想。实验表明,如果仅依赖正确的样本让模型学习,远比完全靠试错+反馈的方式更有效率。原因在于,预训练和微调为模型提供了一个扎实的基础知识框架,使其具备广泛的通用能力,而RLHF更像是在此基础上的精细化调整,帮助模型更好地适应特定需求。如果没有前期的知识积累,单纯依靠反馈机制会让模型陷入低效的学习过程,难以达到理想的性能水平。