探索美国技术前沿:奖励模型的最新进展

近年来,来自MSRA GenAI组的最新研究为我们揭示了奖励模型(Reward Model, RM)在大规模语言模型(LLMs)中的重要性。👏在后训练阶段,奖励模型是将人类偏好与机器学习系统对齐的核心组件。目前,主流的奖励模型可分为两大类:

📊 两类主流奖励模型

  • ◽️ Scalar Reward Models:输出一个标量评分,简单直接。
  • ◽️ Generative Reward Models:生成可解释的自然语言反馈,为决策过程提供更多透明度。

然而,当前的奖励模型在动态利用 test-time 计算方面普遍存在不足,尤其是在处理复杂任务时,缺乏“多花时间思考如何打分”的能力。🐷为了解决这一问题,本文提出了一种新的方法——奖励推理模型(Reward Reasoning Models, RRM)!

💭 RRM概述

RRM通过显式将奖励评估建模为一个思考任务来解决之前的问题。这意味着模型会先“思考”,再给出评分,显著提高了其评分的有效性。

📈 RRM的训练模式

通过强化学习引入Reward Reasoning,无需显式的推理痕迹,RRM能依赖基于规则的奖励,让自身逐步具备奖励推理能力。

🔍 强化训练与RRM反馈

在缺乏真实答案的广泛领域数据上,利用RRM作为奖励模型进行强化学习,提升了模型的通用推理能力,包含了以下方法:

  • Reinforcement Learning with Unlabeled Data
  • DPO(Direct Preference Optimization)

⚙️ 测试时间的可扩展性

RRM可以灵活地通过投票和test-time多轮ELO系统或淘汰赛等方式分配计算资源,以适应更复杂的样本。

💡 实验效果与优势

  • 💠 在各个规模下的评估普遍优于现有奖励模型,特别是在Reasoning任务上,RRM-32B在RewardBench上取得高达98.6%的得分。
  • 💠 在MMLU-Pro、MATH和GPQA等任务中使用RRM显著提升成绩(例如GPQA从26.8分提升至40.9分),突显出其在广泛领域推理中的优势。
  • 💠 支持序列和并行扩展,在更多推理标记和多次采样下持续提升性能。
  • 💠 RRM展现出更多帮助评分的推理模式,为将来的研究提供了新的方向。

🔚 总结

通过引入奖励推理模型(RRM),这一研究为奖励模型的动态适应性和有效性注入了新的活力。不断的优化和创新不仅提升了机器的推理能力,也为我们带来了更好的交互体验。未来的研究或许会在此基础上,进一步推动人工智能的边界。✨

趋势