新闻动态
联系我们
通讯/办公地址:
邮箱:
当前位置: 中文主页 >> 团队动态 >> 新闻动态

实验室一篇论文被ICML录用

1.题目:GRAM: A Generative Foundation Reward Model for Reward Generalization


团队:王成龙 甘阳 霍逸夫 穆永誉 何荞至 杨木润  李北 肖桐 张春良 刘彤冉 朱靖波


本文创新性地提出一种“奖励模型预训练”方法,在奖励建模阶段利用无标注偏好数据进行奖励模型的学习。具体地,本工作提出了一种名为GRAM(Generative foundation Reward Model)的生成式foundation奖励模型,其训练过程可以分为两个阶段:1)预训练阶段:使用[无偏好标注]的input-response对数据,让模型学习input与response对之间的对应关系。这一阶段不需要偏好标记数据,可以扩展到更多数据以获得更广泛的知识;2)微调阶段:使用[带偏好标注]人类偏好数据对模型进行微调,使其能够预测两个response之间的偏好。另外,在本工作中,我们还通过实验验证了Label Smoothing在训练生成式奖励模型中的重要性,并还从理论上证明了其优化目标与正则化的Bradley-Terry模型之间的联系。在实验方面,我们通过多种任务验证了GRAM模型的性能。在response ranking任务中,GRAM在ID和OOD测试集上均显著优于同规模传统判别式和生成式奖励模型;在强化学习任务中,GRAM作为奖励模型能够有效避免过优化问题,提高模型的泛化能力;在任务适应性微调中,仅使用少量偏好数据即可达到与使用大量数据训练的模型相当的性能。