新闻动态
联系我们
通讯/办公地址:
邮箱:
当前位置: 中文主页 >> 团队动态 >> 新闻动态

实验室一篇论文被AAAI25录用

题目: RoVRM: A Robust Visual Reward Model Optimized via Auxiliary Textual Preference Data


团队: 王成龙 甘阳 霍逸夫 穆永誉 杨木润 何荞至 肖桐 张春良 刘彤冉 朱靖波


简介: 

尽管大型视觉-语言模型(LVLM)在视觉语言任务中展现出强大的能力,但它们在与人类偏好对齐方面仍面临挑战。这些模型有时会生成与给定视觉上下文不符的误导性内容,这种现象被称为“幻觉”。为了解决这一问题,我们提出了利用人类偏好对齐技术,如Best-of-n采样和强化学习。然而,这些方法的实际应用受到高质量视觉偏好数据稀缺的限制,因为缺乏足够的数据支持,我们难以有效优化视觉奖励模型。本文中,我们考虑人类偏好很容易从文本进行学习,也许这些偏好可以从文本中迁移到视觉模态中。基于此,我们提出了一种鲁棒的视觉奖励模型(RoVRM),通过三个阶段的渐进式训练和基于最优传输的偏好数据选择方法,充分迁移偏好从文本到视觉模态中,有效缓解了视觉偏好数据的稀缺性问题。实验结果表明,RoVRM在多个视觉语言任务上一致优于传统视觉奖励模型。此外,我们提出的方法还能够有效地扩展到类似DPO这种无奖励偏好对齐方法上。实验结果也证明,在这种偏好对齐任务中,我们的方法能够显著提升性能。


此外,RoVRM 也是较早充分验证预训练微调范式在奖励模型训练过程中的有效性。其启示在于:在奖励模型的训练过程中,我们首先可以利用大量通用的偏好数据对奖励模型进行预训练;随后,通过少量特定任务或模态的数据进行微调,从而显著减少对特定任务或模态的偏好数据需求。