Prior Constraints-based Reward Model Training for Aligning Large Language Models
作者:Hang Zhou, Chenglong Wang, Yimin Hu, Tong Xiao , Chunliang Zhang, and Jingbo Zhu
该文章尝试在大语言模型对齐阶段通过加入约束来优化奖励模型的学习。
Translate-and-Revise: Boosting Large Language Models for Constrained Translation
作者:Pengcheng Huang, Yongyu Mu, Yuzhang Wu, Bei Li, Chunyang Xiao, Tong Xiao, Jingbo Zhu
该文章尝试在大语言模型翻译中的加入约束进而更好的进行译文生成。
这两篇论文都可以被看作是通过引入外部知识来改进大语言模型,这也是近期很受关注的研究方向。