1.题目:MRO: Enhancing Reasoning in Diffusion Language Models via Multi-Reward Optimization
团队:王成龙 甘阳 周航 胡驰 穆永誉 宋楷 杨木润 李北 肖桐 张春良 刘彤冉 朱靖波 余正涛
简介:
本文提出一种面向扩散语言模型(DLM)推理能力提升的多奖励优化框架(MRO)。
针对DLM在去噪各步独立生成掩码token导致推理链缺乏相关性的问题,
MRO首次明确定义了“序列内相关性”与“序列间相关性”两类指标,并设计多项奖励:
Token Verification奖励通过留一法最大化并行Token互信息;
Perplexity奖励保证局部可读性;
Answer Correctness奖励提供最终的结果监督。
这些奖励在训练阶段协同优化DLM,来帮助DLM更加关注序列内相关性和序列间相关性。
同时,为缓解多奖励带来的优化方差问题,我们进一步提出Step-wise Group Reward Shaping(SGRO)策略,理论上证明其可降低势函数协方差。
我们测试我们的方法在在5个推理基准,实验结果表明:MRO将8B级LLaDA的MATH500分数从34.4提升至38.0,且可用更少去噪步达到同等准确率。
2.题目:ParamMute: Suppressing Knowledge-Critical FFNs for Faithful Retrieval-Augmented Generation
作者:黄鹏程,刘正皓,闫宇坤,赵海岩,矣晓沅,陈昊,刘知远,孙茂松,肖桐,于戈,熊辰炎
简介:
大型语言模型(LLMs)结合检索增强生成(RAG)后,通过将输出基于外部证据进行“溯源”,提升了事实性。
然而,这些模型依然容易产生不忠实的生成现象,即使检索到的上下文是相关且准确的,输出内容仍然可能与其相矛盾。
现有提升忠实性的做法主要集中于增强对外部上下文的利用,但往往忽视了模型内部参数化知识在生成过程中的持续影响。
在本工作中,我们深入探究了不忠实生成背后的内部机制,发现部分中深层前馈网络(FFN)在此类情况下被异常激活。
基于这一洞察,我们提出了“基于FFN抑制的参数化知识静音框架”(ParamMute),
该框架通过抑制与不忠实相关的FFN激活,并将模型校准到检索知识上,从而提升了上下文忠实性。
为了验证我们的方法,我们还提出了 CoFaithfulQA数据,这是一个专门用于评估在内部知识与准确外部证据冲突场景下模型忠实性的基准数据集。
实验结果表明,ParamMute 在 CoFaithfulQA 以及现有的 ConFiQA 基准上都显著提升了忠实性,并大幅减少了对参数记忆的依赖。
这些发现突出了缓解内部知识主导性的重要性,并为提升 RAG 场景下 LLM 可信度提供了新方向。
开源项目:https://github.com/OpenBMB/ParamMute
