Main 1
题目:IIET: Efficient Numerical Transformer via Implicit Iterative Euler Method
团队:刘新宇 李北(共一) 刘家豪 阮俊豪 焦可辰 唐弘胤 王金刚 肖桐 朱靖波
简介:
尽管基于高阶ODE方法的结构优化能够提升Transformer在NLP和CV等任务上的表现,但也带来了更高的计算开销,
让我们必须在性能和效率之间做出权衡。
为了探索可塑性更强的、基于ODE方法的 Transformer架构,我们设计了基于迭代隐式欧拉方法的Transformer (IIET)。
IIET通过迭代的一阶隐式计算,巧妙地简化了复杂的高阶计算。
这种简化设计不仅让IIET的性能超越了PCformer,同时也让模型压缩变得更加容易。
为了进一步加快推理速度,我们还提出了一种基于迭代影响感知的蒸馏 方法(IIAD) 。
IIAD允许用户根据计算资源,灵活调整IIET各层的迭代次数,从而在性能与效率之间实现更加理想的权衡。
Main 2
题目:Step-level Verifier-guided Hybrid Test-Time Scaling for Large Language Models
作者:常开妍 石永豪 王成龙 周航 胡驰 刘晓倩 罗应峰 葛源 肖桐 朱靖波
简介:
大语言模型(LLM)在复杂推理任务中的突破得益于测试时扩展(Test-Time Scaling, TTS),
现有基于训练的TTS虽性能优异,但代价高且易“过度思考”;
相比之下,免训练TTS更高效,却在复杂推理任务上受限。
本文有效整合多种免训练TTS方法,提出基于步骤级验证的混合测试时扩展:
首先设计条件步骤级自我完善方法,验证了细粒度顺序扩展的有效性;
进一步在步骤级树结构中整合并行扩展(Best-of-N)与顺序扩展,形成新的混合推理范式。
实验覆盖5个不同规模、不同家族的LLMs,在3项复杂推理基准上均取得一致性提升,小模型甚至能够超越RL增强模型。
结果表明,在更细粒度整合多种免训练TTS方法可显著拓展LLM的推理边界。
开源项目:https://github.com/Lucky-259/Hybrid_TTS
Main 3
题目:Enhancing Speech Large Language Models with Prompt-Aware Mixture of Audio Encoders
团队:单韦乔, 李宇昂, 张裕浩, 罗应峰, 许晨, 赵晓峰, 蒙龙, 陆云飞, 张敏, 杨浩, 肖桐, 朱靖波
简介:
最近将音频编码器与大语言模型(LLM)相结合构造通用的端到端语音大模型已经成为一种趋势。
这类语音 LLM 能胜任多种音频理解任务,如自动语音识别(ASR)与音频描述(AC)。
现有工作多采用单一编码器或双编码器,并训练编码器与 LLM 之间的适配器层,为 LLM 提供统一的音频特征。
然而,不同任务往往需要在语义或声学层面各有侧重的表征,因此更理想的是为大语言模型提供面向具体任务的特征。
为此,本文提出提示词敏感的音频编码器混合方法(Prompt-aware Mixture, PaM),
我们采用多音频编码器以及基于混合专家的适配器层来增强语音 LLM。
本方法基于提示(Prompt)中蕴含的任务相关信息,选择不同的专家以提取相应的差异化特征。
实验结果表明,引入 PaM 后,单一的语音 LLM 即可在 ASR、说话人数验证(SNV)与 AC 等任务上超越所有单编码器语音 LLM 的最佳表现;
同时,基于更好的特征融合策略,PaM 也优于拼接、平均等朴素的多编码器语音 LLM 基线方法。
Findings 1
题目:HEAL: A Hypothesis-Based Preference-Aware Analysis Framework
团队:霍逸夫 王成龙 朱麒任 邢顺杰 肖桐 张春良 刘彤冉 朱靖波
简介:
偏好优化方法,如DPO等,在大语言模型的对齐任务中取得了显著成效。
然而,这类方法的评估通常仅依赖于单一输出,忽略了在实际应用中模型可能生成的其他潜在结果。
为解决这一问题,本文提出 HEAL,一种基于假设的偏好感知分析框架,将偏好对齐建模为假设空间中的重排序过程。
该框架引入了两类互补指标:用于评估序关系一致性的排序准确率,以及用于衡量连续对齐程度的偏好强度相关性。
为支持此框架的评估流程,本文还构建了一个基于多样化指令回应对构建的统一假设基准UniHypoBench。
通过基于HEAL框架进行的大量实验,本文深入探究了偏好学习的内在机制,
并验证了现有的偏好学习方法不仅能有效捕捉由代理模型提供的偏好信息,还能同时抑制负面样本的产生。
Findings 2
题目: Language-Specific Layer Matters: Efficient Multilingual Enhancement for Large Vision-Language Models
团队: 范瑀纯 王仡麟 穆永誉 黄磊 李北 冯骁骋 肖桐 朱靖波
简介:
大型视觉语言模型(LVLMs)虽然在理解视觉信息与人类语言方面表现出色,但仍面临多语言能力不平衡的挑战。
我们首次探究了 LVLMs 的多语言工作模式,发现其多语言理解能力与模型浅层中语言特异神经元的激活有显著关联。
基于此发现,我们提出了一种高效的多语言能力增强的训练方法——PLAST(Precise Language-specific Layer Tuning)。
PLAST 首先通过检测语言特异性神经元的激活,来识别与多语言理解相关的特定层。随后利用翻译平行语料进行精准微调,以实现多语言对齐。
实验结果显示,在 MM-Bench 和 MMMB 等基准测试中,PLAST 显著提升了 LVLMs 的多语言能力。
值得一提的是,该方法仅需微调 14% 的参数,即可达到显著的性能提升。
进一步分析表明,PLAST 不仅能泛化到低资源语种和复杂的视觉推理任务上,
并且通过 Attention 热力图可视化也证实,我们的方法有效促进了模型对特定语言相关视觉信息的处理。
Findings 3
题目:Position IDs Matter: An Enhanced Position Layout for Efficient Context Compression in Large Language Models
作者:赵润松,刘鑫(共一),刘新宇,黄鹏程,肖春阳,肖桐,朱靖波
简介:
使用特殊Token(例如,gist、memory 或compressed Token)来压缩上下文信息是大型语言模型(LLMs)的常见做法。
然而,现有方法往往忽视了位置编码在模型中固有地引入局部归纳偏置,导致压缩过程忽略整体的上下文依赖关系。
我们提出了增强的位置布局(EPL),这是一种简单而有效的方法,
通过仅调整位置 ID(指定Token位置的数值标识符)来提高 LLMs 的上下文压缩能力。
EPL 最小化了上下文Token与其对应特殊Token之间的距离,
同时在上下文Token、特殊Token和后续Token之间的位置 ID 中保持原来的序列顺序。
将 EPL 集成到我们表现最佳的上下文压缩模型中,在平均情况下,在领域外问答数据集上提升了 1.9 的 ROUGE-1 F1 分数。
当扩展到多模态场景时,EPL 为视觉压缩 LLMs 带来了平均 2.6 的准确率提升。
