1.EMNLP1
题目:Revealing the Parallel Multilingual Learning within Large Language Models
团队:穆永誉(共一) 冯佩楠(共一) 曹智泉(共一) 吴钰璋 李北 王成龙 肖桐 宋楷 刘彤冉 张春良 朱靖波
简介:很多工作在情境学习(in-context learning)范式下利用大语言模型(LLM)的多语言能力来提升其性能,但是他们主要关注于使用英语作为枢轴语言进行理解与推理。与之对应的,在模型输入中融合更多语言、激发模型在众多语言上的能力是一个值得探索的方向。在本文中,我们首先证明了同时提供多种语言的输入(Parallel Multilingual Input,PMI)给LLM能够显著增强其对输入内容的理解,具体表现在机器翻译、语言推理、阅读理解、文本简化、摘要、数学推理等任务上的性能提升;其次,为了探究PMI如何对LLM产生影响,我们在推断阶段对LLM的神经元激活状态进行分析,发现PMI通过促进更少、更精准的神经元激活来实现性能提升。这种在LLM上展现的神经元激活模式与神经科学领域的“突触剪枝”有异曲同工之妙。
2.EMNLP2
题目:Clustering and Ranking: Diversity-preserved Instruction Selection through Expert-aligned Quality Estimation
作者:葛源,刘逸伦,胡驰,孟伟彬,陶仕敏,赵晓峰,马红霞,张丽,陈博兴,杨浩,李北,肖桐,朱靖波
简介:随着开源社区的贡献,出现了大量的指令微调(Instruction Tuning, IT)数据,但我们通常希望选择少量高质量的 IT 数据训练模型,降低计算开销。然而现有的指令数据选择方法存在局限性,如依赖于脆弱的外部 API、受 GPT 模型偏差的影响、或降低了指令数据多样性。在本文中,我们提出了一种与专家保持一致并保留多样性的指令数据选择方法: 聚类和排序(CaR)。其中排序模型由语言学专家标注的偏好数据训练,并通过聚类保持数据多样性。我们使用轻量化的小模型进行数据筛选,易于工业界部署。实验结果中CaR 可以选出仅包含原始数据 1.96% 的子集,但训练的 LLaMA 模型在 GPT-4 评估中平均优于 Alpaca 32.1%。更重要的是,我们验证了即使预训练更加充分(LLaMA1~3),模型参数增长(7B~30B),数据质量提高(Alpaca-GPT4),数据筛选范式依然有效。但更高数据质量下的数据筛选方法依然值得探索。
3.EMNLP3
题目:Forgetting Curve: A Reliable Method for Evaluating Memorization Capability for Long-context Models
作者: 刘新宇,赵润松(共一),黄鹏程,肖春阳,李北,王金刚,肖桐,朱靖波
简介:分析总结了现有的测试LLMs长序列处理能力方法的缺陷,提出“遗忘曲线”测试并可视化语言模型的记忆能力。遗忘曲线包括复制任务和语言建模任务,通过模型在两个任务上性能的差值反映其对历史上下文的记忆水平。遗忘曲线可以解藕记忆能力和语言理解能力对模型长序列处理能力的影响,并且可以测试任意大小、任意结构的语言模型。
4.CCMT1
题目:Progressive and Consistent Subword Regularization for Neural Machine Translation
Peinan Feng, Erfeng He, Haoyuan Yi, Yongyu Mu, Yuhui Zhou, Yuzhang Wu, Peizhuo Liu, Jiazhen Lou, Lei Sun, Tong Xiao and Jingbo Zhu
作者: 冯佩楠,赫尔峰,伊浩源,穆永誉,周煜辉,吴钰璋,刘沛灼,楼佳珍,孙磊,肖桐,朱靖波
简介:本文发现了多语言LLM存在一种“指令预训练-微调”方法,旨在高效激活多语言大语言模型的翻译能力。通过对通用指令微调版本的模型进行少量高质量翻译指令数据的微调,使用该方式可以显著提升了其在多语言翻译任务中的表现。以Qwen-1.5-1.8B模型为例,该方法在WMT’22英中翻译任务上显著提升了性能。