1. 题目:Exploiting Target Language Data for Neural Machine Translation Beyond Back Translation
作者: 阿卜杜热西提·热合曼,罗应峰,阮俊豪,张春良,马安香,肖桐,朱靖波
简介:虽然神经机器翻译性能已经很强了,但其在领域迁移、低频词翻译等方面的翻译能力依然较弱。为了弥补这些不足,一般的做法是为其提供额外的相似翻译知识,如双语词典、翻译记忆等。但,但这些双语翻译知识往往因规模不大,覆盖度不够,导致无法为MT系统提供足以相似的双语知识,无法大规模应用。这种情况在低资源领域更加突出。而,单语数据在大多数语言和领域中是很丰富的,人们可以从中检索到高度相似的目标语信息。为此,本文提出一种利用目标语言信息来增强NMT翻译能力的方法。具体来说,我们利用交叉语言检索工具从目标语言数据中检索k个与待翻译句子相似的句子,并将其与待翻译句子配对,构造伪双语句子集。然后,利用kNN-MT的思路来解决该问题。同时,我们还尝试了大语言模型集成到该方法中的可能性。我们在多领域数据集上验证了我们方法的有效性。即,我们方法在富资源和低资源领域中均得到了较大幅度的性能提升。
2.论文名称:EIT: Enhanced Interactive Transformer
作者:郑童,李北,鲍慧雯(前三共一),肖桐,朱靖波
简介:两个原则:互补原则和共识原则在多视图学习文献中得到广泛认可。然而,多头自注意力(多视图学习的一个实例)目前的设计优先考虑互补性,而忽略共识。为了解决这个问题,我们提出了增强的多头自注意力(EMHA)。首先,为了满足互补原则,EMHA 消除了多个子空间中查询和键之间的一对一映射约束,并允许每个查询关注多个键。最重要的是,我们通过引入两种交互模型,即内部子空间交互和跨子空间交互,开发了一种充分鼓励头部共识的方法。对各种语言任务(例如机器翻译、抽象概括和语法纠正、语言建模)的广泛实验显示了其优越性,模型大小略有增加。
3.论文名称:PartialFormer: Modeling Part Instead of Whole for Machine Translation
作者:郑童,李北,鲍慧雯(前三共一),王佳乐,单韦乔,肖桐,朱靖波
简介: Transformer 前馈神经网络的设计选择导致了巨大的计算和参数开销。在这项工作中,我们强调隐藏维度在设计轻量级 FFN 中的重要性,这是以前架构中经常被忽视的一个因素。在这一原则的指导下,我们引入了 PartialFormer,这是一种参数高效的 Transformer 架构,利用多个较小的 FFN 来减少参数和计算,同时保持基本的隐藏维度。这些较小的 FFN 被集成到多头注意力系统中,以实现有效的协作。我们还提出了定制的头部缩放策略来增强 PartialFormer 的功能。此外,我们提出了一种类似残差的注意力计算,以改善 PartialFormer 中的深度缩放。对 9 个翻译任务和 1 个摘要任务的广泛实验验证了我们的 PartialFormer 方法在机器翻译和摘要任务上的有效性。
4.论文名称:Teaching Language Models to Self-Improve by Learning from Language Feedback
团队:胡驰,胡义民,曹航,肖桐,朱靖波
简介:人类反馈优化是ChatGPT等模型成功的关键,然而,现有的优化方法严重依赖人类反馈数据且流程复杂。本文提出了一种利用语言模型自身反馈进行优化的方法。首先,利用GPT-4生成高质量的语言反馈,包括评价和改进。然后,通过指令微调增强开源模型的自我改进能力,并用微调后的模型生成大规模偏好数据,进一步对模型进行优化。实验证明,我们的方法显著增强了Llama2的指令跟随能力,在AlpacaEval 2.0上超越了GPT-4 0314和Claude 2等强大的基线系统。
5.论文名称:Hybrid Alignment Training for Large Language Models
团队:王成龙,周航,常开妍,李北,穆永誉,肖桐,朱靖波
简介:针对LLM按序对齐(先SFT后RLHF)存在的优化冲突的问题,本文设计了交替对齐方法和轻量化EWC方法。其中,交替对齐方法缓解了这种对齐之间数据使用不均衡所导致的LLM能力损失问题;轻量化EWC方法防止了在顺序对齐使用不同优化目标所带来的灾难性遗忘问题。本文基于LLaMA7B和LLaMA13B在单轮对话和摘要任务进行实验,实验结果证明,我们所提出的方法相比于基线可以实现一个更优的LLM对齐效果。此外,我们的方法可以兼容不同的偏好对齐算法,比如PPO和DPO等。