新闻动态
联系我们
通讯/办公地址:
邮箱:
当前位置: 中文主页 >> 团队动态 >> 新闻动态

实验室一篇论文被Coling录用

题目: SLAM: Towards Efficient Multilingual Reasoning via Selective Language Alignment

团队: 范瑀纯 穆永誉 王仡麟 黄磊 阮俊豪 李北 肖桐 黄书剑 冯骁骋 朱靖波

简介: 尽管大语言模型(LLM)在英语推理任务中表现出色,但在多语言推理任务上仍然面临挑战。最近的研究提出了全参数的两阶段训练范式,旨在首先教会模型理解非英语问题,然后进行推理。然而,这种方法不仅消耗大量计算资源还会导致灾难性遗忘。这主要是因为在强化模型多语言理解能力的过程中,第一阶段微调了过多与语言理解无关的层和参数。在本文中,我们发现语言的表示学习主要在模型的浅层进行。基于此发现,我们提出了一种高效的多语言推理能力对齐方法,该方法精准地识别并微调负责语言处理的浅层的FFN子层。实验结果表明,我们的方法SLAM通过仅微调7B和13B模型前6层的FFN子层(占模型总参数量的6.5%-8%),在包含10个语种的MGSM和MSVAMP多语言数学推理benchmark上取得了优于所有强基线的平均准确率。同时,由于SLAM只涉及一个训练阶段,与两阶段方法相比,训练时间缩短了4.1-11.9倍。此外,SLAM还可以轻松泛化到其他多语言推理任务上,并且可以利用已经具备先进推理能力的模型,持续增强其多语言推理能力。