实验室一篇论文被TACL录用
发布时间:
点击次数:
题目:Cross-layer Attention Sharing for Pre-trained Large Language Models
团队:穆永誉 吴钰璋 范瑀纯 王成龙 李恒雨 曾嘉莉 何荞至 杨木润 孟凡东 周杰 肖桐 朱靖波
简介:
为提升大型语言模型(LLM)中注意力机制的效率,现有工作主要通过压缩KV缓存或对注意力头分组来进行优化,
但它们在很大程度上忽视了层与层之间的冗余。
我们在多个LLM上的分析表明,大多数层中的注意力分布高度相似。
一个直观的做法是通过将前一层的注意力权重共享到后一层来减少冗余计算。
然而,这样做对模型性能影响很大,我们进一步的分析揭示了两方面原因:
(1)在共享不同层的注意力权重前需要对注意力头进行对齐;(2)模型浅层对注意力权重的微小偏差非常敏感。
基于上述观察,我们针对已充分训练的LLM提出了一种轻量的跨层注意力共享方案,名叫LiSA。
LiSA使用小型前馈网络来对齐相邻层之间的注意力头,并采用低秩矩阵来近似各层注意力权重的差异。
在13项常用benchmark上面的评估结果显示,LiSA在准确率和困惑度等指标都与原始模型相近,
同时能在53%−84%的层中共享注意力权重从而减少冗余计算。
最终,LiSA对注意力机制中的Q和K矩阵达成了6倍压缩,
并在LLaMA3-8B、LLaMA2-7B和LLaMA2-13B上比原始吞吐速度提升了19.5%、32.3%和40.1%。
