
1.题目: Optimizing Speech Multi-View Feature Fusion through Conditional Computation
团队: 单韦乔 张裕浩 韩宇晨 李北 赵晓峰 李宇昂 张敏 杨浩 肖桐 朱靖波
简介: 最近自监督学习(SSL)特征在各种语音相关任务中展现出优势,它提供了轻量级、多功能的多视角语音表示。然而我们的研究发现,虽然 SSL 特征能加快模型收敛,但在梯度更新方向上却与 FBanks 等传统频谱特征相冲突。为此我们提出了一种以条件计算为基础的新型通用特征融合框架,其包括了梯度敏感门控网络和多阶段dropout策略。该方法可减轻特征冲突,增强模型对多视角输入特征的鲁棒性。通过整合 SSL 和频谱特征,我们的方法不仅加快了收敛速度,而且在 MUSTC 数据集的多个语音翻译任务中保持了与频谱模型相当的性能。
2.题目: Adaptive Decoding for Efficient Automatic Speech Recognition
团队: 马湘楠 刘沛灼 张裕浩 寇凯淇 高成浩 肖桐 朱靖波
简介: 端到端自动语音识别模型(E2E ASR)的延迟和计算需求限制了它们在轻量级设备上的部署。尽管已经提出了许多提高效率的方法,但大词汇量输出4层的计算负担仍然是解码器加速面临的主要挑战之一。本文提出了一种自适应解码方法(ADD)来减少延迟。该方法基于单词的语音特征(如音素或语音单元)将原始词汇表聚类成小的集合,并通过两阶段的解码映射,从而使模型在更小的词表空间内进行高效地推理。实验结果表明,我们的方法显著减少了计算的FLOPs,并保持了性能。在基础模型上加速了近9%,同时可与知识蒸馏以及注意力加速结合获得进一步提升。此外,我们还在Conformer架构以及翻译模型下验证了方法的有效性。最后,我们从音素的角度对语音Unit进行了分析,表明其能更全面的捕捉语音特征信息。
3.题目:Boosting Text-To-Image Generation via Multilingual Prompting in Large Multimodal Models
团队:穆永誉 李恒雨 王骏鑫 周小渲 王成龙 罗应峰 何荞至 肖桐 陈郭成 朱靖波
简介:在文本生成图像领域,增强模型对于输入文本的理解是持续热门的话题,比如通过scale文本encoder就会显著提升生成图像的效果。然而无论是scale还是利用现成的文本大模型都有较高的训练和微调代价。本文关注于不训练模型、高效地增强模型对于输入文本描述的理解。这里延续了我们之前在纯文本领域的关于平行多语言学习的发现(https://aclanthology.org/2024.emnlp-main.396.pdf),在这次工作中,我们利用多模态大模型(LMMs)强大的情境学习(ICL)和多语言能力,通过构造平行多语言提示增强其对于输入文本的理解;此外,我们还发现平行多语言提示可以为LMMs提供更多样的输入,相比于基线,我们的方法更适合通过rerank技术进一步boost模型性能。最终我们的方法在通用文生图场景、复杂组合文本、细粒度文生图等多方面的评估上均取得更好的效果。另外,文本使用的基于GPT-4o、为MS COCO-30K、DrawBench、CompBench构造的高质量平行多语言数据以及所有代码均会近期开源在https://github.com/takagi97/PMT2I
4.题目:A Modular-based Strategy for Mitigating Gradient Conflicts in Simultaneous Speech Translation
团队:刘晓倩 杜扬帆(共同一作)王建金 葛源 许晨 肖桐 陈郭成 朱靖波
简介:流式语音翻译(SimulST)是在生成目标语言文本的同时持续处理流式语音输入的任务。多任务学习通常用于提高SimulST性能,但在主要任务和辅助任务之间引入了优化冲突,可能会损害整体效率。现有的模型级冲突解决方案方法不太适合这项任务,这加剧了效率低下,并导致高GPU内存消耗。为了应对这些挑战,我们提出了一种模块化梯度冲突缓解(MGCM)策略,该策略在更精细的模块化水平上检测冲突,并使用梯度投影解决冲突。实验结果表明,MGCM显著提高了SimulST性能,特别是在中高延迟条件下,在离线任务中实现了0.68 BLEU分数增益。此外,与其他冲突缓解方法相比,MGCM将GPU内存消耗减少了95%以上。
