新闻动态
联系我们
通讯/办公地址:
邮箱:
当前位置: 中文主页 >> 团队动态 >> 新闻动态
实验室一篇论文被IEEE Transactions on Audio, Speech, and Language Processing(TASLP)录用
发布时间: 点击次数:

题目:Learning Evaluation Models from Large Language Models for Sequence Generation

团队:王成龙 周航 常开妍 刘彤冉 张春良 杨木润 杜权 肖桐 张岳 朱靖波

简介:

传统基于n-gram重叠的自动评价指标(如BLEU和ROUGE)在评估生成文本时往往难以准确捕捉语义信息,

而基于模型(Model-based)的评价方法(如BLEURT和COMET)又受限于人工标注数据的稀缺性。

针对这一关键挑战,我们提出了一种三阶段模型训练方法:定制化序列评价指标(Customized Sequence Evaluation Metric, CSEM),

通过利用大语言模型自动生成标注数据,彻底摆脱了对人工标注的依赖。

该方法突破性地实现了多种评价模式的兼容,包括单维度/多维度评估、有无参考文本等场景,显著提升了实际应用中的灵活性。

在SummEval基准测试上的实验表明,CSEM无需人工标注即可有效训练评价模型。

进一步的强化学习和重排序实验证明,CSEM开发的评价指标显著优于传统方法,在常规指标和ChatGPT评估中均使生成序列质量获得明显提升。

开源代码:https://github.com/wangclnlp/CSEM