实验室一篇论文被NLPCC录用
发布时间:
点击次数:
题目:StoryBench: A Dataset for Diverse, Explainable, Multi-hop Narrative Text-to-Image Generation
作者:葛源,叶凯阳(共一),陈赛寒,郝奥恺,马湘楠,常开妍,肖桐,朱靖波
简介:
近年来文本生成图像(Text-to-image, T2I)任务取得了长足进步。然而,它们通常无法生成具有丰富叙事情节的故事性图像。
首先,本文定义了事件推理任务,关注生成图像是否缺失或违反文本故事描述中事件之间的交互(包括物体、属性、关系、隐含物理常识等)。
其次,本文提出了StoryBench用于评估T2I模型的故事性图像生成能力,
这是一个多样、可解释的多跳评估数据集,包含728条数据并涉及动物-自然、劳动、医疗、体育和技术五个类别。
我们评估了 5 个广泛使用的T2I模型,包括DALL-E 3、Midjourney等商业模型,
发现即使是先进的T2I模型在生成具有丰富叙事情节的故事性图像方面也能力极其有限。
数据与代码将陆续开源:https://github.com/YER-hub/StoryBench
