查看原文
科技

哈工深、NUS等联合提出全新信息抽取基准任务:细粒度定位的统一多模态信息抽取

让你更懂AI的 PaperWeekly
2024-08-23




信息抽取是 NLP 领域长久以来最经典的研究方向之一。信息抽取的研究经历过了多模态抽取阶段,以及大一统的抽取阶段。在大语言模型和多模态时代,信息抽取的发展何去何从,目前社区仍在积极探索中。

近期,由哈工深和新加坡国立大学等团队联合提出一项全新的信息抽取基准任务:细粒度定位的统一多模态信息抽取 grounded MUIE,将三种信息抽取子任务(命名实体识别、关系抽取和事件抽取)在四种典型的模态(文本、图片、视频和音频)下统一起来,同时实现细粒度的跨模态目标定位。

为了实现 MUIE 任务,作者设计了一个多模态大模型 REAMO,实现 UIE 任务的多种模态,一次识别。同时构建了一个 MUIE 基准测试集以评估任务表现。该工作将会为下一阶段的信息抽取奠定一个重要基石。目前该工作被录用到 ACL 2024 (Finding)。

论文标题:

Recognizing Everything from All Modalities at Once: Grounded Multimodal Universal Information Extraction

论文地址:

https://arxiv.org/abs/2406.03701

项目地址:

https://haofei.vip/MUIE/



动机介绍

信息抽取(Information Extraction,IE)是自然语言处理领域的经典研究方向之一,旨在从自然语言中提取出结构化信息,包括命名实体识别(Named Entity Recognition, NER)、关系抽取(Relation Extraction, RE)和事件抽取(Event Extraction, EE)等多种子任务。 


然而随着社交网络和多媒体技术的发展,文本不再是信息的唯一载体,海量的图片、音频和视频中同样蕴藏着丰富的信息,因此研究人员开始了多模态信息抽取(multimodal IE, MIE)的探索。 


但是对于 MIE 研究存在以下不足:


首先,目前的 MIE 只是孤立地研究单一模态或特定模态的组合,而不能实现统一、高效的多模态信息抽取。


其次,大多数 MIE 的工作在多种模态之间存在“偏见”,仍然以文本为主要导向,而将其他模态置于从属地位,这表现在信息抽取的结果只包含文本,而忽略了对其他模态信息进行细粒度地提取和定位(fine-grained groundings)。但在现实生活中,每一种模态都应该蕴含着重要的信息。一个简单的例子是,即使是一个不识字的婴幼儿也能通过视觉、听觉识别出物体和事件。


最后,目前的 MIE 模型假设不同模态之间是互相关联的,并倾向于只抽取其中的对齐信息,而在实际场景中不同模态的信息可能相互关联,也有可能相互独立,MIE 应当能够从任意一种模态中灵活地抽取信息。



因此本文首次提出了一种细粒度定位的统一多模态信息抽取(grounded Multimodal Universal Information Extraction,grounded MUIE),尝试将三种信息抽取子任务(命名实体识别、关系抽取和事件抽取)在四种典型的模态(文本、图片、视频和音频)下统一起来,同时实现细粒度的跨模态目标定位。 


与此同时,本工作提出一个配套的 grounded MUIE 基准多模态大模型 REAMO,在对多种模态进行信息抽取的同时灵活地给出静态或动态的细粒度目标定位。REAMO 模型主要由三个模块组成:多模态编码器,LLM 推理器和可细粒度定位的 MUIE 解码器,通过一系列指令微调策略使得 REAMO 具备从各种模态中实现细粒度信息抽取各个子任务的强大能力。 


此外,为了更好地评估提出的 REAMO 模型的性能表现,作者在九个包含不同模态和子任务的信息抽取数据集的基础上,扩展了模态组合类型,通过模态迁移方法,标注构建了六个全新类型的多模态数据集,为 MUIE 任务提供了一个全面的基准测试集。



任务定义

细粒度定位的统一多模态信息抽取(grounded MUIE)是一个全新的任务,旨在将 NER,RE,EE 等各种信息抽取任务统一起来,支持各种模态(包括文本、图片、音频、视频)的输入,并输出结构化的 UIE 结果以及细粒度的多模态目标定位。


如图 1 所示,grounded MUIE 不仅能够从任意模态的组合输入中抽取出结构化的实体、关系、事件信息,而且能够细粒度地分割出对应的实体图像、音频片段,以及对视频中的文本和音频事件信息进行动态追踪。


▲ 图1. 细粒度定位的统一多模态信息抽取 (grounded MUIE) 示例



REAMO模型架构与微调策略

如图 2 所示,作者为 grounded MUIE 任务设计了 REAMO 多模态大模型,REAMO 主要由三个模块组成:多模态编码器,LLM 推理器和细粒度定位 MUIE 解码器。


▲ 图2. REAMO 多模态大模型架构图

3.1 多模态编码器

REAMO 作为多模态大模型,可以接收文本、图片、音频、视频任意组合的模态输入,因此作者使用 ImageBind 对不同模态输入进行编码,然后对图像编码器、视频编码器和音频编码器网络分别设计了投影层将不同模态表征统一映射到 LLM 可以理解的对齐语义空间中。

3.2 LLM推理器

LLM 推理器作为 REAMO 的中心单元,使用 Vicuna 作为 LLM 底座,根据提示词对输入内容进行语义理解和推理决策。LLM 推理器不仅生成 UIE 结构化文本抽取结果,同时负责生成 <Module> 和 <Instruction>,用于为下游解码模块提供激活信号,如图 3 所示。


▲ 图3. LLM推理器功能示例

3.3 Grounded MUIE解码器

为了实现细粒度的 groundings 信息识别,MUIE 解码器集成了高性能 SEEEM 模块用于图像分割和视频追踪,SHAS 模块用于音频分割。根据上游传递的元响应信号,激活对应的解码器模块实现 groundings 识别。


3.4 Grounded MUIE微调策略


作者采用了多种微调策略使 REAMO 具备强大的 grounded 跨模态信息抽取能力:
  • UIE 指令微调:使用 UIE 指令微调数据集对 LLM 进行 LoRA 高效微调,使模型具备基本的文本信息抽取能力。
  • 多模态对齐学习:固定 ImageBind 和 LLM 参数,对投影层进行‘X-to-text’微调,实现各种模态与文本的对齐学习。
  • 跨模态细粒度定位微调:通过以上步骤, REAMO 模型已经学习到粗粒度的多模态理解知识,为了实现精确多模态 groundings,使用包含 groundings 标注的‘X-to-text’数据再次微调,使 LLM 获取更强的 grounding 感知理解能力。
  • 基于调用的元响应微调:基于现有的标注数据精心设计了多种指令模板,通过提示 GPT-4 生成对应的指令微调数据,进行元响应微调,使得作为中间推理与决策核心的 LLM 推理器能够准确地生成元响应下游激活信号。


grounded MUIE基准测试集

由于首次提出该任务,社区缺少一个全面的评估测试集。所以作者在现有的九个包含不同模态和子任务的信息抽取数据集的基础上,通过预处理和模态迁移方法(如语音合成技术、语音识别技术),构建了六个全新的多模态信息抽取基准测试集,丰富扩展了信息抽取任务的模态组合类型,标注了 3000 条覆盖 NER, RE, EE 子任务的高质量 MUIE 测试数据。


此外,作者重新标注了组合模态数据集以保证基准测试集中既包含多模态关联信息,也包含特有模态信息,并且还包含了模态对齐和非对齐的情况,从而更加符合实际应用场景。


▲ 图4. Grounded MUIE 基准测试集


 

实验和分析

5.1 Zero-shot MUIE实验结果

图 5,图 6,图 7 分别展示了图片、音频、视频单一模态与文本混合双模态下 zero-shot 实验性能对比,图 8 展示了更加复杂的模态混合场景下的实验性能,综合多种实验设置结果可以得出以下结论:


1)端到端模型由于缓解了误差传播问题,比起管线模型展示出更高的性能;


2)REAMO 模型对比其他模型在各种模态和子任务场景下均展现出最佳性能;


3)单一模态相比文本混合双模态展现出显著的性能下降;


4)REAMO 在复杂的多种模态混合场景下相比其他模型提升更为明显。


▲ 图5. 图像相关MUIE数据集实验结果


▲ 图6. 音频相关MUIE数据集实验结果

▲ 图7. 视频相关MUIE数据集实验结果

▲ 图8. 多种模态混合场景下的实验结果


5.2 模态对齐 vs 非对齐


如前文所述,目前的 MIE 模型假设不同模态之间是互相关联的,并倾向于只抽取其中的对齐信息。作者将数据集划分为两类:模态对齐与模态费对齐,并分别进行了实验测试。图 9 展示了不同模型在模态对齐与非对齐两种场景下的对比试验,可以发现 REAMO 打败了其他基线模型,并在模态非对齐场景下提升尤其显著。


▲ 图9. 模态对齐与模态非对齐MUIE性能差异


5.3 实体数量的影响


图 10 展示了输入内容中实体数量对 MUIE 性能的影响,可以发现,在文本+图片/文本+音频/文本+视频三种不同场景下,随着输入的实体数量增多,其他模型退化明显,而 REAMO 能够保持相对较优的性能,展示出更好的鲁棒性。


▲ 图10. 实体数量的影响


5.4 案例分析


图 11,图 12,图 13 分别给出了 NER,RE,EE 三种不同任务下的 MUIE 系统的可视化实例。在各种场景下,REAMO 不仅给出正确的信息抽取结果,同时可以根据根据提示灵活地提供细粒度的目标定位,具备较好的可解释性。


▲ 图11. NER 实例

▲ 图12. RE 实例

▲ 图13. EE 实例




错误分析和未来研究方向


本文首次提出一个全新的 grounded MUIE 任务。未来后续研究可以从各个角度进行探索。作者在实验中对提出的模型进行了错误分析,总结了几种重要的错误类型。


1. 内容重复提取:当文本和其他模态的信息不严格一致时,REAMO 模型可能会抽取出含义相似但不同的实体、关系、事件等。所以如何保证不同模态信息抽取的一致性是一个需要思考的方面。


2. 信息提取不完整:信息提取的结果不完整,例如命名实体识别不完整,无法识别涉及深入推理的关系,或事件论元的识别不完整。


3. 错误定位:REAMO 模型可能输出实体或论元,但未能成功定位相应的图像、视频或音频中的对应区域。


4. 错误定位匹配:实体或论元并不总是与定位结果匹配。例如,当文本提到“奥巴马”和“特朗普”,而图像描绘了这两个人时,图像对象分割器未能确定哪个是“奥巴马”和“特朗普”,导致错误的定位匹配。


5. 过度定位/定位幻觉:所提出的 REAMO 模型可能生成多个指令并在图像、视频或音频中进行定位,但视觉或听觉内容中实际上不存在对应的区域。


6. 错误传播:REAMO 模型本质上还是一个流水线式的运作系统,首先产生一个元响应,然后用它来调用功能模块,这种 pipeline 模式可能会引入了错误传播,即如果元响应的内容存在问题,随后模块的输出将是错误的。为了解决这个问题,可以考虑开发更先进的端到端多模态大语言模型。



🌟本文内容已获论文原作者独家授权发布,如需转载请联系PaperWeekly工作人员微信:pwbot02,添加时请备注「转载」

更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

继续滑动看下一个
PaperWeekly
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存