字节、华科发布多语种视觉文本理解新基准，多模态大模型还有很长的路要走

让你更懂AI的 PaperWeekly

2024-08-23

近期多模态大模型（MLLM）在视觉文本理解领域取得了显著进展，比如开源模型 InternVL 1.5、MiniCPM-Llama3-V 2.5、TextMonkey，闭源模型 GPT-4o、Claude 等，甚至在某些方面展现了超越人类的能力。然而，当前的评估主要集中在英文和中文的语言环境中，对于更具挑战的多语种环境，研究还相对缺乏。在全球化的今天，多语言环境越来越多的出现在人们日常生活中，也给人工智能的发展带来了很大的挑战。

MTVQA（Multilingual Text-Centric Visual Question Answering）基准测试正是在这样的背景下应运而生，专注于以多语言文字为中心的视觉问答,旨在填补现有评测基准在多语种视觉文本领域的空白。

MTVQA 涵盖了阿拉伯语、韩语、日语、泰语、越南语、俄语、法语、德语和意大利语等 9 种语言，收集整理了自然场景和文档场景下的多语种富文本图片，如菜单、路标、地图、账单、PPT、论文、图表等。问答对都经过人类专家的精心标注，以确保视觉文本与问题及答案之间的高度一致性。

在 MTVQA 基准的测试结果显示，无论是开源模型还是最先进的闭源模型如 GPT-4o（Acc. 27.8%），准确率不到 30%，开源的文档类专家大模型表现也不尽如人意。

无论从哪方面来看，多语种文字理解能力都还有较大的提升空间。MTVQA 重点关注除中英文以外广泛使用的语言，希望能促进多语种文字理解能力的发展，将多模态大模型的成果普及到更多的国家和地区。

论文链接：

https://arxiv.org/abs/2405.11985

项目链接：

https://bytedance.github.io/MTVQA/

▲ 图1 MTVQA 中不同语种和场景样例展示

背景介绍

视觉文本理解能力是多模态大模型能力中的一个关键维度，现有的 benchmark 如 DocVQA、TextVQA、STVQA 等在 GPT-4o、Gemini 、Internlm VL 等先进的闭源和开源 MLLMs 的测评中发挥了重要作用，评估了多模态大模型在不同维度的视觉文本理解能力，但是他们都专注于中英文能力的测评，缺少一个能够测评其他语种理解能力的 benchmark。

针对这些不足，字节和华科的研究者提出了 MTVQA，首个全面测评多场景多语种视觉文本理解能力的 benchmark。

MTVQA的构建过程

a）数据收集

测试集包括 1220 张泛文档类的图片和 876 张自然场景的图片，数据来源可分为三部分：

网络收集的图片，如 PPT、paper、logo 等。
实地采集拍摄图片，包括各种场景，时间跨度 2023 年 3 月到2024 年 3 月。
现有公开数据，从 ICDAR MLT19 的公开图片中采样了一些具有代表性的场景文本图片。

b）数据标注

所有 QA 数据均为经过培训的母语人士进行标注，并进行多轮交叉验证，确保问题的丰富性和答案的准确性。

标注规则：

问题必须和图片中的文字内容有关
每张图片包括 3 个可以直接问答的问题和 2 个需要进行一定推理的问题
答案尽可能和图片中的文字保持一致
答案尽可能简短，不重复问题的内容

▲ 图二 MTVQA 数据标注流程

交叉评估和修改：

评估问题和图片中文本内容的相关性
评估答案的准确性和完整性
道德评估，判断是否符合人类道德规范

c）数据集概览

▲ 图三 MTVQA 涵盖的丰富场景以及不同语种的 QA 数量

▲ 图4 Word Cloud

MLLMs在MTVQA Bench上的表现

在 MTVQA 上对 19 个先进的 MLLM 进行来测评，包括开源和闭源模型，测评结果如下：

实验结果发现：

多语种文字理解现阶段任然是非常有挑战性的任务。尽管 GPT-4o 在大部分语种和总体成绩上取得了第一名的成绩，但是平均准确率只有 27.8，相比于多模态大模型的英文理解能力，差距明显，更别谈和人类的差距了。
开源模型和闭源模型存在较大的差距。最优的开源模型是 MiniCPM-V 2.5，取得了 18.9% 的成绩，但距离顶尖的闭源模型如 QwenVL Max, Gemini Ultra, Claude3 Opus, GPT-4o 等还比较远。
以文字理解为中心的多模态大模型并没有明显的优势。研究者选取了最近的 3 个以视觉文字理解为中心的 MLLM，mPLUG-DocOwl 1.5，TextMonkey，TextSquare，发现最优的 TextSquare 相比通用 MLLM MiniCPM-V 2.5 并没有优势（15.6 vs. 18.9）。
不同语种的理解能力差距明显。拉丁类的语种如意大利语、德语、法语的表现远好于非拉丁类语种如日语、韩语、俄语。这应该是由于拉丁类语种在视觉和语义上都和英文更相似。

总结

来自字节跳动和华中科大的研究者们针对多语种视觉文本理解任务提出了新的测评基准 MTVQA Bench，并对多模态大模型的表现进行了测评和分析。研究发现，多语种视觉理解任务难度很大，当前多模态大模型表现较差，距离人类的水平还有很长的路要走。研究者们期待后续多模态大模型的研究和发展更加关注多语种场景，扩大多模态大模型的应用范围，使得更多国家和地区的人们能够参与其中，共享人工智能带来的便利。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

继续滑动看下一个

PaperWeekly

向上滑动看下一个

刚刚，我国DUV光刻机实现里程碑式突破！

微博遗存之六

微博遗存之五

性高潮到底什么感觉？真实记录多位女性的自述

执法队员围殴店主，光停职就算完事儿了？

字节、华科发布多语种视觉文本理解新基准，多模态大模型还有很长的路要走

您可能也对以下帖子感兴趣

刚刚，我国DUV光刻机实现里程碑式突破！

微博遗存之六

微博遗存之五

性高潮到底什么感觉？真实记录多位女性的自述

执法队员围殴店主，光停职就算完事儿了？

生成图片，分享到微信朋友圈

字节、华科发布多语种视觉文本理解新基准，多模态大模型还有很长的路要走

您可能也对以下帖子感兴趣