查看原文
其他

ACL 2024 | 中科院等推出Table-LLaVA,多模态表格理解能力再创新SOTA

郑明钰 PaperWeekly
2024-08-23


©PaperWeekly 原创 · 作者 | 郑明钰
单位 | 中国科学院信息工程研究所
研究方向 | 表格理解和大语言模型



动机
表格理解技术旨在自动理解表格数据并完成相关下游任务,进而可以提高不同行业的工作效率。虽然近期基于大语言模型(Large Language Model,LLM)的表格理解方法取得了显著进展,但是它们都严重依赖于文本形式的表格表示,即表格必须提前转化为某种格式的文本序列(比如 HTML、Markdown 或是其他自定义格式)以作为模型输入。 

这种流水线的方式不仅繁琐,而且在某些现实场景中无法轻易获取到高质量的文本表格表示,比如扫描文档、网页截图等。此外,基于纯文本 LLM 的表格理解方法只能从一维文本的角度理解天然具有二维结构的表格,相比之下,人类可以直接借助视觉信息直观理解复杂多样的表格数据。因此,从便捷性和直观性的角度考虑,如何直接基于图像信息理解表格数据值得探索。


▲ 图1. 两种表格理解方法的对比

为了推动表格理解技术的发展,我们提出“多模态表格理解”问题(Multimodal Table Understanding),该问题要求模型基于表格图片和用户文本指令完成相关任务,比如表格问答、表格-文本生成等。由于缺乏相关数据集提供研究基础,我们构建了第一个大规模多模态表格理解数据集 MMTab,覆盖丰富多样的表格图片和下游任务。




论文题目:

Multimodal Table Understanding

论文作者:

郑明钰,冯欣伟,佀庆一,佘俏俏,林政(通讯作者,主页:https://people.ucas.ac.cn/~linzheng)),姜文斌,王伟平

收录会议:

ACL 2024 Main Conference

论文链接:

https://arxiv.org/abs/2406.08100

代码链接:

https://github.com/SpursGoZmy/Table-LLaVA

数据集链接:

https://huggingface.co/datasets/SpursgoZmy/MMTab

模型链接:

https://huggingface.co/SpursgoZmy/table-llava-v1.5-7b


在此基础上,我们训练了一个多模态表格理解模型 Table-LLaVA,在 23 个评测基准上超过了近期的多模态 LLM,并在其中 14 个评测基准上取得了与 GPT-4V 有竞争力的表现。

▲ 图2. Table-LLaVA和近期多模态LLM基线的对比



MMTab数据集
2.1 数据集构建

如图 3 所示,数据集构建流程可以分为三步: 
1. 从 8 个领域的 14 个公开表格数据集中收集表格数据和原始样本,比如表格问答数据集中的“问题-答案”对;
2. 细致撰写 Python 脚本,将原始数据集中用文本形式存储的表格(比如 HTML、Markdown、JSON 等)渲染为高质量的表格图片;

3. 基于原始样本和渲染后的表格图片构建多模态指令微调样本,样本格式统一为<表格图片,用户文本输入,期望模型输出>。

▲ 图3. MMTab数据集构建流程

为了进一步改善数据多样性,我们在数据集构建过程中引入多种数据增强策略:
表格级别增强:现实世界的表格可以具有多种结构和风格,一个理想的表格理解模型应该像人类一样能够理解复杂多样的表格。因此,我们在渲染不同结构的表格数据时额外控制表格图片的风格,包括网页风格(70.8%)、Excel 电子表格风格(19.4%)、Markdown 表格风格(9.8%)。此外,我们还考虑细粒度的多样化调整,比如随机选择表格中的文本字体、单元格颜色等。 
指令级别增强:现实应用中用户针对同一任务的指令也可能各不相同。为了改善模型针对不同用户指令的鲁棒性,我们采用 few-shot 的方式让 GPT-4 生成多样化的指令模板。在基于原始样本构建指令微调样本时,我们随机选择指令模板以构建多样的输入文本。 
任务级别增强:先前研究工作表明,LLM 可能可以完成需要高阶推理能力的表格下游任务(比如表格问答),但是却无法理解最基本的表格结构。为了探究多模态 LLM 是否真正理解表格数据,我们在 9 种学界任务的基础上额外引入 6 种表格结构理解任务,比如根据表格图片判断表格有几行几列、提取出特定行列位置的单元格等。
2.2 数据统计
MMTab 数据集具体的统计信息如图 4 所示,其中展示了从各个公开数据集收集的表格和样本数量。MMTab 数据集具有以下优点: 
1. 大规模:包含 150K 表格识别预训练数据,232K 指令微调数据,45K 内部(held-in)和 4K 外部(held-out)测试数据。 
2. 涵盖多种结构、风格、领域的表格:包含 105K 表格图像,覆盖多种表格结构(比如简单表格、层级表格等)、风格(网页风格、电子表格风格等)、领域(维基百科、公司年报等)。 

3. 涵盖多种表格任务:9 种考察高阶推理能力的表格下游任务(表格问答、表格事实验证、表格-文本生成等)和 6 种考察基础结构理解能力的任务(表格尺寸识别、单元格提取等)。


▲ 图4. MMTab数据集统计信息

2.3 数据样例

图 5 展示了 6 个完整的数据样例,其中包括表格图片和输入输出的各个组成部分。

▲ 图5. MMTab数据样例


Table-LLaVA模型

基于 MMTab 数据集,我们选择 LLaVA-1.5 作为底座模型并设计一种两阶段增强的训练策略,进而构建了一个多模态表格理解模型 Table-LLaVA。具体训练流程如图 6 所示,包括: 

1. 预训练阶段:

  • 训练任务:图像描述任务 + 表格识别任务(根据表格图片还原 HTML 表格等); 

  • 训练数据:558K LLaVA 预训练数据 + 150K 新构建的表格识别数据;

  • 训练目的:增强模型对于常见图片和表格图片的基础理解能力;

  • 训练权重:跨模态连接层。 

2. 指令微调阶段:

  • 训练任务:传统多模态任务 + 多模态表格理解任务;

  • 训练数据:665K LLaVA SFT 数据 + 232K 多模态表格理解数据;

  • 训练目的:赋予模型在多种下游任务尤其是表格理解任务上的指令遵循能力;

  • 训练权重:跨模态连接层 + 底座 LLM。


▲ 图6. Table LLaVA训练和评测流程

实验
4.1 基线模型和评测基准
我们考虑三类基线模型:
  • 开源多模态 LLM:包括 BLIP、MiniGPT-4、Qwen-VL、InternLM-XComposer、mPLUG-Owl2、LLaVA-1.5、Monkey 等。
  • 开源纯文本 LLM+OCR:包括 Llama2 及其表格指令微调模型 TableLlama。我们使用 PaddleOCR 提供的表格识别工具将表格图片转化为 HTML 表格序列以便构建纯文本 LLM 的输入。 
  • 闭源多模态 LLM GPT-4V:包括低分辨率和高分辨率两种输入设定。考虑到调用 GPT-4V API 的费用,我们从每个评估基准中随机采样 100 或 200 个测试样本,然后在这批样本上比较 Table-LLaVA 和 GPT-4V 的效果。 

我们使用 MMTab-eval 中构建的 17 个内部(held-in)测试集和 7 个外部(held-out)测试集,外部测试集的表格和数据不出现在模型训练过程中。评测任务包括常见学界任务,比如表格问答、表格-文本生成、表格事实验证,以及我们新构建的表格结构理解任务,比如表格尺寸识别、单元格提取等。所有模型都采用 zero-shot 设定。

4.2 实验结果

图 7 和图 8 分别展示了在 11 个 held-in 学界测试集和 6 个 held-in 表格结构理解测试集上的实验结果,图 9 展示了 Table-LLaVA 和 GPT-4V 的对比。主要的实验发现如下: 

1. 早期的多模态 LLM(如 MiniGPT-4、BLIP)的表格理解能力几乎为 0。得益于对文字密集场景和 OCR 能力的重视,近期的多模态 LLM(如 Vary 和 Monkey)的表格理解能力明显增强。 

2. 相比于开源多模态 LLM,GPT-4V 的模型性能更优,尤其是在 held-out 测试集上的优势更加明显,这体现了 GPT-4V 在多模态表格理解任务中具备更好的泛化能力。 

3. “LLM+OCR”的策略并没有明显优于端到端的多模态 LLM。通过观察具体样本,我们发现现有的表格识别 OCR 工具无法很好地处理复杂多样的表格图片,在文本内容识别和表格结构识别方面都经常出现错误,比如误将一个合并单元格识别为两个子单元格,进而影响 LLM 的理解能力。 

4. Table-LLaVA 在 23 个评测基准上超过了近期的多模态 LLM,并在其中 14 个评测基准上取得了与 GPT-4V 有竞争力的表现,体现了 MMTab 数据集和两阶段训练策略的有效性。 

5. 即使能完成较为复杂的下游任务(比如表格问答),多模态 LLM 也可能无法理解基础的表格结构,比如判断表格有几行几列,这体现出它们可能仍然无法真正地理解表格数据。 

6. 多模态 LLM 支持的图片分辨率对于表格理解能力有重要影响。对于 GPT-4V 模型,在高分辨率设定下的效果普遍优于低分辨率设定;对于 Table-LLaVA 模型,随着输入图片分辨率增加,模型的性能逐步下降。 

7. 即使是高分辨率设定下的 GPT-4V,其性能与人类表现也有较大差距,多模态表格理解方向在未来需要更多的努力和探索。


▲ 图7. 11个held-in学界测试集上的实验结果


▲ 图8. 6个held-in表格结构理解测试集上的实验结果



▲ 图9. Table-LLaVA和GPT-4V的对比

除了上述实验结果,我们还进行了细致的消融实验来分析不同训练数据对于模型能力的贡献,比如 LLaVA 原始预训练数据对于模型表格理解能力的影响。我们发现表格理解任务数据和传统多模态任务数据之间存在互相促进的效果,这表明多模态表格理解是多模态 LLM 应该具备的一项基本能力。更多具体的实验结果和分析请参见我们的论文。


局限性和未来方向
虽然本文对多模态表格理解问题进行了首个系统性的探索,但是也存在一些局限性:
MMTab 数据集主要关注单个表格和英文数据,未来需要关注中文等其他语言和多表场景。
MMTab 数据集主要包含高质量的表格图片,但现实应用中的表格图片可能是低质量的,比如图片模糊、手写表格、表格污损等。为了使多模态表格理解技术更加落地,未来需要收集更多来自现实场景的表格(table images from the wild)并构建相应的指令微调数据。
Table-LLaVA 模型的分辨率相对较低(336*336),模型性能上限可能会受到限制。未来使用 MMTab 搭配 LLaVA-Next、Monkey 等高分辨率多模态 LLM 的效果值得探索。
Table-LLaVA 模型的视觉编码器来自于 CLIP 预训练后的 ViT 模型,该模型在预训练时没有充分学习文字密集型的文档、表格图片,因此可能无法为表格图片产生较好的表示向量。未来可以增强视觉编码器对于表格图片的理解能力以进一步改善多模态 LLM 的效果。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

继续滑动看下一个
PaperWeekly
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存