查看原文
其他

KDD 2024 | 如何在图A上预训练,在图B上直接推理?大模型帮助图领域的零样本学习挑战

让你更懂AI的 PaperWeekly
2024-08-23


人类面对新问题时,往往会将其与已知的知识联系起来。这一观念同样适用于机器学习(ML)。传统的 ML 方法多关注在训练过程中已见过的类别。然而,现实应用往往要求对未曾见过的类别进行分类,这就需要模型利用已有的知识进行推理和解决问题。例如,一个训练于动物图像的模型虽然未曾见过“斑马”,但通过理解“条纹”与“马”的概念,它仍能成功识别斑马。 


在 AI 领域,特别是随着大型语言模型(LLMs)如 GPT-4 和 LLaMA 的出现,零样本学习能力(zero-shot ability)已取得显著进展。零样本学习是指模型在训练阶段未接触目标类别的情况下,依然能够进行分类的学习范式。


在自然语言处理(NLP)中,这种学习通常基于生成范式(generative paradigm),模型依靠对广泛语料库的预训练来处理新数据。而在计算机视觉(CV)领域,零样本学习则依赖检索范式(retrieval paradigm),如 CLIP 模型通过将图像与文本映射到一个共享空间,利用 embedding 相似性来识别新图像。 


图学习作为多学科的交叉领域 [1],虽广泛应用,但面临两大挑战:1)新图的出现,这使得在每个单独的图上训练图模型如图神经网络(GNNs)变得不切实际;2)由于图结构数据的复杂性和多样性,人类标记变得困难。


因此,探索图学习中的零样本学习显得尤为重要,这不仅能让图模型对未见过的图进行推广和推理,对于实现图基础模型(graph foundation model)的目标也是至关重要的,这些模型能够适应不同数据而无需额外的微调 [2]


在论文中,我们我们首次系统性探讨了图领域零样本迁移学习的挑战与现有尝试。我们提出了一个新模型 ZeroG,其能够跨不同图数据集实现强大的零样本迁移学习能力。ZeroG 在不同领域的图数据集上展现出优秀的性能,在某些数据集上效果甚至可与半监督方法相媲美。


论文题目: 
ZeroG: Investigating Cross-dataset Zero-shot Transferability in Graphs

收录会议: 

SIGKDD 2024

论文链接: 

https://arxiv.org/pdf/2402.11235

代码链接: 

https://github.com/NineAbyss/ZeroG


问题描述 & 与现有任务对比

目前大多数关于节点分类的研究仅关注在单一图数据集上使用标注的节点通过半监督学习进行模型训练,以预测同一标签空间的未标注节点,这种方法我们称之为“图内半监督学习”(in-dataset semi-supervised learning)。然而,这些研究往往忽略了模型在图间的泛化能力 [3]。 


近年来,关于 GNN 的迁移性,开始有研究聚焦于两个流行场景:无监督图域适应(UGDA, unsupervised graph domain adaptation)和图内零样本学习(in-dataset zero-shot transfer)。


如下图所示,UGDA 旨在上游的图上学习分类模型,然后在下游图上进行分类,在 UGDA 中上下游图具有相同的标签空间。而图内零样本学习则关注在单一图内的泛化能力,其目标是基于部分可见类别的标注节点进行训练后,将未标注节点分类到目标标签空间中的未见类别。



跨图零样本学习(cross-dataset transfer)是近期涌现在大量模型中(尤其是大模型)展示跨数据集转移能力的一个场景,主要出现在自然语言处理(NLP)和计算机视觉(CV)领域。


在本工作中,我们专注于跨图零样本节点分类任务。我们的目标是在数个完全标注的上游图上对模型进行预训练,并在一个完全不同的下游图上进行分类,注意此时下游图具有与上游图完全不同的标签空间。


跨图零样本学习与 UGDA 和图内零样本学习的不同之处主要在于:UGDA 需要上下游图具有一致的标签空间,这使得其无法在未知类别的下游图进行推理;图内零样本学习只能在单一图内进行零样本学习,遇到全新的图时则无法处理。而跨数据集零样本是一个非常实用的场景,但目前的工作还鲜有深入研究。


面临的主要挑战

我们注意到传统的 GNN 在跨图零样本学习中面临着诸多挑战,这包括但不限于:

1. 特征维度不对齐:在上游多个数据集上预训练时,特征维度的一致性对于预训练的图模型至关重要。现有的主流数据集通常采用浅层嵌入技术(shallow embedding),如词袋模型、Skip-gram 和 TF-IDF,这导致不同源数据集之间可能出现维度不一致的问题。例如,Cora 数据集的特征维度为 1433,而 Citeseer 为 3703。这种不一致使得模型难以在一个图上预训练后直接应用于另一个图,从而影响零样本迁移学习的效果;

2. 类别空间不匹配:GNN 的分类头的维度是基于预训练图的类别数量固定的,当目标数据集的类别数量不同时,可能会导致上下游类别空间问题。此外,即便来别数量相同,不同数据集中的类别含义也可能不同,如引文网络中的类别可能无法直接对应到社交网络的类别;

3. 负迁移:当上游数据集和下游数据集在结构或语义上有显著差异时,通常会导致负迁移现象 [4][5]。如果预训练的图模型过度拟合于上游数据集特有的特征,可能会导致在结构或语义上具有较大差异的下游数据集上性能下降。这是因为模型可能没有捕捉到足够的通用知识来实现有效的零样本迁移学习。


ZeroG

为了解决以上挑战,在本论文中,我们提出了一个名为 ZeroG 的模型,通过在上游数据集中对语言模型进行微调,ZeroG 能够在下游目标数据集上展示出显著的零样本学习能力。


3.1 统一图表征模块



为了解决维度不对齐问题,和 OFA [6] 类似,我们采用了一个统一的预训练语言模型来编码节点属性和类别描述。通过这种方法,我们将不同数据集的节点和类别特征映射到统一的语义空间和相同的维度,从而解决了跨数据集泛化时的维度不对齐问题。

3.2 基于提示节点的子图采样

在 ZeroG 中我们提出了一种基于提示的子图采样策略,这种策略通过从上游数据集中提取子图并引入一个提示节点来捕捉必要的结构和语义特征,以此构建预训练样本。

为了避免过于简化的子图并限制提取的子图数量,我们采用了限制性子图提取策略。在每个上游数据集中,我们迭代提取以每个节点为中心的 k-跳子图。此外,我们引入了基于类别的过滤标准,只考虑类别多样性高的子图。这保证了每个子图都能有效反映上游数据集的类别多样性,促进了上游数据集的语义迁移。

此外,我们为每个子图引入了一个语义增强的提示节点 [7][8] 作为携带特定数据集相关通用知识的唯一标识符。在预训练集合中,每个被提取的子图都被集成了一个提示节点,提供上游数据集的更广泛语义。这种提示节点的插入模式是全连接的,即提示节点与子图中的所有节点都连接。

3.3 预训练和推理阶段

在预训练阶段,我们采用 LoRA [9],通过在变压器层中注入低秩矩阵来更新权重,有效降低预训练的资源消耗并最小化过拟合风险。训练中我们采用交叉熵损失进行优化。

预训练后,模型可以直接被应用于下游数据集进行推理,无需进一步微调。有趣的是,ZeroG 可以通过直接计算节点和类别间的相似度而无需任何分类头,实现了零样本学习下的推理,有效提升了模型在新图数据上的泛化性。



实验分析

我们在不同领域的 7 个图数据集上进行实验。为了公平比较,我们参照 OFA [6] 模型的处理方式,为 Cora、Pubmed、ogbn-arxiv 和 Wiki-CS 的节点和类别提供了文本信息。而对于 CiteSeer、P-Home 和 P-Tech,我们采用了 Chen et al. [10] 的原始文本处理方法。


我们在域内进行了零样本泛化实验。结果显示,ZeroG 在所有目标数据集上相比基线模型都实现了显著的性能提升,尤其是在 Pubmed 数据集上达到了 78.02% 的准确率,这与两种半监督学习方法相当。相比仅依赖结构的图自监督学习方法和完全基于文本相似性的语义相似性方法,我们的模型综合利用结构和语义信息,有效促进了零样本迁移。


为了更直观地体现 ZeroG 的有效性,我们对节点和类别的表示进行了可视化分析。通过将 Cora 数据集的表征映射到二维空间中进行可视化,可以观察到 ZeroG 得到的表征的类内聚合性更强,即相同类别的节点在嵌入空间中的聚合度更高。同时,类间区分性得到了提升,即不同类别的节点表示在空间中更具区分性。

未来与展望

跨图零样本学习作为一个新兴的任务,自 OFA [6] 首次提出该概念后,相关的研究工作还比较少。要想实现图基础模型的最终目标,提升图模型泛化性,尤其是零样本学习场景的泛化性是非常重要的。因为新图在源源不断地产生,图基础模型应当有能力来理解,分析从未见过的图(unseen graph),从而进一步执行下游任务。


在我们最新的 benchmark 工作 GLBench [11] 中,我们也对目前有zero-shot能力的模型进行了评测,评测结果表明现有模型在零样本学习场景下还有很大的提升空间。我们认为使用 GNN 或者 LLM 作为 backbone 都是很好的思路,希望更多的工作在该任务上被探索,走向真正的图基础模型。


参考文献

[1] Li et al. GSLB: the graph structure learning benchmark. NeurIPS 2023.

[2] Mao et al. Position: Graph Foundation Models Are Already Here. ICML 2024.

[3] Li et al. A Survey of Graph Meets Large Language Model: Progress and Future Directions IJCAI 2024.

[4] Jin et al. Self-supervised learning on graphs: Deep insights and new direction. Arxiv 2020.

[5] Sun et al. All in One: Multi-Task Prompting for Graph Neural Networks. SIGKDD 2023.

[6] Liu et al. One for All: Towards Training One Graph Model for All Classification Tasks. ICLR 2024.

[7] Liu et al. GraphPrompt: Unifying Pre-Training and Downstream Tasks for Graph Neural Networks. WWW 2023.

[8] Sun et al. GPPT: Graph Pre-training and Prompt Tuning to Generalize Graph Neural Networks. SIGKDD 2022.

[9] Hu et al. LoRA: Low-Rank Adaptation of Large Language Models. ICLR 2022.

[10] Chen et al. Exploring the Potential of Large Language Models (LLMs)in Learning on Graphs. SIGKDD Explorations Newsletter 2024.

[11] Li et al. GLBench: A Comprehensive Benchmark for Graph with Large Language Models. Arxiv 2024.


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

继续滑动看下一个
PaperWeekly
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存