GraphSAGE论文精读
创始人
2025-05-31 16:36:11

摘要

从内容推荐到识别蛋白质功能,大型图中节点的低维嵌入已经被证明在各种预测任务中非常有用。然而,现有的大多数方法要求在训练嵌入过程中,图中的所有节点都存在;这些以前的方法是固有的,不能自然地推广到看不见的节点。在这里,我们介绍了GraphSAGE,一个通用的归纳框架,它利用节点特征信息(例如,文本属性)来有效地为以前未见过的数据生成节点嵌入。我们不是为每个节点训练单独的嵌入,而是学习一个函数,通过从节点的局部邻域采样和聚合特征来生成嵌入。我们的算法在三个归纳节点分类基准上优于强大的基线:基于引文和Reddit帖子数据,我们对进化信息图中不可见节点的类别进行分类,并且我们表明,我们的算法可以使用蛋白质-蛋白质相互作用的多图数据集推广到完全不可见的图。

介绍

我们提出了一个通用的框架,称为GraphSAGE(样本和聚合),用于归纳节点嵌入。与基于矩阵分解的嵌入方法不同,我们利用节点特征(例如,文本属性、节点概要信息、节点度)来学习一个将不可见节点泛化的嵌入函数。通过在学习算法中引入节点特征,我们同时学习了每个节点的邻域的拓扑结构以及节点特征在邻域中的分布情况。虽然我们关注特征丰富的图(例如,具有文本属性的引文数据,具有功能/分子标记的生物数据),但我们的方法也可以利用所有图中出现的结构特征(例如,节点度)。因此,我们的算法也可以应用于没有节点特征的图。
我们不是为每个节点训练一个不同的嵌入向量,而是训练一组聚合器函数,这些函数学习从一个节点的局部邻域聚合特征信息。每个聚合器函数从一个给定节点的不同跳数或搜索深度聚合信息。在测试或推理时,我们使用我们训练过的系统,通过应用学习过的聚合函数,为完全不可见的节点生成嵌入。在之前关于生成节点嵌入的工作之后,我们设计了一个无监督损失函数,允许GraphSAGE在没有特定任务监督的情况下进行训练。我们还展示了GraphSAGE可以以完全监督的方式进行训练。

方法

前向传播

在这里插入图片描述
算法1描述了以整个图G = (V, E)和所有节点xv的特征(∀V∈V)作为输入的嵌入生成过程。我们将描述如何将其推广到下面的小批量设置。
算法1外部for循环的每一步都是这样进行的:其中k表示外环的当前步骤(搜索深度),hk表示节点在这一步的表示。首先,每个节点v聚合其邻域内节点的表示{hk−1u,∀u∈N(v)},化为一个单一的向量hk−1n (v)。请注意,这个聚合步骤依赖于外部循环的前一次迭代(即k−1)生成的表示,而k = 0(“基本情况”)表示被定义为输入节点特征。在聚集相邻特征向量后,GraphSAGE将节点当前表示hk−1 v与聚集的邻域向量hk−1 N(v)连接起来,该连接向量通过具有非线性激活函数σ的全连接层得到最终的结果hkv。为了便于表示,我们将深度K处的最终输出表示表示为zv。

邻居采样

请注意,在算法1中,我们使用的是节点V所有的邻居向量,这在实际应用中会造成十分严重的训练负担,几乎是不可行的。因此,在本工作中,我们对邻域集进行了统一采样,而不是在算法1中使用全邻域集,来加快我们的训练速度。

反向传播

为了在完全无监督的环境中学习有用的预测表示,我们将一个基于图的损失函数应用于输出表示,zu,∀u∈V,并调整权矩阵,Wk,∀k∈{1,…,K},并通过随机梯度下降法得到聚合函数的参数。基于图形的loss函数鼓励附近的节点有相似的表示,同时强制不同节点的表示是高度不同的:
在这里插入图片描述
其中,v是定长随机游走在u附近共现的节点,σ是s型函数,Pn是一个负抽样分布,Q定义了负抽样的数量。重要的是,与以前的嵌入方法不同,我们输入到这个损失函数的表示是由节点的局部邻域包含的特征生成的,而不是为每个节点训练一个唯一的嵌入(通过嵌入查找)。
对与损失函数的理解如下:zu表示当前节点,zv表示zu附近的节点,我们当然希望zu附近节点的Embedding向量跟自己d Embedding向量的相似度更高,如果通过内积来表示相似度即我们希望zuTzv更大。对于负样本而言则相反。

聚和函数

Mean aggregator

我们的第一个候选聚合函数是均值算子,其中我们简单地取{hk−1u,∀u∈N(v)}中的向量的元素均值。均值聚合器与转换型GCN框架[17]中使用的卷积传播规则几乎等效。特别地,我们可以通过将算法1中的第4行和第5行替换为以下内容来推导出GCN方法的一种归纳变体
在这里插入图片描述
我们称这种改进的基于均值的聚合器为卷积,因为它是局部光谱卷积[17]的粗略线性近似。这个卷积聚合器和我们提出的其他聚合器之间的一个重要区别是,它不执行算法1第5行中的连接操作。卷积聚合器将节点的前一层表示hk−1 v与聚合的邻域向量hk N(v)连接起来。这种连接可以看作是GraphSAGE算法中不同“搜索深度”或“层”之间的“跳过连接”的简单形式,它可以显著提高性能。

LSTM aggregator

我们还研究了基于LSTM体系结构的更复杂的聚合器。与均值聚合器相比,lstm具有表达能力更强的优势。然而,重要的是要注意lstm不是天生对称的(也就是说,它们不是排列不变的),因为它们以顺序的方式处理它们的输入。通过简单地将lstm应用于节点邻居的随机排列,我们使lstm适应于对无序集合进行操作。

Pooling aggregator

我们的最后一个聚合器既对称又可训练。在这种池化方法中,每个邻居的向量通过一个完全连接的神经网络独立反馈;在此转换之后,对相邻集合的信息进行elementwise max-pooling操作:
在这里插入图片描述
其中Max为逐元的Max算子,σ为非线性激活函数。原则上,在最大池之前应用的函数可以是任意深度的多层感知器,但在本工作中,我们关注的是简单的单层架构。直观地说,多层感知器可以被认为是一组函数,用于计算邻居集合中每个节点表示的特征。通过对每个计算特征应用最大池算子,该模型有效地捕获了邻域集的不同方面。还请注意,原则上,任何对称向量函数都可以用来代替最大算子(例如,元素的平均值)。在开发测试中,我们发现max-pooling和mean-pooling之间没有显著差异,因此我们在其余的实验中都集中在max-pooling上。

相关内容

热门资讯

让“体育+”成为赋能地方经济发... 转自:证券日报    ■田鹏    12月20日,浙江省委经济工作会议在杭州召开。浙江省委书记王浩在...
互联网财险昔日明星折戟启示录 转自:北京日报客户端监管一纸罚单,为曾经的互联网财险昔日明星安心财产保险有限责任公司(以下简称“安心...
银行理财年末蓄势待发 转自:北京日报客户端年末岁尾,年终奖成为职场人最期待的“年终大礼”,这笔待入账的资金也成为银行营销重...
高现金分红重塑A股投资生态 (来源:北京商报)有统计数据显示,以股权登记日计算,今年以来A股上市公司现金分红总额达到2.61万亿...
10岁娃长肺结节一年半增大3毫...   □记者 钟起的  本报讯 近日,海南省人民医院胸外科与麻醉科携手,成功为一名10岁的患儿然然(化...