数据结构论坛

首页 » 分类 » 常识 » 深度图神经网络到底深不深
TUhjnbcbe - 2024/10/12 16:26:00

今年,图深度学习在机器学习领域的最热话题上一直居高不下。然而,那些习惯于想象具有数十甚至上百层卷积神经网络才算有“深度”的人,看到图“深度”学习最多只用几层,一定会很失望。“深度图神经网络”是用词不当吗?我们是否解释一下这个经典之词来看看“深度”是否对图学习是不利的?

训练深度图神经网络非常困难。除了在深层神经结构中观察到的常见困境,如反向传播中的梯度消失和由于大量参数导致的过拟合,还有一些特定于图的问题。其中一个问题是过渡平滑,由于应用了多个图卷积层,节点特征趋于收敛到同一个向量并变得几乎不可分辨的现象[1]。这一行为在图神经网络模型中[2、3]被首先观察到,类似于低通过滤器。另一个现象是瓶颈,“过度挤压”多到指数级的相邻数据到固定大小向量而产生的结果[4]。

最近大家一直致力于解决GNN中深度的问题,以期获得更好的性能,同时也希望避免用术语“深度学习”提到GNN,而GNN只有两层的尴尬局面。典型方法可以分成两大类。首先,正则化技术,例如,随机删边技术DropEdge[5]、节点特征之间的成对距离归一化PairNorm或者节点均值和方差归一化NodeNorm。其次,体系结构的变化包括各种类型的残差链接,如跳跃连接和仿射残差链接[9]。这些技术用来训练具有数十层的深度图神经网络(这是一项困难甚至不可能完成的壮举),但是并没有显示出显著的成果。更糟糕的是,使用深度架构带来的常见结果是性能衰减。下表([7])显示了一个典型的实验评估,比较了节点分类任务中不同深度的图神经网络:

图中展示了深度图神经网络体系在CoauthorsCS节点分类任务中的典型结果。基线(有残差链接的GCN)随着深度增加表现欠佳,可以看到从88.18%戏剧性的降到了39.71%。使用NodeNorm技术的架构在深度增加后可以持续性的表现两号。不管怎样,当深度增加表现就会下降(虽然不明显,从89.53%降至87.40%)。总的来说,深度达到64层的结构表现出的最佳结果(87.40%)低于简单基线(88.18%)。同时,观察到Nodenorm正则化提升了浅层2层结构的性能(从88.18%升至89.52%)。表转载自[7](所示为每类5个标签的情况;本文研究的其他设置也表现出类似的行为)。类似的结果在[5]和其他几篇论文中也有展示。

从这张表中可以看出,很难将深层结构带来的优势与训练这种神经网络所需的“技巧”分开。实际上,NodeNorm在上面的例子中也只改进了一个仅有两层的浅层结构,从而达到了最佳性能。因此,目前还不清楚具有其他更深层次的图神经网络是否表现更好。

这些结果显然与网格数据结构上的深度学习的传统设置形成了鲜明对比,极深网络结构[10,11]带来了性能上的突破,并在当今广泛使用。在下面,我将尝试提供一些思路,帮助回答这篇文章标题中提出的挑战性问题。(我自己也还没有一个明确的答案。)

图的结构。由于网格是特殊的图形,因此也有一些受益深度的图像范例。除了网格之外,表示分子、点云[12]或网格[9]等结构的“几何”图似乎也受益于深层结构。为什么这样的图与Cora、PubMed或CoauthorsCS等常用于评价图神经网络的引文网络有如此大的不同?区别之一是后者类似于低直径的“小世界”网络,在这种网络中,人们可以在几个跳跃中从任何其他节点到达任何节点。因此,仅仅几个卷积层的感受野就已经覆盖了整个图[13],因此添加更多的层对到达远程节点没有帮助。另一方面,在计算机视觉中,感受野呈多项式增长,需要许多层来产生一个能捕捉图像中物体上下文的感受野[14]。

在小世界图(顶部)中,从另一个节点到达任何节点只需要几个跳跃。结果,邻域的数目(还有与此相应的图卷积过滤器的感受野)以指数级的速度增长。在这个例子中,从红色节点到每个节点只需要两个跳跃(不同的颜色表示从红色节点开始将到达相应节点的层)。另一方面,在网格(底部),感受野的增长是多项式的,因此需要更多的层来达到相同的感受野大小。

在邻域指数增长的图中,如上图所示,会出现瓶颈现象:太多相邻信息必须压缩成单个节点的特征向量。结果,消息无法传播,性能受到影响。

范围大小问题。一个稍有不同但相关的特征是看需要大范围信息还是小范围信息。例如,在社交网络中,预测通常只依赖于来自节点本地邻域的小范围信息,而不会通过添加大范围信息来改善。因此,这些任务可以由浅层GNN来完成。另一方面,分子图通常需要大范围信息,因为分子的化学性质可能取决于其对侧原子的组合[15]。深层GNN可能需要利用这些大范围交互作用。然而,如果图的结构导致感受野呈指数增长,瓶颈现象会阻止大范围信息的有效传播,这解释了为什么深层模型的性能没有提高[4]。

理论局限性。除了更大的接受域外,深层结构在机器视觉问题中的一个关键优势是它们能够从简单的信息中组合出复杂的特征。将CNNs从人脸图像中学习到的特征可视化,显示出从简单的几何图元到整个面部结构逐渐复杂的特征,表明传说中的“祖母神经元”比神话更真实。这样的组合对于图形来说似乎是不可能完成的任务,例如,无论神经网络有多深,都无法把边组成三角形[16]。另一方面,研究表明,在没有一定的最小深度的情况下,计算一些图特征,例如使用信息传递网络的图形矩,是不可能的[17]。总的来说,我们目前仍缺乏对图像特征计算的了解,不清楚对哪些图像特征可以用浅层GNN表示,哪些需要深层模型,哪些根本无法计算。

通过卷积神经网络学习获得的关于人脸图像特征的例子。注意,当进入更深层次时,特征如何逐渐变得更加复杂(从简单的几何图元到面部器官再到整个面部)。图片来自MatthewStewart的一篇博客文章。

深度与丰富度。与底层网格是固定的机器视觉不同,在图深度学习中,图像的结构确实很重要,并且需要考虑在内。有可能设计更精细的信息传递机制来解释复杂的高阶信息,例如标准GNNs无法发现的motif[18]或子结构计数[19]。与使用简单的1个跳跃的卷积的深层结构不同,人们可以选择具有更丰富的多跳跃过滤器的浅层网络。我们最近的一篇关于可伸缩类初始图神经网络(SIGN)的论文通过使用带有多个预计算过滤器的单层线性图卷积结构,将这一思想发挥到了极致。我们展示的性能可以与更复杂的模型相比,只是时间复杂度的一小部分[20]。有趣的是,机器视觉社区走了一条相反的道路:早期的浅层CNN架构,像AlexNet这样带有大型(高达11×11)的过滤器,被带有小型(通常为3×3)过滤器的非常深层的结构所取代。

评价。最后但同样重要的是,图神经网络的主要评估方法受到了OleksandrShchur和StephanGünnemann[21]小组的同事的严厉批评,他们提请注意常用基准的缺陷,并表明如果在公平的环境下进行评估,简单模型的表现与更复杂的模型不相上下。我们在深层体系结构中观察到的一些现象,例如性能随深度而降低,可能只是源于对小数据集的过拟合。新的OpenGraphBenchmark解决了其中的一些问题,为大型图像提供了严格的训练和测试数据切片。我认为我们需要做精心设计的具体实验,以便更好地理解深度在图深度学习中是否有用或何时有用。

参考文献:

[1]Moreprecisely,over-smoothingmakesnodefeaturevectorcollapseintoasubspace,seeK.OonoandT.Suzuki,Graphneuralnetworksexponentiallylooseexpressivepowerfornodeclassification().arXiv:.,whichprovidesasymptoticanalysisusingdynamicsystemsformalist.

[2]Q.Li,Z.Han,X.-M.Wu,Deeperinsightsintographconvolutionalnetworksforsemi-supervisedlearning().Proc.AAAI.DrawstheanalogybetweentheGCNmodelandLaplaciansmoothingandpointstotheover-smoothingphenomenon.

[3]H.NtandT.Maehara,Revisitinggraphneuralnetworks:Allwehaveislow-passfilters().arXiv:..UsesspectralanalysisongraphstoanswerwhenGCNsperformwell.

[4]U.AlonandE.Yahav,Onthebottleneckofgraphneuralnetworksanditspracticalimplications().arXiv:..Identifiedtheover-squashingphenomenoningraphneuralnetworks,whichissimilartooneobservedinsequentialrecurrentmodels.

[5]Y.Rongetal.DropEdge:Towardsdeepgraphconvolutionalnetworksonnodeclassification().InProc.ICLR.AnideasimilartoDropOutwherearandomsubsetofedgesisusedduringtraining.

[6]L.ZhaoandL.Akoglu.PairNorm:TacklingoversmoothinginGNNs().Proc.ICLR.Proposesnormalisingthesumofpairwisedistancesbetweennodefeaturesinordertopreventthemcollapsingintoasinglepoint.

[7]K.Zhouetal.Effectivetrainingstrategiesfordeepgraphneuralnetworks().arXiv:..

[8]K.Xuetal.,Representationlearningongraphswithjumpingknowledgenetworks().Proc.ICML.

[9]S.Gongetal.Geometricallyprincipledconnectionsingraphneuralnetworks().Proc.CVPR.

[10]C.Szegedyetal.Goingdeeperwithconvolutions().Proc.CVPR.

[11]K.Heetal.,Deepresiduallearningforimagerecognition().Proc.CVPR.

[12]G.Lietal.DeepGCNs:CanGCNsgoasdeepasCNNs?().Proc.ICCV.Showstheadvantagesofdepthforgeometricpoint-clouddata.

[13]AlonandYahavrefertothecasewhenanodeisunabletoreceiveinformationfromnodesthatarefartherawaythanthenumberoflayersas“under-reaching”.ThisphenomenonwasfirstpointedoutbyPBarcelóetal.,Thelogicalexpressivenessofgraphneuralnetworks().Proc.ICLR.AlonandYahavshowexperimentallyontheproblemofchemicalpropertiespredictioninmoleculargraphs(usingGNNswithmorelayersthanthediameterofthegraphs)thatthesourceofpoorperformanceisnotunder-reachingbutover-squashing.

[14]AndréAraujoandco-authorshaveanexcellentblogpostaboutreceptivefieldsinconvolutionalneuralnetworks.AsCNNmodelsevolvedin

1
查看完整版本: 深度图神经网络到底深不深