图神经网络(GNN)是在机器学习中利用图结构数据的强大工具。图是灵活的数据结构,可以对许多不同类型的关系进行建模,并已经用于各种应用,如交通预测、谣言和假新闻检测、疾病传播建模以及了解分子为何产生气味等。
图表可以对许多不同类型的数据之间的关系进行建模,包括网页(左)、社交关系(中)或分子(右)
作为机器学习(ML)的标准,GNN假设训练样本是随机均匀选择的(即,是一个独立且同分布的或“IID”样本)。使用标准学术数据集很容易做到这一点,这些数据集专为研究分析而创建,因此每个节点都已标记。然而,在许多现实世界的场景中,数据没有标签,并且标记数据可能是一个繁重的过程,涉及熟练的人类评估者,这使得标记所有节点变得困难。此外,有偏差的训练数据是一个常见问题,因为选择节点进行标记的行为通常不是IID。例如,有时使用固定启发式方法来选择数据子集(共享某些特征)进行标记,而其他时候,人类分析师使用复杂的领域知识单独选择数据项进行标记。
本地化训练数据是图结构数据中表现出的典型非IID偏差。左图显示了一个橙色节点并扩展到它周围的节点。相反,用于标记节点的IID训练样本均匀分布,如右侧的采样过程所示。
为了量化训练存在的偏差量,可以使用测量两个不同概率分布之间偏移量的方法,其中偏移量可以被认为是偏差量。随着这种转变规模的扩大,机器学习模型更难以从有偏的训练集中进行泛化。这种情况可能会严重损害泛化性——在学术数据集上,Google观察到域转移导致性能下降15-20%(由F1分数衡量)。
在NeurIPS上发表的“Shift-RobustGNNs:Over