机器学习图神经网络GNN的解决方 - 数据

TUhjnbcbe - 2024/5/8 16:56:00

图神经网络(GNN)是在机器学习中利用图结构数据的强大工具。图是灵活的数据结构，可以对许多不同类型的关系进行建模，并已经用于各种应用，如交通预测、谣言和假新闻检测、疾病传播建模以及了解分子为何产生气味等。

图表可以对许多不同类型的数据之间的关系进行建模，包括网页（左）、社交关系（中）或分子（右）

作为机器学习(ML)的标准，GNN假设训练样本是随机均匀选择的（即，是一个独立且同分布的或“IID”样本）。使用标准学术数据集很容易做到这一点，这些数据集专为研究分析而创建，因此每个节点都已标记。然而，在许多现实世界的场景中，数据没有标签，并且标记数据可能是一个繁重的过程，涉及熟练的人类评估者，这使得标记所有节点变得困难。此外，有偏差的训练数据是一个常见问题，因为选择节点进行标记的行为通常不是IID。例如，有时使用固定启发式方法来选择数据子集（共享某些特征）进行标记，而其他时候，人类分析师使用复杂的领域知识单独选择数据项进行标记。

本地化训练数据是图结构数据中表现出的典型非IID偏差。左图显示了一个橙色节点并扩展到它周围的节点。相反，用于标记节点的IID训练样本均匀分布，如右侧的采样过程所示。

为了量化训练存在的偏差量，可以使用测量两个不同概率分布之间偏移量的方法，其中偏移量可以被认为是偏差量。随着这种转变规模的扩大，机器学习模型更难以从有偏的训练集中进行泛化。这种情况可能会严重损害泛化性——在学术数据集上，Google观察到域转移导致性能下降15-20%（由F1分数衡量）。

在NeurIPS上发表的“Shift-RobustGNNs:Over

数据结构论坛