如何超越图论,探索大数据中的复杂联系?原创StephenOrnes集智俱乐部收录于话题#复杂科学前沿,个
导语
图论是模拟现实世界网络结构的有效工具。但在寻找大数据之间的联系时,图论有其局限性,许多复杂系统不能只用成对的连接来表示。要如何扩展图论,揭示其无法捕捉到的高阶相互作用呢?科学家们发展出超图,甚至引入拓扑学、马尔可夫链、张量等数学工具,来探索广阔的数据世界。
研究领域:网络,图论,超图,拓扑,马尔可夫链,张量
StephenOrnes
作者
梁金
译者
刘培源
审校
邓一雪
编辑
1.图论是不够的
数学中通常用网络来讨论连接问题,网络由顶点和连接顶点的边组成。至少从18世纪开始,网络就成为模拟现实世界的有效方法。但几十年前,巨大数据集的出现迫使研究人员扩展他们的工具箱,同时也为他们提供了庞大的沙盒来应用新的数学见解。科罗拉多大学博尔德分校的计算机科学家JoshGrochow说,从那以后,随着研究人员发展出新的网络模型,可以在大数据的噪音中找到复杂的结构和信号,出现了一个令人兴奋的快速增长期。
不过,Grochow和越来越多的研究人员发现,在寻找大数据之间的联系时,图论有其局限性。图将每一种关系表示为二元组(dyad)或成对的交互。然而,许多复杂系统不能只用成对的连接来表示。例如,要建立一个关于养育关系的网络模型时,显然,每个父母都与孩子有联系,但养育关系并不像图论可能模拟的那样,仅仅是这两种联系的总和。模拟类似同辈压力的现象时,也会遇到同样的问题。
“有很多直观的模型。只有在数据中已经有了群体(group)的情况下,同辈压力对社会动力学的影响才能被捕捉到。”德国亚琛工业大学的LeonieNeuh?user说道。但二元网络无法捕捉到群体的影响。
数学家和计算机科学家使用“高阶相互作用”(higher-orderinteraction)这个术语,来描述群体动力学(而非二元连接)影响个体行为的复杂方式。从量子力学中的纠缠,到疾病在群体中的传播轨迹,这类数学现象随处可见。例如,如果一个药理学家想要建立一个关于药物间相互作用的模型[1],图论可能会显示两种药物如何相互作用——但如果是3种、4种药物呢?
虽然探索这些相互作用的工具并非新鲜事物,但直到最近几年,高维数据集才成为发现的引擎,给数学家和网络科学家带来新想法。这些努力已经产生了有趣的结果,关于图的极限和扩展图论的可能性。
Grochow说,“现在我们知道网络只是它的影子。”如果一个数据集有复杂的底层结构,那么将其建模为一个图,可能只会揭示出整个图景的一个有限投影。
太平洋西北国家实验室(PacificNorthwestNationalLaboratory)的数学家EmiliePurvine说:“我们意识到,从数学的角度来看,用来研究事物的数据结构与从数据中看到的现象不太相符。”
这就是为什么数学家、计算机科学家和其他研究人员越来越