作者
王晔
编辑
青暮
目前,我国新的城市治理体系基本形成。与此同时,伴随着经济社会的变革、大数据、互联网的发展以及人工智能、云计算的兴起,城市治理面临着新要求、新挑战的同时,也实现了跨越式的发展。
那么技术的进步为城市治理带来了哪些进展?又面临怎样的瓶颈呢?
不久前,在CCAI大数据智能学术论坛上,过敏意教授分享了题为“面向城市治理的图智能分析框架”的主题报告,分四部分介绍了城市治理方面的内容。
过敏意欧洲科学院外籍院士、上海交通大学讲席教授、IEEE/CCFFellow
过敏意教授是欧洲科学院外籍院士,上海交通大学致远讲席教授,电子信息与电气工程学院计算机学科负责人,国家杰出青年基金获得者,也是教育部创新团队学术带头人,“”计划首席科学家。
他长期从事并行与分布式系统和云计算的研究,发表学术论文多篇,著述英文著作4部,主持多项国家自然基金重点项目以及国家和省部级项目,曾获得国家技术发明二等奖和省部级科技一等奖等多项奖项。
AI科技评论对过敏意教授在CCAI大数据智能学术论坛上的报告做了不改变原意的整理:
1城市治理与图结构
我们国家的城市化率现在已经达到了60%以上,随着城市发展得越来越快,“十四五”计划提出了80%以上的城市要进行城市精细化治理,实现智慧城市建设。智慧城市建设牵涉到方方面面,从计算机科学的角度来看最重要的是大数据技术、人工智能技术,以及云计算技术的结合,这是支撑城市化治理的基石。
目前为止,我们团队在“十三五”期间的“计划”中,主要面向城市精细化治理的三元数据的融合及协同计算。我们在做城市化治理时,以数据为中心,原来是人、机、物三元空间的数据。到现在,随着城市的发展,数据越来越大,城市的精细化治理也不断发展。
城市精细化治理发展分为四个阶段:
1.从原来的物能说话,以数字化、网络化为代表的城市管理,即智慧城市的初级形态。我们借助网络实现连接使得物与物之间能够互联起来。
2.到后来2.0版,就是物物对话。不仅是互联网,还有物联网了。从物联网在城市治理中的作用来看,运用系统化、程序化、标准化的手段,使城市各单元精确、高效、协同和持续发展,实现万物互联。
3.到了3.0版,即人物协同。以人为本,充分发挥人机协同的作用,通过对城市大数据价值的挖掘,使城市各部分功能优化运行,呈现的决策能够更精准,最大程度地服务市民。
4.4.0时代,就进入了城市大脑阶段,即让城市自身学会思考,能够自主整合、引导和分配城市管理资源,具有自我优化与进化能力,真正智慧化,这是最高版的城市精细化治理。
为了真正让城市学会思考,实现城市治理智慧化,打造智慧、智能城市,我们正在实践城市大脑的理念。“十三五”期间,我们和阿里及杭州的“城云科技“合作,做了城市的交通管理、智慧停车等工作。
我们将人、机、物三元空间的物理世界、人类社会、信息社会得到的数据进行融合。结果发现越来越多的数据,呈现出图化的结构,其实是用图的形式表示出来的。关于这个问题我们以前都没有注意到,也没有处理,但这样以后很多数据都不能够精准处理。因此,在城市化治理中,图化治理场景是一个关键挑战。
五个不同领域的图化治理场景:
(1)公共安全分析。首先,在传感器网络方面,传感器网络的互联结构本身就是一张图。然后多个传感器形成了传感器之间的互联的图的分析,比如说一个传感器到另一个传感器的路由,实际上就是图分析的问题。其次,比如说遥感监控,现在我们做了人脸识别,人脸识别原来是抓特征,现在我们新的方法可以从图结构中分析人脸特征,这又是一个图分析的问题。
(2)生态环境监测。年波兰气象部门从个不同的传感器节点对臭氧层进行了监控。其中的很多问题也是图结构的问题,比如一个节点到另一个节点之间臭氧的影响,以及对整个的布局来说,会不会产生时间上和空间上的最佳布局等。还有城市楼宇能耗城市化管控。城市楼宇之间,比如高层和低层电能的管控,这也是一个用图来表示的问题,因此很多优化都离不开城市的图化分析、查询等等。
(3)医疗健康服务。生命健康基因图谱的分析,也是图的重构、图的迭代、图的分析。还有人脑网络的功能区域分析,现在脑电采集实际上都可以从图的结构里面反映出来,所以有大量的个性化的图的分析。
(4)交通出行指导。道路出行中最短路径算法本身就是一个图问题。但是增加了手机数据、路网数据及工具监控数据等,那么这些图就变得越来越复杂。还有充电智能调度,现在我们新能源的车越来越多,新能源的充电桩以及充电桩的位置等都是图的查询和分析问题。
(5)城市大脑运维。城市大脑的基础设施有云计算、大数据、大数据平台。这一平台现在用到了云原生的技术,云原生的技术就要用到微服务。微服务里面就有很多调度的问题,实际上微服务本身的联结就是一张图结构。要提升系统性能,就要进行图的分析和精细化查询。还有硬件资源管理,捕捉资源瓶颈,用户动态图的系统变化等,这些都是图的结构、分解和图的综合等,实际上都可以归纳到图的特征的问题。
因此目前对图的分析和图的管理越来越迫切,现在我们国家以及世界上很多科研机构公司等都研发了一些面向图计算的工具,但还是遇到了问题。
2应对挑战的城市大数据协同计算框架
面对大规模结构化的城市治理任务,现有大数据计算平台存在收敛慢、吞吐低问题,影响城市治理决策。
(1)收敛慢:传统大数据框架如Spark/MapReduce不适应图的不规则访问模式。
开发环境未针对图应用定制化设计,难以高效优质地进行执行阶段划分
我们以前“十三五”期间做的事情,基本上都是用的传统spark、MapReduce等大数据框架来做的,但是这些问题如果要弄到图里面预处理,比如说图要进行预置、分拆等等,用传统框架就不适用了,它会非常慢,要循环往复来做。
(2)吞吐低:现有主流图计算框架如PowerGraph/Ligra不支持高并发请求。
上述框架大都忽略了多用户请求执行共存的问题
现有主流图计算框架如PowerGraph/Ligra等框架都是单机、单用户的图计算结构,虽然克服了spark、Mapreduce等的缺点,它可以图分析、图分解、图查询等,但是如果面向城市治理这些就不适用了,因为城市治理是高并发的。也就是说这些框架对高并发的图的问题,都不太适用,所以就会遇到吞吐根本做不了城市大脑支撑的问题。
要解决上述问题就要做城市大数据协同计算框架。图计算将成为未来城市大数据协同计算框架中的关键一环,能够支撑大规模高并发场景的图智能分析尤其重要。
城市大数据协同计算框架
我们以前做了很多Mapreduce、PowerGraph的处理,但是还缺乏图请求调度、图结构分析、图数据分割、图查询、图生成等面向图计算的工具。所以我们就一定要把这些工具给数据融合、数据感知开发出来。如果没有图分析、图查询、图管理、图结构分析等,是没有办法支撑整个城市大数据协同平台的。所以我们要在有限的资源下,处理高并发多元图数据分析的请求,对单用户的图计算框架实行高并发多用户的图计算框架的转变。
那么如何高效执行不同用户提交的多元化图计算请求呢?
3并发图计算的复杂性及其瓶颈
并发图计算可以在有限资源下高效并发处理多元化图分析请求,或将成为新一代云计算中最主要的一类智能服务。它的三个核心步骤是并发图程序构建、并发图数据加载、并发图执行调度。
目前,我们要做的事情是实现可扩展和可持续。
扩展性需求:随着图规模和图计算服务的激增,需解决平台峰值负载问题。
可持续性需求:支撑高并发场景的图计算更符合集约高效、低碳环保的要求。
高并发图的图分析、图查询也延续到了一些人工智能算法,比如说现在做人工智能的技术处理,如果讲大模型,比如说GBT-亿个参数跑一次训练,相当于一辆用油汽车跑70万公里,那么这对可持续发展、低碳环保非常不利。所以说图计算也是这样的,如果不断地进行图的迭代往复,如果算法不好,那么可扩展、可持续都不行,所以现在各大公司和云商像华为和阿里都对此非常重视,都自己开发了这方面的工具对图进行分析。我们有一个课题做国家重点研发计划现在也是做的图处理这方面的事情。
但是并发图计算不同于如今的线上数据密集型计算(如MapReduce),更不同于以往的高性能数值计算。
对并发图计算来讲,请求间和请求内的协同优化变得更重要
比如做并行计算时,以往的传统的并行计算比较规则,我从一个处理到下一个CPU的处理,通信是比较规则的。这边处理好以后,下一个通信基本上模式是一样的。但是并发图不一样,图的计算模式是不规则的,这个到下一个的并发处理有可能是A节点到B节点,下一个可能是C节点到D节点,模式是完全不一样的不规则的。
所以其中通信、优化和它的并发都和原来的高性能计算完全不同,因此比较具有挑战性。与数据密集型计算不一样,和高性能计算也不一样,即与以计算和数据为中心的都不一样,我们现在要强调以图为中心的计算。
并发图计算主要面临的瓶颈主要有以下三个。
(1)用户图计算请求主要有图管理、图分析。在图管理方面,已有较多并发性优化工作,比如说数据仓库、图查询等。但对图分析方面,比如管理查询不到结果以后怎么样能够对放到基层单元弄出决策来,这方面还缺乏研究,易成为性能瓶颈,所以说我们要做这方面的事情。
(2)并发图分析任务之间的不规则干扰,多个图算法并发执行时,会在时间与空间两个维度对处理器和内存等资源进行抢占,且干扰方式不规则,优化空间很大。
比如用户的要求各不相同,用户提出的请求也各不相同。这些图请求比如Pagerank、Kmeans等这些都是不一样的,那么具体到图的分割查询和内存的放置都可以以不同方式来进行模块放置,调度也不一样。所以这里的优化空间非常大,一个是复杂,一个是不规则的干扰。
(3)并发图分析与图查询任务间的协同。
请求还存在对同一块图数据的访问依赖问题,进一步提升并发图查询的效率对于释放并发图分析性能也至关重要。比如说有的要查询边,有的查询点,有的要查询整张图。对这些分割的任务,也就是并发来的任务,对一些子图的分割和综合又是一个非常复杂的问题。
4对并发图分析的初期探索
(一)工业界项目概述
现在工业界对于图的分析、图的并发、图的查询非常重视,但是图拓扑属性分析现在还不多。Apache上目前的开源图计算系统主要以图数据库管理为主,面向图拓扑属性分析的并发图管理系统还处于萌芽阶段。这是我们调查下来整个ApacheGraphSystems的列表,大概就是这几十个:
(二)学术界研究总览
早期基本上