雷锋网AI开发者按:8月10日至16日,IJCAI在中国澳门隆重召开,其中14日至16日为IndustryDay环节,是大会专为业界思想碰撞与交流而设的重磅环节,邀请了众多来自国内外的AI企业与机构代表前来做大会报告。
当中,京东集团副总裁、京东数字科技首席数据科学家、京东城市总裁郑宇做了场题为《BuildingIntelligentCitieswithBigDataandAI》的大会报告,在本次报告中,他强调了智能城市领域数据的特殊性,他表示,时空数据拥有不一样的结构与属性,意味着需要使用不一样的数据管理与人工智能算法来进行应对,而不能单纯直接套用已有针对语音、图像和文本的算法。
大会报告结束后,AI开发者对郑宇进行了专访,请其解读针对大会报告中的最新研究成果,并趁机聊了聊京东智能城市研究院的最新近况。以下为采访全文。
郑宇独家解读《BuildingIntelligentCitieswithBigDataandAI》大会报告
简单来说,城市的数据种类很多,所以让大家感觉有点纷繁复杂,按以前的方法,大家就会来一个数据建一个表格,并未对数据的结构与规律进行分析。
所以我们准备做这么一个统筹的事情。
首先,我们针对数据的结构以及关联的时空属性,做了一个分类方法上的设计。
按照结构区分,可分为:
点数据网络数据按照关联的时空属性区分,可分为三种:
空间静态时间静态空间静态时间动态时空动态将这三种时空属性乘以两种结构,我们就会获得六种数据的分类方式。
什么是时空静态的点数据?我们会说像个车站或宾馆,它的位置是不变的;宾馆的属性,比如有多少层楼,房间有多大,同样也是固定的。所以它既是时空静态数据,也是点数据。什么是空间静态时间动态数据?传感器,比如我们把一个空气质量监测站点建在一个地方,建好后它的位置是不变的,但它的读数却每个小时都在变化着。什么是时空动态的数据?比如你给滴滴发请求时,可能13:10也同样有个人在给滴滴发请求,然后13:20又有另一个人在同个地方给滴滴发请求,这也意味着它的时间和空间是一直在变化的,甚至包括还有人使用摩拜扫码。这些都属于时空变化的点数据。除此之外,这三类时空属性的数据还有对应的网络数据。
路网其实是一个静态结构,路一旦修好后,它的结构是不变的,它属于空间静态时间静态的网络结构。可一旦我们往马路上叠加交通流量,它立马就变成一个空间静态时间动态的网络结构。那什么属于时空都动态的网络数据呢?比如固定轨迹,即是一系列点的结合,它同样也是一个网络结构。换而言之,这六种数据结构覆盖了一座城市涉及的所有数据类型,我们可以用这6种结构来表示所有数据,或者用它的组合来表达所有类型。
那么数据的类型不一样,从时空属性上来说又存在哪些差异?
在时间和空间方面,它们都拥有专属的距离与空间层次。从距离上说,比如两个点之间的距离、两边之和大于第三边三角不等式以及地理学第一定律;从空间上说,包括一个城市、不同区域、不同街道、不同小区。处在不同的层次,它所代表的含义是不一样的,那么你在不同层次上的表达,对于运算的体现与帮助也是有差别的。
从时间上分析的话,它的属性包括临近性、周期性以及趋势性三大块。
所谓邻近性,即是相邻的两个时间点,它的读数可能会比较接近,比如离得不远的两个身体,所感受到的气温都会比较接近;另外我们也看到时空数据存在着周期性,比如今早8点的交通流量很可能与昨天早上8点的交通流量是很相似的,而今早8点的交通流量则与今天中午12点的交通流量特别不一样,这就打破了之前我们所说的邻近规律,这个时候我们就可以看下一个属性;趋势性,这其实是一种预判,比如可能随着气温变得越来越冷,我们起床起得越来越晚,然后出门的时间也就越来越晚,因此早高峰也就出现得越来越晚。
所以说周期性并非恒定不变的,而是拥有一个趋势性的上扬或下降,我想表达的就是这个意思。
在明确好数据模型后,考虑到数据的结构与属性不一样,因此我们得有专门的管理方法。
演讲中我主要谈三点,分别是效率问题、版权保护问题和安全问题。
先说效率问题,我们现在有一个大系统,可以用更少的资源,以更快的速度来处理数据,特别是轨迹数据管理这一块。同时它已兼容已有的云计算平台,这一点其实很重要,说明我们无需从头建立平台,只要改变一下存储格式,就能有效提升轨迹数据的查询效率至一百倍,索引和数据和存储的大小也减少了七倍。这些都是跟最好的方法进行对比。
过去我们并不重视时空数据的版权保护问题,比如你把时空数据拷贝一份拿出来卖,然后别人再拷贝一份拿去卖,你也无从得知,因为运转单都一样。高阶一点的,会随意帮你做点修改,然后告诉你这个数据是属于我的。一旦缺乏这种保护机制,未来就很难形成一个数据融合共享机制。
解决方案方面,我们的一个具体想法是让数据带有密钥,首先将空间化成区域,再把轨迹放到空间里,利用空间将轨迹切成几段,然后每一段里面再按照另外一个密钥参数切成很多时间小段,接着每一小段里会隐藏一个亿比特的信息。隐藏的方式是什么?我们的方法是算这一段轨迹的质心,而这个质心有个地理学的计算定律。当我怀疑别人在出售我的数据时,我就把它拿来并用算法进行提取,如果连续好几个提取出来都是我的信息,那就基本可以肯定是我的秘钥做的。原理有点像数字水印,但却是符合轨迹数据的。
国内业界有几个正在思考这件事情的人,至于学界思考这件事情的人基本上等于零。业界有这个需求,却不知道应该怎么做;学界的人并不怎么在乎这件事情,因为数据分享对他们而言就是一件免费的事情。现在我们经常说要推数据交易,搞大数据交易平台,可你缺乏这一块技术的话,你说谁敢卖,对吧?
第三点是安全性,因为有些数据的机密性太强,是不允许进行分享的,比如说结婚登记数据、社保信息、犯罪记录等等。我们的解决方案是通过数字网关技术将各个平台的内部联到一起,在不泄漏信息的情况下,把不可逆的中间结果拿来互换一番,最终解决各自的问题。
关于深度学习应该怎么与时空数据相结合,我这里总结了三大挑战:
第一个,怎么做数据变换。城市的好多数据拿来后,我们都是没法直接使用的,毕竟它们不是简单的图片,不然可以直接放在CNN或者RNN上搞定。在这种情况下,我们应该怎么做数据变换?
第二,怎么将时空属性给encode进去?如果完全不encode,只把它当成一个数据来做的话,周期性、趋势性就会反映不出来,你的结果就不会十分准确。
第三,数据融合。怎么把不尽相同的数据融合在一起做决策?
基于这三者挑战,我们把现在可以使用深度学习能力进行解决的城市应用场景,变成了多种不同的时空应用场景。
比如说城市里有些稀疏的站点,在这之前我们预测这些站点的读数应该是多少,这是一类问题。
第二类问题,我把城市转换变成均匀的格子,希望每个格子都能进行预测。
第三点就是它可能并非均匀的网格,而是由不规则的网格所组成,在这种前提下应该怎么做预测?
第四点是做区域与区域之间的转移预测,这是相对于单点预测而言的,就是从A到B有多少人,从B到C又有多少人。
第五个就是我定义一个路线,然后想预测路线的时间、油耗等属于动态预测层面的东西。
AI开发者:通过今日的分享,您想传达的核心观点是什么?
郑宇:我今日的分享核心紧紧围绕时空数据,从数据表达、数据管理、数据分析到数据挖掘,提出了一整套不一样的方法论,有别于过去针对文本与图像的处理方案。其实任何一套数据,都应该拥有专属的一套方法理论,从建模、表达、管理、存储管理到挖掘分析一整套流程下来。
AI开发者:城市数据整体来说可以分为几种类型?
郑宇:大概可以分为三大类。一类是以图像为代表的非结构化数据,它的存储与挖掘方法都是比较传统的;第二类是以表格为存储形式的政务数据,比如一个人的姓、收入等等,都属于表格结构化的数据;第三类就是我强调的时空数据,这一类会比较特别,既不属于前面两类,也没有太多人去