近两年,图数据库成为最热门的数据库品类之一,图数据库(Graphdatabase)并非指存储图片的数据库,而是以图这种数据结构存储和查询数据。与关系型数据库的表不同,图数据库用点和边表达数据之间的关系,图天然表达关系的特性在数据智能时代有了用武之地,广泛应用在金融行业反欺诈、反洗钱等场景。
国产化浪潮下,不少企业机构将图数据库国产化提上了日程,有的已经落地实践。不过相较于传统的关系型数据库,图数据库市场依然很新,方兴未艾的图数据库是一个怎样的江湖?企业选型时会
图数据库可以分为原生图数据库和非原生图数据库。原生图数据库以Neo4j为代表,在存储层针对性做了优化,使得存储会比较便于遍历查询,最终能够实现比较深度遍历;而非原生的图数据库可能会以NoSQL数据库如HBase作为存储层。与原生图对应的是多模图数据库,以ArangoDB为代表;按照图模型可以大概分为属性图和RDF(俗称三元组),目前业界更多使用属性图,因为它比较能实际反映业务场景,与网络相关的地方更多会使用RDF,Neo4j和星环科技StellarDB都是属性图;业界主流图查询语言是Neo4j开源的openCypher和Apache的Gremlin,前者为声明式语言,后者为命令式语言,目前图查询语言还没有形成统一的标准(GQL相关草案可能今年推出)。
国内左右开始出现图数据库产品,不过,Neo4j以其活跃的社区和广泛的流行度成为很多企业的入门级图数据库产品。也是在年,某券商从Neo4j入门开始接触图数据库,“那个时候对图有个基本的认识,就觉得好像图是万能的很强大。”他们表示说。
年开始,该券商基于Neo4j社区版逐步构建了企业知识图谱、反洗钱知识图谱和元数据知识图谱,构建APOC算法库、路径计算、社团发现等算法,在集团客户画像、风险事件报告、科创板关联发现、可疑交易发现等业务场景落地。比如集团客户画像,主要是用来识别统一客户;科创板关联发现,发现利益输送关系提醒业务等。
但随着数据量的不断增加以及管理要求的不断提高,原来的图数据库在性能等方面出现瓶颈,给企业带来很大的管理和成本压力。
国产化替代,图数据库选型
据悉,随着图谱在该券商深入应用,Neo4j社区版出现了一些问题,一是不支持多实例应用,每个应用都要单独服务器部署,不便于管理;二是对计算资源有限制,所用Neo4j社区版限制一台机器,最多使用4个内核,在10亿级数据量下数据处理能力出现瓶颈,此外社区版没有副本概念,不能满足高可用需求;三是缺乏统一管理需求,无法做到统一资源管理权限管理。虽然Neo4j4.0以上版本支持分布式集群,也升级了一些功能。但是结合国产化浪潮,在国家提出的2+8安全管控体系中,金融业首当其冲,金融信创大潮为银行、证券等金融机构提出了自主可控需求,打造安全可控体系。该券商决定采购国产化一站式图谱平台作为信创落地,最终实现自主可控。
该券商整个国产化替代经历了明确需求、密集调研、邀请招标、服务落地四个阶段。
年4月,项目正式启动,该券商对于此次图数据库选型设置了准入条件,核心要求符合信创要求,产品有自主研发能力,并在功能上满足公司要求。
信创方面,在自主研发能力基础上重点需要满足四方面要求,一是公司要有信创资质认证,是信创工作委员会成员单位;二是产品通过信通院测试和认证,包括在服务器、操作系统上兼容性认证,以及获得基础能力专项测评证书;三是满足国产操作系统兼容,产品要有在同型号国产操作系统上运行的成功案例,获得兼容性验证,有适配证明;四是满足国产服务器兼容,产品要有在同款国产服务器(CPU)上运行的成功案例,获得兼容性验证,有适配证明。
功能方面,首先是图查询语言,能够兼容原Neo4j的openCypher语言,该券商认为openCypher有望成为业界标准;二是选用原生图数据库,认为原生图在关系遍历和路径搜索中有较好性能,且要求自研点、边存储技术,不能是依赖第三方闭源或开源的非自主可控存储系统,比如基于HBase开发的存储便不符合要求;三是满足多图管理,且支持隔离,相互不干扰;四是要求提供丰富的图算法,且都有自主知识产权;五是高性能计算要求能够支持12度以上的关联查询,实现秒级返回;五是管理工具方面,要求有统一的管理工具,比如对集群运行的资源,CPU进行监控,提供操作审计返回;六是批量数据加载要足够快,支持任务调度等。
经过POC测试以及招标评选,最终星环科技方案脱颖而出,以其图数据库StellarDB和知识图谱平台SophonKG打造国产化图谱解决方案。
为什么是星环StellarDB?
图数据库作为一个新兴数据库类别,国内有不少玩家,包括一些互联网巨头都有布局。为什是StellarDB胜出?
StellarDB能够胜出,既有时代给予的国产化机遇,但是打铁还需自身硬,更重要的是产品自身足够强大。在该券商看来,StellarDB是一款自主研发多年的分布式图数据库,已经通过信通院《图数据库基础能力评测》测试,并拥有多项专利,在国产适配方面,可兼容银河麒麟、中标麒麟等国产操作系统。券商也比较看重其强大的特性,存储引擎和计算引擎都是自主研发,比如存储引擎是分布式、多分区,支持多图管理,多副本默认每个图三副本,可以支持高可用,索引、缓存能提高查询效率,支持万亿数据;计算引擎分布式运行,支持10层以上深度分析,支持30种图算法等;图查询语言支持openCypher并做了优化,同时也支持SQL语言;企业级功能中的集群/任务监控可以监控整个CPU、内存、网络I/O等情况,也可以监控单个任务执行情况,还包括数据权限认证、数据加密等。再加上与其知识图谱平台SophonKG组成的一站式解决方案,更能满足券商一站式图谱平台需求。
经过与星环科技的深入合作,该券商国产化图谱平台建设完成,效果显著。软硬件实现了国产化,能够满足自主可控要求;图谱平台从单机分应用部署变成分布式集群的一站式图谱平台;新平台也拥有了便捷管理工具;算法性能明显提升,集团算法性能提升4倍,科创板关联算法性能提升2倍;由原来的依赖第三方调度工具到现在的统一调度以及API接口管理;由原来依赖社区,到现在星环科技提供全天候服务等。“我们基本上实现了鸟枪换大炮的一个过程。”
总结与展望
展望未来,该券商表示受外部环境等多种因素影响,国产化是大势所趋,金融业会继续在自主可控要求下继续推进国产化进程。他认为国产图数据库大部分是在年后兴起,目前还不是很成熟,处在中原逐鹿阶段,而以星环科技为代表的国内厂商已经取得技术突破,正紧抓时代机遇。
具体到自身,该券商未来会继续深入推进国产化替代,打造业务便捷的图谱平台,他们强调场景化应用是关键,由于图数据库是比较新的技术,更需要技术去引领业务去构建一些场景。未来希望将图谱与SophonKG提供的AI相结合,打造一站式图计算和机器学习融合平台,最终实现以技术驱动业务转型创新,打造券商行业国产化标杆。