数据结构论坛

首页 » 分类 » 定义 » 数据基础设施的咏叹调华为给大数据时代一个
TUhjnbcbe - 2023/8/9 21:01:00

玩过《文明》这类城市模拟游戏,或者喜欢看工业主题小说的朋友会知道这样一个概念:一座城市、一个地区想要发展起先进的工业文明,必须建立在足够的基础设施基础上。

过去一百年的工业文明中,最重要的基础设施往往是煤和铁。所以国家和城市想要进入现代化,往往需要完善的煤铁综合体,工业理论上也有个说法叫做“煤铁优先”。从基础建设到万物萌生,这个过程看似枯燥,却隐隐吻合着自然生态的法则与歌咏。

光阴流转,当我们来到信息革命的深水区、智能时代的前夜,是否依旧有“先基础设施,再到万物发芽”这样的逻辑呢?在云、数据和AI开始成为每一座城市、每一家企业,甚至每个家庭的必备品时,我们仔细审视一下这些技术的发展逻辑,可能会发现像电气化时代的“煤铁”一样,今天这个时间节点的基础设施,是数据库与存储。

这个逻辑当然很容易理解,当我们发现数据就像水电石油一样是生产必备能源的时候,只有足够负载能力的数据库和存储系统,才能让数据这种新能源可以被切实储备和调用。反过来,如果数据都存不住、调不出、查不到,那所有数据应用就都归于妄谈。

然而事实上,今天社会各行业普遍面临着数据基建的挑战。为迎接这些挑战,数据基础设施的行业升级也在不断前行当中。

5月15日,华为数据库与存储新产品发布会上,GaussDB分布式数据库和FusionStorage8.0分布式存储系统都进行了重磅新品发布。而它们背后的内涵,是华为正在为数据基建的未来,送上一个智能化的拥抱。

智能时代,政企面前的数据涡旋

让我们先来简单回顾一个问题:为什么我们今天需要源源不断地升级数据库和产品?

最直接的原因在于,随着云计算、大数据技术不断发展,企业的数字化程度不断升高,企业存储和需要利用的数据普遍处在单向增加周期。久而久之,一个数据组成的涡旋开始逼近每一个政企组织。

无论是企业网还是在线业务,每天都在为企业生产大量的结构化数据。这些数据需要被妥善存储,反复查询、应用,并且不断更新。由于结构化数据需要进行不断关联,这让越来越多的企业开始应用能够不断扩展规模的分布式数据库与分布式存储。在电商、金融、制造业等大型企业当中,对分布式数据库和存储的需求尤其明显。

而伴随着原有数据量的不断增长,今天企业还在普遍开展网络化、智能化新业务,这让新产生的数据关系越来越复杂,让数据存储和调用的难度不断增大。大规模结构化数据的存储和调用,一方面考验着数据库和存储系统的可靠性,另一方面也在不断增加企业的数据运维成本,加大人工运维的难度挑战。

总体而论,这个逻辑就是数据在不断增加,数据间的关系在不断复杂,政企用户应用数据的需求在不断深化。三者叠加,导致政企用户,尤其是某些高数据复用型行业,必须要拥抱“一大四高”型数据库与存储设备。

所谓一大四高,就是数据库和存储系统必须能够支持大规模数据,同时高可靠、高安全、高扩展及高性能。

在智能时代,大规模结构化数据的爆炸式增长,就像一条怒吼而来的江河。它既是企业赖以生存发展的宝贵资源,却也可能弄巧成拙变成洪水。于是,摆在大量政企面前的数据涡旋,开始倒逼数据库和存储必须进化。在分布式、高扩展的基础上,这二者开始了一场新的进化路径:智能化。

我们似乎可以把华为刚刚发布的数据库与存储新产品,分别看作是两只手臂。二者合围,一个新的数据产业拥抱就此诞生。

左膀:GaussDB新品,继续分布式数据库的未来之旅

近几年,数据库领域的创新经历了高速的发展,可供企业选择的数据库架构在不断增多。而一般意义上而言,以金融行业为代表的、需要调用大规模结构化数据,且对扩展和安全性有极高要求的行业,正在普遍开始拥抱分布式数据库。这一趋势也在向越来越多的行业蔓延。

GaussDB,是华为创新领先的分布式数据库产品。其最著名的特点,在于它是业界首款支持ARM的分布式数据库。我们知道,近几年ARM产业生态不断发展,越来越多软硬件选择支持ARM处理器。对ARM芯片的兼容,已经悄然成为了数据库产品的主要痛点之一。

而华为的GaussDB,利用ARM多核以及超并行计算技术,构筑了软硬件全栈的数据库能力,完善了ARM产业生态。另一方面,面对越来越复杂的数据库调用需求和智能时代大量任务需要异构计算的现实,GaussDB还可以利用AI芯片、GPU、ARM、NPU等多种算力组合,让数据库获得强大的异构计算能力。在权威标准测试集TPC-DS上,性能比业界提升50%,排名第一。

在此基础之上,为什么说GaussDB是对智能时代的拥抱呢?原因在于其采用了华为独创的AI-Native技术。这项技术的价值在于,华为将机器学习能力加入到了分布式数据库的全生命周期当中。运用“自动驾驶网络”,对数据库进行具备主动学习和理解特征的自我调优、自诊断自愈、自运维。

这个技术创新的核心价值,在于利用AI技术在多个层面的融入,解决了数据规模越来越大、结构越来越复杂之后,带给用户的运维难题。

当数据库体量巨大之后,人工运维将是非常复杂,高消耗、低效率的一件事。而AI-Native的加入,则让企业的运维成本呈现出指数级下降。

有数据显示,在交易、分析和混合负载场景下,华为基于深度强化学习的自调优算法,能够调优性能把业界平均提升60%以上。

这些产品的发布,极大丰富了GaussDB的产品形态,应对了全行业日益复杂的数据库产品需求。

右臂:FusionStorage8.0带来极致存储体验

在数据爆发的今天,越来越多政企用户开始抵达集中式存储的瓶颈。结构化数据的不断延展,导致企业随时需要扩展存储空间,同时保证存储延展的可靠性和兼容性。

另一方面,大数据的规模化应用和智能化的加深,也导致用户开始需要高效率的存储体验,以确保存储无损和高效存入调出。

为此,FusionStorage8.0通过重定义存储架构,为用户带来了存储体验的新高度。

首先在核心性能上,FusionStorage8.0采用华为ARM-based处理器鲲鹏加速,使IOPS提升了20%,结合华为AIFabric无损网络,时延降低了15%。其在SPC-1的性能测试中,单节点性能达到了16.8万IOPS以及1ms以内时延,能够适应企业核心业务存储的需求。

存储产品的另一个痛点,在于多类存储之间存在不可兼容性。一旦企业数据复杂化增加,就会让存储成本和工作复杂性极大提高。为此,FusionStorage8.0打破了架构壁垒,创新实现一套系统同时支持块、文件、对象、HDFS协议,也就是说1套存储能够支持4类主要存储能力,让用户的多场景业务统一存储成为可能。

而与GaussDB一样,FusionStorage新产品同样加持了华为在AI技术方面的智能化能力。FusionStorage8.0版本,通过云上AI训练和本地AI芯片的加持,将智能管理贯穿业务使用的全生命周期。

比如业务上线前对存储资源进行智能规划,使用过程中通过机器学习识别能力,对业务进行风险预判及故障定位等等,智能运维管理覆盖业务全流程,从而得以整体性地大幅提升存储效率。

高效能、跨结构和智能化,让FusionStorage8.0从多个维度开始追逐“极致存储”的称号。反过来看,我们可以发现华为存储与数据库产品挑战新台阶的过程,事实上也代表着数据产品的发展趋势:用智能能力,拥抱智能时代。

用智能能力拥抱数据,用更好的数据产品拥抱智能时代

毫无疑问,未来是属于智能时代的。AI为代表的智能技术将渗透入每一个企业与组织,在无数个角落生成生产力的进步。然而这个宏伟的时代,今天必须以数据产品的可靠、可用、安全为前提。

但是如何让数据产品达到这些目标呢?在华为看来,这就需要智能技术的渗透,以及多种ICT技术的融合与突破创新。

从GaussDB和FusionStorage的发展轨迹来看,今天数据库和存储想要满足新的产业需求,必须经历三项面向智能时代的普遍升级。只有如此才能应对日益复杂的数据挑战,为产业用户从多方面消解迎面而来的“数据高压”。

1、数据洪流面前的百渠能力。大数据时代,分布式数据存储成为主流。分布式数据结构,从本质上来说就是将汹涌而来的数据洪水,分散到千百水渠中。以疏代堵,分压数据洪流。而这一过程中,需要数据极简不断进化抗压能力、数据吞吐能力以及安全性能。而这需要考验存储、计算、网络、AI等多个技术领域的积累和实力,利用技术协同优势打造数据产品的创新解决方案。比如在FusionStorage8.0中,就集成了华为在计算、网络和存储多领域的芯片和算法积累。

2、智能落地,是减轻企业数据负担的有效方式。在今天,数据的吞吐与储存,正在变成一件异常复杂的工作。其中人力无法触及的领域正在增加,而想要舒缓用户在数据领域的成本,智能化就是必不可少的路径。我们可以看到,智能化的自动驾驶网络,正在从方方面面进入华为的ICT产品中。这条全新的赛道,正在决定数据基建在新产业周期中的成败。

3、架构打通之路刻不容缓。数据领域的另一个命题,是异构计算和多类型存储正在成为大量企业新的需求。而在智能化业务发展之际,这个需求只能是正向提升的。因此打通原本封闭的各计算与存储架构,实现数据基础设施的“一以贯之,化繁为简”,也是这一领域的核心进化方向。

本着这三条路径,华为在数据基建领域,用两款智能化新产品作为手臂,给予数据产业以一个深情的拥抱。这个拥抱的含义或许在于,即使是最基本的数据基础设施,在今天的产业革命面前,也可以是一首复杂精巧的咏叹调:发现需求,克服障碍,勇敢创新,这些音符布满其中,让每一项技术创新都充满韵味。

1
查看完整版本: 数据基础设施的咏叹调华为给大数据时代一个