数据结构论坛

注册

 

发新话题 回复该主题

关于分布式存储,其实是这样的 [复制链接]

1#
请问盖百霖的副作用有哪些 https://m-mip.39.net/baidianfeng/mipso_6172774.html

分布式存储突然火热起来。可能很多人提到分布式存储,第一反应就是挖矿需要的。其实在很多领域,都需要分布式存储。今天我们就来聊聊,什么是分布式存储。

01什么是分布式存储?

传统的网络存储系统是采用集中的存储服务器存放所有数据。随着数据的增加,系统可靠性与安全性的弊端日趋显现,无法满足大规模的存储应用需要。分布式存储系统是将数据分散存储在多台独立的设备上。采用可扩展的系统结构,利用多台存储服务器分担存储负荷、定位存储信息,不但提高了系统的可靠性、可用性和存取效率,还易于扩展。

02分布式平台的优势又有哪些?

分布式平台是将数据存储、数据分析和计算等构建在多个主机构成的集群上的软件平台。有些数据问题本身的规模超出了单机系统容量或计算能力,所以需要利用多台计算机来协同解决,这就是分布式平台。

相对于单机构成系统,分布式平台有以下优点:

1.资源可共享:整个环境中数据资源和计算资源都可共享。

2.用户透明性:分布式系统展现的是一个统一的整体。

3.高可靠:容错机制能确保数据计算和数据存储的高可靠性。

4.高度灵活性:灵活兼容市场上主流厂商的硬件产品;

5.性价比较高。

03分布式文件系统应用在哪些场景系统性能的标准又是什么?

在分布式存储技术中,每一种存储技术都有各自的特点和应用场景,目前分布式文件系统主要用于大数据的存储场景。带宽(吞吐量)和每秒I/O操作数(IOPS)是衡量存储性能的两大指标。在实际应用中,想要得到更“高”的IOPS,就需要尽可能减少每次数据存取请求涉及到的盘数;如果希望吞吐更“大”(高带宽),就需要聚合更多个盘的带宽。因此,不同的应用场景、不同的IO模型、不同的空间密度和性能需求,需要不同的分布式文件存储系统。

市场上主要的分布式存储类型都有哪些又应该怎样区分?

分布式存储根据其类型,可分为块存储,对象存储和文件存储。块存储适合客户端使用

典型使用场景有docker容器、虚拟机远程挂载磁盘存储分配、日志存储等。

对象存储适合更新变动较少的数据,没有目录结构,不能直接打开/修改文件。

典型使用场景有图片存储、视频存储、文件、软件安装包、归档数据等。

文件存储适合多客户端有目录结构数据。

典型应用场景有日志存储、多个用户有目录结构的文件存储共享。

04分布式存储系统为什么要具备应用感知?

为了让存储可以根据应用的特点是实现对存储性能的精确动态调优,可以从计算任务调度入手,控制计算任务的调度执行,让计算在开始执行之前给存储发送提示性信息,例如告诉存储:亲,我是IOPS密集型哦,我是元数据密集型哦,我是带宽密集型哦等等,以此协助存储系统预判此次任务的IO模型,做出决策选择和定向优化。例如,高性能计算、AI训练和大数据分析对应的数据访问模式是不同的,存储系统在不同的时间段,不同的配置区域为应用的不同计算阶段提供尽可能高的存取效率和并行能力。“应用感知”理念的引入使分布式存储系统变得可控、可视、可变,为存储赋予了自我调节性能、感知应用、主动适配上层业务场景的能力。

05海量数据是大数据么?

企业中急剧膨胀的海量非结构化数据,往往是单一类型的数据急剧膨胀,占据了大量的存储空间,但基本上由于类型单一内涵不够丰富我们只能把它们算做“胖数据”,而不是“大数据”。相反,关于这些胖数据的数据,也就是我们讲的数据特征或元数据才有可能是真正的“大数据”。比如,这些数据的产生时间、处理时间、处理用的模块和参数、数据的所有人、产生对象、数据的含义和解读、关联关系等等。如果企业利用适当的工具,从容地应对这些海量数据,那么这个企业就会有很好的数据资产;反之,如果无法应对,则企业得到的是严重的数据负担。

06大数据具有哪些特征呢?

对于“大数据”(Bigdata),研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。根据维基百科的定义,大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。大数据具有“6V+1C”特征。即数据体量大(Volume),类型多样化(Variety),处理速度快(Velocity),应用价值大而价值密度低(Value),数据获取与发送的方式自由灵活(Vender),准确性(Veracity)以及处理和分析难度非常大(Complexity)。数据要在“储”之上,进行“数据感知”,感知存储在系统里的海量非结构化数据的特征,这是数据管理的第一步;进而通过对数据的管理、分析和计算,让企业数据变得有序,成为真正的数据资产。

07何为元数据?

元数据(Metadata)是描述数据的数据。元数据按用途不同分为技术元数据、业务元数据和管理元数据。技术元数据(TechnicalMetadata):描述数据系统中技术领域相关概念、关系和规则的数据,包括数据平台内对象和数据结构的定义、源数据到目的数据的映射、数据转换的描述等。业务元数据(BusinessMetadata):描述数据系统中业务领域相关概念、关系和规则的数据,包括业务术语、信息分类、指标、统计口径等。管理元数据(ManagementMetadata):描述数据系统中管理领域相关概念、关系、规则的数据,主要包括人员角色、岗位职责、管理流程等信息。

这是关于数据的更高层次抽象,是对数据的数据的描述。

在企业生产的海量数据中,准确的元数据是必不可少的,也是迅速有效地对数据去粗取精的关键。没有元数据,数据就毫无意义,只不过是一堆数字或文字而已。

分享 转发
TOP
发新话题 回复该主题