数据结构论坛

首页 » 分类 » 问答 » 神奇的大数据,你所不知道的事
TUhjnbcbe - 2024/7/6 16:41:00

什么是大数据?

维基百科中是这么定义的:

大数据指没有办法在允许的时间里用常规的软件工具对内容进行抓取、管理和处理的数据集合。

这句话怎么理解呢?

数据量很大,到达PB、EB及以上级别;传统技术已经无法对其进行处理,需要用分布式分析技术来进行运算。PB、EB是什么级别的数据呢?

数量级从小到大分别为KB、MB、GB、TB、PB、EB、ZB、YB、NB、DB。

他们之间的换算关系是什么呢?

它们按照进率(2的十次方)来计算:

如KB=1MB,MB=1GB,GB=1TB,TB=1PB,PB=1EB,EB=1ZB,ZB=1YB,YB=1NB,NB=1DB

大数据具有哪些特点呢?

数据容量大通常来讲,大数据指的是容量在PB级别以上,数据量太小不需要使用大数据分析技术。

有没有量化的方式呢?

当前人类所创造的数据已经达到PB数量级,说过的话已经达到EB数量级。

数据种类多大数据既包括结构化数据也包括非结构化数据。

什么是结构化数据呢?

结构化数据是指数据存储在传统的数据库里,可以用二维表结构来逻辑表达实现的数据。如日志信息、用户信息、账号信息等传统数据库可以存储和处理的数据。

什么是非结构化数据呢?

非结构化数据是相对结构化数据而言,它是指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维表逻辑来表现的数据。如音频、视频、图片、文档、报表等传统数据库不易存储和处理的数据。

处理时间短传统的数据处理方法无法处理PB数量级以上的数据时,利用现在先进的大数据处理技术,几秒钟的时间内就可以处理PB级别的数据,处理速度相当快。

价值密度低待处理的数据中,存在价值的数据密度低。如对数据挖掘了1个小时,但是分析有价值的数据就几秒钟。从海量的数据中,花费大量的时间,获取有价值的数据寥寥无几。

大数据有哪些主流产品呢?

HadoopMapReduce,Hadoop是谷歌的开源云平台,其核心组件包括HDFS、MapReduce和HBase等。MapReduce是Hadoop里的大数据集计算模型,通过MapReduce可以对任务进行分解计算,然后在进行汇总。Map把计算任务分解,交给不同的计算节点计算,然后Reduce再将计算结果汇总,得到最终计算结果。JobTracker接收到计算任务后,把任务分配给各个TaskTracker计算节点进行计算;每个TaskTracker把任务分为Map和Reduce两个步骤进行计算;将计算结果返回给JobTracker;JobTracker和TaskTracker之间通过Heartbeat(心跳线)联系。MSCosmos,Cosmos是微软公司现在最先进的存储和分析大数据集的技术。Cosmos由Cosmos存储、Cosmos运行环境和Scope组成。Cosmos存储是分布式的文件存储系统,主要存储大型文件。微软Cosmos架构分为三层:输入层、执行层和存储层。在输入层,Scope代码被提交给Scope编译器执行。在执行层,计算机任务交由各进程节点进行计算。在存储层,许多数据被复制压缩到数据节点上,数据被合并生成非结构数据流,Cosmos存储管理处理各种数据。ApacheDrill,Drill是谷歌的Dremel的开源实现。Dremel是用来处理大数据,它的前任就是大名鼎鼎的MapReduce。Dremel的处理速度相当快,在几秒钟的时间内可以处理PB级别的数据。Dremel能将处理规模和处理速度很好的解决。Drill架构从上到下分析,客户端提交SQL查询后,首先有一个SQLQueryParser来解析,或者DrQLParser来解析。然后再有逻辑执行计划、查询计划、物理执行计划和最终任务交给执行引擎来完成。这两者还有一个MetadataRepo来存储对应的统计和概要信息。大数据有哪些应用场景呢?

在许多行业,如医疗保健、物流管理、国土安全、电力、金融等各个领域都有巨大的的利用空间,在面对海量的数据时,往往会感觉到束手无策,而这种场景正是大数据的用武之地。通过大数据智能分析,可以自动揭示出海量数据中隐藏的价值信息,为行业发展提供前进动力。

医疗大数据个性化治疗,系统通过收集患者的各方面信息,如电子病历、各项健康指标等数据。通过大数据分析,系统可以给出个性化的医疗建议,给出最可能的疾病及治疗处方。差异化科研,医生根据科研的需要,需要对不同患者使用不同的治疗方案,然后统计分析数据,得出最优治疗方案。在这个统计分析的场景过程中,大数据也可以起到很大的作用。通过大数据分析,系统自动给出最优治疗方案和后续工作建议。电力大数据基建选址分析,在电力基建领域,比如风力发电的选址就可以和气象部门合作,获取气象数据。然后和基建数据相结合,通过云平台利用大数据分析技术来进行基建选址。这样的选址结果安全可靠、性价比高。客户行为分析,客户用电是存在规律的,而利用大数据技术就是要把客户用电的规律给找出来,然后进行输配电的时候,有针对性的加以调整,可以避免电能浪费的情况发生。加强部门协同,从发电、输电、变电、配电、用电和调度各个环节来看,各个环节之间的协同并不是特别顺畅。所以利用大数据技术,可以构建顶层模型,协调各个电力环节之间的交互,对于协同不及时或不到位的地方,系统都会自动提醒。提供经济参考,提供一个城市或一个区域的用电趋势和习惯分析,指导该城市或区域更理性的使用电力,有利于国家经济平稳和可持续发展。金融大数据客户行为分析,通过对持有银行卡的客户消费行为的掌握,可以对客户进行聚类分析。通过大数据分析这一类客户的消费习惯,对于各类客户的个性化需求,采取有针对性的营销措施。金融稽查管理,金融稽查部门可以利用大数据技术进行稽查服务,通过构建稽查模型,系统会自动对各个可疑账户和可疑交易行为进行预警和报警,为金融稽查工作提供数据支持。金融信用分析,信用在金融行业是十分重要的,是借贷的重要依据。而通过大数据技术,可以分析借贷人的账务来往情况以及在社交媒体上的言论等,可以为金融借贷提供更加精准的参考信息。

ok,以上就是神奇的大数据,你所不知道的事!,看完记得转发、点赞和收藏。想了解更多内容,请

1
查看完整版本: 神奇的大数据,你所不知道的事