刚入行要低调,懂不懂?低调!
——电影《疯狂的石头》
小伙伴们,大家好!
过完国庆节,大家是不是还想继续给祖国母亲庆祝生日呢?
我:“谁说的?我就很爱工作,因为——”
又到了数说系列的环节,从本期开始进入大数据的技术环节。
说到技术,很多人觉得晦涩难懂,但是今天我们要说的是围绕技术的一些有关话题,技术细节本身并不多过多讨论。
一大数据的定义
关于什么是“大数据”,业界至今还没有一个统一的定义,但是其含义基本一致,例如:
研究机构Gartner给出了这样的定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
根据维基百科的定义:大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
二大数据的特征
年麦塔集团(METAGroup)分析师莱尼在一份报告中对大数据提出了“3D数据管理”的观点,即认为大数据将往高速、多样、海量3个方向发展,提出了3个特性:高速性(Velocity)、多样化(Variety)、规模化(Volume),统称3V。
在莱尼的理论基础上,国际数据公司(IDC)再加上了价值(Value)的维度,主要强调大数据的总体价值大,但价值密度低。于是,规模性(Volume)、多样性(Varity)、高速性(Velocity)和价值性(Value),合称大数据的“4V”,4V也是广受认可的大数据特性。
后来阿姆斯特丹大学又提出了大数据体系架构框架的5V特征:在原有4V基础上增加了真实性(Veracity)特征,包括数据可信性、真伪性、来源和信誉、有效性和可审计性等特性。
大数据5V特征,引自《大数据标准化白皮书》
三大数据的起源
一般来说,人们通常认为大数据起源于谷歌公司发表的三篇论文。
–TheGoogleFileSystem
——阐述如何存储大数据文件
–MapReduce:SimplifiedDataProcessingonLargeClusters
——阐述如何处理大数据
–Bigtable:ADistributedStorageSystemforStructuredData
——阐述如何存储结构化的大数据
但大数据技术中最为人熟知的,还是Hadoop。这里,就不得不提到DougCutting(道格·卡丁),他先领导创立了Apache的项目Lucene,然后Lucene又衍生出子项目Nutch,Nutch又衍生了子项目Hadoop。Lucene是一个功能全面的文本搜索和查询库,Nutch目标就是要视图以Lucene为核心建立一个完整的搜索引擎,并且能达到提到Google商业搜索引擎的目标。DougCutting看到了谷歌的论文的价值并带领他的团队便实现了这个框架,并将Nutch移植上去,于是Nutch的可扩展性得到极大的提高。后来DougCutting逐渐认识到急需要成立一个专门的项目来充实这上述技术,于是就诞生了Hadoop。
四Hadoop生态圈的壮大
最初Hadoop还不是很出名,用一句流行的话说,就是“非常低调”。但是年时,Hadoop赢得1TB排序基准评估第一名,在那次活动上,除了Cutting所在的雅虎公司参加外,Facebook、Linkin和Twitter的人也都出席了,因此引起了这些大公司的注意,后来越来越多的大型互联网公司加入进来,形成了庞大的Hadoop生态圈。
Hadoop初期的生态圈
有些小伙伴可能注意到了,接下来的这张图上的产品已经不完全是Apache软件基金会下的开源产品了。没错,随着Hadoop的影响力越来越大,很多传统软件厂商,如Oracle、SAP、IBM等,也加强了对Hadoop的支持。
Hadoop最新的生态圈
五Hadoop的特点
让我们回到Hadoop产品本身,Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性:
Hadoop的核心组件
Hadoop1.X版本包括HadoopDistributedFileSystem(分布式文件系统,HDFS)和HadoopMapReduce(分布式计算模型)两个最重要的核心组件,它们为Hadoop用户提供了系统底层细节透明的分布式基础架构。?
Hadoop2.X及以上版本有加入了YARN(YetAnotherResourceNegotiator,另一种资源协调者),它是一种新的Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
有了HDFS、MapReduce、YARN这三剑客的帮助,人们处理起巨大量的数据起来,犹如把大象塞进冰箱那么容易。
时间不早了,小编我又该敲(QU)代(BAN)码(ZHUAN)了,欲知Hadoop内部组件的工作原理,请期待《大话大数据技术之Hadoop》下集。
作者简介汪晋,某软件公司数据业务部项目总监,曾先后在联想集团、神华集团工作,长期从事数据仓库、智能分析和大数据项目的建设,熟悉能源行业(煤炭、电力、化工)和制造行业。
END
热门文章
数说?大数据项目建设误区
数说(之二)·谈谈大数据产品的选型
数说(之三)·数据指标体系建立和应用步骤探讨
我所经历的大数据平台发展史(上篇)-非互联网时代数据模型
我所经历的大数据平台发展史(上篇)-非互联网时代数据平台的发展
我所经历的大数据平台发展史(下篇)-互联网时代数据模型
我所经历的大数据平台发展史(下篇)-互联网时代数据平台发展
长按