系统平台(Hadoop.CDH.HDP)
监控管理(сM.Hue,Ambari,Dr.ElephantGanglia,ZabbixEagle)
文件系统(HDFSGPFSCeph,GlusterFS.Swift.BeeGFSAlluxio)
资源调度(YARN,Mesos,)
协调框架(ZooKeeper.Etcd.Consul)
数据存储(HBase,Cassandra,ScyllaDB.MongoDB,Accumulo.Redis.lgnite.Arrow.Geode.CouchDB.Kudu,CarbonData)
数据处理(MapReduce,SparkFlinkStorm,Tez.Samza.Apex,Beam,Heron)
查询分析(Hive.SparkSQLPresto.KylinImpala.Druid,ElasticSearch,HAWQ.Lucene,Solr.Phoenix)
数据收集(Fume,Filebeat,LogstashChukwa)
数据交换(Sqoop.Kettie.DataX.NiFI)
消息系统(Pulsar.KafkaRocketMQ.ActiveMQ.RabbitMQ)
任务调度(AzkabanOozie.Airfliow)
数据治理(Ranger.Sentry.Atlas
可视化(Kibana.D3KECharts)
系统平台
Hadoop:ApacheHadoop是个开源的分布式系统基础框架,离线数据的分布式存储和计算的解决方案。Hadoop最早起源于Nutch,Nutch基于年、年谷歌发表的两篇论文分布式文件系统GFS和分布式计算框架MapReduce的开源实现HDFS和MapReduce.年推出,年1月成为Apache顶级项目。Hadoop分布式文件系统(HDFS)是革命性的大改进,它将服务器与普通硬盘驱动器结合,并将它们转变为能够由Java应用程序兼容并行I0的分布式存储系统。Hadoop作为数据分布式处理系统的典型代表,形了成完整的生态圈,已经成为事实上的大数据标准,开源大数据目前已经成为互联网企业的基础设施。Hadoop主要包含分布式存储
HDFS.离线计算引擎MapRduce.资源调度ApacheYARN三部分。Hadoop2.0引I入了ApacheYARN作为资源母度。Hadoop3.0以后的版本对MR做了大量优化,增加了基于内存计算模型,提高了计算效率。比较菁及的稳定版本是2x,目前最新版本为3.2.0.
相关网站:ApacheHadoop
CDH:ClouderaCDH是Cloudera基于稳定版Hadoop及相关项目最成型的发行版本。CDH中提供的各种组件能让用户在一个可视化的U界面中方便地管理,配置和监控Hadoop以及其它所有相关组件。Cloudera成立于年,在年Cloudera发行了第一个Hadoop集成版本CDH,到目前为止,因为其易用、易于升级,安装组件和减少维护成本等特性,成为企业部智最广泛的大数据系统。在Hadoop的世界中,规模最大、知名度最高的公司就是Cloudera.CDH提供强大的部署、管理和监控工具,通过ClouderaManager的WebUI安装和管理集群,并且通过Hue浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据。随着云计算的发展,催生了亚马逊AWS等巨头,他们也会提供托管的Hadoop/Spark服务,如AWS的ElasticMapReduce(EMR),不仅集成在云平台内部而且成本也更低。而对象存储服务,如AWSS3,AzureBlob存储OGoogle云端存储,从成本上来说,也低于Hadoop的存储成本。但是,对于重视数据资产的企业来说依旧需要Cloudera产品。Cloudera也直致力于向云计算转型。年10月Cloudera合并Hortonworks,表示新的公司将成为行业领导者,为客户提供更好的平台,创建世界首个企业数据云,并将在云计算、物联网和容器技术等领域继续发力。这对Hadoop的发展方向是一个打击,但也意味着Hadoop的标准将更加统-,将有更多资金投入新技术的研究。CDH目前最新版本为6.2.0.
相关网站:ClouderaCDH
HDP:HDP是Hortonworks在基于Hadoop的发行版本。年Hortonworks上市,是企业级全球数据管理平台,同时也是服务和解决方室的领先供应向,为强企业中的多半提供“任何类型数据”的可操作信息,已经成为世界第二大数据服务商。Hortonworks是第家使用了ApacheHCatalog的元数据服务特性的提供商。Hortonworks为入门提供了一个非常好的,易于使用的沙盒。Hortonworks开发了很多增强特性并提交至核心主干,这使得ApacheHadoop能够在包括WIndowsServerlOWindowsAzure在内的MicrosftWindows平台上本地运行,相比于CDH只能运行在Lnux系统中。使用Ambarl提供WebuIt理集群。HDP好处是完全开源,可以在其基础上进行二二次开发,但对于技术比较薄弱中小型企业来说稳性没有CDH高。年10月Cloudera台井Hortonworks,方向暂时来知。HDP目前最新版本为3.1.
相关网站:HortonworksHDP
集群管理与监控
CloderaManager:CM是Cloudera开发的一个基于Web的用于部要和理CDH生群的软件。它具有集群自动化安装、中心化理,集群监控报警等功能,大大节管集群部署时间,降低了运维成本,极大的提高集群管理的效率。(非开源)
相关网站:CloderaManager
Hue;Hue是由Cloudera贡献给开源社区的HadoopUI系统(HadoopUserExperience),最早是由ClouderaDesktop演化而来,它是基于PythonWeb框架Django实现的。Hue是个可快速开发和调试Hadoop生态系统各种应用的一个基于浏览器的图形化用户接口,使用Hue可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduceJob,执行Hive的SQL语旬,浏宽HBase数据库、运行Sqoop,编写0ozle工作流等等大量工作,Hue是Hadoop平台大数据分析开发的可视化分析利器,
网站:Hue
Ambar;ApacheAmbar是Hortonworks贡献给Apache基金会的Hadoop平台管理软件,年11月20日成为Apache顶级项目,它具备Hadoop组件的安装,管理,运维等基本功能,提供WebUI进行可视化的集群管理简化了大数据平台的安装,使用难度。
相关网站:ApacheAmbari
Dr.Elephant:Dr.elephant是款对HadoopSpark任务进行性能监控和调优的工具,它由LinkedIn的团队于年开源,开源之前已经在公司运行使用2年。它能自动采集作业的度量指标并分析,然后以简单明了的方式展现出来。Dr.elephant的设计思想是通过作业分析结果来指导开发者进行作业调优,从而提升开发者效率和集群资源的利用率。
相关网址:Dr.Elephant
Ganglia:Ganglia是UCBerkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点Ganglia的核心包含gmond.gmetad以及一个Web前端。主要是用来监控系统性能,如:cpu、mem.硬盘利用率,1/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到重要作用。
相关网站:Ganglia
Zabbix:Zabbix是个的基于Web界面的开源的分布式企业级监控解决方室。于年zabbix1.0正式发布,由AlexeiVladishev团队维护更新,ZabbixSIA提供支持。Zabbx通过C/S模式采集数据,通过B/S模式在web端展示和配置。它能够实时监控从成千上万台服务器、虚拟机和网络设备中收集到的数以百万计的指标Zabbix能监视各种网络参数,保证服务器系统的安全运营,并提供灵活的通知机制以让系统理员快速定位/解决存在的各种问题。还能够利用存储数据提供杰出的报表及实时的图形化数据处理,实现对监控主机7x24小时集中监控。
相关网站:Zabbix
Eagle:ApacheEagle是一个开源监视和警报解决方寓,用于智能实时地识别大数据平台上的安全和性能问a,例如ApacheHadoop,ApacheSpark等。Eagle起源于eBay,最早用于解决大规模Hadoop集群的监控问题,于年10月提交始Apache孵化器,年12月21日成为Apache顶级项目。Eagle主要包括:高可扩展高可体馆、低延时、动态协同等特点,支持数据行为实时监控,能立即监测出对敏感数据的访问或恶意的操作并立即采取应对的措施。Eale提供-清效分布式的流式策略引擎。具有高实时,可伸宿易扩展,交互友好等特点,同时集成机器学习对用户行为建立Prfle以实现实时智能或时地保护Hadoop生态系统中大数据的安全。
相关网站:ApacheEagle
HDFS:HDFS(HadoopDistibutedFileSystem)分布式文件系统,是分布式计算中数据存储管理的基础。是HadoopCore项目的核心子项目,HDFS是基于流数据模式C访间和处理超大文件的需求而开发的,效仿谷歌文件系统(GF5),数据在相同节点上以复制的方式进行存确以实现将数据合并计算的目的。HDFS是一个高度容错性的系统,适合部署在廉价的机别上。HDFS能提供高吞吐量的数期访问,非常适合大规模数据集上的应用。HDFS放宽了部分POSIX约束,来实现流式读取文件系统数据的目的。它有很多的优点,但也存在有一些缺虑,包话:不适合低延迟数据访问,无法高效存储大量小文件,不支持多用户写入及任意情改文件。
相关网站;HadoopHDFS
GPFS:GPFS(GeneralParallelFileSystem)是IBM推出的基于Hadoop的并行分布式集群文件系统。1BM认为GPFS不共享集群版本比HDFS快得多,因为它在内核级别中运行,而不是像HDFS在操作系统中运行,GPFS是一个共享因盘的文件系统,生群内的所有节点可以并行地访问所有共享磁盘,并通过分布式的Token管理机制和条带化技术来管理和优化节虑的访问。GPFS支持完整的Posix文件系统语义。GPFS的应用范围非常广泛,从多节点文件共享服务,实时多媒体处理,到大型的高性肥计算集群,我们都可以看到GPFS的优界表现,GPFS在这些应用重面都表现出了非常出色的性能和高可用性。
相关网站:GPFS
Ceph:Ceph是一个开源的统一的分布式存储系统,是高性能的并行文件系统。Ceph量加州大学SantaCruz分校的SageWel(DreamHost的联合创她人)专为博土论文设计的新代自由软件分布式文件系统。年毕业之后,Sage开始全职投入到Ceph开发之中,使其能透用于生产环境。Ceph的主要目标是设计成基于POSDX的没有单点故障的分布式文件系统,使数据能容情和无确的复制。年3月,LinusTorvaldsHCephclente并到内核26.34中,它基于CRUSH算法,没有中心节虑,可以无限扩展。Ceph提供三种存储方式分别是对象存储,块存储和文件系统。在虚拟化模域里,比较常用到的是Ceph的块设备存储。Ceph以其稳定,高可用、可旷国的转性。那的开理云计算管理系统OpenStack的东风。迅速成为迅速成为最热门的开源分布式存储系统。Ceph是目前最火的分布式存储软件,Ceph开源存储项目已经成为全球众多海量存储项目的主要选择。Ceph现在是云计算、虚拟机部署的最火开源存储解决方室,是私有云事实上的标准。
相关网站:Ceph,Ceph中文网
GlusterFS:GlusterFS(GNUClusterFileSystem)是种全对称的开源分布式文件系统,所谓全对称是指GlusterFS采用弹性哈希算法,没有中心节点,所有节点全部平等。GlusterFS配置方便,稳定性好,可轻松达到PB级容量,数千个节点。年被红帽收购,之后推出了基于GlusterFS的RedHatStorageServer,增加了针对KVM的许多特性,可用作为KVM存储image存储集群,也可以为LB或HA提供存储。
相关网站:GlusterFS
Swift:Swift最初是由Rackspace公司开发的高可用分布式对象存储服务。于年贡献给OpenStack开源社区作为其最初的核心子项目之一,为其Nova子项目提供虚机镜像存储服务。Swif构筑在比较便有的标准硬件存储基础设施之上,无需采用RAID(磁盘冗余阵列),通过在软件层面引入一致性散列技术和数据冗余性,牺牲定程度的数据致性来达到高可用性和可伸缩性,支持多租户模式、容器和对象读写操作,适合解决互联网的应用场景下非结构化数据存储问题。Swif是种比较通用的存储解决方案,能够可靠地存储数量非常多的大小不的文件。
相关网站:OpenStackSwift
BeeGFS:BeeGFS(原FhGFS)既是一个网络文件系统也是个并行文件系统。是由FraunhoferInstitute为工业数学计算而设计开发,由于在欧洲和美国的中小型HPC系统性能表现奥好,在年改名注册为BeeGFS并受到科研和商业的广泛应用。客户城通过网络与存储服务器进行通信(具有TCP/IP或任何具有RDMA功能的互连,aInfiniBand,RoCEOmni-Path,支持nativeverbs接口),通过BeeGFS添加更多的服务器,其容量和性能被聚台在单个命名空间中,BeeGFS是道循GPL的“免费开源”产品,文件系统没有许可证费用。由ThinkParQ提供专业支持,系统集成向可以为客户构建使用BeeGFS的解决方案。