随着社会的发展,大数据越来越广泛的进入到我们的生活当中,大数据的框架结构复杂,但Hadoop以其低成本和高效率的特性赢得了市场的认可。今天我们就来学习一下关于大数据—Hadoop框架结构都有哪些。
Hadoop是什么?
Hadoop是基于JAVA语言开发的Apache开源框架,以分布式文件系统HDFS(HadoopDistributedFileSystem)和MapReduce(GoogleMapReduce的开源实现)为核心的Hadoop,为用户提供了系统底层透明的分布式基础构架。
用户可以利用Hadoop轻松地组织计算机资源,从而搭建自己的分布式计算平台,并且可以充分利用集群的计算和存储能力,完成海量数据的处理。
Hadoop架构以三个核心模块组成:Hadoop通用、HadoopYARN、HadoopHDFS、HadoopMapReduce。那么,我们就来了解一下这三个核心模块:
1、集群资源管理器——YARN
YARN主要包含三大模块:ResourceManager(RM)、NodeManager(NM)、ApplicationMaster(AM)。其中,ResourceManager负责所有资源的监控、分配和管理;ApplicationMaster负责每一个具体应用程序的调度和协调;NodeManager负责每一个节点的维护。对于所有的applications,RM拥有绝对的控制权和对资源的分配权。而每个AM则会和RM协商资源,同时和NodeManager通信来执行和监控task。
2、分布式文件系统——HDFS
HDFS(HadoopDistributedFileSystem)是Hadoop项目的核心子项目,主要负责集群数据的存储与读取,HDFS是一个主/从(Master/Slave)体系结构的分布式文件系统。HDFS支持传统的层次型文件组织结构,用户或者应用程序可以创建目录,然后将文件保存在这些目录中。文件系统名字空间的层次结构和大多数现有的文件系统类似,可以通过文件路径对文件执行创建、读取、更新和删除操作。但是由于分布式存储的性质,它又和传统的文件系统有明显的区别。
3、分布式计算框架——MapReduce
MapReduce框架由每个集群节点的一个单一主控JobTracker和一个从属TaskTracker构成。主控JobTracker负责资源管理,跟踪资源消耗/可用性,调度从属TaskTracker上的作业组件任务,监控这些任务,并重新运行失败任务。从属TaskTracker按照主控JobTracker的指示执行任务,并定期向主控JobTracker提供任务状态信息。
关于大数据Hadoop的框架结构,以上为大家做了简单的介绍,想要学好大数据,这一部分是很重要的。