开源工具大数据平台常见开源工具数据 - 数据

TUhjnbcbe - 2021/5/25 21:20:00

今年白癜风最新治疗方法 http://pf.39.net/bdfyy/

openEA开源周刊

openEA开源社区的官方运营载体

这里每天给大家呈现有价值的开源资讯，欢迎您的来稿与推荐，点击上方蓝色字，加入我们吧！

摘要：Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，MapReduce则为海量的数据提供了计算，

openEA开源社区（ID:openEA）

出品

小夕

编辑

openEA_wiki

来源

Hadoop分布式存储与计算

Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem)，简称HDFS。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，MapReduce则为海量的数据提供了计算，因此，需要重点掌握，除此之外，还需要掌握Hadoop集群、Hadoop集群管理、YARN以及Hadoop高级管理等相关技术与操作!

Hive

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。相对于用Java代码编写MapReduce来说，Hive的优势明显：快速开发，人员成本低，可扩展性（自由扩展集群规模），延展性（支持自定义函数）。十分适合数据仓库的统计分析。对于Hive需掌握其安装、应用及高级操作等。

ZooKeeper

ZooKeeper是一个开源的分布式协调服务，是Hadoop和HBase的重要组件，是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组件服务等，在大数据开发中要掌握ZooKeeper的常用命令及功能的实现方法。

HBase

HBase是一个分布式的、面向列的开源数据库，它不同于一般的关系数据库，更适合于非结构化数据存储的数据库，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，大数据开发需掌握HBase基础知识、应用、架构以及高级用法等。

Redis

Redis是一个Key-Value存储系统，其出现很大程度补偿了Memcached这类Key/Value存储的不足，在部分场合可以对关系数据库起到很好的补充作用，它提供了Java，C/C++，C#，PHP，JavaScript，Perl，Object-C，Python，Ruby，Erlang等客户端，使用很方便，大数据开发需掌握Redis的安装、配置及相关使用方法。

Kafka

Kafka是一种高吞吐量的分布式发布订阅消息系统，其在大数据开发应用上的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。大数据开发需掌握Kafka架构原理及各组件的作用和使用方法及相关功能的实现。

Neo4j

Neo4j是一个高性能的,NoSQL图形数据库，具有处理百万和T级节点和边的大尺度处理网络分析能力。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎，但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j因其嵌入式、高性能、轻量级等优势，越来越受到

数据结构论坛