Hadoop生态圈的核心组件有哪些?

发布时间：2020年10月23日 06:24:55 来源：环球青藤点击量：4427

【摘要】Hadoop是现在最流行的大数据分布式基础架构，其实现了很多大数据相关的核心功能，并且支持大量的核心项目。那么，今天小编就给大家盘点一下Hadoop生态圈核心组件，感兴趣的小伙伴快来学习下吧！

Hbase:一个基于列的存储的分布式数据库，其数据模型为Key-Value模式，便于扩展并且查询高效。

Hive：Hive是Hadoop提供的一个数据仓库，也提供数据库部分功能。其最大的作用还是简化了编写MapReduce程序的过程，只需要利用SQL语句即可完成MapReduce计算。

Cassandra：Cassandra也是基于列存储的，但是其数据模型为column-based，即一列就是一条数据。它最大的优点就是有多个Master，不会出现单点故障。

Ambari：Ambari是可视化的检测工具，其底层是基于Web平台的。它可以监控Hadoop，Hive、HBase、Pig等绝大多数工具。并且还能将MapReduce等程序的功能可视化，在线对比其性能。

Avro：Avro是一个将数据序列化的工具，它有着丰富的数据结构类型，提供二进制数据等。并且还支持一点点动态语言。

Chukwa：Chukwa是一个数据收集工具，其监控的对象为大型分布式系统。在节点数量巨大的集群上，就需要用Chukwa来收集集群的相关信息，分析其健康状态。

Spark：Spark是一种更加快速的Hadoop计算引擎，它的运算速度比MapReduce快近百倍。相对的其对内存的要求也更高，因为它是基于内存的。Spark对机器学习也有非常良好的支持。

Mahout：Mahout是Hadoop提供的算法库，经常被用于数据挖掘和机器学习。

Pig：Pig一种过程语言，其主要作用有两点，一是用来对数据进行预处理和转换，以便MapReduce能更好地运行。二是用来处理数据流。

Tez：Tez是一个比较新的分布式执行框架，建立于Yarn的基础之上，功能上与MapReduce有类似之处。目前Hive、pig等框架都在慢慢的采用Tez而抛弃MapReduce了。

Zookeeper:Zookeeper主要负责分布式应用的协作，集群之间的交流和通讯都依靠Zookeeper完成。

关于Hadoop生态圈的核心组件有哪些，青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣，希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容，可以点击本站的其他文章进行学习。

分享到：编辑：方梦茹

上一篇：大数据知识:了解大数据基础Hadoop 下一篇：零基础应该如何学习Hadoop?

就业培训申请领取

您的姓名

您的电话

意向课程

点击领取

环球青藤

官方QQ群

扫描上方二维码或点击一键加群，免费领取大礼包，加群暗号：青藤。一键加群

大数据工程师相关文章推荐

大数据工程师最新文章推荐

免费直播更多

应《中华人民共和国网络安全法》加强实名认证机制要求,同时为更加全面的体验产品服务,烦请您绑定手机号.

预约成功

本直播为付费学员的直播课节

请您购买课程后再预约

我要购买

最新文章

环球青藤移动课堂APP 直播、听课。职达未来！

安卓版

下载

iPhone版

下载

环球青藤官方微信服务平台

刷题看课 APP下载

免费直播一键购课

代报名等人工服务

大数据工程师热点排行

Hadoop生态圈的核心组件有哪些?

就业培训申请领取

大数据工程师相关文章推荐

大数据工程师最新文章推荐

绑定手机号

注册账号

环球青藤用户注册

Hadoop生态圈的核心组件有哪些?

就业培训申请领取

大数据工程师相关文章推荐

大数据工程师最新文章推荐

绑定手机号

注册账号

环球青藤用户注册

欢迎登陆环球青藤