当前位置: 首页 > 大数据工程师 > 大数据工程师技能提升 > 大数据工程师学习资料 > 盘点5种大数据处理的典型工具

盘点5种大数据处理的典型工具

发布时间:2020年12月24日 02:22:59 来源:环球青藤 点击量:2004

【摘要】在数据获取阶段,一般触及从多源异构的数据源获取数据,这些数据源可能是批处理数据源,也有可能是实时流数据源。那么,今日小编将为大家分享5种大数据处理的典型东西,感兴趣的小伙伴们一同来了解下吧!

1、HDFS

Hadoop分布式文件体系(Hadoop Distributed File System,HDFS)现在是Apache Hadoop项目的一个子项目,与已有的分布式文件体系有许多相似之处。

此外,作为专门针对商业化硬件(commodity hardware)规划的文件体系,HDFS的独特之处也很明显:首要其具有很高的容错性,其次能够布置在较为廉价的硬件上,最后能够供给高吞吐量的应用数据拜访能力。

2、Sqoop

Sqoop是一个在Hadoop和联系数据库服务器之间传送数据的东西,便利大量数据的导入导出工作,其支持多种类型的数据存储软件。

Sqoop的中心功能为数据的导入和导出。

导入数据:从诸如MySQL、SQL Server和Oracle等联系数据库将数据导入到Hadoop下的HDFS、Hive和HBase等数据存储体系。 导出数据:从Hadoop的文件体系中将数据导出至联系数据库。

3、Flume

Flume是由Hadoop生态体系中闻名的软件公司Cloudera于2011年发布,该软件能够支持分布式海量日志的采集、集成与传输,以实时的方式从数据发送方获取数据,并传输给数据接收方。

Flume具有两个显著的特点:可靠性和可扩展性。

针对可靠性,其供给了从强到弱的三级保障,即End-to-end、Store on failure和Best effort。 针对可扩展性,其选用三层的体系结构,即Agent、Collector和Storage,每层都能够在水平方向上进行扩展。

4、Scribe

Scribe是由Facebook开发的分布式日志体系,在Facebook内部现已得到了广泛的应用。Scribe能够针对坐落不同数据源的日志信息进行收集,然后存储至某个一致的存储体系,这个存储体系可所以网络文件体系(Network File System,NFS),也可所以分布式文件体系。

5、HBase

HBase的全称为Hadoop Database,是基于谷歌BigTable的开源实现,其运用Hadoop体系结构中的HDFS作为根本的文件体系。谷歌根据BigTable的理念规划实现了谷歌文件体系GFS,可是该计划未开源。HBase能够称为BigTable的山寨版,是开源的。

关于盘点5种大数据处理的典型工具,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。

分享到: 编辑:方梦茹

就业培训申请领取
您的姓名
您的电话
意向课程
点击领取

环球青藤

官方QQ

扫描上方二维码或点击一键加群,免费领取大礼包,加群暗号:青藤。 一键加群

绑定手机号

应《中华人民共和国网络安全法》加强实名认证机制要求,同时为更加全面的体验产品服务,烦请您绑定手机号.

预约成功

本直播为付费学员的直播课节

请您购买课程后再预约

环球青藤移动课堂APP 直播、听课。职达未来!

安卓版

下载

iPhone版

下载
环球青藤官方微信服务平台

刷题看课 APP下载

免费直播 一键购课

代报名等人工服务

课程咨询 学员服务 公众号

扫描关注微信公众号

APP

扫描下载APP

返回顶部