盘点5种大数据处理的典型工具
【摘要】在数据获取阶段,一般触及从多源异构的数据源获取数据,这些数据源可能是批处理数据源,也有可能是实时流数据源。那么,今日小编将为大家分享5种大数据处理的典型东西,感兴趣的小伙伴们一同来了解下吧!
1、HDFS
Hadoop分布式文件体系(Hadoop Distributed File System,HDFS)现在是Apache Hadoop项目的一个子项目,与已有的分布式文件体系有许多相似之处。
此外,作为专门针对商业化硬件(commodity hardware)规划的文件体系,HDFS的独特之处也很明显:首要其具有很高的容错性,其次能够布置在较为廉价的硬件上,最后能够供给高吞吐量的应用数据拜访能力。
2、Sqoop
Sqoop是一个在Hadoop和联系数据库服务器之间传送数据的东西,便利大量数据的导入导出工作,其支持多种类型的数据存储软件。
Sqoop的中心功能为数据的导入和导出。
导入数据:从诸如MySQL、SQL Server和Oracle等联系数据库将数据导入到Hadoop下的HDFS、Hive和HBase等数据存储体系。 导出数据:从Hadoop的文件体系中将数据导出至联系数据库。
3、Flume
Flume是由Hadoop生态体系中闻名的软件公司Cloudera于2011年发布,该软件能够支持分布式海量日志的采集、集成与传输,以实时的方式从数据发送方获取数据,并传输给数据接收方。
Flume具有两个显著的特点:可靠性和可扩展性。
针对可靠性,其供给了从强到弱的三级保障,即End-to-end、Store on failure和Best effort。 针对可扩展性,其选用三层的体系结构,即Agent、Collector和Storage,每层都能够在水平方向上进行扩展。
4、Scribe
Scribe是由Facebook开发的分布式日志体系,在Facebook内部现已得到了广泛的应用。Scribe能够针对坐落不同数据源的日志信息进行收集,然后存储至某个一致的存储体系,这个存储体系可所以网络文件体系(Network File System,NFS),也可所以分布式文件体系。
5、HBase
HBase的全称为Hadoop Database,是基于谷歌BigTable的开源实现,其运用Hadoop体系结构中的HDFS作为根本的文件体系。谷歌根据BigTable的理念规划实现了谷歌文件体系GFS,可是该计划未开源。HBase能够称为BigTable的山寨版,是开源的。
关于盘点5种大数据处理的典型工具,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。
就业培训申请领取
环球青藤
官方QQ群扫描上方二维码或点击一键加群,免费领取大礼包,加群暗号:青藤。 一键加群
大数据工程师相关文章推荐
|大数据工程师最新文章推荐
刷题看课 APP下载
免费直播 一键购课
代报名等人工服务