当前位置: 首页 > 大数据工程师 > 大数据工程师实战技能 > 大数据工程师Hadoop > 大数据知识:了解大数据基础Hadoop

大数据知识:了解大数据基础Hadoop

发布时间:2020年10月23日 06:17:55 来源:环球青藤 点击量:1124

【摘要】Hadoop是一个分布式系统基础架构,现在被广泛地应用于大数据平台的开发,对处理海量数据有着其他技术无可匹敌的优势。HDFS(Hadoop Distributed File System)、MapReduce与HBase被誉为分布式计算的三驾马车。

Google File System是文件存储系统,主要用来解决数据存储的问题,采用多台分布式机器,使用灾难冗余的方式,既做到了数据读写速度的提升,同时又能保证数据的安全。大数据技术首要的要求就是先把数据存下来,HDFS为了解决存储的问题,把大量的数据用成千上万台机器存储,而用户在前端看到的只是一个文件系统,而不是许多文件系统,这是一种对用户友好的处理方式。

在解决了数据存储的问题之后,如何更高效地处理数据呢?如果让一台机器处理TB级或者PB级的数据,那么可能会花费几天甚至几周的时间,而这对于很多公司的业务来说是不可接受的。

而MapReduce/Spark就是为了解决这个问题,它可以给并行处理任务的计算机分配的任务更加合理,并负责任务之间的通信,以及数据交换等工作。MapReduce/Spark提供一种可靠的、能够运行在集群上的计算模型。MapReduce会把所有的函数都分为两类,即Map和Reduce。Map会将数据分成很多份,然后分配给不同的机器处理;Reduce把计算的结果合并,得到最终的结果。

但是如果直接使用MapReduce的程序,会发现使用门槛比较高,Hive和Pig基于MapReduce的基础封装出一个更友好、更简单的方式,可以很容易地实现MapReduce程序。Pig以类似脚本的方式实现MapReduce,Hive以SQL的方式实现。Hive和Pig会把脚本或者SQL自动翻译成MapReduce程序,然后交给计算引擎执行计算。数据分析师由于经常使用SQL,所以Hive的使用门槛就变得更低,而且Hive的代码量比较少,一两行的SQL语句就可以解决很多问题,而如果使用MapReduce,可能需要上百行。所以,Hive得到越来越多的人青睐,并逐渐流行起来。

关于大数据知识:了解大数据基础Hadoop,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。

分享到: 编辑:方梦茹

就业培训申请领取
您的姓名
您的电话
意向课程
点击领取

环球青藤

官方QQ

扫描上方二维码或点击一键加群,免费领取大礼包,加群暗号:青藤。 一键加群

绑定手机号

应《中华人民共和国网络安全法》加强实名认证机制要求,同时为更加全面的体验产品服务,烦请您绑定手机号.

预约成功

本直播为付费学员的直播课节

请您购买课程后再预约

环球青藤移动课堂APP 直播、听课。职达未来!

安卓版

下载

iPhone版

下载
环球青藤官方微信服务平台

刷题看课 APP下载

免费直播 一键购课

代报名等人工服务

课程咨询 学员服务 公众号

扫描关注微信公众号

APP

扫描下载APP

返回顶部