当前位置: 首页 > 数据分析师 > 数据分析师实战技能 > 数据分析师数据分析 > rdd是什么?

rdd是什么?

发布时间:2020年09月28日 05:46:00 来源: 点击量:4083

【摘要】rdd,英文全称为:Resilient Distributed Dataset,中文简称“弹性分布式数据集”,spark中最基础的抽象数据结构。RDD具备分区、不可变、

rdd,英文全称为:Resilient Distributed Dataset,中文简称“弹性分布式数据集”,spark中最基础的抽象数据结构。

RDD具备分区、不可变、并行操作这三个基本特性,表现形式为不可变的分区元素的集合,并且可以在集群中并行操作。

RDD拥有的特性如下:

1、是一个分区的只读记录的集合;
2. 一个具有容错机制的特殊集;
3. 只能通过在稳定的存储器或其他RDD上的确定性操作(转换)来创建;
4. 可以分布在集群的节点上,以函数式操作集合的方式,进行各种并行操作

另外,每个RDD里都会包括分区信息、依赖关系等等的信息,如下图所示:


a,Partitions
Partitions 就是上面所说的,代表着RDD中数据的逻辑结构。

b,SparkContext
SparkContext是所有Spark功能的入口,可用来创建RDD对象以及在节点中的广播变量等等。

c,SparkConf
SparkConf 是一些配置信息。


d,Partitioner
Partitioner 决定了RDD的分区方式,目前两种主流的分区方式:Hash partioner 和 Range partitioner。

e,Dependencies
Dependencies 也就是依赖关系,记录了该rdd的计算过程。根据每个rdd的分区计算后生成的新的rdd的分区的对应关系,可以分成窄依赖和宽依赖。

分享到: 编辑:wangmin

就业培训申请领取
您的姓名
您的电话
意向课程
点击领取

环球青藤

官方QQ

扫描上方二维码或点击一键加群,免费领取大礼包,加群暗号:青藤。 一键加群

绑定手机号

应《中华人民共和国网络安全法》加强实名认证机制要求,同时为更加全面的体验产品服务,烦请您绑定手机号.

预约成功

本直播为付费学员的直播课节

请您购买课程后再预约

环球青藤移动课堂APP 直播、听课。职达未来!

安卓版

下载

iPhone版

下载
环球青藤官方微信服务平台

刷题看课 APP下载

免费直播 一键购课

代报名等人工服务

课程咨询 学员服务 公众号

扫描关注微信公众号

APP

扫描下载APP

返回顶部