rdd是什么?
【摘要】rdd,英文全称为:Resilient Distributed Dataset,中文简称“弹性分布式数据集”,spark中最基础的抽象数据结构。RDD具备分区、不可变、
RDD具备分区、不可变、并行操作这三个基本特性,表现形式为不可变的分区元素的集合,并且可以在集群中并行操作。
RDD拥有的特性如下:
1、是一个分区的只读记录的集合;
2. 一个具有容错机制的特殊集;
3. 只能通过在稳定的存储器或其他RDD上的确定性操作(转换)来创建;
4. 可以分布在集群的节点上,以函数式操作集合的方式,进行各种并行操作
另外,每个RDD里都会包括分区信息、依赖关系等等的信息,如下图所示:
a,Partitions
Partitions 就是上面所说的,代表着RDD中数据的逻辑结构。
b,SparkContext
SparkContext是所有Spark功能的入口,可用来创建RDD对象以及在节点中的广播变量等等。
c,SparkConf
SparkConf 是一些配置信息。
d,Partitioner
Partitioner 决定了RDD的分区方式,目前两种主流的分区方式:Hash partioner 和 Range partitioner。
e,Dependencies
Dependencies 也就是依赖关系,记录了该rdd的计算过程。根据每个rdd的分区计算后生成的新的rdd的分区的对应关系,可以分成窄依赖和宽依赖。
上一篇:excel表格基本操作之从零开始学习
下一篇:Apache Flink是什么?
就业培训申请领取
环球青藤
官方QQ群扫描上方二维码或点击一键加群,免费领取大礼包,加群暗号:青藤。 一键加群
数据分析师相关文章推荐
|数据分析师最新文章推荐
最新文章
数据分析师各地入口
环球青藤官方微信服务平台
刷题看课 APP下载
免费直播 一键购课
代报名等人工服务
数据分析师热点排行
- 1 传统数据和大数据的区别
- 2 数据分析的8种方法都是哪些?
- 3 3大常用的数据分析工具是什么?
- 4 数据分析的具体流程是什么?
- 5 excel中的运算符
- 6 数据分析的作用有哪些?
- 7 电子商务需要分析哪些数据?
- 8 数据分析包括哪些内容?
- 9 rdd是什么?
- 10 数据分析的基本步骤