Spark（7）：RDD行动算子

创始人

2025-05-28 02:38:42

0. 相关文章链接

1. reduce

2. collect

3. count

4. first

5. take

6. takeOrdered

7. aggregate

8. fold

9. countByKey

10. save 相关算子

11. foreach

0. 相关文章链接

Spark文章汇总

1. reduce

函数签名：def reduce(f: (T, T) => T): T
函数说明：聚集 RDD 中的所有元素，先聚合分区内数据，再聚合分区间数据

val rdd: RDD[Int] = sc.makeRDD(List(1,2,3,4))// 聚合数据
val reduceResult: Int = rdd.reduce(_+_)

2. collect

函数签名：def collect(): Array[T]
函数说明：在驱动程序中，以数组 Array 的形式返回数据集的所有元素

val rdd: RDD[Int] = sc.makeRDD(List(1,2,3,4))// 收集数据到 Driver
rdd.collect().foreach(println)

3. count

函数签名：def count(): Long
函数说明：返回 RDD 中元素的个数

val rdd: RDD[Int] = sc.makeRDD(List(1,2,3,4))// 返回 RDD 中元素的个数
val countResult: Long = rdd.count()

4. first

函数签名：def first(): T
函数说明：返回 RDD 中的第一个元素

val rdd: RDD[Int] = sc.makeRDD(List(1,2,3,4))// 返回 RDD 中元素的个数
val firstResult: Int = rdd.first()
println(firstResult)

5. take

函数签名：def take(num: Int): Array[T]
函数说明：返回一个由 RDD 的前 n 个元素组成的数组

val rdd: RDD[Int] = sc.makeRDD(List(1,2,3,4))// 返回 RDD 中元素的个数
val takeResult: Array[Int] = rdd.take(2)
println(takeResult.mkString(","))

6. takeOrdered

函数签名：def takeOrdered(num: Int)(implicit ord: Ordering[T]): Array[T]
函数说明：返回该 RDD 排序后的前 n 个元素组成的数组

val rdd: RDD[Int] = sc.makeRDD(List(1,3,2,4))// 返回 RDD 中元素的个数
val result: Array[Int] = rdd.takeOrdered(2)

7. aggregate

函数签名：def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U): U
函数说明：分区的数据通过初始值和分区内的数据进行聚合，然后再和初始值进行分区间的数据聚合

val rdd: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4), 8)// 将该 RDD 所有元素相加得到结果
//val result: Int = rdd.aggregate(0)(_ + _, _ + _)
val result: Int = rdd.aggregate(10)(_ + _, _ + _)

8. fold

函数签名：def fold(zeroValue: T)(op: (T, T) => T): T
函数说明：折叠操作， aggregate 的简化版操作

val rdd: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4))
val foldResult: Int = rdd.fold(0)(_+_)

9. countByKey

函数签名：def countByKey(): Map[K, Long]
函数说明：统计每种 key 的个数

val rdd: RDD[(Int, String)] = sc.makeRDD(List((1, "a"), (1, "a"), (1, "a"), (2,"b"), (3, "c"), (3, "c")))
// 统计每种 key 的个数
val result: collection.Map[Int, Long] = rdd.countByKey()

10. save 相关算子

函数签名：

def saveAsTextFile(path: String): Unit
def saveAsObjectFile(path: String): Unit
def saveAsSequenceFile(path: String,codec: Option[Class[_ <: CompressionCodec]] = None
): Unit

函数说明：将数据保存到不同格式的文件中

// 保存成 Text 文件
rdd.saveAsTextFile("output")// 序列化成对象保存到文件
rdd.saveAsObjectFile("output1")// 保存成 Sequencefile 文件
rdd.map((_,1)).saveAsSequenceFile("output2")

11. foreach

函数签名：

def foreach(f: T => Unit): Unit = withScope {val cleanF = sc.clean(f)sc.runJob(this, (iter: Iterator[T]) => iter.foreach(cleanF))
}

函数说明：分布式遍历 RDD 中的每一个元素，调用指定函数

val rdd: RDD[Int] = sc.makeRDD(List(1,2,3,4))// 收集后打印
rdd.map(num=>num).collect().foreach(println)println("****************")// 分布式打印
rdd.foreach(println)

注：其他Spark相关系列文章链接由此进 -> Spark文章汇总

上一篇：为什么所有食品都是以甜为主

下一篇：翻译句子：本月社区英语活动的主题是“关爱生命,呵护健康”

Spark（7）：RDD行动算子

0. 相关文章链接

1. reduce

2. collect

3. count

4. first

5. take

6. takeOrdered

7. aggregate

8. fold

9. countByKey

10. save 相关算子

11. foreach

相关内容

热门资讯