Spark Spark常用算子(保姆级) SparkRDD的算子分为转换算子(Transformation)和行动算子(Action)。转换算子分为:Value类型、双Value类型和K-V类型。将处理的数据逐条进行映射转换,这里的转换可以是类型的转换,也可以是值的转换............... 2022-07-24 浏览(302) 评论(0) 阅读全文
Spark Spark中任务报错java.io.IOException: Filesystem closed Filesystem closed由于Spark程序以Spark-On-Yarn模式运行,Spark会把job日志是写在HDFS上。他们使用的是同一个FileSystem,从而导致异常。 2021-02-03 浏览(697) 评论(0) 阅读全文
Spark Adaptive让 Spark SQL 更高效更智能 在不开启 Adaptive Execution 之前,执行计划一旦确定,即使发现后续执行计划可以优化,也不可更改。 2021-01-07 浏览(909) 评论(0) 阅读全文
Spark Spark Shuffle运行原理 Shuffle过程本质上都是将Map端获得的数据使用分区器进行划分,并将数据发送给对应的Reducer的过程。 2021-01-07 浏览(1,732) 评论(0) 阅读全文
Spark Spark中的driver和Executor 驱动器节点(Driver)Spark的驱动器是执行开发程序中的main方法的进程。它负责开发人员编写的用来创建SparkContext、创建RDD,以及进行RDD的转化操作和行动操作代码的执行。 2021-01-07 浏览(1,214) 评论(0) 阅读全文
Spark Spark中内存模型管理 Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。 2021-01-07 浏览(544) 评论(0) 阅读全文