Spark Spark常用算子(保姆级) SparkRDD的算子分为转换算子(Transformation)和行动算子(Action)。转换算子分为:Value类型、双Value类型和K-V类型。将处理的数据逐条进行映射转换,这里的转换可以是类型的转换,也可以是值的转换............... 2022-07-24 浏览(235) 评论(0) 阅读全文
Spark Spark中任务报错java.io.IOException: Filesystem closed Filesystem closed由于Spark程序以Spark-On-Yarn模式运行,Spark会把job日志是写在HDFS上。他们使用的是同一个FileSystem,从而导致异常。 2021-02-03 浏览(677) 评论(0) 阅读全文
Spark Adaptive让 Spark SQL 更高效更智能 在不开启 Adaptive Execution 之前,执行计划一旦确定,即使发现后续执行计划可以优化,也不可更改。 2021-01-07 浏览(868) 评论(0) 阅读全文
Spark Spark Shuffle运行原理 Shuffle过程本质上都是将Map端获得的数据使用分区器进行划分,并将数据发送给对应的Reducer的过程。 2021-01-07 浏览(1,701) 评论(0) 阅读全文
Spark 任务提交SparkSubmit源码解析 检查SPARK_HOME执行环境 执行load-spark-env.sh文件,加载一些默认的环境变量(包括加载spark-env.sh文件) 检查JAVA_HOME执行环境 寻找Spark相关的jar包 执行org.apache.spark.launcher.Main解析参数,构建CMD命令 CMD命令判断 执行org.apache.spark.deploy.SparkSubmit这个类。 2021-01-07 浏览(1,576) 评论(3) 阅读全文
Spark Spark中的driver和Executor 驱动器节点(Driver)Spark的驱动器是执行开发程序中的main方法的进程。它负责开发人员编写的用来创建SparkContext、创建RDD,以及进行RDD的转化操作和行动操作代码的执行。 2021-01-07 浏览(1,174) 评论(0) 阅读全文
Spark Spark中内存模型管理 Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。 2021-01-07 浏览(515) 评论(0) 阅读全文