Spark常用算子(保姆级) Spark

Spark常用算子(保姆级)

SparkRDD的算子分为转换算子(Transformation)和行动算子(Action)。转换算子分为:Value类型、双Value类型和K-V类型。将处理的数据逐条进行映射转换,这里的转换可以是类型的转换,也可以是值的转换...............
阅读全文
任务提交SparkSubmit源码解析 Spark

任务提交SparkSubmit源码解析

检查SPARK_HOME执行环境 执行load-spark-env.sh文件,加载一些默认的环境变量(包括加载spark-env.sh文件) 检查JAVA_HOME执行环境 寻找Spark相关的jar包 执行org.apache.spark.launcher.Main解析参数,构建CMD命令 CMD命令判断 执行org.apache.spark.deploy.SparkSubmit这个类。
阅读全文
Spark中的driver和Executor Spark

Spark中的driver和Executor

驱动器节点(Driver)Spark的驱动器是执行开发程序中的main方法的进程。它负责开发人员编写的用来创建SparkContext、创建RDD,以及进行RDD的转化操作和行动操作代码的执行。
阅读全文
Spark中内存模型管理 Spark

Spark中内存模型管理

Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。
阅读全文
本文目录
    Loading...