Spark stage是如何划分的?
spark吧
全部回复
仅看楼主
level 11
1.从hdfs中读取文件后,创建 RDD 对象
2.DAGScheduler模块介入运算,计算RDD之间的依赖关系。RDD之间的依赖关系就形成了DAG
3.每一个JOB被分为多个Stage,划分Stage的一个主要依据是当前计算因子的输入是否是确定的,如果是则将其分在同一个Stage,避免多个Stage之间的消息传递开销。
2023年03月31日 02点03分 1
1