相关文章推荐
严肃的筷子  ·  体育早餐1.30|阿根廷3月中国行将战尼日利 ...·  1 年前    · 
千年单身的闹钟  ·  火影:万花筒写轮眼和永恒万花筒写轮眼有什么区 ...·  1 年前    · 
英姿勃勃的警车  ·  账户余额仅剩2600,观致汽车离退市还有多远 ...·  1 年前    · 
任性的铅笔  ·  中国南极测绘研究中心 南极点考察站启动紧急医疗救援·  1 年前    · 
失恋的橡皮擦  ·  SpaceX查明火箭爆炸原因:氦气罐出现故障 ...·  1 年前    · 
小百科  ›  200个默认分区的spark.sql.shuffle.partitions难题开发者社区
侠义非凡的冰棍
1 年前
首页
学习
活动
专区
工具
TVP 最新优惠活动
返回腾讯云官网
提问

问 200个默认分区的spark.sql.shuffle.partitions难题

Stack Overflow用户
提问于 2018-08-21 21:39:27
EN

在许多帖子中,由于一些关于洗牌,分区,due to JOIN,AGGR,等等的问题,有这样的声明-如下面以某种形式显示的:

..。通常,无论何时进行spark sql聚合或连接,这都会导致 的 分区数= 200。这由spark.sql.shuffle.partitions设置。..。

所以,我的问题是:

  • 我们的意思是,如果我们将DF的分区设置为765,例如
    • ,则处理发生在765个分区上,但输出将标准化地合并/重新分区为200 -这里指的是word resulting ?
    • ,或者它是否在合并/重新分区到JOINing,AGGR?

之前的200个分区后使用200个分区进行处理

​

我问,因为我从来没有看到一个明确的观点。

我做了以下测试:

代码语言: javascript
复制
// genned ad DS of some 20M short rows
df0.count
val ds1 = df0.repartition(765)
ds1.count
val ds2 = df0.repartition(765)
ds2.count
sqlContext.setConf("spark.sql.shuffle.partitions", "765")
// The above not included on 1st run, the above included on 2nd run.
ds1.rdd.partitions.size
 
推荐文章
严肃的筷子  ·  体育早餐1.30|阿根廷3月中国行将战尼日利亚、科特迪瓦 广州队通过足协准入名单|福原爱|中国足球|恭喜梅西_网易订阅
1 年前
千年单身的闹钟  ·  火影:万花筒写轮眼和永恒万花筒写轮眼有什么区别?开启条件不同
1 年前
英姿勃勃的警车  ·  账户余额仅剩2600,观致汽车离退市还有多远? - OFweek新能源汽车网
1 年前
任性的铅笔  ·  中国南极测绘研究中心 南极点考察站启动紧急医疗救援
1 年前
失恋的橡皮擦  ·  SpaceX查明火箭爆炸原因:氦气罐出现故障 1月8日重启发射|SpaceX|火箭_新浪科技_新浪网
1 年前
今天看啥   ·   Py中国   ·   codingpro   ·   小百科   ·   link之家   ·   卧龙AI搜索
删除内容请联系邮箱 2879853325@qq.com
小百科 - 百科知识指南
© 2024 ~ 沪ICP备11025650号