V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
naga1003
V2EX  ›  Scala

spark 技术面试被问到个问题,有点问懵逼了,求指点

  •  1
     
  •   naga1003 · 2018-12-07 09:36:27 +08:00 · 5899 次点击
    这是一个创建于 1350 天前的主题,其中的信息可能已经有所发展或是发生改变。

    问题:什么应用场景下 group by 比 reduce by 更好?

    当时懵逼了,感觉不是默认都尽量使用 reduce by 吗,现在我能想到的情况也只有在 key 值非常少的情况下用 group by 比较好,不知道对不对。

    6 条回复    2020-08-14 14:39:43 +08:00
    paradoxs
        1
    paradoxs  
       2018-12-07 09:52:27 +08:00
    在对大数据进行复杂计算时,reduceByKey 优于 groupByKey。

    另外,如果仅仅是 group 处理,那么以下函数应该优先于 groupByKey:
      ( 1 )、combineByKey 组合数据,但是组合之后的数据类型与输入时值的类型不一样。
      ( 2 )、foldByKey 合并每一个 key 的所有值,在级联函数和“零值”中使用。

    ---
    https://blog.csdn.net/zongzhiyuan/article/details/49965021
    VoidChen
        2
    VoidChen  
       2018-12-07 10:03:45 +08:00
    groupBy 不好的原因是因为在计算前会先移动数据,reduceby 是先各自计算出结果再汇聚起来计算。所以什么情况下用 groupBy 好呢,我想啊,可能在需要移动数据的时候,比如说我有一批数据希望分组存放,直接移到一起输出成一个文件,后续分 rdd 直接一个文件一个 rdd 这么计算就会非常快。我也刚学没多久,不知道说得对不对,只是给出一点想法=。=
    vowers
        3
    vowers  
       2018-12-07 11:22:32 +08:00
    em.....我都是能用 reduce 绝不用 group 的。。。
    naga1003
        4
    naga1003  
    OP
       2018-12-07 23:36:19 +08:00
    费解的就在问的是 group by 的优势啊,我是怎么都感觉没有优势啊,看来还是经验少了。
    naga1003
        5
    naga1003  
    OP
       2018-12-07 23:39:35 +08:00
    但仔细一想,如果 groupbykey 没有任何优点的话,岂不是没有存在必要了?所以应该确实是有应用场景的。
    sakura1
        6
    sakura1  
       2020-08-14 14:39:43 +08:00
    不支持结合律的计算,比如去重?
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2951 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 11:45 · PVG 19:45 · LAX 04:45 · JFK 07:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.