V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
scalaer
V2EX  ›  程序员

(讨论帖) spark on yarn 这样的资源分配情况有没有问题

  •  
  •   scalaer · 2018-12-14 15:44:44 +08:00 · 939 次点击
    这是一个创建于 1953 天前的主题,其中的信息可能已经有所发展或是发生改变。

    先上配置 hadoop 集群(1 个 master8 核 12g, 3 个节点 4 核 8g)

    计算方式:

    • 根据经验每个 executor 占用的 core 数量在 5 或者 5 以下时候, hdfs 吞吐量会拉满,所以每个 executor 的占用的核数应该在 5 以下 指定 executor 占用的核数数量为 1
    • 每一个节点留一个核用于 hadoop/yarn 的后台服务. 每个节点可以利用的核数为 4 - 1 = 3, 总共可以利用的核数为 3 * 3 = 9
    • 总共可以有 9 / 1 = 9 个 executor
    • 留一个 executor 用于 ApplicationManager, 剩下可以用的有 9 - 1 = 8 个
    • 每一个节点有的 executor 8 / 3 = 2.6 个 (指定 2 个)
    • 每一个 executor 的可用的内存 8 / 2 = 4g
    • executor memory overhead 为可用内存的 7%. 4g * 0.07 = 0.28g
    • 所以需要指定的 executor-memory 为 4 - 0.28 = 3.72g (3.5g)

    最后得出提交一个 spark 任务 指定的 executor 数量为 2, 每个 executor 占用核数为 1, 每个 executor 的内存为 3.5g


    疑惑的两个点:

    1. 理论上每一个任务都能够在一个节点上面跑, 申请的 executor 不会跨节点了.
    2. 任务执行的快慢与 executor 数量有没有关系(正比?)。

    原谅我目前没有那么多的资源做测试, 请各位大佬指教指教.

    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5294 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 07:51 · PVG 15:51 · LAX 00:51 · JFK 03:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.