(讨论帖) spark on yarn 这样的资源分配情况有没有问题

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个创建于 1953 天前的主题，其中的信息可能已经有所发展或是发生改变。

先上配置 hadoop 集群(1 个 master8 核 12g, 3 个节点 4 核 8g)

计算方式:

根据经验每个 executor 占用的 core 数量在 5 或者 5 以下时候, hdfs 吞吐量会拉满,所以每个 executor 的占用的核数应该在 5 以下指定 executor 占用的核数数量为 1
每一个节点留一个核用于 hadoop/yarn 的后台服务. 每个节点可以利用的核数为 4 - 1 = 3, 总共可以利用的核数为 3 * 3 = 9
总共可以有 9 / 1 = 9 个 executor
留一个 executor 用于 ApplicationManager, 剩下可以用的有 9 - 1 = 8 个
每一个节点有的 executor 8 / 3 = 2.6 个 (指定 2 个)
每一个 executor 的可用的内存 8 / 2 = 4g
executor memory overhead 为可用内存的 7%. 4g * 0.07 = 0.28g
所以需要指定的 executor-memory 为 4 - 0.28 = 3.72g (3.5g)

最后得出提交一个 spark 任务指定的 executor 数量为 2，每个 executor 占用核数为 1，每个 executor 的内存为 3.5g

疑惑的两个点:

原谅我目前没有那么多的资源做测试，请各位大佬指教指教.

目前尚无回复