楼主最近在训(tiao)练(can)一个模型,因为训练量比较大,基本 3~4 天一个模型。虽然我知道,我盯着它看也不会起什么作用,但作为一个如果有快递,一天要刷新好几遍快递配送信息的人,模型基本也是半小时盯一次,尤其是这组超参比较管用、或者新实现了一个功能等。
看在哪里训练了,如果在工位机上训练,基本显存占满了,机器开个 chrome 或者 vscode 也会比较卡。所以,对我来说,工位机这种半残废的状态,基本做不了其他的什么了。如果在服务器上训练,盯着的就是模型掉没掉,虽然卡多,但是排队用的人也多啊,一会儿不看,你模型掉了,别人就来训练了。
V 友们在训练模型的时候都在同期做什么啊?我见过有研究新论文的,有划水的,写博客的,像我一样不断盯模型的。当然,我觉得一直盯模型,有一点好处,就是对走势把握的比较准,虽然现在也有early_stop
,但是调超参过程中,多看一些曲线的走势还是能积累不少经验的。
你们都在哪里训练自己的模型呢?服务器端你们有调度软件或者预约系统吗?当然,如果在大厂的话,机器多,估计也有集群管理软件。
想听听你们的声音!
1
JeffKing 2018-08-28 11:44:51 +08:00 via iPhone
划水 喝茶 吃饼干🍪
|
2
yvanst 2018-08-28 11:51:09 +08:00 via Android
心安理得地玩手机
|
3
diggerdu 2018-08-28 11:54:31 +08:00
睡觉,看看 V2EX 扭腰时报 reddit/r/machinelearning
|
4
delectate 2018-08-28 12:15:45 +08:00
撸铁。
|
5
udumbara 2018-08-28 12:35:29 +08:00 via Android
写部署代码
|
6
frinstioAKL 2018-08-28 12:44:35 +08:00
虽然计划好利用这个空闲去读论文,学学代码什么的,但是总忍不住隔三差五去看看 acc 和 loss 曲线,心里总是很挂念,忍不住。
|
7
Weny 2018-08-28 12:46:25 +08:00 via iPhone 12
送外卖啊 还能补贴家用
|
8
fl2d 2018-08-28 12:51:42 +08:00
主显示器上,一个窗口是各种曲线,一个窗口哗哗的打印各种实时数据。以此证明我在干活。
其他显示器上,想干嘛干嘛。 |
9
thonatos 2018-08-28 13:00:28 +08:00
|
10
easylee 2018-08-28 13:03:31 +08:00 via Android
建议分布式运算。
|
11
ZRS 2018-08-28 13:13:50 +08:00
当然是摸鱼啊
|
12
vipfts 2018-08-28 13:19:32 +08:00
女朋友
|
13
janxin 2018-08-28 13:21:10 +08:00 via iPad
|
14
VisionTheta OP @easylee 现在是三台机都在算,但是分布式会比单机多卡这种降低准确率,所以如果刷榜的话,我觉得还是不用分布式好。
@fl2d 我一般不把终端放在窗口最上方,怕误触个什么组合键,把训练打断。 @frinstioAKL 哈哈哈,我是每 30 分钟 summary 一次,比你看的还勤。 @udumbara 你是说写其他机器 /超参训练过程的部署代码,还是说写测试阶段的代码,亦或是模型部署,用在产品上。。 @Weny 还能上班去送外卖了?羡慕。 |
15
frinstioAKL 2018-08-28 13:27:55 +08:00 1
@VisionTheta 我是把主机的 ssh 做了个端口转发,然后在随便一个大显示器主机上挂着主机的 tensorboard 曲线,然后。。。过一会忍不住就想去瞄一下曲线
|
16
northisland 2018-08-28 16:37:25 +08:00
写业务
上面能给出跑起训练的空闲,我都万分感谢了 |
17
UN2758 2018-08-28 18:02:16 +08:00
当然是扣 jio,扣鼻屎啦 XD
|
18
mogami18 2018-08-28 19:25:03 +08:00
当然是不断优化代码啦
|
19
VisionTheta OP @mogami18 是代码层面的还是什么层面?如果是从开源项目上,我觉得没有什么可以改得了啊。。如果是超参层面,一般我这组超参调完之前,是不会想新的思路的,有了思路也没卡练。
@frinstioAKL 我也开了 board,但一般都等不及刷新,去控制台看,哈哈 @janxin 我改 tensorflow 代码的时候也要从头编译,工位机编译一次要半个小时。 |
20
mogami18 2018-08-28 19:35:13 +08:00
@VisionTheta 我之前是做过一点 parameter server engine 研发,所以我个人只能从性能上优化系统本身实现,而优化不了算法和参数,哈哈哈
|
21
sangleft 2018-08-28 19:45:16 +08:00
学生表示会刷 leetcode 和论坛。。
|
22
icylogic 2018-08-28 23:02:55 +08:00
我们服务器够每个人用,所以不用排队。。。当然也可能你们网络本身就需要很多服务器,我们网络小,一人一块卡就够;
我是在服务器上开 vscode/nsight,X11 回来,只要加了 -C,同时开四五个基本和在本地用没太大差别; 这行工位上的台式机基本就是用来开 shell 和浏览器的。我工位上四个显示屏,1 号看浏览器,2 号开 terminator 切分几个 shell,3 号竖屏看代码和文档,4 号是个 windows 笔记本用来处理些别的事; 写其他代码、看书 paper 文档、发呆、和同事聊些工作上的事…… |
24
mogami18 2018-08-28 23:52:04 +08:00
@WeberXie 上面 ps 开发的皮毛都是我在本科念书的时候学的,我们当时本来是想借鉴 NSDI 2017 里面 TuX2 的这个系统,也搞一个用 distributed graph mining system 来做得比 ps 更快更好的系统,可惜后来系统胎死腹中,老板不支持,说没有创新性,发不了好 paper。我现在也就能吹吹我作为 co-author 发表的 eurosys 和 tpds 的 paper 了。。。
|
25
mogami18 2018-08-28 23:55:57 +08:00
@WeberXie 另外我现在做的很简单,在厂里用 linux C++每天撸撸倒排索引引擎(extremely trivial 的那种),目前在考外语,准备找机会年后重回学校找个有 funding 的老板资助我读书呢
|
26
mogami18 2018-08-28 23:57:16 +08:00
@WeberXie 我 [email protected] 可以 email 相互认识下
|
27
closedevice 2018-08-28 23:57:18 +08:00
和学妹聊天啊
|
28
t6attack 2018-08-29 00:07:33 +08:00
编译中~ 扫描中~ 渲染中~ 备份中~ 导入中~ 爬取中~ 训练中~。。。
悠闲的计算机工作者 |
29
dangyuluo 2018-08-29 00:27:17 +08:00
你应该做一个 Telegram 通知,这样就不用随时盯着了。好使
|
31
jinyu121 2018-08-29 07:43:13 +08:00 via iPhone
有时候自己的程序非常奇怪,你只要盯着它,它就给你跑得好好的。你睡个午觉、吃个饭、甚至上个厕所,反正只要有一会儿不盯着,它就死给你看。
其他情况一般是泡在 github 上。 至于通知……没有 tg 的情况下可以用 aws 的 sns 短信通知,很简单。缺点是比较贵,大概 3 毛一条短信。楼上能把 tg 通知的代码共享一下咩? |
32
VisionTheta OP @mogami18 是做厂里自己的引擎?你做的是单机多卡的 ps server ?这种一般是放在 CPU 上吧? 还是分布式 ps server ?跟 tensorflow 的效率比过吗? 单机多卡的 tf, 我发现用的卡越多(当然最多 8 张),启动过程越慢,现在我用 8 卡,启动一次甚至都要 10 分钟。我看了一下应该不是磁盘的锅,反倒觉得有可能是 tf 的 coordinator 的问题。
@sangleft 哈哈,现在 leetcode 刷了多少道题了?自己刷还是跟别人一起组队刷啊? @icylogic 四个显示器有点壕,我是一个显示器,外加一台自己带的设备。以前工位装过两个显示器,但是后来觉得,无论看哪个地方,都有显示器的光包围着,时间长了眼睛受不了,就拆了一个。你四个显示器是怎么装的啊?上面两个,下面两个? @dangyuluo 我用 iOS 上的一个叫`Bark`的 app, 也可以推送模型的训练效果,还可以推送哪个模型掉了, 不过差不多都是 get 或者 post 一个请求。但是这种我只传了一个当时的准确率,感觉 board 的话,还可以把趋势图拟合出来,还是喜欢 board 多一些。 @jinyu121 我的模型要三四天,我发现是分白天和晚上。如果晚上涨了很多,你白天高高兴兴的去上班,结果一天都在抖。如果晚上没涨,你打算去换一组参数,结果一直涨个不停,不给你停的机会。。 |
33
mogami18 2018-08-29 13:19:19 +08:00
@VisionTheta 厂里可没有专攻系统方向的博士做这些,所以厂里用的都是开源的系统。上面那些都是我读本科的时候,跟着当时带我的 phd 师兄们一起做的。至于 ps 系统,对比的主要是 petuum parameter server 的开源版本 bosen 等系统。
|
34
mogami18 2018-08-29 13:20:51 +08:00
@VisionTheta 楼主可以看看 VLDB 2018 FlexPS 这篇 paper,有开源实现的
|
35
icylogic 2018-08-30 08:36:29 +08:00 via iPhone
@VisionTheta 从左到右排开啊,半环绕的效果。。。
反正公司显示器在库房放着也是吃灰。不如拿来用。。 |
36
icylogic 2018-08-30 08:37:55 +08:00 via iPhone
@VisionTheta 长时间看显示器这个事,本来坐半个小时就应该起来活动一下,打个水上个厕所之类的。
|
37
achersion 2019-11-11 16:04:55 +08:00
当然是不断的划水, 看小说,刷副本了
|