大量的低阶矩阵和向量的乘法运算,形式均为[N×N]×[N×1],也就是 N 维矩阵乘 N 维向量,N 的大小在几十到几百。运算次数在亿的量级。
对计算精度要求很低,半精度浮点数甚至 int16/int8 都可以。不需要保存一些中间结果,所以需要的内存不多。
现在我用的 12 核 3900x 跑并行计算,但需要几个小时的时间,如果换成 RTX2070 这样的显卡或者 Cloud TPU 这样的云服务能不能在数量级上缩短时间?
对计算精度要求很低,半精度浮点数甚至 int16/int8 都可以。不需要保存一些中间结果,所以需要的内存不多。
现在我用的 12 核 3900x 跑并行计算,但需要几个小时的时间,如果换成 RTX2070 这样的显卡或者 Cloud TPU 这样的云服务能不能在数量级上缩短时间?