neopenx

V2EX 第 502557 号会员，加入于 2020-08-05 23:17:39 +08:00

neopenx 提问技术话题好玩工作信息交易信息城市相关

neopenx 最近回复了

2024-03-09 19:19:12 +08:00

回复了 wangbin11 创建的主题 › 程序员 › 你们有搞 gpu 算力平台的吗

ToC 做分布式算力，用户机器的稳定性和数据隐私都是问题。自己搞搞玩玩可以，出了事故就完蛋了

2024-01-26 13:38:47 +08:00

回复了 LeeReamond 创建的主题 › Python › Transformer 是不是缺乏跨维度关系捕捉能力？

@LeeReamond 并没有啥问题啊。你的维度困惑在于把 Q·K 理解成逐元素向量乘法了..上面一堆回答都歪了..

2024-01-26 10:31:29 +08:00

回复了 LeeReamond 创建的主题 › Python › Transformer 是不是缺乏跨维度关系捕捉能力？

你可能不熟悉矩阵乘法把。Q·K 的注意力矩阵乘法是[2,3]@[3, 2], 也就是做了 2x2 四次向量点积，每个点积都用到了全部三维。这是单头注意力情况。维度更高需要用多头减少每组点积向量的维度，避免参与的维度过多导致注意力不 diverse

2023-12-06 19:06:42 +08:00

回复了 Rorysky 创建的主题 › Apple › Apple 发布新的机器学习框架 MLX

看起来目前只是一个跑一些简单的 metal compute kernels 的练习作品，连 MPS routines 都没 dispatch
Python API 山寨 PyTorch 不说，还相当简陋。

2023-11-01 18:20:19 +08:00

回复了 oppurst 创建的主题 › Apple › M3 Max 的神经引擎是否已经不够看了？

ANE 需要走 CoreML 跑。18T 应该就是 FP16 的设计峰值。
要是通过 GPU 走 Metal 的话，满血 M2 Max 的 FP32 才 14T 。
苹果短期内应该不打算融合 ANE 和 GPU ，也就是维持 ANE 以低功耗优势，继续挤牙膏。
鬼知道几年后可以追平 3060 的 50T FP16 TensorFlops 设计峰值。

2023-08-04 11:25:50 +08:00

回复了 746970179 创建的主题 › Apple › 关于 mac 的内存的好奇

@iamqk apple silicon 的延迟确实比 X86 非统一大，M1 是 110ns ，没比 PS5 的 140ns 好到哪里去。高带宽牺牲延迟是很正常的

2023-08-04 10:34:52 +08:00

回复了 746970179 创建的主题 › Apple › 关于 mac 的内存的好奇

大于 100GB/s 以上的带宽基本是给 GPU 用的。通过 CPU 大量的 memcpy 基本很难跑到 100 以上。
但是对于 Metal 的 MTLBuffer ，就有足够大的 Blob 把带宽跑上去了。在 CPU 应用上和 X86 比没什么优势。

2023-07-26 17:08:27 +08:00

回复了 lrigi 创建的主题 › MacBook Pro › 搞 AI 的兄弟们都选的多大的内存？ 32 还是 64？

@lrigi M2Max 只是 FP32 的 FLOPS 接近 V100 而已。FP16 的硬件加速在 ANE 上，做不了训练而且峰值还不如 FP32 。

2023-07-01 21:34:46 +08:00

回复了 justincnn 创建的主题 › macOS › 看个这个视频，感觉苹果是不是真的偷了变形金刚的技术了？

Transformer 的实际需要空间复杂度有很多技术降下去，果子这点小聪明只能说聊胜于无
跑的大部分都是矩阵乘法，M2U 也就和 3060 五五开

» neopenx 创建的更多回复