V2EX › lwch 的所有回复 › 第 1 页 / 共 7 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3 4 5 6 7

❮

❯

255 天前

回复了 lwch 创建的主题 › 分享创造 › 我用 GO 语言封装了一个机器学习框架，并实现了一个小型的 GPT 模型来对对联

@allegory 我用他来实现了一个小型的 llama 模型大约 1.5 亿参数量在 CPU 上训练速度还行

255 天前

回复了 lwch 创建的主题 › 分享创造 › 我用 GO 语言封装了一个机器学习框架，并实现了一个小型的 GPT 模型来对对联

@allegory libtorch 跟着 pytorch 的版本走的，现在已经 2.2.2 了

2023-10-21 09:02:57 +08:00

回复了 lwch 创建的主题 › 分享创造 › 无需量化，在树莓派上运行 LLaMA2 70B 模型

@rekulas 如果内存足够大的话可以增加--cache 和--fp32 缓存参数，每次加载参数速度很慢

2023-10-20 23:25:40 +08:00

回复了 lwch 创建的主题 › 分享创造 › 无需量化，在树莓派上运行 LLaMA2 70B 模型

@rekulas 只实现模型推理的话其实并不复杂，要实现整个深度学习框架就非常麻烦。每个 tensor 的正向传播、反向传播、梯度计算等，我实现了一个 https://github.com/lwch/gotorch 库包装了 libtorch 库里面已经实现了上百个算子，这还只是 pytorch 中的一部分，想要实现一个完整的框架一个人难以完成。

2023-10-19 14:54:33 +08:00

回复了 lwch 创建的主题 › 分享创造 › 无需量化，在树莓派上运行 LLaMA2 70B 模型

@kneo 今天做了不少优化，目前 7B 模型单机运行已经可降低到 1.2~1.6s/token ，但 CPU 并未全部跑满可能还有一定的优化空间

2023-10-19 10:14:47 +08:00

回复了 lwch 创建的主题 › 分享创造 › 无需量化，在树莓派上运行 LLaMA2 70B 模型

@kneo 所以我上面也说了，单机的性能是有限的，想要提升整体性能只能靠堆集群来实现，目前为止这个项目还处于单机运行状态，至于说具体以哪种方式来做并行计算这个是需要实际测试的。我认为 go 语言天生就是高并发高吞吐量的代名词，因此我一开始就选用了 go 语言而不是其他的语言来进行开发，就 go 语言本身而言从单机版到集群版也更容易一些。

另如果 10 台机器的集群计算性能可以达到 GPU 的一半，我觉得大部分的资本家也是可以接受的，毕竟总体成本下降了好几个数量级。

2023-10-19 08:44:55 +08:00

回复了 lwch 创建的主题 › 分享创造 › 无需量化，在树莓派上运行 LLaMA2 70B 模型

@kneo 那再举个例子谷歌搜索核心代码也是 go 的，你觉得以他的体量计算量会很小吗，速度不是一样不慢的

2023-10-18 20:13:15 +08:00

回复了 lwch 创建的主题 › 分享创造 › 无需量化，在树莓派上运行 LLaMA2 70B 模型

@kneo 再慢也能超过 python 不是吗

2023-10-18 14:55:55 +08:00

回复了 lwch 创建的主题 › 分享创造 › 无需量化，在树莓派上运行 LLaMA2 70B 模型

@GeekGao 树莓派只是打个比方，你当然可以在云上申请几台机器来加快推理速度，这个项目的主要目标还是为了降低大模型的使用成本，使普通人也可以跑上 70B 模型

2023-10-18 12:07:26 +08:00

回复了 lwch 创建的主题 › 分享创造 › 无需量化，在树莓派上运行 LLaMA2 70B 模型

@GeekGao 用这 1.6T 内存在高并发情况下，可以并行处理更多的 batch