BQsummer

BQsummer

V2EX 第 135342 号会员,加入于 2015-08-26 16:57:23 +08:00
今日活跃度排名 12754
根据 BQsummer 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
BQsummer 最近回复了
8 天前
回复了 basncy 创建的主题 微软 劝大家不要用微软的邮箱, 会丢信且无提示.
@miyuki 这是发信, smtp 请求直接失败了, 并不是 po 说的 发件人显示成功, 但是收件人收不到这种场景
11 天前
回复了 joye 创建的主题 程序员 唉,一年了无人问津,开源算了
一直用 squoosh.app 竞品太多了
@bthulu 没网关跨 vpc 怎么调用? 金丝雀发布怎么精确控制流量到 pod? 失败逻辑怎么精确到接口?
17 天前
回复了 gongxuanzhang 创建的主题 程序员 在一个群里被恶心坏了
"普通 Select 无论加不加锁,无论怎么查询都不会有幻读问题,如果 for update 或者 delete update 这种操作就会用临建锁或者间隙锁来保证一致" 原 op 的这句话错的一塌糊涂, 为啥大家关注点不在技术本身
1. llama3 70b 需要 142G 显存,4090 是 24G 显存,不量化得 6 张卡,https://llm.extractum.io/list/?query=llama3 ,可以在这个网站查下大概的显存占用,8bit 量化也要 75G ,4bit 量化 40G ,4090 不合适。31L 的 llama3:70b 是“quantization
4-bit”的: https://ollama.com/library/llama3:70b
2. 显存不是重点,重点是推理速度,取决于模型、显卡、还有部署模型的服务,比如 vllm ,都会做推理优化,而且推理速度和并发不是成线性反比的,所以实际的推理速度真的只有在跑下来才知道
3. 主流生产环境部署还是 vllm 多一点,我有在 reddit 看到吐槽 ollama 并发下卡死的,虽然我也用 ollama 测试一些模型,用起来是真方便
上海电信,有遇到过 ipv6 不分配的问题,现在全走 frp 了
49 天前
回复了 wwd179 创建的主题 程序员 运维平台的选型
可以看看 JumpServer
55 天前
回复了 fields 创建的主题 职场话题 软考报名,留个坑,考试完来填
@wangwei216 杭州认上海的吗?户口政策方面,上海好像只认上海考的
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5278 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 13ms · UTC 06:47 · PVG 14:47 · LAX 23:47 · JFK 02:47
Developed with CodeLauncher
♥ Do have faith in what you're doing.