hutng

V2EX 第 363765 号会员，加入于 2018-11-17 11:39:21 +08:00

今日活跃度排名 9224

根据 hutng 的设置，主题列表被隐藏

二手交易相关的信息，包括已关闭的交易，不会被隐藏

hutng 最近回复了

18 小时 8 分钟前

残废版啊，备份不了手机的聊天记录😅

21 小时 35 分钟前

@SenLief 同意

21 小时 36 分钟前

@hyxhyx 以前是电信的宽带，就用的他家的，cn2gia ，挺稳的。
现在联通宽带，lightsail 挺稳的，还是联通省事一些，vps 选择多

21 小时 41 分钟前

领上了，居然

19 天前

@google2023 我是 3090+tesla t10 ，显卡成本 7.5k ，q8 15token 左右。2 个 2080ti22g 更便宜，5k

19 天前

@follow 非大佬，纯小白。推理模型 qwq 32b 的 q4 就可以，实际占用显存 20G 多点，4090 、3090 都可以，便宜点 2080ti 也行。目前感觉比 r1 蒸馏的 32b 强很多。唯一的问题就是思考的过程有点长，回答的精细度、准确性非常好。

19 天前

@openmynet #21 确实，google 的 aistudio 上就是 1 。
aistudio 上试了一下 27B 的模型，光数学上来看，准确性一般，比 qwq 差远了（当然了，直接这样比较推理模型和非推理模型不是很公平）

19 天前

@hutng #18 ollama 官网也得是：12B parameter model (128k context window)。我比较好奇这 128K 的上下文窗口是怎么来的。ollama 默认都是 2K ，128K 不爆显存吗？

19 天前

@hutng 刚用 ollama 测试了一下，12b 模型，效果一般。老是报错，Error: POST predict: Post "http://127.0.0.1:35039/completion": EOF ，不知道怎么回事，可能是我的环境问题。

19 天前

开源模型生机勃勃了，好事，deepseek 开的好头。
QWQ 32B q8 两张显卡 40G 正好够，已经感觉和 deepseek 满血差距很小了，非常好用。
期待 gemma3 。