V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  beginor  ›  全部回复第 6 页 / 共 121 页
回复总数  2401
1 ... 2  3  4  5  6  7  8  9  10  11 ... 121  
293 天前
回复了 Livid 创建的主题 Local LLM Llama 3.3 70B
如果用 LM Studio 运行 mlx 版本的 [Llama-3.3-70B-Instruct-4bit]( https://huggingface.co/mlx-community/Llama-3.3-70B-Instruct-4bit) 可以稍微快一点点,5.x tokens / 秒。
293 天前
回复了 Livid 创建的主题 Local LLM Llama 3.3 70B
M1 Max 64G 用户, 在 `/etc/sysctl.conf` 文件中添加选项 `iogpu.wired_limit_mb=57344` ,这样最多可以分配 56G 内存给显卡用。

用 llama.cpp 可以运行 `llama-3.3-70b-instruct.q4_k_m.gguf` ,不过要限制一下上下文大小,不然还是内存不够, 生成速度大概是 4 token / second 。

```
main: server is listening on http://127.0.0.1:8080 - starting the main loop
srv update_slots: all slots are idle
slot launch_slot_: id 0 | task 0 | processing task
slot update_slots: id 0 | task 0 | new prompt, n_ctx_slot = 4096, n_keep = 0, n_prompt_tokens = 26
slot update_slots: id 0 | task 0 | kv cache rm [0, end)
slot update_slots: id 0 | task 0 | prompt processing progress, n_past = 26, n_tokens = 26, progress = 1.000000
slot update_slots: id 0 | task 0 | prompt done, n_past = 26, n_tokens = 26
slot release: id 0 | task 0 | stop processing: n_past = 354, truncated = 0
slot print_timing: id 0 | task 0 |
prompt eval time = 2035.41 ms / 26 tokens ( 78.29 ms per token, 12.77 tokens per second)
eval time = 79112.92 ms / 329 tokens ( 240.46 ms per token, 4.16 tokens per second)
total time = 81148.33 ms / 355 tokens
srv update_slots: all slots are idle
request: POST /v1/chat/completions 127.0.0.1 200
```
怎么忘了这个,play cover 玩原神 , 还有好多 iOS 游戏
本地跑大模型 llama.cpp / ollama 或者 lmstudio , 绝对是颠覆性的体验
300 天前
回复了 soraginko 创建的主题 Google 打开 gemini web “出了些问题,请稍后再试”
打开 copilot 也经常会出现类似的错误
.NET 的话可以单文件发布啊,自带运行时就没有这个问题了。 如果是 C++的话,可以编译为静态依赖库, 做成绿色版
anywhere3
14 的福克斯,现在才跑了不到 6W 公里,换啥车? 刹车片都没换过,每天上下班 5 公里
306 天前
回复了 qingshui33 创建的主题 Android 红米 K80 感觉配置是真的拉满啊
想换,但是手上的 K40S 还感觉不卡顿🤔
如果你自己都不懂的事情,就不要问 AI 。 个人认为, 现阶段 AI 给人类打辅助还是可以的,自己解决不了的问题,不要太指望问下 AI 就能解决。
不是说达摩院都没了么,还有藏经阁么?
存钱,准备买!
314 天前
回复了 Leon6868 创建的主题 程序员 现代化 SSH 客户端求推荐
M1 Max 感觉 tabby 太慢了, 装了 warp 正在玩
314 天前
回复了 Leon6868 创建的主题 程序员 现代化 SSH 客户端求推荐
@hucw21750 谢谢,我看看
315 天前
回复了 GeekGuru 创建的主题 Apple M4 Mac mini 这么火,但是可能存在重大 BUG
Mac 默认的风扇策略就是懒,装个 Macs Fan Control , 根据传感器温度范围自己调整一下,就舒服多了
315 天前
回复了 Leon6868 创建的主题 程序员 现代化 SSH 客户端求推荐
感觉 JetBrains 2024.3 内置的新终端非常舒适,不知道有没有类似的独立终端应用?
关注,没用过 Ava ,准备入坑
这说明是真果粉,苹果设备适应性强。

弄个个 60Hz 的安卓试试?
@emberzhang 补全代码用 starcoder2-3b.q8_0.gguf 就好,超过 7b 的都是浪费。chat 可以再跑一个大一点儿的
1 ... 2  3  4  5  6  7  8  9  10  11 ... 121  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2754 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 37ms · UTC 00:09 · PVG 08:09 · LAX 17:09 · JFK 20:09
Developed with CodeLauncher
♥ Do have faith in what you're doing.