V2EX › beginor 的所有回复 › 第 6 页 / 共 121 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 ... 2 3 4 5 6 7 8 9 10 11 ... 121

❮

❯

293 天前

回复了 Livid 创建的主题 › Local LLM › Llama 3.3 70B

如果用 LM Studio 运行 mlx 版本的 [Llama-3.3-70B-Instruct-4bit]( https://huggingface.co/mlx-community/Llama-3.3-70B-Instruct-4bit) 可以稍微快一点点，5.x tokens / 秒。

293 天前

回复了 Livid 创建的主题 › Local LLM › Llama 3.3 70B

M1 Max 64G 用户，在 `/etc/sysctl.conf` 文件中添加选项 `iogpu.wired_limit_mb=57344` ，这样最多可以分配 56G 内存给显卡用。

用 llama.cpp 可以运行 `llama-3.3-70b-instruct.q4_k_m.gguf` ，不过要限制一下上下文大小，不然还是内存不够，生成速度大概是 4 token / second 。

```
main: server is listening on http://127.0.0.1:8080 - starting the main loop
srv update_slots: all slots are idle
slot launch_slot_: id 0 | task 0 | processing task
slot update_slots: id 0 | task 0 | new prompt, n_ctx_slot = 4096, n_keep = 0, n_prompt_tokens = 26
slot update_slots: id 0 | task 0 | kv cache rm [0, end)
slot update_slots: id 0 | task 0 | prompt processing progress, n_past = 26, n_tokens = 26, progress = 1.000000
slot update_slots: id 0 | task 0 | prompt done, n_past = 26, n_tokens = 26
slot release: id 0 | task 0 | stop processing: n_past = 354, truncated = 0
slot print_timing: id 0 | task 0 |
prompt eval time = 2035.41 ms / 26 tokens ( 78.29 ms per token, 12.77 tokens per second)
eval time = 79112.92 ms / 329 tokens ( 240.46 ms per token, 4.16 tokens per second)
total time = 81148.33 ms / 355 tokens
srv update_slots: all slots are idle
request: POST /v1/chat/completions 127.0.0.1 200
```

299 天前

回复了 itnoob 创建的主题 › Apple › 用了 10 年 Intel 的 Mac，刚换 M4Pro 的 MBP，有什么专属于 M 芯片的颠覆性体验的软件推荐么？

怎么忘了这个，play cover 玩原神，还有好多 iOS 游戏

299 天前

回复了 itnoob 创建的主题 › Apple › 用了 10 年 Intel 的 Mac，刚换 M4Pro 的 MBP，有什么专属于 M 芯片的颠覆性体验的软件推荐么？

本地跑大模型 llama.cpp / ollama 或者 lmstudio ，绝对是颠覆性的体验

300 天前

回复了 soraginko 创建的主题 › Google › 打开 gemini web “出了些问题，请稍后再试”

打开 copilot 也经常会出现类似的错误

303 天前

回复了 drymonfidelia 创建的主题 › 程序员 › 如果用户电脑上没有.NET 运行库（或者 VC++，只是举个例子），我程序安装过程中给用户电脑自动安装.NET 运行库，卸载的时候应该把.NET 运行库一起卸载掉吗？

.NET 的话可以单文件发布啊，自带运行时就没有这个问题了。如果是 C++的话，可以编译为静态依赖库，做成绿色版