kennylam777

kennylam777

V2EX 第 90581 号会员,加入于 2015-01-08 01:22:38 +08:00
今日活跃度排名 26072
根据 kennylam777 的设置,主题列表只有在你登录之后才可查看
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
kennylam777 最近回复了
@yanyuechuixue 不同量化方案各有千秋, 主要分別是硬件支援, 表現也各有不同。

例如 exl2 是我用過最快的方案, 而且量化選擇比較多. 4bit 以外還有 5/5.5/6bit 等等, 對我來說比較容易選一個剛好塞進 4090 的配搭。問題是, 快是很快, 但只限 CUDA only 及 RTX30x0 以上的 GPU, 而且支援軟件不足, 也不能配 PEFT, 所以只能用來跑推理。

GPTQ 是只有 4bit 和 8bit 兩個選擇, VRAM 利用率不及 exl2, 速度也慢, 但 GPTQ 的好處是支援軟件比較多, 而且能直接用 PEFT 做 LoRA 微調。

GGUF 沒用過, 但我知道 Apple Silicon 的用家都是靠它的量化。

其實還有 bitsandbytes 的量化, 直接載入原 model 時的 4bit/8bit 量化, 推理效果不及 exl2/GPTQ/GGUF 好, 但要跑 qLoRA 微調的話, bitsandbytes 還是最通用的方案。
@yanyuechuixue 你是問 exl2 的量化吧? 我用這個, bartowski 家的 exl2 量化很多。
https://huggingface.co/bartowski/Qwen2.5-Coder-32B-Instruct-exl2

這種 model 應該大家都用的 Instruct 版, Base model 沒 SFT 過應該不好用。

@glcolof 我在 Windows 跑 4.25b 量化, 20K 是沒問題的, 節省其他開銷的話可能 30K 也行, 但我也沒調過 YARN 就是了。
@sampeng 有道理, 即使工作上要 deploy LLM 也應該優先選擇 ChatGPT/Claude API 按量付費。

但對於本來就有 4090 和 3090 用來玩遊戲的我, Local AI 就是用來榨出現有硬件價值的玩法。

我相信 Apple Silicon 的玩法也是一樣的, 本來就會買一台機來用, 看到免費的 LLM 拿來用起碼不必多訂閱一個服務。
@SoulSleep 你這種 use case 是 Ops 選錯方案啦, 租用雲 GPU 不是都為了 fine-tuning 嗎? 用完趕快關掉的那種, 6K 月費夠你買私有硬件了吧。當初沒調研過用量嗎?
@m1nm13 nat1 這種沒標準化過的 jargon 也太欺負 LLM 了吧? Local AI 應該用在 code review 一類 RAG 的用途會比較好。
@spike0100 Apple Silicon + 24GB 應該能跑 GGUF q3 吧, q4 可能也可以但有點勉強
剛測了一下, 4090 跑 Qwen2.5 32B coder exl2 4.25b 量化, 速度約 32tokens/s, 配 VSCode Continue 能做不錯的"explain this code to me", Custom OpenAI API

之後用真實的任務試試看, 至少現在知道 4bit 配 Continue 直接能用, 希望有時間能比較一下 8bit 量化的分別
@yanyuechuixue Windows 的 shared VRAM 是能跑 LLM, 但超過了 dedicated VRAM 後性能會大幅下降, 得不償失
@spkingr 淘寶上的 P40 很便宜, 組兩張應該能跑 32B 8bit 量化, 舊 N 卡的量化選擇應該比 Apple Silicon 多, 也可以跑 fine-tuning 雖然比 3090 慢就是了
@ShadowPower 哈哈剛發帖就看到配置了, 雙 3090 跑 8bit 量化感覺 VRAM 很充裕, 多出的 VRAM 就用來撐起 context length,

我記得之前用 Qwen 2.5 32B 8bit 量化, 在雙 3090 設成 20K 也沒問題, 如今 Coder 版應該能盡用更大的 context window
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3680 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 10ms · UTC 10:34 · PVG 18:34 · LAX 02:34 · JFK 05:34
Developed with CodeLauncher
♥ Do have faith in what you're doing.