neteroster 最近的时间轴更新
neteroster

neteroster

V2EX 第 191331 号会员,加入于 2016-09-11 21:01:55 +08:00
今日活跃度排名 738
根据 neteroster 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
neteroster 最近回复了
3 天前
回复了 CNYoki 创建的主题 程序员 ollama 本地模型 GPU 跑不满
用 vLlm 。
mini 阉割太狠,一个字就是蠢,能力上与其说是 4o 的阉割版不如说是 3t ( 1106 ) 的加强版,加的还不多。甚至在某些 benchmark (例如 https://aider.chat/docs/leaderboards/ )上相比 3.5 还出现倒退。我自己比较关注翻译,mini 更是一塌糊涂。
那我为什么不选择 1/2 RMB 每百万 Token 的 DeepSeek 呢(
11 天前
回复了 Nostalghia 创建的主题 OpenAI 有人试过用大模型翻译长篇英文书吗?
都是分段的,没人一次性翻全部
47 天前
回复了 smalltong02 创建的主题 程序员 对 Qwen 2 模型代理能力的完整测试
很好的测试。Qwen2 确实是非常优秀的一组模型,特别是多语言能力方面的改进可圈可点。阿里选择将模型(除 72B )以 Apache2.0 开源也是非常慷慨。期待未来更强的模型。
@googlefans 那都不是一个系列的,Qwen 开源模型系列目前最新版本是 Qwen1.5 ( https://huggingface.co/Qwen ),下一个版本是 2 。

所谓通义千问 2.5 指的实际上是 Dashscope 上型号为 "qwen-max" 的闭源模型,后者目前指向 "qwen-max-0428"( Chatbot Arena 榜上有名),而 Qwen2 开源系列将很可能超过该模型( ref: 官方 discord )
等 Qwen2 ,这两周会出,不出意外的话应该会很强(推上几位相关负责人都很自信)
68 天前
回复了 Tuatara 创建的主题 NVIDIA 现在买 3090TI 玩 AI 靠谱吗
@wsbqdyhm 这个 https://github.com/RVC-Boss/GPT-SoVITS

如果不会用的话 B 站搜搜教程,现在应该听多了。
69 天前
回复了 Tuatara 创建的主题 NVIDIA 现在买 3090TI 玩 AI 靠谱吗
@muxiaofei

中文微调推荐 Qwen 系列,llama3 预训练估计没多少中文语料。

微调分不同类型,全量,LoRA ,QLoRA 等,最近也有一些新兴技术。例如,llama3 8b 用 LoRA 基本 24G 能满足,但是全量微调这个大小则是天方夜谭。部分任务下 LoRA 等技术和全量微调效果接近甚至更好,但是也有很多任务是不及全量微调的,需要实际测试。

租算力完全可行。

另外,知识库不推荐微调,先试试 RAG 。
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2404 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 917ms · UTC 04:36 · PVG 12:36 · LAX 21:36 · JFK 00:36
Developed with CodeLauncher
♥ Do have faith in what you're doing.