siriussilen

siriussilen

V2EX 第 196931 号会员,加入于 2016-10-18 20:24:30 +08:00
今日活跃度排名 21761
根据 siriussilen 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
siriussilen 最近回复了
23 天前
回复了 onikage 创建的主题 问与答 ai 训练(非大模型)现在可以用 cpu 跑吗?
可以,就是慢了点
@TXisfine 还能备案?????
24 天前
回复了 TESTFLIGHT2021 创建的主题 宽带症候群 北京联通 AS9929 谁测试过?
用上了 限速 200M ,speedtest 最多能跑 230M
@Azure99 看错了,5.98 是某个单项的。不是总分,如果只看这两个评测结果来看的话,确实感觉这批数据的效果还不错,不过我感觉还是说不清这个收益的提升是因为你的数据多样性、高质量带来的,还是因为引入中文语料的所带来提升,感觉再补充更多的评测证明工作的有效性会更好一点,已 star
@Azure99 求解释下上面的信息👆
是这样,我们都知道 sft 的时候需要保证样本的多样性以及使用高质量的样本是吧,以及你在上面也提到了现有的大部分 sft 工作就是把 chatgpt 或者人类编写的高质量回复作为一个 teacher 模型来指导相对小模型的学习。Orca 的意义在于给你了一种看似还不错的数据加工方法,让你能够在某一批通用数据的基础上使用这种方式组织样本后能够最大限度发挥 teacher 的能力,通过 sft 的方式迁移到小模型上还能取得一个不错的效果。Orca 也只是在 Flan 工作的基础上证明这条技术路线的有效性而已。

我刚刚看了一下您的数据精调模型( blossom-v4-qwen-14b )和其他通用精调模型( qwen-14b-chat )的对比
我看在你的 github 里 AlignBench 评估中,blossom-v4-qwen-14b 是 5.66 分,qwen-14b-chat 是 5.41 分。
但是我在 Align Bench 的 github ( https://github.com/THUDM/AlignBench )中看到的评测信息,qwen-14b-chat 是 5.98 分,这个怎么理解啊?
@Azure99 看到介绍了,基于 OpenOrca 处理的
@Azure99 而且 orca1 的工作在论文上做精调效果也不差,在指令遵循等方面都有不错的提升,orca2 放出了精调的模型,也可以瞅瞅看看它的能力边界,我认为不算差,是一个开源社区中通用精调相当不错的工作。
@Azure99 1850 种不算少了吧,中文 orca 数据怎么做的?开源的吗? 还是自己复现了 orca1 的工作?
说到 step by step ,有一个 Orca2 的工作,他们对任务的划分不仅仅是 step by step, 还有 direct answer ,recall then generate 等等
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3206 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 11ms · UTC 12:10 · PVG 20:10 · LAX 04:10 · JFK 07:10
Developed with CodeLauncher
♥ Do have faith in what you're doing.