V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
yongyang599
V2EX  ›  分享创造

我开发了一个面向大语言模型的智能数据集构建工具

  •  
  •   yongyang599 · 111 天前 · 1282 次点击
    这是一个创建于 111 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近我开发了一个面向大语言模型的数据集构建工具 - DatasetLoom 。主要是为了更快地从自己的文档中生成训练数据,用来微调大模型。

    用起来很简单:

    • 上传文档(支持 PDF 、Word 、Markdown 、TXT 等)
    • 自动分块(多种策略可选)
    • 自动生成问题和答案(多种策略可选)
    • 导出标准格式,可以直接喂给 LLaMA Factory 等工具训练
    • 还支持批量任务处理和定时执行,方便日常使用。

    项目地址: https://github.com/599yongyang/DatasetLoom

    如果你也在做模型微调或者需要准备训练数据,欢迎大家试用。

    目前是我一个人在开发和维护可能还有一些小问题。如果遇到什么问题,欢迎 Star 和反馈建议,我会尽快修复,感谢支持!

    目前尚无回复
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1250 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 23:23 · PVG 07:23 · LAX 16:23 · JFK 19:23
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.