V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
veotax
V2EX  ›  分享创造

基于 LangChain 的开源 GPT 向量 + 知识数据库,帮助个人或企业实现自己的专属 AI 问答助手

  •  
  •   veotax · 76 天前 · 24997 次点击
    这是一个创建于 76 天前的主题,其中的信息可能已经有所发展或是发生改变。

    Casibase ( https://github.com/casibase/casibase )是一套开源的基于 Web 的 AI 知识数据库,适合个人或者组织作为自己的专属内部 AI 知识库来使用。GitHub 已达到 1600+ stars ,欢迎体验~

    主要功能如下:

    • 支持 OpenAI GPT-4 模型、GPT Vision 图片解析、DALL-E 画图等功能;
    • 支持最新的 Claude 3 Opus 、Sonnet 等模型,超越 GPT-4 ;
    • 国际模型支持:Azure OpenAI 、Google Gemini Pro 、HuggingFace 、Cohere 等;
    • 国内模型支持:文心一言、通义千问、ChatGLM 、Minimax 、讯飞星火等;
    • 支持多种 Embedding 嵌入 API 接口,如 OpenAI V3, Ada V2, 百度文心一言等;
    • 支持多种通用文档格式:TXT, Markdown, Docx, PDF 等,支持 PDF 文件智能解析;
    • 支持以会话或消息为单位,计算所有大模型 API 的 Token 数和价格(美元或人民币),方便管理员进行 API 成本统计;
    • 支持 AI 小助手通过右下角弹框嵌入到应用网站,进行在线实时聊天,支持聊天会话人工接入;
    • 知识库文档存储支持本地存储,或云端存储(阿里云 OSS 、Amazon S3 、群晖 NAS 等几乎所有主流云存储都有支持);
    • 支持多用户、多租户,支持管理员进行用户管理、角色管理、权限管理,既适合个人使用,也适合组织使用;
    • 支持 QQ 、微信、企业微信、钉钉、Google 、GitHub 等多种第三方登录,支持短信登录、邮箱验证码登录登;
    • 支持谷歌 reCAPTCHA 、hCaptcha 、阿里云、GEETEST 极验、Cloudflare Turnstile 等多种人机验证方式,专业防盗刷;
    • 聊天会话云端存储,所有设备实时消息同步,随时可查看,不会丢失;
    • 支持中文、英文等在内的十几种界面语言。

    在线体验:

    源码:

    社区反馈:

    69 条回复    2024-05-25 22:31:00 +08:00
    fredweili
        1
    fredweili  
       76 天前
    这是什么?又一个向量数据库?
    cccb
        2
    cccb  
       76 天前
    向量数据库用的是什么?向量的存储和检索是用什么工具实现的?
    JaguarJack
        3
    JaguarJack  
       76 天前
    error, status code: 429, message: Requests to the ChatCompletions_Create Operation under Azure OpenAI API version 2023-05-15 have exceeded token rate limit of your current OpenAI S0 pricing tier. Please retry after 13 seconds. Please go here: https://aka.ms/oai/quotaincrease if you would like to further increase the default rate limit.
    coolair
        4
    coolair  
       76 天前
    https://github.com/danswer-ai/danswer/ 比,有啥优势吗?
    向量数据库在新文档上传后,会自动刷新吗?
    veotax
        5
    veotax  
    OP
       74 天前   ❤️ 1
    @fredweili 内置一个向量数据库,为知识数据库提供向量查询功能

    @cccb 内置实现的,可以存储在 MySQL 、Postgres 等数据库中,采用余弦距离作为检索算法

    @JaguarJack 可能是演示站同时使用的人有点多,API 限制了,可以稍等下再用哈~

    @coolair 可以刷新,相比 danswer 的特点包括:后台管理更为强大、支持计算 API 费用、支持国内大模型、开源版支持单点登录 SSO 等
    weixind
        6
    weixind  
       74 天前
    https://fastgpt.in/ 还有一个这个。都是实现一样的产品吧。
    jackrebel
        7
    jackrebel  
       74 天前
    支持一下.
    boringwheat
        8
    boringwheat  
       73 天前
    刚好有这方面的需求,问一下,外挂 Embedding 目前是不是只能从文档内提取啊,结构化数据 JSON 有 api 支持吗?
    tommyshelbyV2
        9
    tommyshelbyV2  
       73 天前   ❤️ 1
    这个方向有很多人做了,光余弦其实效果不好的。这东西也不好变现
    Bantes
        10
    Bantes  
       72 天前
    https://dify.ai 差不多的产品
    kneo
        11
    kneo  
       69 天前   ❤️ 2
    不是很确定这东西是不是真的有用。文本搜索就能直接搜出来的标准答案,它会自己重新编一个似是而非的。
    veotax
        12
    veotax  
    OP
       69 天前
    @boringwheat 架构是前后端分离的,所有功能都有 HTTP API ,包括 Embedding 的 CRUD API

    @kneo 经过多位用户反馈和实际测试,采用 GPT-4 的模型,实测效果还是不错的
    ffgrinder
        13
    ffgrinder  
       69 天前
    @tommyshelbyV2 我也想请教一下除了余弦之外有什么比较好的实践吗
    MasonXu
        14
    MasonXu  
       68 天前
    @kneo 对作者提供的这个不保证结果。但是我做过一个类似的,通过将原始的素材向量化作为初始的数据。用户搜索的时候,也向量化处理并与上一步已经转换为向量的内容做相似度匹配查询。高于特定的比例,例如 0.8 就取原始的答案输出,否则提示找不到,不会自己编写胡扯的
    muchenlou
        15
    muchenlou  
       66 天前
    @MasonXu 大佬你好,这个有类似的开源项目吗?
    lointo
        16
    lointo  
       66 天前 via Android
    有适合代码转向量的向量模型吗
    ren2881971
        17
    ren2881971  
       66 天前   ❤️ 1
    适合国内脑瘫老板,他们总是想私有化部署美,其名曰保护他们企业那点没人关注的数据。
    veotax
        18
    veotax  
    OP
       66 天前   ❤️ 1
    @muchenlou 向量相似度的阈值,这种基本功能都有的,这个放心

    @lointo Casibase 内置了多个切词算法,也叫 Split Provider ,可以选择适合代码的切词算法
    retrocode
        19
    retrocode  
       66 天前
    @ren2881971 这一拳可以啊, 这会咋没人说保护隐私了
    ren2881971
        20
    ren2881971  
       66 天前
    @retrocode 国内无隐私。。
    lointo
        21
    lointo  
       66 天前   ❤️ 2
    @veotax 嗯 可能有一点点误解 不是对代码的切分 是能够把代码向量化的 向量模型 类似 m3e bge 这类 目前知道的都是收费的. 没有自己本地能够部署的. 这里有个相关的对比 https://huggingface.co/moka-ai/m3e-base#%E2%9A%96%EF%B8%8F-%E6%A8%A1%E5%9E%8B%E5%AF%B9%E6%AF%94
    正在调研类似的系统 参考列表
    可独立部署:
    fastgpt
    dify.ai
    chatollama
    langflow
    Flowise
    Langchain-Chatchat

    在线的
    coze
    chato
    beyondex
        22
    beyondex  
       66 天前
    代码向量化?需要做相似代码片段搜索吗?
    Liftman
        23
    Liftman  
       65 天前
    这种实际上的效果。。并不理想。试过类似的。。。而且大部分人连半吊子都不是。很难真的实现效果理想
    ohazyi
        24
    ohazyi  
       64 天前
    有对比过不同的向量数据库 / 语言模型的效果/性能优劣吗? 比如你说的 m3 bge 什么的
    veotax
        25
    veotax  
    OP
       64 天前
    @lointo @ohazyi Casibase 提供了 Embedding Provider 抽象接口,支持各种类型大模型 API 和本地模型的向量化功能。目前实测效果最好的是 OpenAI 的 Embedding V2 以及 V3 模型: https://github.com/casibase/casibase/blob/master/embedding/provider.go
    wangxiaoer
        26
    wangxiaoer  
       64 天前
    这种方案有几个问题:

    1 基于向量搜索的准确度如何,毕竟最后的答案是需要大模型( GPT )通过向量搜索结果进行二次加工(编造)的。

    2 隐私性如何保障:向量搜索结果要作为输入发送给大模型,关注隐私的基本无法用了。
    meinjoy
        27
    meinjoy  
       62 天前
    国内有个 marvis 和你这个一样吧
    QiShine
        28
    QiShine  
       61 天前
    和网易的 Qanything 比较像
    ddddd0
        29
    ddddd0  
       61 天前
    @Liftman 试试 gptbase.ai 是我用过的精度相对好的产品了
    dnsjia
        30
    dnsjia  
       60 天前
    @ddddd0 不错,有对应的开源项目么
    ffwei107
        31
    ffwei107  
       60 天前
    邀请您使用人工智能问答机器人——AI 问答宝:
    https://17281.invite.wendabao.net
    shiyuu
        32
    shiyuu  
       59 天前
    兄弟,知识库要怎么制作啊?我部署了阿里的千问,直接上传一个公司规章制度没有修改过的 word ,根本识别不出来,直接复制文字成 txt 也不识别,更别说其他格式的东西了。
    这知识库是不是要有固定的格式???
    mio4kon
        33
    mio4kon  
       59 天前
    demo 网站怎么上传 pdf 进行测试呢?
    veotax
        34
    veotax  
    OP
       58 天前
    @shiyuu 在数据仓库这个页面(比如: https://demo-admin.casibase.com/stores ),点击对应仓库的“刷新向量”这个按钮,Casibase 会对这个仓库对应的“存储提供商”里的所有文件进行向量索引操作,go 后端会有日志输出。还有其他具体问题可以在 Q 群里提问哈,回答会比较快些~
    ideaa
        35
    ideaa  
       57 天前
    来试试文心一言+知识库的客服系统吧,可以完全自建
    https://www.oamad.cn/
    nunterr
        36
    nunterr  
       55 天前
    功能先不说,你们的主页,和聊天的性能可以优化一下😄,太慢了~~
    chlinlearn
        37
    chlinlearn  
       54 天前 via Android
    有没有像 kimi 支持在线文章链接总结分析的模型推荐?
    Devocy
        38
    Devocy  
       53 天前
    内部实现向量数据库这一点让我很感兴趣。这个资料希望对你有帮助 https://skyzh.github.io/write-you-a-vector-db
    ddddd0
        39
    ddddd0  
       52 天前
    @dnsjia 应该没开源
    lstz
        40
    lstz  
       50 天前 via Android
    我想把此项目集成进项目里,可以吗
    lstz
        41
    lstz  
       50 天前 via Android
    抱歉,想集成到我的开源系统
    veotax
        42
    veotax  
    OP
       50 天前
    @nunterr 演示站的这个性能问题是由于调用了 OpenAI 接口,API 调用到地球另一边有延迟。你自建,然后用国内模型就速度完全没问题了。主页则是 GitHub Pages ,这个看你的网好不好了
    veotax
        43
    veotax  
    OP
       50 天前
    @chlinlearn Casibase 支持上传 PDF 文件作为知识库,然后进行问答(包括总结)
    veotax
        44
    veotax  
    OP
       50 天前   ❤️ 1
    @lstz 欢迎集成哈
    romisanic
        45
    romisanic  
       48 天前
    点开项目才发现,之前已经 star 过了
    那就手动给 OP 点个赞吧
    shm7
        46
    shm7  
       48 天前
    外面都是用大模型/GPT4 的方案,你整个不用大模型的,才能体现出差异化 ; D
    sampeng
        47
    sampeng  
       46 天前
    其实我很像要一个 chatpdf 这样的产品。。。但找了一圈也没有体验类似的
    dabaibai
        48
    dabaibai  
       46 天前
    马克一下 以后看看
    cd605426287
        49
    cd605426287  
       45 天前
    @sampeng KIMI 这种可以读文章的不行?
    sampeng
        50
    sampeng  
       45 天前
    @cd605426287 读文章没意义的。只能是玩具。。要像 chatpdf/chatdoc 一样。能自动跳转 pdf 的引用,根据引用来读
    tingshijie520
        51
    tingshijie520  
       44 天前
    langchain 应该是 python 写的吧,这个基于 langchain 是指基于他的思想还是使用 go 语言版本呢?
    evan9527
        52
    evan9527  
       40 天前
    0 代码基础,有没有那种傻瓜式的,我只需投喂各种文档( pdf ,excel ,图片等),可以帮我连接各个文档检索内容的 ai 工具?就像是 kimi 离线版。
    kimi 目前我使用有一个问题就是,文档内容修改后就得重新开启会话上传新文档。
    tingshijie520
        53
    tingshijie520  
       39 天前
    @evan9527 网易的 QAnything
    sirz
        54
    sirz  
       39 天前
    @ren2881971 更多的是合规性要求
    wwhc
        55
    wwhc  
       34 天前
    真正保护公司/个人信息数据的只能是在本地部署的开源大模型如 LLAMA/Mistral ,这才可以脱离互联网使用,没有数据泄漏的状况。把数据送到外部 AI 服务,没有任何私隐可言
    hitsmaxft
        56
    hitsmaxft  
       15 天前 via iPhone
    @tommyshelbyV2 光靠向量相似度,效果不如传统搜索呢。。
    chenjianyi
        57
    chenjianyi  
       10 天前
    用过 maxkb ,和这个相比怎样呢?
    veotax
        58
    veotax  
    OP
       9 天前
    @chenjianyi 这个企业级应用要强很多,功能很细
    dislazy2023
        59
    dislazy2023  
       9 天前
    我前几天用同样的本地数据,就几 KB 使用 maxkb + 星火 3.5 做了一个简单的 ai 感觉速度奇慢,准确度还低,调教起来挺费劲的
    veotax
        60
    veotax  
    OP
       8 天前
    @dislazy2023 Casibase 可支持 100GB 以上的文档数据( docx 、pptx, pdf 等)作为知识库,采用先进的向量检索算法,对知识进行检索,性能强悍。可以部署试用下
    elseswitch
        61
    elseswitch  
       8 天前
    数据量大的情况下,准确度会不会很差?
    whoosy
        62
    whoosy  
       8 天前
    有个问题想请教下,关于向量搜索这块,对于每个拆分出来的段落,段落标题描述的准确性和段落的 size 是否会直接影响到搜索结果?
    hydyy
        63
    hydyy  
       8 天前
    正好要找类似的,我们用户都有自己的一套数据,能为每个用户提供只对自己的数据搜索吗?
    veotax
        64
    veotax  
    OP
       8 天前
    @elseswitch 不会,通过 Open AI Embedding API + 最佳向量相似度算法,保证高准确度

    @whoosy Casibase 带有启发式的 Splitter 切分算法,能够智能分段。也可以自定义 Splitter 切分算法

    @hydyy 可以,Casibase 本身支持多租户,每个组织里的每个用户,都可以有自己的知识库(文档集合)
    xiaochengdengya
        65
    xiaochengdengya  
       5 天前
    支持一下
    kerb15
        66
    kerb15  
       5 天前
    有准确性的测评数据吗
    wxyudl
        67
    wxyudl  
       5 天前
    收藏
    ZGame
        68
    ZGame  
       2 天前
    后台管理好像打不开
    wsbqdyhm
        69
    wsbqdyhm  
       14 小时 23 分钟前
    看着还不错
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2297 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 04:54 · PVG 12:54 · LAX 21:54 · JFK 00:54
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.