V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
sirz
V2EX  ›  数据库

向量存储数据库该如何选择?

  •  
  •   sirz · 247 天前 · 2443 次点击
    这是一个创建于 247 天前的主题,其中的信息可能已经有所发展或是发生改变。

    目前了解到的向量存储数据库有如下几种,主要的场景就是 RAG 开发,知识库数据量应该不算特别多,哪种更适合?

    chroma 、 elasticsearch 、 Milvus 、 neo4j 、 opensearch 、 pinecone 、 qdrant 、 redis 、 vespa 、 weaviate 、 pgvector

    23 条回复    2024-04-25 17:22:32 +08:00
    LuvYukino
        1
    LuvYukino  
       247 天前   ❤️ 1
    elasticsearch
    ren2881971
        2
    ren2881971  
       247 天前
    Milvus 这玩意好像是专门的向量数据库
    mmdsun
        3
    mmdsun  
       247 天前
    chroma 、Milvus 。
    mark2025
        4
    mark2025  
       247 天前   ❤️ 2
    postgres + 插件(PGVector / Svector )
    https://pigsty.cc/zh/blog/pg/pg-eat-db-world/
    jackerbauer
        5
    jackerbauer  
       247 天前
    @LuvYukino #1 据说不咋好用啊
    raycool
        6
    raycool  
       247 天前
    Milvus
    jackerbauer
        7
    jackerbauer  
       247 天前
    最近我们也要搞 RAG ,也在这块选呢,大家也帮忙参考参考,最好能支持混合检索的
    jackerbauer
        8
    jackerbauer  
       247 天前
    点乘和欧氏最好都能支持的
    me1onsoda
        9
    me1onsoda  
       247 天前
    pg 也支持
    veotax
        10
    veotax  
       247 天前
    @sirz Casibase ( https://github.com/casibase/casibase )是一套开源的基于 Web 的 AI 知识数据库,直接带有 RAG 聊天功能,也自带向量数据库。GitHub 已达到 2000+ stars ,欢迎体验~
    inhzus
        11
    inhzus  
       247 天前
    先用 es ,大而全,文档多。唯一缺点是延迟相对高。有痛点的时候再蹚其它的坑
    ihnfsa
        12
    ihnfsa  
       247 天前
    我用过 milvus 和 lancedb ,milvus 功能比较全面,lancedb python api 方便,适合快速开发小 deme 做测试用
    kenvix
        13
    kenvix  
       247 天前
    milvus 是最火的那个
    wupher
        14
    wupher  
       247 天前
    写个简单的测试集评估一下呗。当然也要结合你的应用场景,比如你想弄个简单的客户端程序,弄个 ES ……

    同样,你要部署于阿里云,opensearch 就是现成的。

    如果你用诸如 LangChain / LlamIndex 连接上述库写个测试不难的。
    ck65
        15
    ck65  
       247 天前
    已经熟悉 pg 了,直接用了 pg + pgvector
    lekai63
        16
    lekai63  
       247 天前
    看你数据量,10w 以下 pg+vector 没啥问题。

    然后你可以参考 dify 的选择看:他们之前是 weaviate ,现在说是推荐 qdrant 。
    https://docs.dify.ai/v/zh-hans/getting-started/readme/features-and-specifications

    他们在一个 issure 中似乎提到了切换的原因,但我懒得去翻连接了
    B1acKy1in
        17
    B1acKy1in  
       247 天前
    个人推荐 Milvus 性能很可以的
    mumbler
        18
    mumbler  
       247 天前
    大项目用 Milvus ,小项目用 sqlite+faiss, 单文档用 csv+numpy
    bybyte
        19
    bybyte  
       247 天前
    没人提 qdrant 吗
    happyxhw101
        20
    happyxhw101  
       246 天前
    实际项目下来 es 最佳,pgvector.rs 其次,mivlus 等专门的向量库通用性太差,需求稍微复杂一点都不支持,而且做到后面往往需要混合搜索(传统搜索+向量搜索),这种 es 无敌
    XDeviation
        21
    XDeviation  
       246 天前 via Android
    数据量不大的话用 milvus 最好,这个搜索速度和准确度都是最高的那一档,唯一的问题是 milvus 所有数据都存在内存里,数据量大很容易 OOM
    volvo007
        22
    volvo007  
       246 天前
    不愧是最先进的开源数据库。明年估计也要搞类似东西了,先储备起来
    yuxian
        23
    yuxian  
       246 天前
    pg + pgvector +1
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1107 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 18:51 · PVG 02:51 · LAX 10:51 · JFK 13:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.