V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  zzzlight  ›  全部回复第 12 页 / 共 15 页
回复总数  286
1 ... 4  5  6  7  8  9  10  11  12  13 ... 15  
解释一下为啥 milvus 里面有 faiss ,因为所谓的 milvus 核心的代码还是从 faiss 的开源库里面拿过来魔改的,反正现在就是啥开源啥拿来魔改缝合,我不知道你是用的哪个语言接口,里面提供的方法还有哪些,但是这个玩意核心还是用 c++实现的,提供的 mode 溯源的核心算法应该就是那几个(抱歉好久没看 milvus 的调用接口了,现在也不记得了)。
不过 milvus 上那些已经算是能用的算法可以都了解一下,就那么几篇论文,应该对你提高搜索精度上能有所帮助。名字就是我上面提到的一些,考虑到你主要估计是做学习的,省事可以直接看知乎,勤快点就看看论文原文。
向量检索是个大坑,发论文啥的就别碰这个了,对 c++实力要求太高了,而且很多现在的论文也是想尽办法水(属于水都不好水了)
检索上就是速度和精度的权衡,根据你的数据量、内存大小的取舍。
距离度量的话 l2 是没啥毛病的。
@OysterQAQ
除了用 faiss 的话,没事你可以看看 milvus 的配置,换换别的方法,底层用基于图的一些算法或者聚类量化+图结合的应该能提高不少检索精度(不过这个也看你数据量,上亿如果一亿数据还能勉强用用图,更多就只能 pq 算法(又叫基于量化的算法)或者他们的魔改版 diskann 了)。
@OysterQAQ faiss 是 Facebook 的一个库,里面有常见的一些算法比如 pq 、ivfpq 、HNSW 这些,ann 是近似最近邻搜索的意思(现在换了个皮叫向量检索),faiss 是 ann 的搜索算法库。是这么个关系。
检索上 milvus 的集成了不少算法,可以都试试(最后会发现还是经典的 HNSW 最好用)。工业上主流还是 ivfpq 、HNSW 这些,milvus 好像把 diskann 这种超大规模的集成了,但是还是不如经典的 HNSW (听说 milvus 最近魔改进 Diskann 了)。反正检索方面是这个情况。
@OysterQAQ resnet 够用了(这方面真的越经典的越好用,确实是有原因的,很多灌水的或者好像很火的论文在工业应用上是大粪)
这玩意核心还是数据,我还记得以前实验室师弟高强度爬数据的日子 5555555555 。以及被硬盘爆满支配的恐惧。
厉害的,虽然我研究生是做向量搜索的,曾经也有过做这个的想法,可惜行动力不足+实验室折磨导致彻底被恶心到了。楼主研一虽然都是开源库,把这一套搞出来真的很不容易了。
正版机价格不够好确实不好卖,我 slim 带手柄 700 出的
@LandCruiser 现在也可以考虑国内读,我室友 26 才入学
你本科能想那么多办法去弄这些打算转专业,为何不研究生考研直接换而是说去加拿大读研?我想应该你有这个想法,直接考计算机的研应该也能行动吧。现在本科不是计算机的考研也非常多,在外面承认度看你学校,但是专业名是一定能换掉吧?
349 天前
回复了 Danswerme 创建的主题 分享发现 发现淘宝一个神奇的 BUG
你这个 bug 发现的有点牛。
349 天前
回复了 zzzlight 创建的主题 职场话题 23 秋招 offer 选择和职业发展求建议
@d5 去了楼下评论投票最多的地方。还可以。
有没有可能,当你发现问题后你也可以提交用例(众人拾柴火焰高)
现在一年的港硕 cs 的都不太好申咯
2022-11-13 17:38:08 +08:00
回复了 MrKeanu 创建的主题 职场话题 西部某 211 研 深处迷茫焦虑 求职业规划建议
@googlefans 只能说这样确实是最理想的情况,然而找工作时候发现理想和现实冲突也挺大。
1 ... 4  5  6  7  8  9  10  11  12  13 ... 15  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2906 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 24ms · UTC 13:55 · PVG 21:55 · LAX 06:55 · JFK 09:55
Developed with CodeLauncher
♥ Do have faith in what you're doing.