heihe 最近的时间轴更新
heihe

heihe

V2EX 第 544298 号会员,加入于 2021-05-02 00:25:08 +08:00
heihe 最近回复了
@doraemon0711 对的。
@doraemon0711 你这个规模没必要了,直接放 es 里面就可以了。
@doraemon0711 一般在召回之前,会对关键词做意图识别,实体识别的处理,然后拿到这些数据作为召回的条件,这些处理规则一般是算法测的模型在处理,工程这边只是拿到结果,当然具体怎么玩,依据你们公司有无对应的团队呢。
@doraemon0711 你的目的是干什么呢?当时我们是大数据场景,集群每天几十亿数据写入,集群 TB 级别数据,分词器做了改造,目的是为了减轻 es 集群 CPU 的压力且 ES 只用来检索,如果你数据量不大,像楼下这种偏电商场景,直接用 ES 本身处理即可,至于实体识别,意图识别这个和 ES 本身分词没什么关系,一般是算法测处理,他们存储好,工程测通过关键词直接去拿。
你这样又多依赖了一个组件,可以尝试把分词直接放到你们数据写入服务里面,将分词的结果用空格拼接,es 里面保留空格分词。
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2695 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 11ms · UTC 14:27 · PVG 22:27 · LAX 07:27 · JFK 10:27
Developed with CodeLauncher
♥ Do have faith in what you're doing.