V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
proofreading
V2EX  ›  自然语言处理

中文分词在线接口 API 需求调查

  •  
  •   proofreading · 2019-02-25 16:33:36 +08:00 · 21356 次点击
    这是一个创建于 2128 天前的主题,其中的信息可能已经有所发展或是发生改变。
    准备提供一个:中文分词在线接口 API
    功能:中文分词,初级的实体识别
    费用:每日 3000 次以内免费
    原因:目前 JCJC 错别字检测服务器有 5 台服务器,部分资源闲置。

    调查内容:
    大家对:中文分词在线服务,有那些期望呢?

    谢谢大家
    6 条回复    2020-09-05 21:15:59 +08:00
    stlee
        1
    stlee  
       2019-02-25 16:45:48 +08:00 via Android
    梁博的 pullword 挺不错。
    shm7
        2
    shm7  
       2019-07-01 19:08:52 +08:00 via iPhone
    jieba thulac pkuseg pynlpir pyltp 还有 hanlp corenlp fudanlp,想不通。
    proofreading
        3
    proofreading  
    OP
       2019-11-28 13:07:37 +08:00   ❤️ 1
    在线分词,的确有很多反感了,

    所以就做了一个:NER 实体识别的在线演示:

    http://cuobiezi.net/etpro/index


    需要 API 接口的朋友,可以给我私信。
    proofreading
        4
    proofreading  
    OP
       2019-11-28 13:08:07 +08:00
    打错字了, 正确的字:方案。
    KalaSearch
        5
    KalaSearch  
       2020-09-05 15:56:24 +08:00
    我觉得切词 API 的需求应该还是大的,主要是极多情况下大家的主要业务也不是分词本身,所以一味追求分词准确度没有意义,还不如用一个效果“合理”的 API

    合理的定义当然非常主观,但对多数人来说,分词的作用就是做搜索。我们的经验中,要把分词琢磨清楚再把搜索琢磨清楚还是很不容易的。

    ES 有不少分词用的插件,但要比较各种分词的效果(索引分词效果和搜索分词效果)会需要比较多的上下文知识。通常 Analyzer 和 Query analyzer 必须用同样的分词器,但也会造成有的时候某个词就是搜不出来的情况。

    所以如果是做搜索,且预算允许的话,自荐下我们做的卡拉搜索,啥也不用配置,接上 API 瞬间开搜,后台直接控制排序算法也很方便(灵感来自于 Algolia,算是个跟 ES 很不一样的独创吧)。

    速度在我们的 benchmark 上比优化过的 ES 还快 10 倍左右,欢迎试用
    proofreading
        6
    proofreading  
    OP
       2020-09-05 21:15:59 +08:00
    非常好 @KalaSearch , 我尝试一下你们的服务。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1050 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 19ms · UTC 19:36 · PVG 03:36 · LAX 11:36 · JFK 14:36
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.