V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
gowl
V2EX  ›  问与答

中文分词有哪些技术难点?另外,性能(每秒 xxx MB 文本)会是大家考虑的实际问题么?

  •  
  •   gowl · 2018-02-25 04:42:44 +08:00 · 3051 次点击
    这是一个创建于 2242 天前的主题,其中的信息可能已经有所发展或是发生改变。

    或者说,有哪家分词算法可以自信地说能做到无限接近 100 %正确?

    22 条回复    2018-02-26 12:01:38 +08:00
    nikoo
        1
    nikoo  
       2018-02-25 05:51:39 +08:00   ❤️ 11
    我买楼主要看心情
    lsvih
        2
    lsvih  
       2018-02-25 08:34:37 +08:00 via iPhone
    中文没分隔符,有消岐、oov 等一堆难点

    当然会考虑速度

    现在还没有无限接近 100% 的
    liuhaotian
        3
    liuhaotian  
       2018-02-25 08:45:19 +08:00 via iPhone
    @nikoo 你这句话我读了三遍才读明白😂
    schoolers
        4
    schoolers  
       2018-02-25 08:59:51 +08:00
    @nikoo 你这句话我读了两遍才读明白😂
    misaka19000
        5
    misaka19000  
       2018-02-25 09:19:43 +08:00 via Android
    你这句话我读了三遍也没读明白
    misaka19000
        6
    misaka19000  
       2018-02-25 09:20:31 +08:00 via Android
    @nikoo 你这句话我读了三遍也没读明白😂
    Baymaxbowen
        7
    Baymaxbowen  
       2018-02-25 09:37:11 +08:00 via Android   ❤️ 1
    北京大学你是分成一个词还是两个词?
    nfroot
        8
    nfroot  
       2018-02-25 09:54:19 +08:00 via Android   ❤️ 1
    南京市长江大桥
    murmur
        9
    murmur  
       2018-02-25 10:00:16 +08:00   ❤️ 1
    中文分词的最大难点还是网络用语 尤其是带反和谐部分的
    BingoXuan
        10
    BingoXuan  
       2018-02-25 11:36:55 +08:00 via Android
    @misaka19000
    正确:我 买楼 主要 看 心情
    错误:我 买 楼主 要 看 心情
    所以说中文分析很做到正确
    BingoXuan
        11
    BingoXuan  
       2018-02-25 11:37:29 +08:00 via Android
    @BingoXuan
    分析 -> 分词
    takato
        12
    takato  
       2018-02-25 15:12:47 +08:00   ❤️ 1
    为什么需要分词?
    takato
        13
    takato  
       2018-02-25 15:14:15 +08:00   ❤️ 2
    从我的理解来看,如果要清晰做到理解语义。
    则分词这个方法从架构上可能就是错误的。
    因为分词要求词和词彻底分开,但词之间可能是以概率方式表示某种语义的。
    gowl
        14
    gowl  
    OP
       2018-02-26 06:52:18 +08:00
    @takato 内行~
    gowl
        15
    gowl  
    OP
       2018-02-26 07:42:55 +08:00
    @takato 我能模模糊糊地感知你的意思,但是不能完全领会,能不能举两个例子啊~
    gowl
        16
    gowl  
    OP
       2018-02-26 07:45:52 +08:00
    @Baymaxbowen 我觉得应该分一个词~
    gowl
        17
    gowl  
    OP
       2018-02-26 07:48:19 +08:00
    @murmur 感谢点拨
    gowl
        18
    gowl  
    OP
       2018-02-26 07:49:49 +08:00
    今天听一 个朋友说做分词最好的机构似乎是一家台湾的机构
    takato
        19
    takato  
       2018-02-26 09:50:22 +08:00   ❤️ 2
    @gowl 举个例子,鱼,鱼子,鱼子酱。三者是不同的东西,但又不是完全无关的东西。现有的分词逻辑中,相当于是将不同的词作为了独立元素。你会注意到是否将鱼子酱作为一个词,其实是一件很头疼的事情。。。
    这是因为语义的联系在 字 的层面上就已经存在了,而词的本质是字的排列组合。

    比如:

    鱼对于鱼子的意思,是有贡献的。
    而鱼子对于鱼子酱的意思,也是有贡献的。

    所有的字的组合构成了最完整的词的含义。

    所以用 字 构成了基本元素的模型可能会比词保留更完整的语义信息。
    takato
        20
    takato  
       2018-02-26 09:51:37 +08:00   ❤️ 1
    @gowl 这也是为什么有人会弄出词向量这种东西。。
    gowl
        21
    gowl  
    OP
       2018-02-26 11:07:01 +08:00
    @takato 谢谢指点🙏
    yybeta
        22
    yybeta  
       2018-02-26 12:01:38 +08:00
    自己试过好多,目前离线用 jieba,API 用 boson,https://bosonnlp.com/demo 可以试试,可能是中文做得最好的。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5512 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 06:47 · PVG 14:47 · LAX 23:47 · JFK 02:47
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.