V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
976683240
V2EX  ›  问与答

有这样一个文章分类的需求,大家有没有好的解决方案

  •  
  •   976683240 · 2018-12-03 15:14:02 +08:00 · 1456 次点击
    这是一个创建于 2219 天前的主题,其中的信息可能已经有所发展或是发生改变。

    数据库中有 10w 条没有分类的文章,含有标题,内容(文本),创建时间等等字段

    现在需要将这 10w 数据分到政策,行情,军事等等 7 个分类下

    有没有好的解决方案

    6 条回复    2018-12-03 22:59:11 +08:00
    maemolee
        1
    maemolee  
       2018-12-03 17:10:01 +08:00
    对七个分类预设一批关键词,去匹配?我瞎说的,抛砖引玉。
    xiaoxinshiwo
        2
    xiaoxinshiwo  
       2018-12-03 17:21:19 +08:00
    分表
    或者 es
    gsscsd
        3
    gsscsd  
       2018-12-03 17:23:45 +08:00 via Android
    tfidf+机器学习多分类或者词向量+深度学习多分类
    banks0913
        4
    banks0913  
       2018-12-03 17:24:34 +08:00
    scikit-learn,利用朴素贝叶斯分类器训练模型
    to
        5
    to  
       2018-12-03 18:01:05 +08:00 via Android
    小批量训练个模型就好了
    yangzhezjgs
        6
    yangzhezjgs  
       2018-12-03 22:59:11 +08:00 via Android
    文本分类了解一下
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   966 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 21:19 · PVG 05:19 · LAX 13:19 · JFK 16:19
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.