首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Coding
V2EX  ›  程序员

如何通过分析一个论坛帖子内容来对帖子进行分类

  •  
  •   snappyone · 289 天前 · 1037 次点击
    这是一个创建于 289 天前的主题,其中的信息可能已经有所发展或是发生改变。

    大概需求是通过分析一个帖子的内容来对网页内容进行归类,因为之前没做过类似需求,

    帖子的数据如下: [标题],[主贴内容],[每层楼的回复]

    因为需要提取的分类不多本人也不懂机器学习这些,所以打算从标题,主贴和回帖的内容分别去做关键字的过滤,然后对每个部分设置不同权重,通过计算分值来确定帖子的归类。 还请各位能给点小意见,或者有什么成熟方法可以达到这样的目的

    14 回复  |  直到 2019-02-27 10:42:03 +08:00
        1
    CEBBCAT   289 天前
    先说说分啥类吧……
        2
    snappyone   289 天前
    @CEBBCAT 就例如笔记本电脑、化妆品、找工作相关等
        3
    lixuda   289 天前
    我也有这个需求
        4
    mjawp   289 天前
    可以了解一下 svm,sklearn 库里面有现成的算法可以直接用的,不过你可能要稍微研究一下大概的原理。
    也可以了解一下 fasttext,这个更简单,看完 readme 就能上手的了。
    问题是你有没有已经标记好的数据集,就是有一大堆已经标记好属于什么分类的帖子。。
        5
    zycpp   289 天前 via iPhone
    训练数据量? 试试决策树?
        6
    mjawp   289 天前
    @mjawp 还有一个就是中文文本分类的话要做分词处理,也是有各种开源的库,jieba,hanlp 等等
        7
    snappyone   289 天前
    @mjawp 是的现阶段我们有的分类跟现在需求要分的类差距很大,所以可以说没有训练数据集的,只能先研究研究了
        8
    Libby520   289 天前 via iPhone
    tag
        9
    huhuhushan   289 天前
    没有数据的话,可以考虑一下 k-means 聚类算法,比较简单.
        10
    snappyone   289 天前
    @mjawp 对了再请问一个问题,如果我要整理数据集的话,训练集要多大才能出效果啊
        11
    mjawp   289 天前
    @snappyone 看你有多少类呀。感觉每个类别至少需要几千个样本吧。还有你可以考虑用一下词向量。
    我有个思路,现在有很多分板块的论坛。。。。
        12
    Raymon111111   289 天前
    可以先到现有的一些大论坛爬点数据当样本训练
        13
    snappyone   289 天前
    @mjawp 是的,已经有一些类似的数据了,但是噪音很大,一个体育论坛有很多帖子其实是讨论乱七八糟东西的
        14
    a1528026364   288 天前
    参考下 V 站的
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2548 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 26ms · UTC 14:31 · PVG 22:31 · LAX 06:31 · JFK 09:31
    ♥ Do have faith in what you're doing.