V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
apisces
V2EX  ›  自然语言处理

关于短信内容二分类,请指点一下

  •  
  •   apisces · 2019-04-22 13:25:52 +08:00 · 20460 次点击
    这是一个创建于 2040 天前的主题,其中的信息可能已经有所发展或是发生改变。

    刚进入实验室,老师布置了一个任务,就是对于一条中文短信内容,判断其是否属于广告类的短信。老师提示可以考虑使用朴素贝叶斯算法,分词可以用库,要求一周内完成。 由于原来没有接触过自然语言处理,对此有点不知如何下手,只知道分词,条件概率这些东西,看了网上一堆博客也有点懵,想请大家指点一下,这样一个分类器的处理流程应该是怎样的,分成一些什么步骤,万分感谢。

    4 条回复    2019-07-01 19:07:04 +08:00
    TimePPT
        1
    TimePPT  
       2019-04-22 17:55:46 +08:00
    市面上现成的产品有「熊猫吃短信」,作者就在 v2ex,有条件的可以查下相关介绍。
    垃圾文本信息的朴素贝叶斯判断是个经典问题,流传最广的是《黑客与画家》作者 Paul Graham 的那篇《防止垃圾邮件的一种方法》
    分类器流程这个网上一搜一大把,分词可以用 jieba 分词这种开源库,也可以用三方 API,各大厂的云服务都有这个。
    垃圾短信训练样本 Github 上有人分享过,可以找了看下。如果只是判断是不是广告相对简单。
    apisces
        2
    apisces  
    OP
       2019-04-23 09:55:24 +08:00 via iPhone
    @TimePPT 谢谢回复,自己根据理论撸了一个朴素贝叶斯,准确率在 82-92 之间。
    TimePPT
        3
    TimePPT  
       2019-04-23 10:06:01 +08:00
    @apisces 一般模型效果质量评价的话看召回率、精度,F1 值吧,主要是还要看考虑模型过召回和欠召回的情况。也有很多相关文章可以查下。
    shm7
        4
    shm7  
       2019-07-01 19:07:04 +08:00 via iPhone
    天啊 sklearn 的 guide text 部分直接套的…
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3407 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 11:01 · PVG 19:01 · LAX 03:01 · JFK 06:01
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.