首页   注册   登录

TimePPT

V2EX 第 62211 号会员,加入于 2014-05-08 19:56:28 +08:00
今日活跃度排名 9035
TimePPT 最近回复了
@bruce00 还有就是内容相同或者相似判断,比如你问 参数 a 是什么意思,有可能下游会有多个命令参数都带 a,怎么确定问的是哪个?
一般这种就涉及多轮询问确定完整意图了,简单的可以用一次检索返回结果后给一个 list 进行选取,复杂的可能就要反问确定。涉及多轮交互的,就有一个对话 session 管理的问题在里面了。

市面上应该有开源或者封装好的简单 chatbot,支持自定义那种,自己改改也许也能用。
@bruce00 因为需求特异吧,市面上轮子比较多的是一些生活查询类的 bot,比如查个天气啥的,查 man page 这种估计也就程序猿用的多吧 233
其实这个好的一点是一般 man page 都是索引好的,下游资源不用太多处理,麻烦就麻烦在 NLU 这块,intent 要有数据训练分类器(如果仅仅是一个 domain 直接上过滤器就好),slot 抽取这块也比较麻烦。句式的支持上多样性越高对 NLU 的要求就越高,如果仅仅一种或者有限的几种句式的话可以试试自定义 Pattern 解决。
这种特异性需求通常需要自己按照需求对 NLP 模型进行训练。
现在市面上的流行架构是对自然语句做 NLU (语义理解),确定 intent (意图),并对意图涉及到的 Slot (槽位)进行抽取确定,之后对 slot value 做 normalize (标准化),生成标准请求字段请求下游资源,返回结果后进行结构化展示或者再 NLG (自然语言生成)到 answer
上面是提供思路,有没有轮子就不知道了。
16 天前
回复了 m9rco 创建的主题 程序员 请教一下,推荐系统的实现
先试试新闻吧,音乐推荐全靠标签,短文本的新闻更方便做内容相似判断
28 天前
回复了 apisces 创建的主题 自然语言处理 关于短信内容二分类,请指点一下
@apisces 一般模型效果质量评价的话看召回率、精度,F1 值吧,主要是还要看考虑模型过召回和欠召回的情况。也有很多相关文章可以查下。
28 天前
回复了 apisces 创建的主题 自然语言处理 关于短信内容二分类,请指点一下
市面上现成的产品有「熊猫吃短信」,作者就在 v2ex,有条件的可以查下相关介绍。
垃圾文本信息的朴素贝叶斯判断是个经典问题,流传最广的是《黑客与画家》作者 Paul Graham 的那篇《防止垃圾邮件的一种方法》
分类器流程这个网上一搜一大把,分词可以用 jieba 分词这种开源库,也可以用三方 API,各大厂的云服务都有这个。
垃圾短信训练样本 Github 上有人分享过,可以找了看下。如果只是判断是不是广告相对简单。
膜拜大佬
41 天前
回复了 HarveyLiu 创建的主题 问与答 安卓手机,邮箱 APP 你们都用哪家?
Outlook 挺好用的
67 天前
回复了 Northxw 创建的主题 程序员 Python re 匹配中文数字混合字符串 掉坑了
@Northxw 了解……
67 天前
回复了 Northxw 创建的主题 程序员 Python re 匹配中文数字混合字符串 掉坑了
要是这玩意本身就是邮件,建议直接读邮件头
关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   3411 人在线   最高记录 5043   ·  
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.3 · 10ms · UTC 04:32 · PVG 12:32 · LAX 21:32 · JFK 00:32
♥ Do have faith in what you're doing.
沪ICP备16043287号-1