在电商领域浸淫多年,近期有空对这些年的实践经历做些整理,唠叨唠叨我们遇到的问题和用到的技术解决方案,欢迎同行交流。
PS :封面图跟本文没有任何卵关系,纯粹个人喜欢……
导购领域的发展
只要网上的商品信息保持持续增长,信息过滤、商品挑选的用户痛点也会日益增加,导购需求就会永远存在。
个性精准导购,对技术要求较高,需要用到搜索,推荐,机器学习等多个领域技术。
导购离钱近,可很快有现金流,属于“自我造血型”业务,在这个资本寒冬里,是一个不错的选择。
做好导购,未来可演化成垂直电商平台,发展前景广阔,美丽说、蘑菇街是成功案例。
说那么多废话,我就是想简单讲一下分词
为了有效的给用户推荐商品,首先要理解用户需求和商品,这两者的精准刻画都离不开分词。
我们这里说的分词是指中文分词,指的是将一个汉字序列切分成一个一个单独的词。这是中文特有的问题(英文有空格可以天然分隔),需要进行一些技术处理。
通用的分词算法可分三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。这里不展开详述,大家可以自行百度,这三个分词流派我们都用上了。
在实践过程会发现,无论哪种方法,都保证不了 100%的召回率和准确率,技术同学通常面临这样一个难题:召回率 83%,准确率 91%,想进一步提高准确率,就很难保持召回率不降低,怎么破?!
这时候,你需要词典了。
购物分词优化到后期,基本就是词典的优化过程。
词典是一个扩展集合,用于保存预先分好的词,每一个词要标注词性。词性,就是词的性质,是对一个词的进一步解释,比如“ D100 ”在词性是“系列”,“尼康”的词性是“品牌”。(词条,词性)组合,可以保存对应的领域知识。
再列举一些我们用到的词性
核心词:如品牌,型号,系列,商品名等
修饰词:如颜色,材质,风格等
Stopword :无意义的词,如包邮,淘宝热卖等
我们词典的最大特点是基于分类的,也就是说,词典中每一个词的词性并不是唯一性确定的,在不同类目下有不同的词性含义。目前我们维护的电商分类是数千个节点,深度为 4 的树形结构,常见的分类有手机,连衣裙,膨化食品……
这是我们一个词条的印象,大家感觉一下。
下面是我们设计的词条数据结构。
我们词条的词性是基于分类的。
词条的组织形式是分形的,可递归,父词条结构和词条是一样的。
这是词性维度的数据结构,也是基于分类的。
最终,我们通过词条关系的构建,搭建成如上类目属性库,在各种商品文本处理场景中使用。
那么问题来了,那么多品牌词,类目词,修饰词都是从哪里来的呢?
答:从大数据里面来。
通过海量商品文本数据,我们对文本中,相邻的 keyword 建立起概率链模型,如果两个 keyword 经常一起出现,同时词条库里面还没有,那很可能是一个新词。这时候,人工介入标注,更新词条库。日积月累,词条库会越来越强大!
最后,我们的购物分词系统,就演化成介个酱紫的。
我们正在打造一款技术驱动的创新导购产品,欢迎技术极客加盟,用技术改变世界。
脉脉:
https://maimai.cn/card?u=anqmfwckez07
微信: wolfsecond
邮件:
[email protected]
下一篇会介绍爬虫,敬请期待!
让我歇会儿喝口水……