请教一个结巴分词的问题。。

我看到v2ex上的是用结巴分词提取的标签。。我也想给我的网站用。我的时PHP做的。
首先我clone了结巴分词。使用了他提取标签的demo程序，在命令行下运行。配置词库等。都是默认的，就是 extract_tags.py 这个demo。

一句话，20字左右，提取两个关键词。我发现。在命令行下直接运行这个demo程序，第一次运行 4秒+ 第二次运行因为词库缓存 1.6s左右。。。时间是结巴自己统计的。

loading model from cache /tmp/jieba.cache
loading model cost 1.6911380291 seconds.
Trie has been built succesfully.
[u'\u9910\u5385', u'\u597d\u5403']

我想请问。。这个时间好像挺慢的把。。v2 也是这么慢调用的吗？？
当然我的是阿里云，配置是 1核 1G 内存

关于PHP调用结巴分词。。我现在在做写python http服务，监听端口，跟php来交互返回给我关键词的结果。大家还有什么别的更好的方式么？

关于结巴分词。。还需要优化之类的么？暂时我只需要提取关键词功能，是不是直接用demo改写就好了？@livid

问题稍多有点乱，，感谢认真看完和所有回答的同学

第 1 条附言 · 2014-05-28 20:29:46 +08:00

感谢大家的回复。我一起启动了python的http服务。。确实没问题了。只有启动读入内存的时候会慢。之后会很快。。。
但是，还有一个关于内存消耗的问题：我用了结巴的那个big字典。。就是github自带的那个。。8.5M左右。。但是我确实没想到。。服务启动起来会占二三百M的内存啊。。。这正常么？求分析。。小内存服务器伤不起

分词

结巴

提取

27 条回复 • 2017-09-29 18:24:05 +08:00

Livid

MOD

2014-05-28 17:04:14 +08:00

我们曾经确实在用结巴分词，不过目前已经换到另外一个分词服务了。

改天会向大家介绍，目前看起来效果还不错。

kier

2014-05-28 17:07:53 +08:00

不会呀，我印象中就程序load的时候比较慢，后面就很快呀

a591826944

2014-05-28 17:10:10 +08:00

@kier 是因为我配置低的缘故么？但是看上面的信息。。确实用的时 cache的词库
cache /tmp/jieba.cache

a591826944

2014-05-28 17:11:34 +08:00

@Livid 我是自己做着玩的东西。。所以都行吧。。我想先把这个搞起来看看，，等不到改天了 -_-|||..了解这个比较慢的情况么？

a591826944

2014-05-28 17:12:13 +08:00

关于php 和 jieba 的 python http服务交互。。大家还有什么其他的建议吗

Livid

MOD

2014-05-28 17:13:54 +08:00

@a591826944 V2EX 的办法是单独启动了一个 web service 来提供标签提取。

kier

2014-05-28 17:16:16 +08:00

@a591826944, 刚仔细看了你的帖子，这个使用是没问题的，你是直接运行那个demo程序，它会完成load词库到内存中，然后再分词等等，当然慢了，但是你做http服务，load词库到内存中只会在启动的时候做一次，后面不会再做了，所以速度不会有影响的

a591826944

2014-05-28 17:21:41 +08:00

@Livid 是的我也想这么做。。所以我会启动一个python的http服务。。但是目前在命令行下运行demo的时间来看。。有点长啊。。这样即使上了服务。。也不会快的呀

a591826944

2014-05-28 17:22:57 +08:00

@kier 有道理。。我先做做看。。感谢

ultimate010

2014-05-28 19:19:29 +08:00

干嘛不用c++版本？

decken

2014-05-28 19:42:39 +08:00

@Livid 发官网链接或者说出项目名字不就可以了吗?最讨厌吊人胃口了

Livid

MOD

2014-05-28 19:46:48 +08:00

@decken 我也不想这样。

但是刚刚和他们邮件沟通的时候，他们可能还要再过一段时间才开始推广。我需要尊重别人公司的日程。

XDA

2014-05-28 20:19:51 +08:00

项目里用的IK

a591826944

2014-05-28 20:27:03 +08:00

@ultimate010 我也看了C++版本。而且我发微博咨询了作者。。c++版本确实直接就可以提供分词服务。。但是我没有看到提供提取关键词服务的说明。。所以我问了他。。还没回复

aszxqw

2014-05-28 20:34:25 +08:00

@a591826944 不好意思下午6点才看到你的私信。不过已经回复你了，你不能收到吗？

a591826944

2014-05-28 20:39:12 +08:00

@aszxqw 哎呦我去。。碰上了。。。恢复了。。刚到家，一直在路上。。。

dreampuf

2014-05-28 20:55:59 +08:00

http://www.ltp-cloud.com/ ?

ultimate010

2014-05-28 21:10:46 +08:00

@dreampuf 哈工大的自然语言处理很牛逼。

halfcrazy

2014-05-28 21:20:04 +08:00

https://github.com/isnowfy/snownlp

dreampuf

2014-05-28 22:45:11 +08:00

@ultimate010 除了哈工大，stanford，中科院
还推荐一个海量分词 http://home.hylanda.com/show_5_19.html
除了结巴分词之外，更推荐楼上的 snownlp 。作者是个苦苦修行技术的单身。

@a591826944 词典文件一般序列化为特定格式或者经过压缩，反序列化到内存中时大小一般会翻几番（视倒插表结构）。HTTP服务一般会启动多个实例，以类库的形式调用会产生不必要的内存开销。最好的方法是独立为一个外部服务，独立处理。