关于中英文分词的疑问

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 4196 天前的主题，其中的信息可能已经有所发展或是发生改变。

文章中混合有英文，中文的用什么词库分词呢。

分词

词库

中英文

9 条回复 • 1970-01-01 08:00:00 +08:00

alexkh

2013-06-04 16:50:12 +08:00

jieba分词？

swulling

2013-06-04 16:53:22 +08:00

Python的话，直接Google『中文分词 Python』

中英文混合分析和中文分词有啥区别么。。多出来的英文部分不要太简单

kenneth

2013-06-04 17:11:37 +08:00

@alexkh jieba不错，是一个中文分词，我想如何中文和英文都有，那也一样的？

@swulling 肯定有区别。只是不知道区别在哪里。

swulling

2013-06-04 17:40:30 +08:00

@kenneth http://jiebademo.ap01.aws.af.cm/

kenneth

2013-06-04 17:53:08 +08:00

@swulling 感觉分词效果也不是很好，语料库还是不够。

Eson

2013-06-04 18:35:45 +08:00

分词使用的话，其效果我觉得很大程度上取决于你的词典，不然程序再怎么做也不可能尽如人意

Hualin

2013-06-04 18:58:01 +08:00

先对原文进行正则表达式匹配，把英文单词数字符号和其他非中文字符进行 tokenize，然后把新的序列交给中文分词算法。
比如句子
string1：我爱 python，，，
tokenize 为
string2：我爱 `EN`SYM`SYM`SYM`
然后交给中文分词，其中 EN 代表英文单词特征，SYM代表标点符号特征
然后进行汉字标记
string3：SSSSSS
其中 S 表示单独成词的标记，其他 label 可以为 B （一个长词的开始），M（一个长词的词中），E （一个长词的结束）。英文单词和数字以及标点也被认为是 S （单独成词的汉字）。

buru

2013-06-08 16:31:45 +08:00

@Hualin 你好，想问一下，你有用过elasticsearch吗？可否把这个步骤也交给它进行处理？

Gestalt

2013-06-08 20:11:40 +08:00

看你对准确度的要求了……
CRF++，用这个实现个中文分词然后训练语料好的话似乎召回率能到97%