|
|
|
@ -7,9 +7,9 @@ jieba
|
|
|
|
|
Feature
|
|
|
|
|
========
|
|
|
|
|
* 支持三种分词模式:
|
|
|
|
|
*精确模式,试图将句子最精确地切开,适合文本分析;
|
|
|
|
|
*全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
|
|
|
|
|
*搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
|
|
|
|
|
* 精确模式,试图将句子最精确地切开,适合文本分析;
|
|
|
|
|
* 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
|
|
|
|
|
* 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
|
|
|
|
|
|
|
|
|
|
* 支持繁体分词
|
|
|
|
|
* 支持自定义词典
|
|
|
|
@ -74,14 +74,14 @@ Output:
|
|
|
|
|
* 词典格式和`dict.txt`一样,一个词占一行;每一行分三部分,一部分为词语,另一部分为词频,最后为词性(可省略),用空格隔开
|
|
|
|
|
* 范例:
|
|
|
|
|
|
|
|
|
|
*自定义词典:https://github.com/fxsjy/jieba/blob/master/test/userdict.txt
|
|
|
|
|
* 自定义词典:https://github.com/fxsjy/jieba/blob/master/test/userdict.txt
|
|
|
|
|
|
|
|
|
|
*用法示例:https://github.com/fxsjy/jieba/blob/master/test/test_userdict.py
|
|
|
|
|
* 用法示例:https://github.com/fxsjy/jieba/blob/master/test/test_userdict.py
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
之前: 李小福 / 是 / 创新 / 办 / 主任 / 也 / 是 / 云 / 计算 / 方面 / 的 / 专家 /
|
|
|
|
|
* 之前: 李小福 / 是 / 创新 / 办 / 主任 / 也 / 是 / 云 / 计算 / 方面 / 的 / 专家 /
|
|
|
|
|
|
|
|
|
|
加载自定义词库后: 李小福 / 是 / 创新办 / 主任 / 也 / 是 / 云计算 / 方面 / 的 / 专家 /
|
|
|
|
|
* 加载自定义词库后: 李小福 / 是 / 创新办 / 主任 / 也 / 是 / 云计算 / 方面 / 的 / 专家 /
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
* "通过用户自定义词典来增强歧义纠错能力" --- https://github.com/fxsjy/jieba/issues/14
|
|
|
|
|