Sun Junyi 12 years ago
commit 18e4016436

@ -19,11 +19,11 @@ Usage
* 基于Trie树结构实现高效的词图扫描生成句子中汉字构成的有向无环图DAG)
* 采用了记忆化搜索实现最大概率路径的计算, 找出基于词频的最大切分组合
* 对于未登录词,采用了基于汉字位置概率的模型使用了Viterbi算法
* 基于Trie树结构实现高效的词图扫描生成句子中汉字所有可能成词情况所构成的有向无环图DAG)
* 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
* 对于未登录词,采用了基于汉字成词能力的HMM模型使用了Viterbi算法
功能 1):分词
功能 1):分词
* jieba.cut方法接受两个输入参数: 1) 第一个参数为需要分词的字符串 2cut_all参数用来控制分词模式
* 待分词的字符串可以是gbk字符串、utf-8字符串或者unicode
@ -45,7 +45,7 @@ Algorithm
Full Mode: 我/ 来/ 来到/ 到/ 北/ 北京/ 京/ 清/ 清华/ 清华大学/ 华/ 华大/ 大/ 大学/
Full Mode: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
Default Mode: 我/ 来到/ 北京/ 清华大学
@ -56,7 +56,7 @@ Output:
* 开发者可以指定自己自定义的词典以便包含jieba词库里没有的词。虽然jieba有新词识别能力但是自行添加新词可以保证更高的正确率
* 用法: jieba.load_userdict(file_name) # file_name为自定义词典的路径
* 词典格式和dict.txt一样,一个词占一行;每一行分为两部分,一部分为词语,另一部分为词频,用空格隔开
* 词典格式和`analyse/idf.txt`一样,一个词占一行;每一行分为两部分,一部分为词语,另一部分为词频,用空格隔开
* 范例:
云计算 5
@ -66,7 +66,8 @@ Output:
之前: 李小福 / 是 / 创新 / 办 / 主任 / 也 / 是 / 云 / 计算 / 方面 / 的 / 专家 /
加载自定义词库后: 李小福 / 是 / 创新办 / 主任 / 也 / 是 / 云计算 / 方面 / 的 / 专家 /
* 通过用户自定义词典来增强歧义纠错能力: https://github.com/fxsjy/jieba/issues/14
功能 3) :关键词提取
@ -105,6 +106,12 @@ Output:
2这个库的授权是? https://github.com/fxsjy/jieba/issues/2
@ -116,7 +123,7 @@ Features
* 1) Default mode, attempt to cut the sentence into the most accurate segmentation, which is suitable for text analysis;
* 2) Full mode, break the words of the sentence into words scanned, which is suitable for search engines.
* Fully automatic installation: `easy_install jieba` or `pip install jieba`
* Semi-automatic installation: Download http://pypi.python.org/pypi/jieba/ , after extracting run `python setup.py install`
@ -152,7 +159,7 @@ Code example: segmentation
Full Mode: 我/ 来/ 来到/ 到/ 北/ 北京/ 京/ 清/ 清华/ 清华大学/ 华/ 华大/ 大/ 大学/
Full Mode: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
Default Mode: 我/ 来到/ 北京/ 清华大学
@ -163,7 +170,7 @@ Function 2): Add a custom dictionary
* Developers can specify their own custom dictionary to include in the jieba thesaurus. jieba has the ability to identify new words, but adding your own new words can ensure a higher rate of correct segmentation.
* Usage `jieba.load_userdict(file_name) # file_name is a custom dictionary path`
* The dictionary format is the same as that of `dict.txt`: one word per line; each line is divided into two parts, the first is the word itself, the other is the word frequency, separated by a space
* The dictionary format is the same as that of `analyse/idf.txt`: one word per line; each line is divided into two parts, the first is the word itself, the other is the word frequency, separated by a space
* Example
云计算 5
