python Jieba分词处理详解【模式，词库的添加、删除，自定义词库，失败处理等】

admin Python

2023-12-08 0 353

Jieba（结巴）是一个中文分词第三方库，它可以帮助我们将一段中文文本分成一个个独立的词语。Jieba具有以下特点：

简单易用：Jieba提供了简洁的API接口，易于使用和扩展。可以快速地实现中文分词功能。

高效准确：Jieba采用了基于前缀词典和动态规划算法的分词方法，能够高效准确地处理各种中文文本。

支持多种分词模式：Jieba提供了三种分词模式：精确模式、全模式和搜索引擎模式，可以根据不同的应用场景选择合适的模式。

支持用户自定义词典：Jieba允许用户自定义词典，可以根据实际需要添加新的词语或调整已有词语的词频和词性等信息。

支持并发分词：Jieba采用多进程和协程的方式实现并发分词，可以提高分词速度和效率。

除了中文分词功能之外，Jieba还提供了关键词提取、词性标注、繁体转简体、词语拼音转换等功能。可以满足不同的中文文本处理需求。

1 Jieba的搜索模式

1.1 全模式

全模式会将需要分词的文本中所有可能的词语都进行匹配，因此会产生大量的冗余词语。使用Jieba的全模式，比如我们希望把美国数据仓库巨头发布开源模型，公开挑战ChatGPT这句话进行分词：

import jieba
text = \’美国数据仓库巨头发布开源模型，公开挑战ChatGPT\’
seg_list = jieba.cut(text, cut_all=True)
print(\”/\”.join(seg_list))

在上述代码中，cut_all=True指定了使用全模式进行分词，"/".join(seg_list)会将分词结果以斜杠分隔输出。这段的输出结果为：

可以看到分词结果中，数据仓库被分为了数据、仓库、数据仓库三个独立的词语，因此会产生大量的冗余词语。全模式适合于对文本中所有可能的词语进行匹配的场景，例如搜索引擎的索引处理、关键词提取等。

1.2 精确模式

精确模式会将需要分词的文本中可能存在的词语都进行匹配，但不会产生冗余词语。使用Jieba的精确模式，可以通过以下方式实现：

import jieba
text = \’美国数据仓库巨头发布开源模型，公开挑战ChatGPT\’
seg_list = jieba.cut(text, cut_all=False)
print(\”/\”.join(seg_list))

在上述代码中，cut_all=False指定了使用精确模式进行分词。这段的输出结果为：

可以看到，在精确模式下，Jieba会将数据仓库作为一个词语进行匹配，不会产生冗余词语。精确模式适合于对文本中存在的词语进行匹配的场景，例如文本分类、情感分析等。精确模式不会产生冗余词语，因此可以得到准确的分词结果。

1.3 搜索引擎模式

搜索引擎模式使用了基于前缀匹配算法的正向最大匹配（FMM）和逆向最大匹配（RMM）算法，会对需要分词的文本进行分词，并且尽可能多地匹配分词结果。因此，在分词时，搜索引擎模式会优先匹配较长的词语。使用Jieba的搜索引擎模式，可以通过以下方式实现：

import jieba
text = \’美国数据仓库巨头发布开源模型，公开挑战ChatGPT\’
seg_list = jieba.cut_for_search(text)
print(\”/\”.join(seg_list))

这段函数的输出结果为;

由于我们的实例文本过段，在这里的结果与全模式的分词结果并未表现出区别。搜索引擎模式适合于对长文本进行分词的场景，例如自然语言处理、信息检索等。搜索引擎模式使用了基于前缀匹配算法的正向最大匹配（FMM）和逆向最大匹配（RMM）算法，可以尽可能多地匹配分词结果，但可能会对一些新词造成误判，需要进行进一步的处理和校对。