Python jieba分词怎么添加自定义词和去除不需要长尾词
这篇“Python jieba分词怎么添加自定义词和去除不需要长尾词”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Python jieba分词怎么添加自定义词和去除不需要长尾词”文章吧。
通过如下代码,读取一个txt的高频词汇:
# 找到高频词汇 tmp_content = self.getContent(tmp_path) keyword_list = tmp_content.split('\n') word_count = dict() for keyword in keyword_list: for word,flag in jp.cut(keyword): if word in word_count: word_count[word] = word_count[word] +1 else: word_count[word] =1 for word, count in word_count.items(): print('%s\t%s' % (word,count))
很多情况下 jieba它不知道一些词汇,比如说获得的词汇如下
建立
和 可视化
是2个独立的单词
一、添加自定义词
通过添加自定义词
import jieba import jieba.posseg as jp jieba.load_userdict(r'jieba_dict.txt')
就可以看到,统计出来的词是这个自定义词
二、去除不需要长尾词
有时 统计出来的某些词汇jieba
认为是一个词汇 但是此时 我想让他变为多个词汇 ,可以通过如下代码实现:
import jieba import jieba.posseg as jp jieba.del_word('创建活动')
此时 jieba 就会不认定 创建活动
是一个词,它会将它们分开统计
以上就是关于“Python jieba分词怎么添加自定义词和去除不需要长尾词”这篇文章的内容,相信大家都有了一定的了解,希望小编分享的内容对大家有帮助,若想了解更多相关的知识内容,请关注蜗牛博客行业资讯频道。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:niceseo99@gmail.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。版权声明:如无特殊标注,文章均为本站原创,转载时请以链接形式注明文章出处。
评论