自然语言处理---------jieba调整词频与词性标注

自然语言处理---------jieba调整词频与词性标注 2022-07-10 415

有些句子中出现了一些词语，但是被分开为两个单独的字，虽然这样可以调整词库，只需要重新加载自定义的词库即可，除此之外我们还可以用 ”调整词频来解决这个问题”

import jieba
import jieba.posseg as pg  # 词性标注的包

# 加载自定义字典
jieba.load_userdict("./data/user_dic.txt")
# 添加词
jieba.add_word("石墨烯")
jieba.add_word("凯特琳")
# 删除词
jieba.del_word("自定义词")
# 元组类型测试数据
test_sent = (
    "李小福是创新办主任也是云计算方面专家；什么是八一双鹿
"
    "例如我输入一个带“韩玉鉴赏”的标题，在自定义词库中也增加了此词为N类
"
    "[台中]报道指出，mac上可分为[石墨烯]；此时又可以分出来凯特琳了。
"
    "物联网"
)
words = jieba.cut(test_sent)
print("使用/把分词结果分开:       " + "/".join(words))
print("++" * 120)
# 用于此行词性标注
result = pg.cut(test_sent)
# 使用for循环把分出的词及其词性用/分开，并添加，和空格
for x in result:
    print(x.word, "/", x.flag, ",", end= )
print("
")
print("++" * 120)

# 对英文进行分割
terms = jieba.cut("How to easy_install jieba library")
print("/".join(terms))
#对英文和汉字进行分割
terms_1=jieba.cut("python 是一门很好的语言")
print("/".join(terms_1))
print("++" * 120)
#测试词频
test_terms=[
    ("我们中出了一个叛徒",(中,出))
            ]
for sent ,seg in test_terms:
    print("/".join(jieba.cut(sent,HMM=False)))
    words=.join(seg)
    print(%s Before :%s ,After :%s%(words,jieba.get_FREQ(words),jieba.suggest_freq(words,True)))
    print(/.join(jieba.cut(sent,HMM=False)))

免费搭建微信查券返利机器人来轻松赚佣金

文章来自:IT技术分享网
分享地址:http://www.5ityx.cn/cate107/70117.html

上一篇： Java进阶学习之Java架构师的学习路线

下一篇：愉快无负担的跨进程通信方式2

自然语言处理---------jieba调整词频与词性标注

有些句子中出现了一些词语，但是被分开为两个单独的字，虽然这样可以调整词库，只需要重新加载自定义的词库即可，除此之外我们还可以用 ”调整词频来解决这个问题”

自然语言处理---------jieba调整词频与词性标注 相关内容

聚合标签

自然语言处理---------jieba调整词频与词性标注相关内容