Python全系列 教程
3567个小节阅读:5931.7k
目录
鸿蒙应用开发
C语言快速入门
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
mydict.py
xxxxxxxxxx
from gensim import corpora
'''创建数据集'''
def loadDataSet():
# corpus样例数据如下:
corpus =[]
tiyu = ['姚明', '我来', '承担', '连败', '巨人', '宣言', '酷似', '当年', '麦蒂', '新浪', '体育讯', '北京', '时间', '消息', '休斯敦', '纪事报', '专栏', '记者', '乔纳森', '费根', '报道', '姚明', '渴望', '一场', '胜利', '当年', '队友', '麦蒂', '惯用', '句式']
yule = ['谢婷婷', '模特', '酬劳', '仅够', '生活', '风光', '背后', '惨遭', '拖薪', '新浪', '娱乐', '金融', '海啸', 'blog', '席卷', '全球', '模特儿', '酬劳', '被迫', '打折', '全职', 'Model', '谢婷婷', '业界', '工作量', '有增无减', '收入', '仅够', '糊口', '拖薪']
jiaoyu = ['名师', '解读', '四六级', '阅读', '真题', '技巧', '考前', '复习', '重点', '历年', '真题', '阅读', '听力', '完形', '提升', '空间', '天中', '题为', '主导', '考过', '六级', '四级', '题为', '主导', '真题', '告诉', '方向', '会考', '题材', '包括']
shizheng = ['美国', '军舰', '抵达', '越南', '联合', '军演', '中新社', '北京', '日电', '杨刚', '美国', '海军', '第七', '舰队', '三艘', '军舰', '抵达', '越南', '岘港', '为期', '七天', '美越', '南海', '联合', '军事训练', '拉开序幕', '美国', '海军', '官方网站', '消息']
corpus.append(tiyu)
corpus.append(yule)
corpus.append(jiaoyu)
corpus.append(shizheng)
classVec = ['体育','娱乐','教育','时政']
return corpus,classVec
# 构建语料词典
def gensim_Corpus(corpus=None):
# 1 词典
dictionary = corpora.Dictionary(corpus)
# 2 删除仅出现一次的词
# 找出仅出现一次的单词的id
once_ids = [tokenid for tokenid,wordfreq in dictionary.dfs.items() if wordfreq == 1]
dictionary.filter_tokens(once_ids) # 删除仅出现一次的词
print("删除仅出现一次词的dictionary=",dictionary)
# 给单词分配新的id
dictionary.compactify()
# 3 保存dict
savePath1 = r'mycorpus.dict'
dictionary.save(savePath1) # 把字典保存起来,方便以后使用
# 加载字典
mydict = corpora.Dictionary.load(savePath1)
print("加载DICT词典:\n",mydict)
# 4 保存文本
savePath2 = r'mycorpus.txt'
dictionary.save_as_text(savePath2)
mytxt = corpora.Dictionary.load_from_text(savePath2)
print("加载txt词典:\n",mytxt)
if __name__=='__main__':
corpus,classVec = loadDataSet()
gensim_Corpus(corpus)
1. Dictionary对象给单词分配新的id的方法是______
A load()
B load_from_text()
C save()
D compactify()
2. Dictionary类加载文本,使用的方法是______
A load()
B load_from_text()
C save()
D save_as_text()
1=>D 2=>B