Python全系列 教程
3567个小节阅读:5931.7k
目录
鸿蒙应用开发
C语言快速入门
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
Gensim(generate similarity)是一个开源的第三方Python工具包,用于从原始的非
结构化文本抽取文档的语义主题。Gensim内置的算法包括Word2Vec,FastText,潜在语
义分析(Latent Semantic Analysis,LSA),潜在狄利克雷分布(Latent Dirichlet
Allocation,LDA)等,通过计算训练语料中的统计共现模式自动发现文档的语义结构。这
些算法都是非监督的,这意味着不需要人工输入——仅仅需要一组纯文本语料。一旦发现这
些统计模式后,任何纯文本(句子、短语、单词)就能采用语义表示进行简洁地表达。
命令行安装:
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple gensim==4.3.0
Jupyter notebook安装:
xxxxxxxxxx
!pip install -i https://pypi.tuna.tsinghua.edu.cn/simple gensim==4.3.0
x'''
corpora是gensim中的一个基本概念,是文档集的表现形式,也是后续处理的基础
'''
from gensim import corpora
# Dictionary类为每个出现在语料库中的词语分配了一个独一无二的id
dictionary = corpora.Dictionary([
["apple","banana","apple","apple"],
["orange","watermelon"]
])
print("dictionary=",dictionary)
# 查看词语与id的映射关系
print("dictionary.token2id=",dictionary.token2id)
'''统计指定文档中词语出现的次数,也即对指定文档生成词袋模型,例如:
[(1, 3), (2, 1)]代表id为1的词语出现了3次,id为2的词语出现了1次
'''
result = dictionary.doc2bow(["banana","banana",
"banana","orange"])
print("result=",result)
1. 关于Gensim,下列说法正确的是:
A Gensim是Python内置的库
B Gensim是用来做爬虫的一种框架
C Gensim没有内置任何算法
D Gensim用于从原始的非结构化文本抽取文档的语义主题
2. _______类为每个出现在语料库中的词语分配了一个独一无二的id
A doc2bow
B token2id
C Dictionary
D corpora
1=>D 2=>C