Python全系列 教程
3567个小节阅读:5930.2k
目录
鸿蒙应用开发
C语言快速入门
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
LDA简介
LDA(Latent Dirichlet Allocation),也成为"隐狄利克雷分布"。 LDA 在主题模型中占有非常重要的地位,常用来文本分类。
LDA根据一篇已有的文章,去寻找这篇文章的若干个主题,以及这些主题对应的词语
LDA建模注意事项:
用LDA主题模型建模首先要把文本内容处理成固定的格式,一个包含句子的list,list中每个元素是一句话分词后的词list。类似下面这个样子:
[[第,一,条,新闻,在,这里],[第,二,条,新闻,在,这里],[这,是,在,做, 什么],...]
gensim是一个Python的自然语言处理库,能够将文档根据TF-IDF等模型转换成向量模式
xxxxxxxxxx
from gensim import corpora, models, similarities
import gensim
# sentences存储的是文本内容每一行分词后的列表
dictionary = corpora.Dictionary(sentences)
corpus = [dictionary.doc2bow(sentence) for sentence in sentences]
lda = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=20)
# 把所有的主题打印出来看看
for topic in lda.print_topics(num_topics=20, num_words=8):
print(topic[1])