Python全系列 教程
3567个小节阅读:5929.8k
目录
鸿蒙应用开发
C语言快速入门
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
主题模型是机器学习和自然语言处理等领域的常用文本挖掘方法,主要用来在一系列文
档中发现抽象主题,是一种无监督的文档分组方法。主题模型依旧是一个词袋模型,并没有
考虑语序,语法,语义等高级特征。不过并不妨碍它能够带给我们很多惊喜。
LDA(Latent Dirichlet Allocation,隐狄利克雷分布)是一种文档主题生成模型,包含文
档、主题、词三层结构,可用来识别文档集或语料库中潜藏的主题信息,是一种无监督的机
器学习技术。它把每一篇文档视为一个词频向量,从而将文本信息转化为易于建模的数字信
息。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所
构成的一个概率分布。
这里定义了4个主题"Art ,Budgets,Children,Education", 从文章的颜色分布直接可
以清晰的判断出绿色的词最多,所以此文章最大的主题应该是:Budgets。其中的大部分词
都是从Budgets 这个主题中选择出来的。所以这篇文章可能在讲诉:和预算有关的事情。
文章确实讲诉了某基金逐步拨款资助一些青年艺术家。主题模型威力就在于它能很便捷
的就帮我们挖掘出一篇文章的主题。
1. 关于主题模型,下列说法正确的是______
A 是一种有监督的文档分组方法
B 考虑了语序,语法,语义等高级特征
C 主要用来在一系列文档中发现抽象主题
D 以上说法均不正确
2. 关于LDA主题模型,下列说法正确的是______
A 是一种有监督的机器学习技术
B 包含文档、主题、词三层结构
C 无需将文本信息转化为数字信息
D 把每一篇文档视为一个普通文本
1=>C 2=>B