目录
百战程序员,全站22050+开发课程+文档 ,学习精选优质好课快人一步!观看视频 快捷键ALT+N

Python全系列 教程

3567个小节阅读:5929.8k

收藏
全部开发者教程

鸿蒙应用开发

C语言快速入门

JAVA全系列 教程

面向对象的程序设计语言

Python全系列 教程

Python3.x版本,未来主流的版本

人工智能 教程

顺势而为,AI创新未来

大厂算法 教程

算法,程序员自我提升必经之路

C++ 教程

一门通用计算机编程语言

微服务 教程

目前业界流行的框架组合

web前端全系列 教程

通向WEB技术世界的钥匙

大数据全系列 教程

站在云端操控万千数据

AIGC全能工具班

A

A A

White Night

阅读(436)
赞(0)

LDA主题模型

image-20230130114812078

LDA主题模型介绍

主题模型是机器学习和自然语言处理等领域的常用文本挖掘方法,主要用来在一系列文

档中发现抽象主题,是一种无监督的文档分组方法。主题模型依旧是一个词袋模型,并没有

考虑语序,语法,语义等高级特征。不过并不妨碍它能够带给我们很多惊喜。

LDA(Latent Dirichlet Allocation,隐狄利克雷分布)是一种文档主题生成模型,包含文

档、主题、词三层结构,可用来识别文档集或语料库中潜藏的主题信息,是一种无监督的机

器学习技术。它把每一篇文档视为一个词频向量,从而将文本信息转化为易于建模的数字信

息。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所

构成的一个概率分布。

image-20230130120637346

这里定义了4个主题"Art ,Budgets,Children,Education", 从文章的颜色分布直接可

以清晰的判断出绿色的词最多,所以此文章最大的主题应该是:Budgets。其中的大部分词

都是从Budgets 这个主题中选择出来的。所以这篇文章可能在讲诉:和预算有关的事情。

文章确实讲诉了某基金逐步拨款资助一些青年艺术家。主题模型威力就在于它能很便捷

的就帮我们挖掘出一篇文章的主题。

实时效果反馈

1. 关于主题模型,下列说法正确的是______

A 是一种有监督的文档分组方法

B 考虑了语序,语法,语义等高级特征

C 主要用来在一系列文档中发现抽象主题

D 以上说法均不正确

2. 关于LDA主题模型,下列说法正确的是______

A 是一种有监督的机器学习技术

B 包含文档、主题、词三层结构

C 无需将文本信息转化为数字信息

D 把每一篇文档视为一个普通文本

答案

1=>C 2=>B

 

北京市昌平区回龙观镇南店村综合商业楼2楼226室

©2014-2023 百战卓越(北京)科技有限公司 All Rights Reserved.

京ICP备14032124号-2