词袋模型的使用-【官方】百战程序员_IT在线教育培训机构_体系课程在线学习平台

目录

百战程序员，全站22050+开发课程+文档，学习精选优质好课快人一步！观看视频快捷键ALT+N

Python全系列教程

3567个小节阅读：5931.3k

赞

收藏

全部开发者教程

目录

143_申请评分卡3031

29_Mysql

数据结构与算法

01_Python入门

02_编程的基本概念

05_控制语句

06_函数用法和底层分析

07_面向对象基础

08_面向对象进阶

09_异常机制

12_GUI编程（选学）

13_项目开发实例（选学）

14_pygame模块操作

16_并发编程（线程、进程、协程）

17_网络编程

21_正则表达式

22_Python新特性汇总

23_源码深度剖析和内存管理

25_统计学基础

26_Django初级

28_tornado项目

31_Hadoop 离线体系：Hive

32_Hadoop 分布式文件系统HDFS

34_电商大数据

35_Git的使用

36_docker容器扩展

37_Redis

38_深度学习-认识深度学习_PyTorch入门

39_神经网络基础

40_卷积神经网络（CNN）

41_迁移学习

43_CNN目标检测

42_生成对抗网络_GAN

44_循环神经网络与NLP

46_scrapy框架使用

47_爬虫基础

49_移动端爬虫

50_爬虫反反爬

51_办公自动化

52_算法与数据结构

53_数据可视化PowerBI

56_Flask视图高级

58_机器学习预备知识

59_KNN与交叉检验

61_线性回归与梯度下降法

62_逻辑回归与Softmax回归

63_多项式回归、过拟合、模型正则化

64_分类算法的评价

65_KMeans聚类与降维算法

67_SVM与朴素贝叶斯算法

68_Kaggle竞赛

69_SPSS

70_HTML5

71_二手车价格预测

72_旅游景点票价预测

73_工资分类预测

74_广告点击转化率预测

75_文本分类-自然语言处理

76_音乐推荐系统

77_银行客户流失分析

78_申请评分卡

80_JavaScript语言

81_基础知识

82_描述统计

83_抽样分布

84_参数估计

85_假设检验

86_方差分析

87_协方差与相关系数

88_非参数方法

89_线性回归

93_Django项目阶段-电商项目

96_Linux操作系统概述与安装

97_Linux常用命令

98_python操作mysql

98_Linux用户权限和软件安装与管理

99_Django初级

100_Django中级

101_Django高级

102_SPSS

103_智能推荐系统

104_关联规则分析与Apriori算法

105_Gensim与LDA主题模型

106_Git

107_Flask百战电商后台项目

111_数据获取函数

109_量化交易概论

110_量化交易平台

112_量化选股

113_量化择时

114_量化策略的机器学习算法运用

115_量化交易策略的回测

116_量化交易策略的因子

117_量化交易策略实战

118_电商大数据购买行为分析项目

119_数据分析_数学知识

120_Anaconda环境搭建

121_Linux 环境编程基础

122_项目-音乐播放器

127_Pandas基本使用3015

128_Python开发环境搭建

129_内存管理

130_Django项目3018

131_docker容器扩展

133_数据分析案例_案例2_电影数据分析3021

134_数据分析案例_案例3_机场延迟分析

135_数据分析案例_案例1_足球数据分析

136_二手车价格预测

137_旅游景点票价预测

138_工资分类预测

139_广告点击转化率预测

140_文本分类-自然语言处理

141_音乐推荐系统

142_银行客户流失分析

鸿蒙应用开发

C语言快速入门

JAVA全系列教程

面向对象的程序设计语言

Python全系列教程

Python3.x版本，未来主流的版本

人工智能教程

顺势而为，AI创新未来

大厂算法教程

算法，程序员自我提升必经之路

C++ 教程

一门通用计算机编程语言

微服务教程

目前业界流行的框架组合

web前端全系列教程

通向WEB技术世界的钥匙

大数据全系列教程

站在云端操控万千数据

AIGC全能工具班

A

A A

White Night

阅读(153)

赞(0)

词袋模型（BOW，bag of words）

词袋模型是一种常用于自然语言处理（NLP）和文本挖掘的文本表示方法。它的基本思想是将文本文档转换成一个由词汇表中的词组成的集合，简单说就是将每篇文档都看成一个袋子（因为里面装的都是词汇，所以称为词袋，Bag of words即因此而来）。

忽略文本中词语的顺序和语法结构，只考虑词汇表中的词是否在文本中出现以及出现的频次。

例句:

Jane wants to go to Shenzhen.
Bob wants to go to Shanghai.

上面2个例句，就可以构成一个词袋，袋子里包括Jane、wants、to、go、Shenzhen、Bob、Shanghai。假设建立一个数组（或词典）用于映射匹配

[Jane, wants, to, go, Shenzhen, Bob, Shanghai]

那么上面两个例句就可以用以下两个向量表示，对应的下标与映射数组的下标相匹配，其值为该词语出现的次数

[(0,1),(1,1),(2,2),(3,1),(4,1)]

[(5,1),(1,1),(2,2),(3,1),(6,1)]

注意
在实际应用中，很多python包会分别处理每个句子，查找该句子中每个单词出现的次数，将每个句子转换为对应的向量（这种情况下，向量的长度可能不同）

作用：

文本表示：词袋模型将文本转化为向量形式，每个向量的维度对应于词汇表中的词。每个维度表示对应词在文本中的出现次数或权重。这种向量表示可以用于文本分类、文本聚类、信息检索等任务
特征提取：词袋模型可以将文本数据转化为机器学习算法可以处理的特征向量，从而可以用于各种文本分析任务。例如，可以将文本中的词汇频次作为特征，用于训练文本分类器。
文本分类：词袋模型常用于文本分类任务，其中每个文本被表示为一个向量，然后可以使用机器学习算法（如朴素贝叶斯、支持向量机等）来训练分类模型。
文本聚类：词袋模型可以用于文本聚类，将相似的文本聚合到一起，帮助发现文本集合中的模式和关系。
情感分析：词袋模型可以用于情感分析，帮助确定文本中的情感倾向，如正面、负面或中性。

安装


xxxxxxxxxx
1
1
pip install gensim==4.3.2

代码


xxxxxxxxxx
32
1
# 加载数据
2
df = pd.read_csv('./data/technology_news.csv', encoding='gbk')
3
# 去除空值
4
df = df.dropna()
5
# 获取要提取关键词的文本数据
6
lines = df.content.values
7
# 加载敏感词
8
stop_words = pd.read_table('./data/stopwords.txt',sep='\t',quoting=3,names=['stopword'])
9

10
import jieba
11
# 用于存储每行文本分词后的结果
12
sentences = []
13
# 遍历每一条文本数据
14
for line in lines:
15
    # 分词
16
    segs = jieba.lcut(line)
17
    # 去除内容少1的词
18
    segs = list(filter(lambda x:len(x.strip())>1,segs))
19
    # 去除停用词
20
    segs = list(filter(lambda x:x not in stop_words,segs))
21
    # 将分词结果追加到列表中
22
    sentences.append(segs)
23
    
24
# 词袋模型的建立
25
from gensim import corpora
26

27
# 构建词袋模型 corpora.Dictionary会遍历每行数据，每个词条会被赋予一个唯一的id
28
dictionary = corpora.Dictionary(sentences)
29
# 通过doc2bow将文档转换为词袋模型
30
corpus =  [dictionary.doc2bow(sentence) for sentence in  sentences]
31
display(corpus[3])
32
display(sentences[3])

北京市昌平区回龙观镇南店村综合商业楼2楼226室

©2014-2023 百战卓越（北京）科技有限公司 All Rights Reserved.

京ICP备14032124号-2