Python全系列 教程
3567个小节阅读:5930.9k
目录
鸿蒙应用开发
C语言快速入门
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
通过中文分词包进行分词,其中jieba是优秀的中文分词第三方库
xxxxxxxxxx
11pip install jieba==0.42.1
x1import pandas as pd
2from matplotlib import pyplot as plt
3import numpy as np
4
5# 读取文件,注意编码
6df = pd.read_csv("./data/entertainment_news.csv",encoding="gbk")
7
8df = df.dropna() # 删除空数据
9content = df.content.values # 获取新闻数据
10
11import jieba
12jieba.lcut(content[0]) # 测试分词
13
14# 分词
15segment = []
16for line in content: # 遍历每一行娱乐新闻数据
17 segs = jieba.lcut(line) # 对每一条娱乐新闻进行分词
18 for seg in segs:
19 seg = seg.strip()
20 # 只有长度大于1的字符并且该字符不能为空格换行,这样的词语才认为是有效分词
21 if len(seg) > 1:
22 segment.append(seg)
23
24
25words_df = pd.DataFrame({'segment':segment}) # 新建DataFrame,存储原始的分词结果
26# 当CSV文件的列可能包含分隔符(如逗号)时, 可以使用quoting参数来确保列的完整性
27# csv.QUOTE_MINIMAL (0): 只有那些字段中包含特殊字符(如分隔符,引号字符,或者换行符)的时候才会被引号包围。
28# csv.QUOTE_ALL (1): 所有的字段都将被引号包围,无论它们的内容。
29# csv.QUOTE_NONNUMERIC (2): 所有非数值字段都将被引号包围。
30# csv.QUOTE_NONE (3): 没有一个字段会被引号包围,即使字段中包含特殊字符也不会
31stopwords = pd.read_table("./data/stopwords.txt",names=['stopword'],sep='\t',quoting=3)
32words_df = words_df[~words_df.segment.isin(stopwords.stopword)] # 去除停用词表中的词语
33words_df.head(100)