Python全系列 教程
3567个小节阅读:5930.8k
目录
鸿蒙应用开发
C语言快速入门
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
TF-IDF,即“词频-逆文档频率”(Term Frequency-Inverse Document Frequency)
提示
TF-IDF的思想:如果一个词或短语在一篇文章中出现的概率高,并且在其他文章中很少出现,则认为该词或短语具有很好的类别区分能力,适合用来分类
TF-IDF的作用:TF-IDF权重经常被用于信息检索和文本挖掘的许多应用,如文档分类和搜索引擎的结果排名。评估一个词语对于语料库中的某个文档的重要程度
词频:(term frequency,TF): 表示词语在文档中出现的频率。如果一个词在一篇文章中出现得越频繁,那么它的词频(TF)就越高。这意味着它对这篇文章可能越重要。这个数字通常会被归一化(分子可能是该词在文档中的出现次数,分母可能是文档中所有字词的出现次数之和),以避免它偏向长的文档。
逆文档频率(inverse document frequency,IDF): 用于计算词语的普遍重要性的度量。如果一个词在整个文档集合中出现的次数少,它的逆文档频率就高。因此,它在区分文档上可能更有价值。由总文档数量除以包含该词的文档数量,再将得到的商取以10为底的对数 TF-IDF = TF x IDF
xxxxxxxxxx
81import jieba.analyse
2
3jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
4 参数:
5 - sentence 为待提取的文本
6 - topK 为返回几个 TF-IDF 权重最大的关键词,默认值为 20
7 - withWeight 是否一并返回关键词权重值,默认值为 False
8 - allowPOS 仅包括指定词性的词,默认值为空,即不筛选
代码
xxxxxxxxxx
111from jieba.analyse import tfidf
2import pandas as pd
3# 读取数据
4df = pd.read_csv('./data/technology_news.csv', encoding='gbk')
5# 去除空值
6df = df.dropna()
7# 获取要提取关键词的文本数据
8lines = df.content.values
9content = ''.join(lines)
10# 提取关键词
11tfidf(content,topK=30)