目录
百战程序员,全站22050+开发课程+文档 ,学习精选优质好课快人一步!观看视频 快捷键ALT+N

Python全系列 教程

3567个小节阅读:5931.8k

收藏
全部开发者教程

鸿蒙应用开发

C语言快速入门

JAVA全系列 教程

面向对象的程序设计语言

Python全系列 教程

Python3.x版本,未来主流的版本

人工智能 教程

顺势而为,AI创新未来

大厂算法 教程

算法,程序员自我提升必经之路

C++ 教程

一门通用计算机编程语言

微服务 教程

目前业界流行的框架组合

web前端全系列 教程

通向WEB技术世界的钥匙

大数据全系列 教程

站在云端操控万千数据

AIGC全能工具班

A

A A

White Night

阅读(425)
赞(0)

Gensim计算TF-IDF

image-20230114141301649

TF-IDF介绍

  • TF-IDF的思想:如果一个词或短语在一篇文章中出现的概率高,并且在其他文章中很少出现,则认为该词或短语具有很好的类别区分能力,适合用来分类

  • TF-IDF的作用:评估一个词语对于语料库中的某个文档的重要程度

  • 词频:(term frequency,tf):某个词语在文档中的出现频率

  • 逆文档频率(inverse document frequency,idf)某个词的普遍重要性的度量。由总文档数

    量除以包含该词的文档数量,再将得到的商取以10为底的对数 TF-IDF = TF x IDF

1649570672685

代码实现

tfidf.py

实时效果反馈

1. 关于TF-IDF,下列说法正确的是______

A 评估某个文档的重要程度

B TF是某个词的普遍重要性的度量

C IDF是某个词语在文档中的出现频率

D TF-IDF = TF x IDF

2. Gensim中生成tfidf模型的是______

A models.LsiModel()

B models.Word2Vec()

C models.TfidfModel()

D models.LdaModel()

答案

1=>D 2=>C

 

北京市昌平区回龙观镇南店村综合商业楼2楼226室

©2014-2023 百战卓越(北京)科技有限公司 All Rights Reserved.

京ICP备14032124号-2