目录
百战程序员,全站22050+开发课程+文档 ,学习精选优质好课快人一步!观看视频 快捷键ALT+N

Python全系列 教程

3567个小节阅读:5930k

收藏
全部开发者教程

鸿蒙应用开发

C语言快速入门

JAVA全系列 教程

面向对象的程序设计语言

Python全系列 教程

Python3.x版本,未来主流的版本

人工智能 教程

顺势而为,AI创新未来

大厂算法 教程

算法,程序员自我提升必经之路

C++ 教程

一门通用计算机编程语言

微服务 教程

目前业界流行的框架组合

web前端全系列 教程

通向WEB技术世界的钥匙

大数据全系列 教程

站在云端操控万千数据

AIGC全能工具班

A

A A

White Night

阅读(143)
赞(0)

数据解释

image-20220404171000928

数据说明

从腾讯社交广告系统中某一连续两周的日志中按照推广中的App和用户维度随机采样。

每一条训练样本即为一条广告点击日志(点击时间用clickTime表示),样本label取值0或1,其中0表示点击后没有发生转化,1表示点击后有发生转化,如果label为1,还会提供转化回流时间(conversionTime)。

转化回流时间

App 的激活定义为用户下载后启动了该App,即发生激活行为。从用户点击广告到广告系统得知用户激活了App(如果有),通常会有较长的时间间隔,主要由以下两方面原因导致:

  • 用户可能在下载之后过了很久才启动App;
  • 用户启动App的行为需要广告主上报回传给广告系统,通常会有一定的延时

这里转化回流时间表示了广告主把App激活数据上报给广告系统的时间,回流时间超过5天的数据会被系统忽略。

注意

训练数据提供的截止第31天0点的广告日志,因此,对于最后几天的训练数据,某些label=0并不够准确,可能广告系统会在第31天之后得知label实际上为1

数据介绍

数据列表

  • user.csv 用户基础特征文件
  • user_installedapps.csv 用户APP安装列表文件
  • user_app_actions.csv 用户APP安装流水文件
  • app_categories.csv APP特征文件
  • ad.csv 广告特征文件
  • position.csv 广告位特征文件
  • train.csv 训练数据集
  • test.csv 测试数据集

用户基础特征文件 user.csv

标识描述
用户ID(userID)唯一标识一个用户
年龄(age)取值范围[0, 80],其中0表示未知。
性别(gender)取值包括男、女、未知。
学历(education)用户当前最高学历,不区分在读或者毕业生,取值包括小学, 初中, 高中, 专科, 本科, 硕士, 博士, 未知
婚恋状态(marriageStatus)用户当前婚恋状态,取值包括单身, 离婚, 已婚, 未知。
育儿状态(haveBaby)用户当前育儿状态状况,取值包括孩子出生, 宝宝0-6个月, 宝宝6-12个月, 宝宝1-2岁, 宝宝2-3岁, 有儿童在家长模式, 未知。
家乡/籍贯(hometown)用户出生地,取值包括所有行政区域,使用三级编码, 十位位数标示行政区域, 如1106表示河南省济源市, 按市编码是首字的6号, 二号0表示未知。
常住地(residence)最近一段时间用户长期居住的地方,取值包括所有行政区域, 编码方式与家乡相同。

用户APP安装列表文件 user_installedapps.csv

标识描述
用户ID(userID)唯一标识一个用户
AppID(appID)广告推广的目标应用唯一标识符

用户APP安装流水文件 user_app_actions.csv

标识描述
用户ID(userID)唯一标识一个用户
安装时间(installTime)安装APP时间
AppID(appID)广告推广的目标应用唯一标识符

APP特征文件 app_categories.csv

标识描述
AppID(appID)广告推广的目标应用唯一标识符
App分类(appCategory)类目标签有两层, 但由3位数字组成, 由低位表示一级类目, 中位位表示二级类目, 如“210”表示一级类目编号为2,
二级类目编号为10, 类目类别和名称在数据集中, 请记住。

广告特征文件 ad.csv

标识分类描述
广告素材ID(creativeID)属于某个广告主在特定的广告内容一条广告下可以有多条素材。
广告ID(adID)商家或广告主管理平台的广告素材创建到的广告唯一标识符广告属于推广计划,包含广告的基本信息(广告名称, 投放时间等),
广告的推广目标, 投放平台, 投放的广告规格, 预算政策的广告创意,
广告的投放时间、广告出价等信息。每个推广计划下的广告数量不上限。
推广计划ID(campaignID)推广计划的唯一标识符推广计划是广告的集合, 类似电脑文件夹功能。
广告主可以将推广平台、预算策略、
是否为这些政策条件相同的广告放在同一个推广计划中,方便管理。
广告ID(advertiserID)商家或广告主的唯一标识符广告主一推广计划一广告一素材,广告主对一家媒介的广告主。
AppID(appID)广告推广的目标应用唯一标识符用户点击后跳转到该APP的页面, 此处为特定的App。
多个推广计划或广告可以同时推广一个App。
App平台(appPlatform)App所属操作系统平台,取值为Android, iOS, 未知。同一个appID只属于一个平台。 

广告位特征文件 position.csv

标识描述
广告ID(positionID)广告曝光的具体位次, 如QQ空间Feeds广告位。
站点/频道ID(sitesetID)第八广告的站台,如QQ空间
广告位类型(positionType)对于主站站点,入工是文本广告一级导航或纽扣类,如Banner广告位。

训练数据集 train.csv

标识描述
标签(label)是否转换 当label = 0时未转换 1已转换
点击时间(clickTime)用户点击广告的时间
转换回流时间(conversionTime)转换回流时间
广告素材ID(creativeID)属于某个广告主在特定的广告内容
用户ID(userID)唯一标识一个用户
广告ID(positionID)广告曝光的具体位次, 如QQ空间Feeds广告位。
网网方式(connectionType)移动设备当前使用的联网方式,取值包括2G, 3G, 4G, WIFI, 未知
运营商(telecomsOperator)移动设备当前使用的运营商, 取值包括联通移动, 中国联通, 中国电信, 未知

测试数据集 test.csv

标识描述
instanceID 
标签(label)是否转换0未转换 1已转换
点击时间(clickTime)用户点击广告的时间
广告素材ID(creativeID)属于某个广告主在特定的广告内容
用户ID(userID)唯一标识一个用户
广告ID(positionID)广告曝光的具体位次, 如QQ空间Feeds广告位。
网网方式(connectionType)移动设备当前使用的联网方式,取值包括2G, 3G, 4G, WIFI, 未知
运营商(telecomsOperator)移动设备当前使用的运营商, 取值包括联通移动, 中国联通, 中国电信, 未知

评估方式

通过Logarithmic Loss评估(越小越好),公式如下:

logloss=1Ni=1N(yilog(pi)+(1yi)log(1pi))

其中,N是测试样本总数,yi是二值变量,取值0或1,表示第i个样本的label,pi为模型预测第i个样本 label为1的概率。

评估公式的Python代码如下:

 

北京市昌平区回龙观镇南店村综合商业楼2楼226室

©2014-2023 百战卓越(北京)科技有限公司 All Rights Reserved.

京ICP备14032124号-2