Python全系列 教程
3567个小节阅读:5930k
目录
鸿蒙应用开发
C语言快速入门
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
从腾讯社交广告系统中某一连续两周的日志中按照推广中的App和用户维度随机采样。
每一条训练样本即为一条广告点击日志(点击时间用clickTime表示),样本label取值0或1,其中0表示点击后没有发生转化,1表示点击后有发生转化,如果label为1,还会提供转化回流时间(conversionTime)。
App 的激活定义为用户下载后启动了该App,即发生激活行为。从用户点击广告到广告系统得知用户激活了App(如果有),通常会有较长的时间间隔,主要由以下两方面原因导致:
这里转化回流时间表示了广告主把App激活数据上报给广告系统的时间,回流时间超过5天的数据会被系统忽略。
注意
训练数据提供的截止第31天0点的广告日志,因此,对于最后几天的训练数据,某些label=0并不够准确,可能广告系统会在第31天之后得知label实际上为1
标识 | 描述 |
---|---|
用户ID(userID) | 唯一标识一个用户 |
年龄(age) | 取值范围[0, 80],其中0表示未知。 |
性别(gender) | 取值包括男、女、未知。 |
学历(education) | 用户当前最高学历,不区分在读或者毕业生,取值包括小学, 初中, 高中, 专科, 本科, 硕士, 博士, 未知 |
婚恋状态(marriageStatus) | 用户当前婚恋状态,取值包括单身, 离婚, 已婚, 未知。 |
育儿状态(haveBaby) | 用户当前育儿状态状况,取值包括孩子出生, 宝宝0-6个月, 宝宝6-12个月, 宝宝1-2岁, 宝宝2-3岁, 有儿童在家长模式, 未知。 |
家乡/籍贯(hometown) | 用户出生地,取值包括所有行政区域,使用三级编码, 十位位数标示行政区域, 如1106表示河南省济源市, 按市编码是首字的6号, 二号0表示未知。 |
常住地(residence) | 最近一段时间用户长期居住的地方,取值包括所有行政区域, 编码方式与家乡相同。 |
标识 | 描述 |
---|---|
用户ID(userID) | 唯一标识一个用户 |
AppID(appID) | 广告推广的目标应用唯一标识符 |
标识 | 描述 |
---|---|
用户ID(userID) | 唯一标识一个用户 |
安装时间(installTime) | 安装APP时间 |
AppID(appID) | 广告推广的目标应用唯一标识符 |
标识 | 描述 |
---|---|
AppID(appID) | 广告推广的目标应用唯一标识符 |
App分类(appCategory) | 类目标签有两层, 但由3位数字组成, 由低位表示一级类目, 中位位表示二级类目, 如“210”表示一级类目编号为2, 二级类目编号为10, 类目类别和名称在数据集中, 请记住。 |
标识 | 分类 | 描述 |
---|---|---|
广告素材ID(creativeID) | 属于某个广告主在特定的广告内容 | 一条广告下可以有多条素材。 |
广告ID(adID) | 商家或广告主管理平台的广告素材创建到的广告唯一标识符 | 广告属于推广计划,包含广告的基本信息(广告名称, 投放时间等), 广告的推广目标, 投放平台, 投放的广告规格, 预算政策的广告创意, 广告的投放时间、广告出价等信息。每个推广计划下的广告数量不上限。 |
推广计划ID(campaignID) | 推广计划的唯一标识符 | 推广计划是广告的集合, 类似电脑文件夹功能。 广告主可以将推广平台、预算策略、 是否为这些政策条件相同的广告放在同一个推广计划中,方便管理。 |
广告ID(advertiserID) | 商家或广告主的唯一标识符 | 广告主一推广计划一广告一素材,广告主对一家媒介的广告主。 |
AppID(appID) | 广告推广的目标应用唯一标识符 | 用户点击后跳转到该APP的页面, 此处为特定的App。 多个推广计划或广告可以同时推广一个App。 |
App平台(appPlatform) | App所属操作系统平台,取值为Android, iOS, 未知。同一个appID只属于一个平台。 |
标识 | 描述 |
---|---|
广告ID(positionID) | 广告曝光的具体位次, 如QQ空间Feeds广告位。 |
站点/频道ID(sitesetID) | 第八广告的站台,如QQ空间 |
广告位类型(positionType) | 对于主站站点,入工是文本广告一级导航或纽扣类,如Banner广告位。 |
标识 | 描述 |
---|---|
标签(label) | 是否转换 当label = 0时未转换 1已转换 |
点击时间(clickTime) | 用户点击广告的时间 |
转换回流时间(conversionTime) | 转换回流时间 |
广告素材ID(creativeID) | 属于某个广告主在特定的广告内容 |
用户ID(userID) | 唯一标识一个用户 |
广告ID(positionID) | 广告曝光的具体位次, 如QQ空间Feeds广告位。 |
网网方式(connectionType) | 移动设备当前使用的联网方式,取值包括2G, 3G, 4G, WIFI, 未知 |
运营商(telecomsOperator) | 移动设备当前使用的运营商, 取值包括联通移动, 中国联通, 中国电信, 未知 |
标识 | 描述 |
---|---|
instanceID | |
标签(label) | 是否转换0未转换 1已转换 |
点击时间(clickTime) | 用户点击广告的时间 |
广告素材ID(creativeID) | 属于某个广告主在特定的广告内容 |
用户ID(userID) | 唯一标识一个用户 |
广告ID(positionID) | 广告曝光的具体位次, 如QQ空间Feeds广告位。 |
网网方式(connectionType) | 移动设备当前使用的联网方式,取值包括2G, 3G, 4G, WIFI, 未知 |
运营商(telecomsOperator) | 移动设备当前使用的运营商, 取值包括联通移动, 中国联通, 中国电信, 未知 |
通过Logarithmic Loss评估(越小越好),公式如下:
其中,N是测试样本总数,yi是二值变量,取值0或1,表示第i个样本的label,pi为模型预测第i个样本 label为1的概率。
评估公式的Python代码如下:
1import scipy as sp
2def logloss(act, pred):
3 epsilon = 1e-15
4 pred = sp.maximum(epsilon, pred)
5 pred = sp.minimum(1-epsilon, pred)
6 ll = sum(act*sp.log(pred) + sp.subtract(1,act)*sp.log(sp.subtract(1,pred)))
7 ll = ll * -1.0/len(act)
8 return ll