数据解释-【官方】百战程序员_IT在线教育培训机构

从腾讯社交广告系统中某一连续两周的日志中按照推广中的App和用户维度随机采样。每一条训练样本即为一条广告点击日志(点击时间用clickTime表示)，样本label取值0或1，其中0表示点击后没有发生转化，1表示点击后有发生转化，如果label为1，还会提供转化回流时间(conversionTime)。

转化回流时间

App 的激活定义为用户下载后启动了该App，即发生激活行为。从用户点击广告到广告系统得知用户激活了App(如果有)，通常会有较长的时间间隔

回流时间表示了广告主把App激活数据上报给广告系统的时间，回流时间超过5天的数据会被系统忽略。值得注意的是，训练数据提供的截止第31天0点的广告日志，因此，对于最后几天的训练数据，某些label=0并不够准确，可能广告系统会在第31天之后得知label实际上为1

特征数据解释

特别地，出于数据安全的考虑，对于userID，appID，特征，以及时间字段，我们不提供原始数据，按照如下方式加密处理：

训练数据文件（train.csv）

每行代表一个训练样本，各字段之间由逗号分隔，顺序依次为：“label，clickTime，conversionTime，creativeID，userID，positionID，connectionType，telecomsOperator”。

当label=0时，conversionTime字段为空字符串。特别的，训练数据时间范围为第17天0点到第31天0点(定义详见下面的“补充说明”)。为了节省存储空间，用户、App、广告和广告位相关信息以独立文件提供(训练数据和测试数据共用)，具体如下：

注：若字段取值为0或空字符串均代表未知。(站点集合ID(sitesetID)为0并不表示未知，而是一个特定的站点集合。)

测试数据文件（test.csv）

从训练数据时段随后1天(即第31天)的广告日志中按照与训练数据同样的采样方式抽取得到，测试数据文件(test.csv)每行代表一个测试样本，各字段之间由逗号分隔，顺序依次为：“instanceID，-1，clickTime，creativeID，userID，positionID，connectionType，telecomsOperator”。其中，instanceID唯一标识一个样本，-1代表label占位使用，表示待预测。

评估方式

通过Logarithmic Loss评估(越小越好)，公式如下：

l o g l o s s = - \frac{1}{N} \sum_{i = 1}^{N} (y_{i} l o g (p_{i}) + (1 - y_{i}) l o g (1 - p_{i}))

其中，N是测试样本总数，yi是二值变量，取值0或1，表示第i个样本的label，pi为模型预测第i个样本 label为1的概率。

评估公式的Python代码如下：


import scipy as sp
def logloss(act, pred):
  epsilon = 1e-15
  pred = sp.maximum(epsilon, pred)
  pred = sp.minimum(1-epsilon, pred)
  ll = sum(act*sp.log(pred) + sp.subtract(1,act)*sp.log(sp.subtract(1,pred)))
  ll = ll * -1.0/len(act)
  return ll

项目背景 Baseline模型（基于AD统计）

北京市昌平区回龙观镇南店村综合商业楼2楼226室