Retailrocket数据集属性分析

Retailrocket数据集属性分析

近期计划使用电商数据集做强化学习相关,从论文中看到了,此数据集有四个文件(如下图),其中包括商品类别树、事件日志、物品熟悉日志。

事件日志包括了用户对物品的“view”, “addtocart” or “transaction”三个操作,在强化学习中可设置不同的奖励;物品属性日志记录物品的属性变化,如价格的变化等,由于此表的复杂性,所以下文特别分析了该表的一些属性特征。

物品属性中除了物品的“类别”和“有效性”属性外,其余属性名字均做了hash,导致不能充分利用物品属性。

    首先分析物品的“类别”与日志时间的联系:

从下图可以看出,物品类别随时间变化不频繁,大多数物品的类别是一个常量,少说物品的类别在两个类别之间切换,建议将物品类别处理为常量。

    “有效性”与时间的联系

如上图,物品的有效性会随时间无规律改变,在某一时刻,物品可能无效,所以,在强化学习状态下,候选物品是一个动态的过程,建议保留有效性的动态变化。

    有关“价格”属性的猜测

根据讨论的官方回应,价格属性值都是数字,即以n开头,另外根据统计信息(如下图),代号888和790出现的频次最高,认为价格很大可能是其中的一个。

然后根据888属性展开分析,其具体值如下图,发现这个属性值包含大量文本信息,并且不同物品的属性值不同,相同物品的属性值相同,据此判断次属性可能属于物品介绍特征。

相同物品的888属性值
相同物品的888属性值
不同物品的888属性值
不同物品的888属性值

接下来分析790特征, 特征值如下图,可以发现,790属性值全部以n开头,也就是说它的属性值全部是数字,并且同一商品的几个随时间变化不大,据此猜测,此属性值为商品价格。

经验分享 程序员 微信小程序 职场和发展