Retailrocket数据集属性分析
Retailrocket数据集属性分析
近期计划使用电商数据集做强化学习相关,从论文中看到了,此数据集有四个文件(如下图),其中包括商品类别树、事件日志、物品熟悉日志。
事件日志包括了用户对物品的“view”, “addtocart” or “transaction”三个操作,在强化学习中可设置不同的奖励;物品属性日志记录物品的属性变化,如价格的变化等,由于此表的复杂性,所以下文特别分析了该表的一些属性特征。
物品属性中除了物品的“类别”和“有效性”属性外,其余属性名字均做了hash,导致不能充分利用物品属性。
-
首先分析物品的“类别”与日志时间的联系:
从下图可以看出,物品类别随时间变化不频繁,大多数物品的类别是一个常量,少说物品的类别在两个类别之间切换,建议将物品类别处理为常量。
-
“有效性”与时间的联系
如上图,物品的有效性会随时间无规律改变,在某一时刻,物品可能无效,所以,在强化学习状态下,候选物品是一个动态的过程,建议保留有效性的动态变化。
-
有关“价格”属性的猜测
根据讨论的官方回应,价格属性值都是数字,即以n开头,另外根据统计信息(如下图),代号888和790出现的频次最高,认为价格很大可能是其中的一个。
然后根据888属性展开分析,其具体值如下图,发现这个属性值包含大量文本信息,并且不同物品的属性值不同,相同物品的属性值相同,据此判断次属性可能属于物品介绍特征。
接下来分析790特征, 特征值如下图,可以发现,790属性值全部以n开头,也就是说它的属性值全部是数字,并且同一商品的几个随时间变化不大,据此猜测,此属性值为商品价格。