京东手机评论数据集介绍

开篇

这个博客挂了两天,现在补上,首先是下载的链接,数据我保存成了json格式,我大概爬取了以下几个手机品牌的评论,由于京东一般过万的评论都只显示前一千多条,所以下面的每条都在一千条左右,我想正常的分析应该是足够了 这边的话,如果你想爬取其他商品的评论,也可以参照我的,里面详细地介绍了爬取的过程,也放出了相应的代码,有兴趣的话可以自己尝试着实现一下,其实也就那么回事。

数据集

首先是数据集的读取

In [1]: import json

In [2]: with open(Desktop/手机评论数据集/oppo_r15.json,r) as f:
   ...:     data = json.load(f)

看一下数据集里面都是一些什么内容

In [4]: type(data)
Out[4]: list

In [5]: test = data[0]

In [6]: type(test)
Out[6]: dict

In [7]: test.keys()
Out[7]: dict_keys([userExpValue, replyCount, userProvince, replies, anonymousFlag, plusAvailable, isMobile, score, content, userLevelColor, isReplyGrade, imageCount, showOrderComment, referenceImage, referenceName, userLevelName, userImgFlag, isTop, userLevelId, mobileVersion, referenceTypeId, topped, referenceType, firstCategory, thirdCategory, status, mergeOrderStatus, productSize, integral, productColor, afterDays, nickname, userClient, guid, days, referenceId, images, orderId, userClientShow, discussionId, productSales, id, creationTime, title, userImageUrl, uselessVoteCount, viewCount, userImage, usefulVoteCount, videos, secondCategory, recommend, referenceTime])

data是一个列表,里面里面的每一个元素代表的就是一整条用户的评论以及其他信息,相信这些信息做推荐的时候也是用的上的,具体的信息如上所示的代码。那怎么找出我们的评论呢?请看下面的代码

In [8]: test[content]
Out[8]: 各方面都按苹果X的标准做处理!后壳玻璃,紫色玻璃渐变效果非常好!很酷,这价位值。系统上,虽然4G的运存,一点也未觉卡。相机的夜拍果的确很好,2千万不是吹牛的,赞!值得一提的的是知能ai,要慢慢去尝试,有好多便捷的手势都是未曾接触过的!
In [9]: test[score]
Out[9]: 5

ok,具体内容就是这样。

经验分享 程序员 微信小程序 职场和发展