Python毕业设计 大数据B站数据分析与可视化
0 前言
🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。
为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天要分享的是
🚩 大数据B站数据分析与可视化
🥇学长这里给一个题目综合评分(每项满分5分)
-
难度系数:3分 工作量:3分 创新点:4分
选题指导,项目分享:
1 课题背景
本项目基于Python+flask+pyecharts实现了对哔哩哔哩排行榜大数据的可视化分析。
2 实现效果
3 数据获取
python爬虫简介
网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。爬虫对某一站点访问,如果可以访问就下载其中的网页内容,并且通过爬虫解析模块解析得到的网页链接,把这些链接作为之后的抓取目标,并且在整个过程中完全不依赖用户,自动运行。若不能访问则根据爬虫预先设定的策略进行下一个 URL的访问。在整个过程中爬虫会自动进行异步处理数据请求,返回网页的抓取数据。在整个的爬虫运行之前,用户都可以自定义的添加代理,伪 装 请求头以便更好地获取网页数据。爬虫流程图如下:
爬虫相关代码
4 数据可视化
可视化呈现方案
首先是要确定子母序列,母是结果,子是影响因子,那么,毫无疑问,综合得分就是母,其他均为影响因子。将其分别存入mom_以及son_中,代码如下:
with open(./bilibili.txt, r+,encoding=utf-8) as f1:
lst2=[]
for line in f1.readlines():
lst2.append(line.split(,))
mom_ = [int(i[4]) for i in lst2[0:50:]]
view = []
reply = []
favorite = []
coin = []
share = []
like = []
for i in lst2[0:50]:
view.append(float(i[2].strip("万"))*10000)
reply.append(int(i[8]))
favorite.append(int(i[9]))
coin.append(int(i[10]))
share.append(int(i[11]))
like.append(int(i[12]))
son_ = [view,reply,favorite,coin,share,like]
mom_ = np.array(mom_)
son_ = np.array(son_)
son_ = son_.T / son_.mean(axis=1)
mom_ = mom_/mom_.mean()
for i in range(son_.shape[1]):
son_[:,i] = abs(son_[:,i]-mom_.T)
Mmin = son_.min()
Mmax = son_.max()
cors = (Mmin + 0.5*Mmax)/(son_+0.5*Mmax)
Mmean = cors.mean(axis = 0)
灰色关联度介绍
相关代码
选题指导,项目分享:
