学习python数据分析的30个练手数据+4个数据集网站
前几天发了一个博文:, 一不小心上了热榜, 感谢小伙伴们的支持, 以后会多总结发更好的python数据分析及可视化的文章.
有朋友询问这十几个模板的数据文件, 想必是想实际操作一下, 很不错哟! 我将数据上传到了论坛, 另外分享下工作中收集数据的一些方法!
12个pyechart模板Excel文件
请点击:
2个数据源
以上数据除了模拟数据外, 其他数据都是来自于网上, 主要是199it数据图表
模块 空气质量数据来自于下面网址, 通过爬虫方式获取 爬虫代码也上传到论坛, 想了解的可以下载:
爬取的数据作图之前需要进行清洗, 原因是网址的城市名称可能和百度地图收录的城市名称不一致, 需要保持一致, 比如下面这些:
data[城市].replace(果洛,果洛藏族自治州,inplace=True) data[城市].replace(可克达拉,可克达拉市,inplace=True)
4个数据(集)网址
平时可能用到的数据集网址, 分享几个方便初学者学习python。
1个python公共数据工具包: GoPUP
通过python调用工具包,能获取不少公共信息, 亲测有些接口可能获取不到数据了, 大部分还是可以的!
GoPUP 项目所采集的数据皆来自公开的数据源,不涉及任何个人隐私数据和非公开数据。
安装方式
pip install gopup --upgrade
调用方式
基本上都是几行代码, 返回的是一个dataframe格式数据, 用pandas很容易处理, 适合想学python的朋友学习使用.
import gopup as gp df_index = gp.weibo_index(word="疫情", time_type="3month") print(df_index)
国内生产总值
代码
import gopup as gp df_index = gp.get_gdp_quarter() df_index
居民消费价格指数
import gopup as gp df_index = gp.get_cpi() df_index
千里马公司数据
import gopup as gp df_index = gp.maxima_company() df_index
历史上的今天
import gopup as gp df_index = gp.history_daily() df_index
百度实时热门
import gopup as gp df_index = gp.baidu_hot_list() df_index
百度今日热点
import gopup as gp df_index = gp.baidu_today_hot_list() df_index
百度百科热词榜
import gopup as gp df_index = gp.baidu_hot_word_list() df_index
微博热搜榜
import gopup as gp df_index = gp.weibo_hot_search_list() df_index
import gopup as gp df_index = gp.wx_hot_list() df_index
知乎热搜榜
import gopup as gp df_index = gp.zhihu_hot_search_list() df_index
知乎热榜
import gopup as gp df_index = gp.zhihu_hot_list() df_index
豆瓣新片榜
import gopup as gp df_index = gp.douban_movie_list() df_index
豆瓣一周口碑榜
import gopup as gp df_index = gp.douban_week_praise_list() df_index
汽柴油历史价格信息
import gopup as gp df_index = gp.energy_oil_hist() df_index
迁入迁出地详情
import gopup as gp migration_area_baidu_df = gp.migration_area_baidu(area="湖北省", indicator="move_in", date="20200201") migration_area_baidu_df
车站数据
import gopup as gp df_index = gp.station_name() df_index
列车时刻表
import gopup as gp df_index = gp.train_time_table(train_number="T15") df_index
全国普通高校名单
import gopup as gp df_index = gp.university() df_index
如果这些数据你正好需要, 可以方便调用, 感谢开发提供工具包的朋友!
相关阅读推荐: