快捷搜索: 王者荣耀 脱发

pd.read_excel的参数问题

    read_csv与to_csv是⼀对输⼊输出的⼯具,read_csv直接返回pandas.DataFrame,⽽to_csv只要执行命令即可写文件 read_table:功能类似 read_fwf:操作fixed width file read_excel与to_excel方便的与excel交互 header 表⽰数据中是否存在列名,如果在第0行就写就写0,并且开始读数据时跳过相应的行数,不存在可以写none names 表示要用给定的列名来作为最终的列名 encoding 表⽰数据集的字符编码,通常而言一份数据为了⽅便的进⾏⽂件传输都以utf-8作为标准

对于存储着极为规整数据的Excel而言,其实是没必要一定用Excel来存,尽管Pandas也十分友好的提供了I/O接口。

taxidata.to_excel(t0401.xlsx,encoding=utf-8)

taxidata_from_excel = pd.read_excel(t0401.xlsx,header=0, encoding=utf-8)

taxidata_from_excel
    1 2 3 4 5

注意:当你的xls文件行数很多超过65536时,就会遇到错误,解决办法是将写入的格式变为xlsx。excel函数受限制问题

唯一重要的参数:sheetname=k,标志着一个excel的第k个sheet页将会被取出。(从0开始)


这里介绍一些常用的参数:

读取处理:

skiprows:跳过⼀定的⾏数

nrows:仅读取⼀定的⾏数

skipfooter:尾部有固定的⾏数永不读取

skip_blank_lines:空⾏跳过

内容处理:

sep/delimiter:分隔符很重要,常⻅的有逗号,空格和Tab(	)

na_values:指定应该被当作na_values的数值

thousands:处理数值类型时,每千位分隔符并不统⼀ (1.234.567,89或者1,234,567.89都可能),此时要把字符串转化为

数字需要指明千位分隔符

收尾处理:

index_col:将真实的某列(列的数⺫,甚⾄列名)当作index

squeeze:仅读到⼀列时,不再保存为pandas.DataFrame⽽是pandas.Series

经验分享 程序员 微信小程序 职场和发展