pandas系列之xlsx文件的基本操作

来自:    更新日期:早些时候
~

使用read_excel()方法导入xlsx文件

importpandasaspddf=pd.read_excel(r'C:\Users\admin\Desktop\数据分析测试表.xlsx')print(df)

注意的几个问题:

1.依赖库安装

直接运行上述代码,报错:

因本地没有使用Anaconda,而是直接使用pip命令的pandas,导致了很多其他模块需要自己安装。

此时需要安装openpyxl 安装截图:

再次运行:

日期分类书名作者0历史史记司马迁1小说红楼梦曹雪芹2散文文化苦旅余秋雨3历史明朝那些事儿当年明月4漫画半小时漫画混子曰5随笔培根随笔培根体重(kg)

2.文件路径

电脑中的文件路径默认使用\,此时需要在路径前面加r,避免路径里面的\被转义。或者可以把路径里面的所有\换成/。推荐加r。

这个规则在导入其他格式的文件时也适用。后面不再赘述。

3.sheet页的选择

数据分析测试表.xlsx表格内容如下:

3.1默认情形下导入第一个sheet页df=pd.read_excel(r'C:\Users\admin\Desktop\数据分析测试表.xlsx')print(df)

result:

分类书名作者0历史史记司马迁1小说红楼梦曹雪芹2散文文化苦旅余秋雨3历史明朝那些事儿当年明月4漫画半小时漫画混子曰5随笔培根随笔培根

3.2 设定sheet_name参数来指定要导入的sheet页内容3.2.1通过sheet页的名字来指定所导入的sheet页df=pd.read_excel(r'C:\Users\admin\Desktop\数据分析测试表.xlsx',sheet_name="地区分类")print(df)

result:

区域省份城市0东北辽宁大连1西北陕西西安2华南广东深圳3华北北京北京4华中湖北武汉

3.2.1通过sheet页的顺序来指定所导入的sheet页df=pd.read_excel(r'C:\Users\admin\Desktop\数据分析测试表.xlsx',sheet_name=1)print(df)

result:

区域省份城市0东北辽宁大连1西北陕西西安2华南广东深圳3华北北京北京4华中湖北武汉

4.索引的指定4.1指定行索引

将本地文件导入DataFrame时,行索引使用的从0开始的默认索引,可以通过设置设置index_col参数进行设置。该参数表示用.xlsx文件中的第几行做索引,从0开始计数

4.1.1采用表格中的第一列数据作为行索引df=pd.read_excel(r'C:\Users\admin\Desktop\数据分析测试表.xlsx',sheet_name=1,index_col=0)print(df)

result:

省份城市区域东北辽宁大连西北陕西西安华南广东深圳华北北京北京华中湖北武汉

4.1.2采用表格中的第二列数据作为行索引日期分类书名作者0历史史记司马迁1小说红楼梦曹雪芹2散文文化苦旅余秋雨3历史明朝那些事儿当年明月4漫画半小时漫画混子曰5随笔培根随笔培根体重(kg)0

result:

日期分类书名作者0历史史记司马迁1小说红楼梦曹雪芹2散文文化苦旅余秋雨3历史明朝那些事儿当年明月4漫画半小时漫画混子曰5随笔培根随笔培根体重(kg)1

4.1.3采用默认从0开始的数作为行索引日期分类书名作者0历史史记司马迁1小说红楼梦曹雪芹2散文文化苦旅余秋雨3历史明朝那些事儿当年明月4漫画半小时漫画混子曰5随笔培根随笔培根体重(kg)2

result:

区域省份城市0东北辽宁大连1西北陕西西安2华南广东深圳3华北北京北京4华中湖北武汉

4.2 列索引的指定

将本地文件导入DataFrame时,列索引默认使用元数据表的第一行(说白了就是表头)作为列索引,可以通过设置设置header参数进行设置。header参数值默认为0,即用第一行作为列索引。也可以是其他行,只要传入具体的行对应的数字就可以。也可以使用默认从0开始的数作为索引

4.2.1采用表格中的第一列数据作为列索引日期分类书名作者0历史史记司马迁1小说红楼梦曹雪芹2散文文化苦旅余秋雨3历史明朝那些事儿当年明月4漫画半小时漫画混子曰5随笔培根随笔培根体重(kg)4

result:

区域省份城市0东北辽宁大连1西北陕西西安2华南广东深圳3华北北京北京4华中湖北武汉

4.2.2采用表格中的第二列数据作为列索引日期分类书名作者0历史史记司马迁1小说红楼梦曹雪芹2散文文化苦旅余秋雨3历史明朝那些事儿当年明月4漫画半小时漫画混子曰5随笔培根随笔培根体重(kg)6

result:

日期分类书名作者0历史史记司马迁1小说红楼梦曹雪芹2散文文化苦旅余秋雨3历史明朝那些事儿当年明月4漫画半小时漫画混子曰5随笔培根随笔培根体重(kg)7

4.2.3采用默认从0开始的数作为列索引日期分类书名作者0历史史记司马迁1小说红楼梦曹雪芹2散文文化苦旅余秋雨3历史明朝那些事儿当年明月4漫画半小时漫画混子曰5随笔培根随笔培根体重(kg)8

result:

日期分类书名作者0历史史记司马迁1小说红楼梦曹雪芹2散文文化苦旅余秋雨3历史明朝那些事儿当年明月4漫画半小时漫画混子曰5随笔培根随笔培根体重(kg)9

5.读取数据5.1读取行数据5.1.1读取某一行的数据df=pd.read_excel(r'C:\Users\admin\Desktop\数据分析测试表.xlsx')print(df)0

这是读取了第一行的数据

result:

df=pd.read_excel(r'C:\Users\admin\Desktop\数据分析测试表.xlsx')print(df)1

5.1.2读取多行数据

此时要注意loc里面的参数必须是列表,切记。

df=pd.read_excel(r'C:\Users\admin\Desktop\数据分析测试表.xlsx')print(df)2

这是读取了第二、三、四行的数据

result:

df=pd.read_excel(r'C:\Users\admin\Desktop\数据分析测试表.xlsx')print(df)3

5.1.3 随机获取任意几行的内容df=pd.read_excel(r'C:\Users\admin\Desktop\数据分析测试表.xlsx')print(df)4

result:

df=pd.read_excel(r'C:\Users\admin\Desktop\数据分析测试表.xlsx')print(df)5

5.1.4 读取前几行数据df=pd.read_excel(r'C:\Users\admin\Desktop\数据分析测试表.xlsx')print(df)6

result:

区域省份城市0东北辽宁大连1西北陕西西安2华南广东深圳3华北北京北京4华中湖北武汉

head()默认读取前5行数据

df=pd.read_excel(r'C:\Users\admin\Desktop\数据分析测试表.xlsx')print(df)8

result:

df=pd.read_excel(r'C:\Users\admin\Desktop\数据分析测试表.xlsx')print(df)9

head(2)读取前2行数据

5.2读取列数据5.2.1读取单列数据分类书名作者0历史史记司马迁1小说红楼梦曹雪芹2散文文化苦旅余秋雨3历史明朝那些事儿当年明月4漫画半小时漫画混子曰5随笔培根随笔培根0

result:

分类书名作者0历史史记司马迁1小说红楼梦曹雪芹2散文文化苦旅余秋雨3历史明朝那些事儿当年明月4漫画半小时漫画混子曰5随笔培根随笔培根1

tips:该方法无法同时读取多个列的内容,只能一次读取一行数据

5.2.2 读取指定的行列分类书名作者0历史史记司马迁1小说红楼梦曹雪芹2散文文化苦旅余秋雨3历史明朝那些事儿当年明月4漫画半小时漫画混子曰5随笔培根随笔培根2

这是读取了分别读取了第二行的省份数据、第四行的省份数据、第五行的省份数据

result:

分类书名作者0历史史记司马迁1小说红楼梦曹雪芹2散文文化苦旅余秋雨3历史明朝那些事儿当年明月4漫画半小时漫画混子曰5随笔培根随笔培根3

5.2.3 读取多行多列数据分类书名作者0历史史记司马迁1小说红楼梦曹雪芹2散文文化苦旅余秋雨3历史明朝那些事儿当年明月4漫画半小时漫画混子曰5随笔培根随笔培根4

这是读取了分别读取了第二行的省份和城市数据、第四行的省份和城市数据、第五行的省份和城市数据

result:

分类书名作者0历史史记司马迁1小说红楼梦曹雪芹2散文文化苦旅余秋雨3历史明朝那些事儿当年明月4漫画半小时漫画混子曰5随笔培根随笔培根5

5.2.4 获取所有行的指定列数据分类书名作者0历史史记司马迁1小说红楼梦曹雪芹2散文文化苦旅余秋雨3历史明朝那些事儿当年明月4漫画半小时漫画混子曰5随笔培根随笔培根6

这是读取了分别读取了表格中每一行的省份和城市数据

result:

分类书名作者0历史史记司马迁1小说红楼梦曹雪芹2散文文化苦旅余秋雨3历史明朝那些事儿当年明月4漫画半小时漫画混子曰5随笔培根随笔培根7

5.3获取行名输出分类书名作者0历史史记司马迁1小说红楼梦曹雪芹2散文文化苦旅余秋雨3历史明朝那些事儿当年明月4漫画半小时漫画混子曰5随笔培根随笔培根8

result:

分类书名作者0历史史记司马迁1小说红楼梦曹雪芹2散文文化苦旅余秋雨3历史明朝那些事儿当年明月4漫画半小时漫画混子曰5随笔培根随笔培根9

5.4 获取列名输出df=pd.read_excel(r'C:\Users\admin\Desktop\数据分析测试表.xlsx',sheet_name="地区分类")print(df)0

result:

df=pd.read_excel(r'C:\Users\admin\Desktop\数据分析测试表.xlsx',sheet_name="地区分类")print(df)1


pandas系列之xlsx文件的基本操作视频

相关评论:
  • 13955763692Python Pandas读取Excel常用参数及方法
    雷斌俭在Python中,Pandas库提供了两种高效的方法来读取Excel文件:pd.ExcelFile和pd.read_excel。它们的功能各异,但都是数据处理中的重要工具。首先,pd.ExcelFile主要用于一次性加载整个Excel工作簿。要使用它,你需要:通过指定文件路径打开Excel文件,如:excel_file = pd.ExcelFile('path_to_file.xlsx')...

  • 13955763692pandas系列之按列选择数据
    雷斌俭本文着重讲述按列筛选需要的数据,主要包括按普通索引选择和按位置索引选择这2中选择方式。1.按普通索引选择数据这里说一下,列普通索引实际上就是列名。为了行文方便,后续一律称普通索引。1.1 按普通索引选择单列数据importpandasaspddf=pd.read_excel(r'C:\\Users\\admin\\Desktop\\data_test.xlsx')print...

  • 13955763692Pandas数据清洗系列:read__excel函数详解
    雷斌俭在数据分析中,pandas的read_excel函数扮演着关键角色,它能从Excel文件中高效地读取数据到DataFrame。这个函数不仅支持多种Excel文件格式,包括xls, xlsx, xlsm, xlsb, odf, ods和odt,而且能够灵活处理单个或多个sheet的数据。函数的基本参数包括文件路径或对象,sheet名称,数据类型指定等,许多参数与read...

  • 13955763692EXCEL与PYTHON系列第一篇---Pandas(1)read_excel详解
    雷斌俭Pandas可以读取多种格式的数据,针对Excel文件,使用`read_excel`函数即可轻松完成读取。比如,如果你有一个名为“test.xlsx”的文件,只需一行代码即可实现文件的加载。然而,值得注意的是,在Pandas读取Excel文件时,会调用第三方库作为“引擎”。这些引擎包括“xlrd”、“openpyxl”、“odf”和“pyxlsb”...

  • 13955763692pandas系列之数据分组(三)分组后的汇总方式设置和索引重置
    雷斌俭本文用到的表格内容如下:先来看一下数据情形 importpandasaspdlife_df=pd.read_excel(r'C:\\Users\\admin\\Desktop\\生活用品表.xlsx')print(life_df)result:分类编号名称0水果0苹果1水果1橙子2生活用品2牙刷3生活用品3冰箱4生活用品4电视机5食物0苹果6食物1橙子7家电3冰箱8家电4电视机9大件3冰箱10...

  • 13955763692【Python数据分析系列】读取Excel文件中的多个sheet表(案例+源码)_百...
    雷斌俭在Python中使用pandas库,读取Excel文件中的多个sheet表变得极其便捷。假设有一个名为“光谱响应函数.xlsx”的Excel文件,其中包含多个sheet表。Excel文件,如同数据库,存储着一张或多张数据表。本文将展示如何依次读取Excel文件中的每一个sheet表。首先,定义excel文件路径,通过pd.ExcelFile()创建一个Excel...

  • 13955763692python生成excel文件的三种方式
    雷斌俭Python操作Excel的三种方式在工作中,Python操作Excel是常见的需求,可借助pandas、xlwt\/xlrd和openpyxl等库。让我们深入了解它们的各自特点和使用方法。xlwt\/xlrdxlrd主要负责读取xls\/xlsx格式的Excel,而xlwt则用于写入xls格式。xlrd的安装需要通过pip,使用时先导入模块,然后通过实例化并操作表、列或坐标获取...

  • 13955763692如何使用pandas将python列表转换成excel表格?
    雷斌俭import pandas as pd 假设你有一个名为 data 的列表 data = [['Tom', 10], ['Dick', 15], ['Harry', 20]]使用 pandas 将列表转换成 DataFrame df = pd.DataFrame(data, columns=['Name', 'Age'])使用 to_excel 函数将 DataFrame 保存为 excel 文件 df.to_excel("data.xlsx")这样...

  • 13955763692pandas系列之数据分组(一)按照列名分组
    雷斌俭importpandasaspdlife_df=pd.read_excel(r'C:\\Users\\admin\\Desktop\\生活用品表.xlsx')print(life_df.groupby("分类").sum())result:编号分类大件12家电7小说8水果1生活用品16食物1 我们把这种对分组后的数据进行汇总运算的操作称为聚合,使用的函数称为聚合函数。比如前面系列文章提高的非空值计数、...

  • 13955763692使用wxPython和pandas模块生成Excel文件的代码实现
    雷斌俭在程序的主要逻辑部分,on_start_generation函数扮演着核心角色。它首先读取选择的Excel文件,并逐个单元格解析字段名组合。然后,根据字段名组合创建新的DataFrame,并将其保存为一个新的Excel文件,文件名为序号加上.xlsx后缀。生成的Excel文件将保存在选择的输出文件夹中。现在,我们已经完成了整个程序的...

  • 相关主题精彩

    版权声明:本网站为非赢利性站点,内容来自于网络投稿和网络,若有相关事宜,请联系管理员

    Copyright © 喜物网