作者:欢豪来源:恒生LIGHT云社区背景介绍在量化分析的过程中,总是需要利用大量的数据库对数据进行挖掘它们之间的关联,最终找到我们需要的数据。仅通过Python进行数据分析非常复杂。有没有更简单的工具可以帮助我们高效快速的分析数据呢?今天给大家介绍一下Pandas——一个强大的结构化数据分析工具集。本文主要面向有一定Python语法基础的同学。需要学习Python的同学可以在社区找教程收费(https://developer.hs.net/cour...)。基本概念Pandas库是一个免费、开源的第三方Python库,是Python数据分析的必备工具之一。它为Python数据分析提供了高性能易用的数据结构,即Series和DataFrame。Pandas基于Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时提供数据清洗功能。Pandas库是基于PythonNumPy库开发的,因此可以与Python的科学计算库一起使用。Pandas从诞生之日起就被应用于金融、统计、社会科学、建筑工程等多个领域,通过上面的介绍,想必大家对Pandas的作用有了一个基本的了解。pandas是excel的python等价物:它使用表(又名数据帧),可以对数据进行各种转换,但还可以做更多。数据结构DataFrameDataFrame是一种表格数据结构,包含一组有序的列,每个列可以是不同的值类型(数字、字符串、布尔值)。DataFrame既有行索引也有列索引,可以看作是Series的字典(常用索引)。DataFrame构造方法如下:pandas.DataFrame(data,index,columns,dtype,copy)参数说明:data:一组数据(ndarray、series、map、lists、dict等)。index:索引值,也可以称为行标签。columns:列标签,默认为RangeIndex(0,1,2,…,n)。dtype:数据类型。copy:复制数据,默认为False。SeriesSeries类似于表中的列,类似于一维数组,可以容纳任何数据类型。Series由索引(index)和列组成。函数如下:pandas.Series(data,index,dtype,name,copy)参数说明:data:一组数据(ndarray类型)。index:数据索引标签,若不指定,默认从0开始。dtype:数据类型,默认会自行判断。名称:设置名称。copy:复制数据,默认为False。快速上手导入组件将Pandas组件导入代码:importpandasaspd如果不能导入,说明环境配置有问题或者你根本没有下载。通过以下方式下载组件:pipinstallPandasSeries对象操作通过Series()函数创建一个Series对象,通过该对象可以调用相应的方法和属性:importpandasaspdimportnumpyasnpdata=np.array(['a','b','c','d'])s=pd.Series(data)print(s)DataFrame对象操作通过DataFrame()创建对象的语法如下:importpandasaspddata=[1,2,3,4,5]df=pd.DataFrame(data)print(df)read读取文件数据可以通过read_csv()函数读取本地.csv格式文件:data=pd.read_csv('file.csv')data=pd.read_csv('file.csv',nrows=1000,skiprows=[1,5],encoding=gbk)参数含义:'file.csv':表示读取的文件名,可以添加到系统读取位置nrows:表示读取前有多少行数据skiprows:表示自动读取跳过未读取的行数。encoding:表示读取文件的编码格式与read_csv相同,read_excel读取Excel文件数据也有类似的方法。写入文件数据Pandas提供的to_csv()函数用于将DataFrame转换为CSV数据。如果要将CSV数据写入文件,只需将文件对象传递给函数即可。否则,CSV数据将以字符串格式返回。data.to_csv('my_new_file.csv',index=None)参数含义:index:表示是否添加索引,默认会自动添加index和to_csv,还有类似to_excel写入Excel文件数据的方法.总结本文主要介绍Pandas工具集的基础知识。学习Pandas可以帮助我们快速处理和分析数据。后续我们会持续更新实战操作,敬请期待。
