使用Python进行数据分析的Pandas是一种快速、强大、灵活且易于使用的开源数据分析和操作工具,构建在Python编程语言之上。Pandas是一款基于Numpy的专业数据分析工具,可以灵活高效地处理各种数据集。Pandas中有两种数据结构:DataFrame和Series。DataFrame类似于Excel中的Sheet表格,Series相当于表格中的一列。安装这里我们使用pip来安装(如果没有可以自己查看如何安装pip)。安装panda的最简单方法是将其作为Anaconda的一部分进行安装。Anaconda主要用于数据分析和科学计算。还提供了从源代码、PyPI、ActivePython、各种Linux发行版或开发版本进行安装的说明。当然,最基本的Python环境还是少不了的。如果您使用的是Linux或Mac,则无需安装Python。pipinstallpandasPandas中的数据结构我们都知道Excel中有一个sheet表格,sheet中的每个单元格都用坐标来表示,例如:A1,F3等,你想要的数据只需要定位到和响应数据既有坐标也有一定范围。这里需要强调一点。Pandas无论是与Excel还是SQL相比,只是调用和处理数据的方式发生了变化。核心是对源数据进行一系列的处理。DataFrame在Pandas中基本和Excel相同的数据表表示形式,只是Excel中的“列”在Pandas中称为“Series”:SeriesPandas初体验如果要建下面的表,大家都很熟悉了在Excel中,在Pandas中应该如何构造?要在Excel表格中使用Pandas,首先我们需要导入模块(这里使用的ipython可以通过pipinstallipython安装)。导入pandas,我们需要手动将数据存储到表中,所以我们需要创建一个DataFrame。当使用Python列表和字典时,字典键将作为列标题,而每个列表中的值将作为DataFrame的行。df=pd.DataFrame({"设备名称":['服务器','服务器','磁盘阵列','网络设备'],"设备品牌":['华为','浪潮','曙光','H3C'],"Purpose":['高性能计算','高性能计算','存储','接入交换机'],"价格":[80000,50800,150000,8000]})直接创建DataFrame在命令行输入变量名“df”,输出DataFrame中的所有数据:OutputDataFrame注意:乍一看感觉很乱,其实啥也没有!有童鞋说:我想把“设备品牌”放在最前面(在做表的时候,第一列一般会作为表头出现)。能实现吗?当然!您只需要在创建它时指定“索引”。指定索引后,输出的DataFrameDataFrame是一个二维数据结构,可以按列存储不同类型的数据(包括字符、整数、浮点数等)。它类似于Excel表、SQL数据库表或R中的data.frame。我只想要“设备名称”列,如何获取?获取单个系列注意:选择数据框的单列时,结果是系列。我们要选择哪一列,使用方括号[]之间的列标签。当然我们也可以创建一个Series:在上面的设备信息表中创建一个Series,我想获取表中最贵的那个,怎么办呢?这里我们需要使用max()方法。MaximumPandas提供了很多函数,每个函数都有一个方法(很多方法,后面会用到很多)可以应用到DataFrame或者Series上。因为方法是函数,所以不要忘记用括号()哟。以上内容,简单了解一下Pandas,Pandas很强大,后面我们会由浅入深逐步了解Pandas的强大,如果对你有用记得点赞+关注~
