简介:今天,首席执行官指出,与您分享Python PD系列的相关内容多少。如果您可以解决您现在面临的问题,请不要忘记注意此网站。让我们现在开始!
进口熊猫
def比较():
data = pandas.read_csv(r'c:useradmindesktop1.csv',sep ='')
data1 = pandas.dataframe(data = none,index = none,columns = data.columns)
对于范围(data.shape [0]):
对于J中的J(data.shape [1]):
如果data.iloc [i,j] 100:
data1 = data1.append(data.iloc [i],ignore_index = true)
休息
打印(数据1)
比较 ())
我的原始数据是CSV文件,如这样
输出的结果是
您会看到该生产线中不超过100。当您使用它时,请更改文件位置。
定义行= pd.dataaframe(row_values,column_headers)
添加了df.append(row,ignore_index = true)
例子:
行= pd.dataframe([['python','pandas',10],['name',''','lib','rank'])
df.append(row,ignore_index = true)
人工智能的原理和实践全面涵盖了人工智能和数据科学的各种重要系统
数据科学家最常用的数据表工具是熊猫。通过熊猫表,他们可以轻松地显示数据框和分析形式。表格的格式不好,这会影响分析效率。
这样被称呼的磨刀刀将柴火错误地切断了。
显示更多行
显示更多列
更改列宽度
设置浮子柱的准确性
数字格式显示
更改绘图方法
配置Info()的输出
打印当前设置并重置所有选项
1.显示更多行
默认设置,熊猫不超过屏幕的显示范围。如果表有很多行,它将仅切断中间行。,例如设置显示200行数据以一次查看数据:
导入大熊猫作为pd
pd.set_opting('display.max_rows',200)
#或这样定居
#pd.options.display.max_rows = 200
登录后复制
但是,当数据数超过display.max_rows时,然后display.min_rows将确定显示部分的几行是.bause.baustry.min_rows.min_rows.min_rows defaults to 10,通常将数据显示为前5行数据,以及最后一个数据5行数据。
以同样的方式,您还可以显示可以根据自己的习惯显示的行数,例如20
pd.set_opting('display.min_rows',20)
#pd.options.display.min_rows = 20
登录后复制
如果您需要还原默认设置,则可以将其重置为默认情况:
# 重置
pd.Reset_opting('display.max_rows')
登录后复制
2.显示更多列
它可以设置,也可以设置同一列。display.max_columns控制可显示列的数量,默认值为20。
pd.get_opting('display.max_columns')
#pd.options.display.max_columns
20
登录后复制
3.更改列宽度
熊猫对列中显示的字符数量有一些限制,默认值为50个字符。因此,某些有价值的字符过多地显示遗漏。如果您想显示全部,则可以设置display.max_colwidth,例如设置为500。
pd.set_opting('display.max_colwidth',500)
#pd.options.display.max_colwidth = 500
登录后复制
4.设置浮子柱的准确性
对于浮动浮动 - 点数据,pandas默认情况下仅显示6位数字,我们只能通过设置Display。
pd.set_opting('display.precision',2)
#pd.options.display.precision = 2
登录后复制
此设置不会影响基础数据,它仅影响浮动列的显示。
5.数字格式显示
PANDAS选项显示中有一个选项。Float_formatoption用于格式化任何浮点列。此仅适用于浮点列。对于其他数据类型,必须将它们转换为浮动点号。
使用逗号格式化大价值数字
例如,像1200,000这样的大量数字看起来不便,因此我们使用逗号分开。
pd.set_opting('display.float_format','{:,}'。格式)
登录后复制
设置数字准确性
它与上面的display.crecision有点相似。如果我们只关心小数点之后的两个数字,我们可以设置格式:
pd.set_opting('display.float_format','{:,。2f}'。格式)
登录后复制
格式百分比
如果要显示一个百分比列,我们可以这样设置。
pd.set_opting('display.float_format','{:.2f}%'。格式)
登录后复制
6.更改图纸方法
默认情况下,Pandas使用Matplotlib作为绘图后端。从0.25版开始,PANDAS提供了不同的后端选择,例如第三方库,例如Plotly,Bokeh,但前提是您需要先安装它。
设置非常简单,只要安装了三方库,也只需要一行。
导入大熊猫作为pd
导入numpy作为NP
pd.set_opting('plotting.backend','altair')
data = pd.Series(np.random.randn(100).cumsum())
data.plot()
登录后复制
7.配置Info()的输出
在熊猫中,我们经常使用info()快速检查dataframe的数据。当包括大数据的统计统计数据时,慢。
Pandas提供了两个选择:
display.max_info_columns:设置要分析的最大数字,默认值为100。
display.max_info_rows:在计数null计数时设置阈值,默认值为1690785。
登录后复制
例如,在分析150个特征数据集时,我们可以设置display.max_info_columns覆盖所有列。例如,将其设置为200:
pd.set_opting('display.max_info_columns',200)
登录后复制
分析大数据集时,df.info()很慢,因为有必要计算所有null。因此,我们可以简单地设置display.max_info_rows避免计数,例如,仅当行数不超过5时计数null,:
pd.set_opting('display.max_info_rows',5)
登录后复制
8.打印当前设置并重置所有选项
pd.descrip_opting()将打印设置的描述及其当前值。
pd.descrip_opting()
登录后复制
您还可以打印特定的选项,例如行显示。
#特定搜索
pd.descrip_opting('rows')
登录后复制
最后,我们还可以直接重置它们。
pd.Reset_opting('all')
登录后复制
总结
以上是set_opting的常用使用。您可以一次设置它:
pd.set_opting('display.max_rows',xxx)#最大行数
pd.set_opting('display.min_rows',xxx)#最小显示行
pd.set_opting('display.max_columns',xxx)#最大显示列号
pd.set_opting('display.max_colwidth',xxx)#maximum字符数
pd.set_oution('display.precision',2)#p p p
pd.set_opting('display.float_format','{:,}'。格式)
pd.set_opting('display.float_format','{:,。2f}'。格式)
pd.set_opting('display.float_format','{:.2f}%'。格式)
pd.set_opting('plotting.backend','altair')#
pd.set_opting('display.max_info_columns',200)#信息输出最大数字
pd.set_opting('display.max_info_rows',5)#信息关键null
pd.descrip_opting()#shows所有设置和描述
pd.Reset_opting('all')#Reset所有设置选项
登录后复制
在Python中,PANDA是基于Numpy阵列构建的,使数据预处理,清洁和分析工作更快,更简单。PANDAS设计用于处理形式和混合数据,而Numpy更适合处理统一的数值阵列数据。
使用以下格式介绍大熊猫包:
熊猫有两个主要数据结构:串联和数据框架。
系列是一个类似于一个维数阵列的对象。它由一组数据(各种数字数据类型)和一组数据标签(即索引)组成,即索引和值,可以索引的索引选择一个单个或一个值集。
pd.系列(列表,索引= []),第二个参数是串联数据的索引,可以省略。
串联类型索引,切片和操作类似于NDARRAY。相同的操作类似于Python字典类型,包括使用.get()方法保留操作中的单词。
系列和NDARRAY之间的主要区别在于,系列之间的操作将根据索引自动对齐数据。
数据帧是表式数据类型。每个列值类型可能不同。它是最常用的熊猫对象。DataFrame具有行索引和索引。它可以看作是由系列组成的字典(共享相同的索引)。数据框中的数据存储在一个或多个两个维块中(而不是列表,词典或其他维度数据结构)。
pd.dataframe(数据,colorns = [],index = []):列和索引是指定的列和行索引,并按顺序排列。
如果您在创建时指定columbs and Index索引,则按索引顺序排列,如果数据中未找到列,则结果中将缺少值:
数据索引:串联和数据框的索引是索引类型。索引对象未修改。可以通过索引或索引标签获得目标数据,也可以通过索引来自动化序列或数据框的计算和操作。索引类型索引的通用方法:
re -indexing:它可以更改,重新排除系列和数据帧索引,并将创建一个新对象。如果目前尚不存在某个索引值,则会引入缺失值。
df.reindex(索引,列,fill_value,方法,限制,副本):索引/列是新自定义的索引;fill_value用于填充缺失位置的值。限制是最大填充;复制默认为true以生成新对象。当错误时,旧和新的是平等的。
删除指定的索引:默认情况下返回一个新对象。
.drop():删除串联和数据框的指定行或索引。
删除行或列时,用单个引号指定索引,并在删除多行时用列表指定索引。
如果删除索引,则需要添加axis = 1或axis ='列'作为参数。
增加流和作为参数的true,您可以在本地修改对象而无需返回新对象。
在Pandas中,有多种方法可以选择和重新计算数据。对于DataFrame,表5-4总结
适用于串联和数据框的基本统计分析函数:将根据该行计算轴='列或轴= 1。
.descrip():对于每列的多个统计数据,请使用统计指标快速描述数据摘要。
.sum():计算每列的数据
.count():非-NAN值的数量
。意思是 ()/。中位数():计算数据的平均值,算术数量
.var()/。std():计算数据的方差和标准偏差
.corr()/。COV():计算相位关系的数字矩阵和协调的差分矩阵,该矩阵通过参数计算。该系列的CORR方法用于计算重叠,非NA和对齐的值的相关系数两个系列。数据框的CORV和COV方法将以数据框架的形式返回完整的相关系数或协调的微分矩阵。
。根据列名配对的相关系数。
.min()/。max():计算数据的最小值和最大值
.diff():计算第一个阶差,对时间顺序有效
.mode():计算数字,最高频率(少数)的数字
.mean():计算平均值
.Quantile():计算分区(0至1)
.sin():确定矢量化集合的资格可用于过滤串联数据中数据的数据或dataframe列中的数据数据
适用于串联的基本统计分析功能,数据框[BYCLEVER]返回串联类型。
.Nique():返回系列中唯一值的数组。
。value_counts():计算系列中每个值的频率。
.angmin()/。argmax():计算数据的最大值和最小值(自动索引)的索引位置(自动索引)
.idxmin()/。IDXMAX():数据的最大值的索引以及最小值为(自定义索引)的位置
PANDA提供了一些功能,可以将表-Type数据读取为DataFrame对象。下表总结了它们,其中最常用的是read_csv(),read_table(),to_csv(),to_csv()。
在数据分析和建模的过程中,应在数据准备中使用大量时间:加载,清洁,转换和重塑。
在许多数据分析中,缺乏数据通常会发生。对于数值数据,PANDAS使用浮动点值NAN(NP.NAN)表示丢失的数据,并且它也可以由缺失值表示为Na(Python build -none -none -none -none -none)价值)。
替代品
.replace(旧,新):使用新数据替换旧数据。如果您一次一次替换多个值,则旧和新值可以是列表。默认情况下将返回一个新对象,并且可以在Inplacace = true的现场对其进行修改。
删除重复数据
使用功能或字典进行数据转换
df.head():查询数据的前五个元素
df.tail():查询数据末尾的5行
pandas.cut()
PANDAS.QCUT()基于该部门的离散函数。该变量基于等级或样本除离散地为相等的桶。
pandas.date_range()返回时间索引
沿相应轴应用功能df.apply()
series.value_counts()返回不同数据的计数值
df.aggregate()
df.Reset_index()重置索引。当参数drops = true时,将丢弃原始索引,设置一个新的索引,从groupby()使用。
numpy.zeros()
结论:以上是Python中PD PD系列的主要CTO注释的所有内容。我希望这对每个人都会有所帮助。如果您想进一步了解这一点,请记住要收集对该网站的关注。