如何在Pandas中实现类似于SQL查询的数据操作？

时间：2023-03-14 12:08:55 科技观察

介绍SQL的神奇之处在于它易于学习，而它之所以如此易于学习，很大程度上是因为代码语法非常直观。但是，与SQL相比，Pandas不够直观，尤其是当我们从SQL开始，然后转向Pandas时。那么，我们是不是应该思考在SQL中进行的数据操作，在Pandas中是否可以实现呢？基于以上目标，本文可以作为在Pandas中编写SQL查询的指南。TableofContentsSelectRowCombinationTableFilterTableSortingValueAggregateFunction1.SelectRowSELECT*FROM如果要全选表，调用表名即可：#SQLSELECT*FROMtable_df#Pandastable_dfSELECTa,bFROM如果要要从表中选择特定的列，请在双括号中列出您想要的列：#SQLSELECTcolumn_a,column_bFROMtable_df#Pandastable_df[['column_a','column_b']]SELECTDISTINCT只需使用.drop\uduplicates()来获取不同的值：#SQLSELECTDISTINCTcolumn_aFROMtable_df#Pandastable_df['column_a'].drop_duplicates()SELECTaasb如果要重命名列，请使用.rename()：#SQLSELECTcolumn_aasApple,column_basBananaFROMtable_df#Pandastable_df[['column_a','column_b']].rename(columns={'column_a':'Apple','column_b':'Banana'})SELECTCASEWHEN对于“SELECTCASEWHEN”的等效项，可以使用np.select()，其中首先选择和值每个选项都指定。#SQLSELECTCASEWHENcolumn_a>30THEN“大”WHENcolumn_a<=30THEN“小”ENDASSizeFROMtable_df#Pandasconditions=[table_df['column_a']>30,table_df['column_b']<=30]choices=['Large','Small']table_df['Size']=np.select(conditions,choices)2.合并表INNER/LEFT/RIGHTJOIN只需使用.merge()合并表即可，可以使用"how"参数指定为LEFT，RIGHT、INNER或OUTER连接。#SQLSELECT*FROMtable_1t1LEFTJOINtable_2t1ont1.lkey=t2.rkey#Pandastable_1.merge(table_2,left_on='lkey',right_on='rkey',how='left')UNIONALL只需使用pd.concat():#SQLSELECT*FROMtable_1UNIONALLSELECT*FROMtable_2#Pandasfinal_table=pd.concat([table_1,table_2])3。FiltertableSELECTWHERE过滤数据框时，在SQL中使用WHERE子句时，只需在方括号中定义条件即可：#SQLSELECT*FROMtable_dfWHEREcolumn_a=1#Pandastable_df[table_df['column_a']==1]SELECTcolumn_aWHEREcolumn_bIf如果您想从表中选择一列并过滤其他列，请遵循以下格式：#SQLSELECTcolumn_aFROMtable_dfWHEREcolumn_b=1#Pandastable_df[table_df['column_b']==1]['column_a']SELECTWHEREAND如果您要过滤通过多个条件，只需将每个条件包裹在括号中并用“&”分隔每个条件。#SQLSELECT*FROMtable_dfWHEREcolumn_a=1ANDcolumn_b=2#Pandastable_df[(table_df['column_a']==1)&(table_df['column_b']==2)]SELECTWHERELIKESQL中的等价物是.str.contains()。如果要应用不区分大小写，只需将case=False添加到参数中即可。#SQLSELECT*FROMtable_dfWHEREcolumn_aLIKE'%ball%'#Pandastable_df[table_df['column_a'].str.contains('ball')]SELECTWHEREcolumnIN()SQL中IN()的等效项是.isin()。#SQLSELECT*FROMtable_dfWHEREcolumn_aIN('Canada','USA')#Pandastable_df[table_df['column_a'].isin(['Canada','USA'])]4.SortvalueORDERBY一列在SQL中，ORDERBY相当于.sort_values()。使用'ascending'参数指定是按升序还是降序对值进行排序，在SQL中默认为升序。#SQLSELECT*FROMtable_dfORDERBYcolumn_aDESC#Pandastable_df.sort_values('column_a',ascending=False)ORDERBY多列如果要按多列排序，可以在括号中列出列，并在括号中的“升序”参数中指定排序方向.确保遵循所列列的适当顺序。#SQLSELECT*FROMtable_dfORDERBYcolumn_aDESC,column_bASC#Pandastable_df.sort_values(['column_a','column_b'],ascending=[False,True])5.聚合函数COUNTDISTINCT聚合函数有一个通用的模式。要复制COUNTDISTINCT，只需使用.groupby()和.nunique()。#SQLSELECTcolumn_a,COUNTDISTINCT(ID)FROMtable_dfGROUPBYcolumn_a#Pandastable_df.groupby('column_a')['ID'].nunique()SUM#SQLSELECTcolumn_a,SUM(收入)FROMtable_dfGROUPBYcolumn_a#Pandastable_df].groupby([',收入'.sum()AVG#SQLSELECTcolumn_a,AVG(revenue)FROMtable_dfGROUPBYcolumn_a#Pandastable_df.groupby('column_a')['revenue'].mean()总结Pandas无疑是一个强大的Python数据分析库，但它也不是万能的，不够具体方便对于一些操作，以上操作可以帮助大家更好的实现Pandas中SQL查询的一些实用操作，一起来玩吧~

上一篇：Linux系统中超级管理员root用户的密码忘记了怎么办？

下一篇：勒索软件攻击正在加剧，拜登会“封杀”比特币吗？

如何在Pandas中实现类似于SQL查询的数据操作？相关文章