当前位置: 首页 > 后端技术 > Python

Python数据分析:强大的字符串处理工具,正则表达式!

时间:2023-03-26 15:59:52 Python

正则表达式是处理字符串的强大工具。作为一个概念,正则表达式并不是Python独有的。正则表达式是一种特殊的字符序列,可帮助开发人员轻松检查字符串是否与特定模式匹配。Python从1.5版本开始添加了re模块,它提供了Perl风格的正则表达式模式。re模块为Python语言带来了完整的正则表达式功能。下面将介绍一些在Python中搜索和查找字符串的函数和方法。常用函数通用字符(1)“.”字符匹配任何单个字符。例如a.b可以匹配abc、aic、a&c等,但不包含换行符。(2)“\”字符是转义符,可以将字符改回原来的意思。听起来不太容易理解。例如,“。”character匹配任何单个字符,但有时你不需要这个函数,只是想让它代表一个点。然后你可以使用“。”将其匹配为“。”向上。(3)[…]为字符集,相当于在方括号中选择一个。例如a[bcd],匹配结果为ab、ac、ad。预定义字符集预定义字符集含义(1)\d匹配数字字符。相当于[0-9]。(2)\D匹配非数字字符。相当于[^0-9]。(3)\s匹配任何空白字符,包括空格、制表符、换页符等。等同于[\f\n\r\t\v]。(4)\S匹配任何非空白字符。等同于[^\f\n\r\t\v]。(5)\w匹配包括下划线在内的任何单词字符。相当于[A-Za-z0-9_]。(6)\W匹配任何非单词字符。相当于[^A-Za-z0-9_]。量词(1)“*”量词匹配前一个字符0次或无限次。例如,ab*c匹配ac、abc、abbc、abbbc等。(2)“+”与“*”非常相似,但至少匹配前一个字符一次。例如,ab+c匹配abc、abbc、abbbc等。(3)“?”量词与前一个字符匹配0次或1次。例如,ab?c匹配ac和abc。(4)“{m}”量词匹配前一个字符m次。例如,ab{3}c匹配abbbc。(5)"{m,n}"量词匹配前一个字符m到n次。例如,ab{1,3}c匹配abc、abbc和abbbc。下面的示例是常用的泰坦尼克号数据。年龄填充缺失值时,常用的方法是填充众数或者均值,或者使用算法来填充,但是用众数或者中位数填充会有很大的误差。使用算法填充对技术要求比较高。可以观察到,“姓名”一栏包含了称谓,比如:先生,小姐。按照常理,西方这些称谓都是和年龄相关的,所以可以根据姓名这一列来计算年龄。对于缺失值填充,这时候正则表达式就派上用场了。如何?你了解Python中的正则表达式吗?其实这些知识只是正则表达式的一小部分,还有很多知识需要挖掘~