当前位置: 首页 > 后端技术 > Python

零基础学习Python文本处理

时间:2023-03-26 00:57:53 Python

带领小伙伴们使用Python进行文本处理,先看要处理的文本,文件名为“data.txt”,文件中内容为三行中文和英文文本,还有两个空行,我们要实现的功能是从这三行文本中提取出中文和对应的英文,这个功能加上爬虫,就可以制作自己的专属英文词典,是不是很cool,而且很实用,还等什么,赶快上传代码吧!本文照顾零基础的童鞋,所以从最简单的积木开始,先运行代码看看效果,好像只是把文中的内容打印出来,你没看错,就是这么简单,我们追求的效果就是一切开头简单,中间简单,结尾简单:)虽然只有两行代码,但是对于零基础的童鞋来说,恐怕只能理解意思ofprint:)所以让我逐字解释,首先是open("data.txt"),它告诉python打开名为"data.txt"的文件;打开后要做什么?通过for逐行读取文件内容。有的童鞋可能是第一次接触这种语法,感觉不懂。键入一次,一周之内,您会感到非常友好。如果你不相信我,你可以试试。每天3分钟,一周总共21分钟,真的很有效。小编推荐一位学习python的学习老师魏鑫(发音相同)。第一组是:mengy,后一组是:7762。只要把以上两组字母按顺序组合起来,她就会安排学习,无论你是大牛还是新手,无论你是想转行还是想入行,都可以来了解,一起进步,一起学习!裙子里有开发工具,很多干货和技术资料分享!然后是打印。line表示每次读取的行内容,包括空行。print(line)是将读取到的内容打印出来。掌握了前面的3个知识点,童鞋们已经上手了!然后是V2,先看看效果吧。有童鞋忍不住直呼:乱码!亲,别慌,这些方括号不是乱码,是语法。在Python中,一对方括号[]表示一个列表,没错,这个列表是出售的,哦,不是出售的,而是使用的:)一个列表可以是空的,比如上图中有两个空的列表也可以包含多个元素,比如上图中的其他3个列表,每个列表包含3个元素,本例中每个元素都是一个字符串,一对单引号用来表示字符串的开头和最后,有些童鞋会问是否允许使用双引号,这个可以:)同一个列表中,元素之间用逗号隔开。我们已经了解了输出结果。下一步是查看源代码。在V2版本中,增加了一个新的行,new_line,是对行进行两次操作后得到的(也可以理解为对行两次处理)。也就是说,包含我们之前看到的元素的列表。那么对线做了什么?为了说明对行的处理,我们需要定义一组变量,分别是一个空字符串(变量名为emptyString)、一个字符(strA)、一个字符后跟一个空格(strAWithTrailingWhitespace)、rstrip()运算后得到的字符串(strArstriped)。是不是有点像绕口令,请不要跳过,如果暂时跳过,请回来再仔细看一遍,其实y就是体验一下rstrip()的功能:)我们来看看atit一个接一个,第一个是空字符串所谓的空字符串,就是这个字符串不包含任何字符,所以长度(也就是len(emptyString))为0。当然,空字符串印刷品看不到任何东西。为了让大家看到效果,在打印的时候加了一个“.”然后是一个包含一个字符的字符串(变量名为strA),所以长度(即len(strA))为1,然后打印这个字符串加上一个“.”有了前面的铺垫,敲黑板知识就来了!下面我们要定义的变量是一个字符后缀(Trailing)和一个空格(Whitespace)。变量名充分体现了这一点:),所以长度为2。请注意,打印时,“a”和“.”之间有明显的空隙。一个空格,可以用鼠标选中。本节最后一个变量名为strArstriped,即strAWithTrailingWhitespace变量去掉后缀空格得到的新变量,所以长度变回了1。打印时请注意,“a”和“”之间的空格”被rstrip删除。为了方便童鞋理解,这里用了两个list分别存放没有rstrip的原文和处理后的文本。对比效果如下图再split()方法,函数split,将一行文本分成若干小段。默认的分隔符(delimiter)是空格,空字符串会从结果中删除。效果如下最后定稿,listE存放英文,listC存放对应的中文真实介绍,然后就是不断的练习,不断的巩固,为以后的工作打下坚实的基础。希望对大家有所帮助。学习Python行业有什么问题,可以随时私信我,希望大家学业有成,早日拿到高薪。小可爱加我微信:mengy7762领取以下福利1.Python安装包2.程序员电子书:5到10本3.python项目源码三份:(python破解wifi密码,VIP视频权限破解,爬虫自动化)4.基础学习PPT教案5.免费课程(开课时间15:00、19:30、20:30)自由选择6.程序员职业规划分享7.如何在接单赚钱空余时间