当前位置: 首页 > 后端技术 > Python

Python爬虫教程(五)

时间:2023-03-26 01:34:36 Python

1.综合训练-爬取91个剧视频1.找到您要爬取的视频位置。使用开发者工具查看m3u8文件的内容。2.获取视频页面源码。3.使用re解析从页面源码中提取m3u8链接。4.下载m3u8文件5.解析m3u8文件。Selenium概念介绍Selenium是一个用于Web应用程序测试的工具。Selenium测试直接在浏览器中运行,就像真实用户一样。我们要使用Selenium进行一些网页操作,还需要下载浏览器驱动。Chrome驱动下载地址http://npm.taobao.org/mirrors....选择与当前使用的Chrome版本相同的版本。如果没有相同的版本号,则选择最接近的先前版本。将下载的驱动解压,保存在python解释器所在的文件夹中。测试驱动是否可用,使用selenium启动浏览器。3、selenium运行和爬取hook信息。1、打开乐勾网。2.找到一个元素并单击。这里我们以全国为例,复制它的xpath地址。3.找到输入框,输入python,回车搜索,需要导入Keys。4.找到所需数据的位置并提取它。(1)找到所有存储数据的

  • 。(2)找到每个想要的元素的位置,得到它的xpath。(3)数据提取。5.在窗口之间切换并在新窗口中获取内容。关闭子页面并返回主页面透视图。6、处理下拉菜单,实际爬取EntityData的年度票房信息。7、使用超级鹰处理超级鹰登录验证码(1)完成注册登录,在用户中心查看软件ID,新注册账号需要自行生成软件ID(2)下载示例代码,在开发文档中选择对应的语言,我这里选择python。(3)将代码和示例图片复制到构建的工程中进行测试。(4)使用超级鹰处理超级鹰登录验证码。