当前位置: 首页 > 后端技术 > Python

Python模拟登录爬取淘宝数据

时间:2023-03-26 15:08:48 Python

淘宝现在需要登录才能爬取和搜索商品。首先在登录页面登录chromeF12开发者模式抓取登录请求,发现有一个post请求。这是登录请求。请参阅下面的来自数据的登录信息。loginId是您自己的登录帐户密码。加密后,我们可以直接将fromdata的内容复制并转换成字典格式,请求登录码,返回一个json字符串来判断redirect是否为True。如果是,则登录成功。之前看到裸睡的猪猪大哥是用asyncUrls申请st码获取st然后登录,应该是最正确的方法,但是在我尝试的过程中有时候没有asyncUrls,所以我直接这一步判断获取cookie也是有效的,所以省略了模拟登录返回的json串。获取到登录cookies后,就可以抓取淘宝的商品,加载cookies了。您可以通过搜索产品名称来获得结果。你点击下一页的搜索码后,图片里会多出一个&s=44,然后是下一页的88。由此可见,一页显示了44个产品。这条规则可以用来做翻页搜索页面的url组成,请求的html页面会发现字典里存的是商品信息,因为=的问题,所以有\003d字符。商品数据使用正则表达式匹配我们想要的数据并json序列化,消除格式错误,然后根据字典key就可以得到想要的值,最后将数据存入mysql数据库在GitHubhttps://github.com/FRANKLV10/Spider-collection中获取商品爬取结果的信息和完整代码