Python模拟登录爬取淘宝数据

时间：2023-03-26 15:08:48 Python

淘宝现在需要登录才能爬取和搜索商品。首先在登录页面登录chromeF12开发者模式抓取登录请求，发现有一个post请求。这是登录请求。请参阅下面的来自数据的登录信息。loginId是您自己的登录帐户密码。加密后，我们可以直接将fromdata的内容复制并转换成字典格式，请求登录码，返回一个json字符串来判断redirect是否为True。如果是，则登录成功。之前看到裸睡的猪猪大哥是用asyncUrls申请st码获取st然后登录，应该是最正确的方法，但是在我尝试的过程中有时候没有asyncUrls，所以我直接这一步判断获取cookie也是有效的，所以省略了模拟登录返回的json串。获取到登录cookies后，就可以抓取淘宝的商品，加载cookies了。您可以通过搜索产品名称来获得结果。你点击下一页的搜索码后，图片里会多出一个&s=44，然后是下一页的88。由此可见，一页显示了44个产品。这条规则可以用来做翻页搜索页面的url组成，请求的html页面会发现字典里存的是商品信息，因为=的问题，所以有\003d字符。商品数据使用正则表达式匹配我们想要的数据并json序列化，消除格式错误，然后根据字典key就可以得到想要的值，最后将数据存入mysql数据库在GitHubhttps://github.com/FRANKLV10/Spider-collection中获取商品爬取结果的信息和完整代码

上一篇：【算法01】二分查找

下一篇：BestPracticesforMakingPythonDockerImages

Python模拟登录爬取淘宝数据相关文章