Python爬虫踩坑：新手如何在一个月内学会爬取大规模数据？

时间：2023-03-26 11:58:36 Python

为什么Python爬虫流行？如果仔细观察，不难发现，了解和学习爬虫的人越来越多。一方面，越来越多的数据可以从互联网上获得。网站的编程语言提供了越来越多的优秀工具，让爬虫简单易用。我们可以利用爬虫获取大量有价值的数据，从而获取感性知识无法获取的信息，比如：知乎：爬取优质答案，为您筛选出各种主题下的最佳内容。淘宝和京东：抓取商品、评论和销售数据，分析各种商品和用户消费场景。安居客、链家：抓取房地产销售和租赁信息，分析房价走势，分析不同区域的房价。拉勾网、智联：抓取各类职位信息，分析各行业人才需求和薪酬水平。雪球网：捕捉雪球高回报用户的行为，分析预测股市。爬虫是Python入门的最佳途径，没有之一。Python的应用方向很多，比如后台开发、web开发、科学计算等，但是爬虫对初学者比较友好，原理简单，几行代码就可以实现基本的爬虫，学习过程比较顺畅。您可以体验到更大的成就感。掌握了基本的爬虫之后，你学习Python数据分析、Web开发甚至机器学习都会得心应手。因为在这个过程中，你非常熟悉Python的基本语法，库的使用，以及如何查找文档。对于小白来说，爬虫可能是一个非常复杂的东西，技术门槛很高。比如有人认为学习爬虫必须要精通Python，然后系统地学习Python的每一个知识点，时间长了发现还是爬不出来数据；前端的坑。。。但是掌握正确的方法，能够在短时间内爬取主流网站的数据，其实是很容易做到的，但是建议大家一开始就有个明确的目标.在目标的驱动下，你的学习会更加准确高效。所有你认为必要的先决知识都可以在完成目标的过程中学习。这里有一个流畅的零基础学习路径，让你快速上手。1.学习Python包，实现基本的爬虫流程2.了解非结构化数据的存储3.学习scrapy，搭建工程爬虫4.学习数据库知识，应对大规模数据存储和提取5.掌握各种技能，处理具有针对特殊网站的防爬措施6.分布式爬虫实现大规模并发采集，提高效率-学习Python包，实现基本的爬虫流程。大多数爬虫遵循“发送请求——获取页面——解析页面——提取并存储内容”的流程，实际上模拟了使用浏览器获取网页信息的过程。Python中有很多爬虫相关的包：urllib、requests、bs4,scrapy,pyspider等，建议从requests+Xpath入手，requests负责连接网站和返回网页，XPath用于解析网页，方便数据提取，如果你用过BeautifulSoup，你会发现Xpath省了很多麻烦，层层查元素代码的工作全部省略了，这样基本套路都差不多，一般的静态网站完全不是问题。豆瓣，尴尬百科，腾讯新闻等基本都能用，当然如果需要爬取异步加载的网站，可以学习浏览器抓包分析真实请求或者学习Selenium实现自动化。Mtime和TripAdvisor也可以轻松解决。-了解非结构化数据的存储。爬回的数据可以以文档的形式存储在本地，也可以存储在数据库中。当一开始数据量不大的时候，可以直接通过Python的语法或者pandas的方法将数据保存为csv等文件。当然，你可能会发现爬回来的数据不干净，可能有缺失、错误等，你还需要对数据进行清洗，可以学习pandas包预处理数据的基本用法，得到更清洁的数据。-学习scrapy，搭建工程爬虫。掌握了前面的技术之后，通用级别的数据和代码基本没有问题，但是在非常复杂的情况下，你可能还是无法如愿以偿。这时候一个强大的scrapy框架就非常有用了。Scrapy是一个非常强大的爬虫框架。它不仅可以轻松构造请求，还具有强大的选择器，可以轻松解析响应。然而，它最让人惊喜的是它的超高性能，可以让你对爬虫进行工程化、模块化。学了scrapy之后，可以自己搭建一些爬虫框架，基本具备了爬虫工程师的思维。-学习数据库基础知识，应对大规模数据存储。当爬回的数据量较小时，可以以文档的形式存储。一旦数据量很大，这就不行了。因此，掌握一个数据库是很有必要的。学习目前主流的MongoDB就可以了。MongoDB可以方便你存储一些非结构化的数据，比如各种评论的文字、图片的链接等等。您还可以使用PyMongo更轻松地在Python中操作MongoDB。因为这里要用到的数据库知识其实很简单，主要就是如何存储数据，如何提取数据，需要的时候学就可以了。-掌握各种技巧，应对特殊网站的反??爬措施当然，你在爬取过程中也会遇到一些绝望，比如被网站屏蔽，比如各种奇怪的验证码，userAgent访问限制，各种动态加载等。遇到这些反爬虫手段，当然需要一些高级技巧来应对，比如访问频率控制、使用代理IP池、抓包、验证码OCR处理等。往往网站会更喜欢前者介于高效开发和反爬虫之间，这也为爬虫提供了空间。掌握这些反爬虫技巧对大多数网站来说都不是难事。-分布式爬虫，实现基础数据的大规模并发采集爬取不再是问题。你的瓶颈将集中在爬取海量数据的效率上。这个时候，相信你自然会接触到一个非常厉害的名字：分布式爬虫。分布式听起来很吓人，其实是利用了多线程的原理，让多个爬虫同时工作。你需要掌握Scrapy+MongoDB+Redis这三个工具。前面我们说过，Scrapy是用来做基础页面爬取的，MongoDB是用来存储爬取的数据的，Redis是用来存储待爬网页的队列，也就是任务队列。所以有些事情看起来很可怕，但当你把它们分解时，它们也不过如此。当你可以编写分布式爬虫时，那么你可以尝试构建一些基本的爬虫架构来实现更自动化的数据获取。你看，经过这条学习之路，你已经可以成为一名老司机了，非常顺利。所以一开始尽量不要系统的去啃一些东西，找一个实际的项目（可以从豆瓣、小猪这样简单的东西入手），直接入手即可。因为爬虫技术不需要你系统地精通一门语言，也不需要高级的数据库技术。高效的姿势就是从实际项目中去学习这些零散的知识点，并且可以保证每次学的都是最需要的部分。当然，唯一麻烦的是，在具体问题中，如何找到学习资源中具体需要的部分，如何筛选和识别，是很多初学者面临的一大难题。不过不用担心，我们准备了非常系统的爬虫课程。除了为您提供清晰的学习路径，我们还精选了最实用的学习资源和庞大的主流爬虫案例库。经过短暂的学习，你将能够很好地掌握爬行的技巧，获取你想要的数据。很多同学经过短暂的学习，已经从0到1有了进步，可以自己写爬虫爬取大规模数据了。以下是几位同学分享的作业合集：爬取LOL英雄皮肤的高清图片和爬取目前流行的游戏壁纸，MOBA游戏《英雄联盟》，手游《王者荣耀》，《阴阳师》，FPS游戏《绝地求生》，其中《英雄联盟》的壁纸是最难爬取的，下面是爬取《英雄联盟》所有英雄壁纸的过程。我们先来看看最终的爬取效果。各英雄壁纸已爬取：139个英雄壁纸文件夹《安妮，黑暗女郎》12张壁纸：小红帽安妮高清大图1.爬虫流程图至此我对自己想要的对象已经有了一定的了解去爬取，具体的爬取方法自己有想法。我可以设计如下爬虫流程图：2.设计代码的整体框架根据爬虫流程图，我设计了如下代码框架：这个代码框架非常容易理解，主要是run()函数。run()函数完成了这样一组任务：创建一个LOL文件夹——获取键盘输入的信息——如果信息为“全部”，则抓取所有英雄壁纸，否则抓取个别英雄壁纸。3、爬取所有英雄信息首先，我们需要解析champion.js文件，得到英雄英文名和id的一一对应关系。对于官网所有的英雄信息页面，由于加载了JavaScript，普通的方法不容易爬取。我使用了Selenium+PhantomJS的方式来动态加载英雄信息。解析出的英雄信息4.爬取英雄壁纸获取到各个英雄的信息后，我们就可以愉快的开始爬取他们的壁纸了~定义get_image(heroid,heroframe)函数，爬取单个英雄的所有壁纸。运行代码时注意保持网络畅通，网速过慢可能导致爬取失败。以3M有线网络速度爬取全部139位英雄的全部高清壁纸（约1000张）大约需要3-4分钟。《王者荣耀》、《阴阳师》、《绝地求生》等游戏壁纸同样可以抓取。根据我的实践，《英雄联盟》是最难爬的。写代码爬其他游戏简直易如反掌。滑动卡片内容可抓取美团餐饮商户信息。这次对【常州菜】的所有美食推荐进行了一次爬虫实践。主要要爬取的信息有：餐厅名称、餐厅评分、餐厅评论数、餐厅数量、地址、人均消费价格……最后爬取的数据保存为CSV如下:美团采用反爬虫机制，需要模拟浏览器进行爬虫。多次尝试后，发现只验证了Cookie和User-Agent。爬到第一组数据爬到第一组数据后，接下来就是翻页了。翻页很简单，所以抓取了商家电话、营业时间等信息。打包写了一个函数，成功爬到了相应的信息，但是好景不长，爬到一半就403了。因为被屏蔽了，所以我们只能通过无痕方式访问？。看了一下，决定使用多个cookie，随机调用，避免被封。最后，使用了17个cookie。经测试，可以高速爬取，不会被拦截。本次爬取到此结束，但是爬回来的数据可以分析很多，比如不同地点的外卖情况，商户分布等等。爬取当当网各个分类下的所有五星级图书。@ZhuNewNew本次作业选择的网站是当当网。当当网有大量的图书数据，尤其是五星级图书，里面包含了各个领域最热门的图书信息，有一定的搜索价值，对分析好书的销量，分析好书的销量有一定的价值.最终爬取的数据如下，一共10000+行数据：我要爬取的数据是五星级图书信息（书名，评论数，作者，出版商，出版日期，5-星级、价格、电子书价格等）。为了掌握每个类别下的图书信息，首先检查每个类别点击时链接是否发生变化。经过测试，在不同的分类下，链接不一样，原来不是JS加载。打印后数据正常返回。到这里我们基本可以知道当当网的反爬真的不严了。我连header信息都没有设置，就可以爬到想要的数据了。不过最终在完整的代码中，还是添加了headers，只是为了保险起见。接下来就是分别爬取各个分类下的图书信息。以“小说”为例，翻页其实很简单。这里有几个对比：翻页也很简单，但是有个小坑。链接的链接在代码中。如果需要翻页，则需要构建链接。分析返回的链接，发现只有中间四个数字不一样。所以我把这些数据拿出来，在连接的时候传进去，这样就可以构造出一个通用的链路。构造好的翻页链接下一步就是抓取不同页面的信息。没有异步加载，直接用xpath定位就OK了。当然，中间还有一些小地方需要注意，每本书包含的信息是不一样的，所以用xpath获取的时候，有可能获取不到，还会出错。所以使用try...except语句。最终共有10000多行数据，对应10000多本不同领域的高分图书。当然，也会有一些重复计算，比如小说和文学，很多书同时属于这两个类别。当当网本身没有任何反爬机制，所以爬取比较顺畅。唯一的小毛病是返回的链接不断翻页，部分书籍信息缺失。爬拉勾网职位信息@南生本来想做“数据分析师”，所以想知道这个职位的薪水、要求，以及我所在城市的主要分布点，而拉勾网是权威的互联网行业招聘平台，所以在拉勾网抓取“数据分析师”职位信息就是一个很好的代表。最终爬取到的数据在MongoDB中的存储方式如下：在学习翻页的时候，我在运行时加了引号，报了JSONDecodeError错误。被引号折腾了好久，希望大家分享的时候引以为戒。踩了两个坑，下课就开始写作业了。没想到新手这么难。一开始我的想法是找一个连接，但是收集到的数据里面没有连接，所以我点击进入详情页，看看有没有规律？然后我尝试多次点击每个详情页，发现页面上的数字与收集到的某个数据相匹配。例如：如果在某个详情页发现突破，就会开始行动：DOCrequesturlrequest方法已经尝试了很多次（还是花了一些时间）：请求url和url相同，那么就算突破了找到了，数据是DOC格式，请求方式：get，然后又回到了熟悉的战场。思路：遍历positionId，使用格式，如：详情页xpath方法获取数据部分数据：反复尝试，优化代码，这主要是学习和创作的过程（爬取详情页是我的杰作）。-高效的学习路径-一开始就讲理论，讲语法，讲编程语言，这是非常不合理的。我们将直接从具体案例出发，通过实际操作学习具体的知识点。我们为您规划了系统的学习路径，让您不再面对零散的知识点。具体的，比如我们直接使用lxml+Xpath来分析网页，而不是BeautifulSoup，减少你不必要的检查网页元素的操作，这可以通过各种工具来完成，我们将给你最简单的方法。看到这些好像是一个细节，但可能是很多人都会踩的坑。大纲第一章：Python爬虫简介1.什么是爬虫网站构成和翻页机制？网页源代码结构和网页请求过程。爬虫的应用和基本原理。:爬百度首页爬虫三步：获取数据、分析数据、保存数据3、使用Requests爬取豆瓣短评论Requests爬取豆瓣短评论的安装及基本使用Requests必知爬虫协议4、使用XPath解析豆瓣短评论评论分析神器XPath安装及XPath使用介绍：浏览器复制手写练习：使用XPath分析豆瓣短评信息五、使用pandas保存豆瓣短评数据Pandas基本使用介绍pandas文件保存、数据处理实战：使用pandas保存豆瓣短评数据六、浏览器抓取和headers设置（案例一：爬知乎）突破反爬虫限制。实战：爬取了解用户数据7.MongoDB做数据存储（案例二：爬取拉钩）MongoDB和RoboMongo的安装与使用设置等待时间和修改信息头实战：爬取拉钩作业数据并在MongoDB中存储数据补充实战：爬取微博移动端数据8.Selenium爬取动态网页（案例三：爬淘宝）动态网页爬取神器Selenium搭建与使用分析淘宝商品页面动态信息实战：用Selenium爬取淘宝网页信息第2章：Scrapy框架之Python爬虫一、爬虫工程与Scrapy框架初看html、css、js、数据库、http协议、前后端联动爬虫进阶工作流程Scrapy组件：引擎、调度器、下载中间件、项目流水线常用爬虫工具：各种数据库，抓包工具等二、Scrapy的安装和基本使用Scrapy的基本方法和属性Scrapy安装启动第一个Scrapy项目三、Scrapy选择器的使用常用选择器：css、xpath、Re、pyquerycss的使用方法、xpath的使用方法、re的使用方法、pyquery的使用方法4、ItemPipeline的介绍及作用,Scrapy的项目管道,ItemPipeline的主要功能,实例:写入数据到文件,实例:过滤管道数据5.系统默认提供的Scrapy中间件下载中间件和蜘蛛中间件下载中间件三大功能6.Scrapy请求RequestObjectwithResponse基本参数和高级参数详解ResponseObject参数和方法综合利用详解ResponseObjectMethod网络面板结构过滤请求关键字方法复制、保存、清除网络信息查看资源发起者和依赖项Project1.大规模并发采集——编写分布式爬虫分布式爬虫介绍Scrapy分布式爬虫原理Scrapy-Redis使用Scrapy分布式部署详解2.实训项目（一）——同城58二手房监控3．培训项目（二）——模拟登录去哪儿网4、培训项目（三）——京东商品数据抓取——每节课都有学习资料——你可能收集了价值G的学习资源，但是保存了却从来没有打开过？我们已经帮您找到了最有用的部分，并以最简单的形式进行了描述，以帮助您学习，您可以花更多的时间在练习和练习上。考虑到各种问题，我们为每一节准备了课后教材，包括四个部分：1.课程重点笔记，对重点知识进行详细讲解，帮助大家快速理解和复习；2.默认你是新手，补充所有基础知识，甚至包括软件的安装和基本操作；3、课内外案例提供参考代码学习，让你轻松应对主流网站爬虫；4.大量的扩展知识点和更多的解题思路，让你有能力解决练习题中遇到的一些特殊问题。某板块部分课后资料——案例众多，涵盖主流网站——课程提供最常见的网站爬虫案例：豆瓣、百度、知乎、淘宝、京东、微博……每个案例都包含在课程中video详细分析，老师会一步步引导你。此外，我们还会添加小猪、链家、58同城、网易云音乐、微信好友等案例，提供思路和代码。经过多次模仿和练习，你可以轻松编写自己的爬虫代码，轻松爬取这些主流网站的数据。-技能开发：反爬虫与数据存储与处理-了解基本的爬虫是不够的，所以我们将通过实际案例向您展示一些网站的反爬虫措施，并使用具体的技术来绕过限制。比如异步加载、IP限制、headers限制、验证码等等，这些比较常见的反爬虫手段你都可以避开。工程化爬虫和分布式爬虫技术，让您获取海量数据成为可能。除了爬虫的内容，你还将了解数据库（Mongodb）和pandas的基础知识，帮你存储爬取的数据，同时对数据进行管理和清洗，为后续获取更干净的数据分析处理。使用Scrapy爬取租房信息，爬取pullhook招聘数据并使用MongoDB存储。最后请注意，无论你是从事Python工作还是业余爱好，请记住：项目开发经验永远是核心。如果你还没有最新的2020python入门进阶实战视频教程，为了解决初学者的学习难点，特设立Python学习按钮QUN：⑧⑤⑤-④Zero⑧-⑧⑨③从零基础到项目实战教程，开发工具和Python各个领域的电子书。与大家分享公司目前对python人才的需求和学好python的高效技能，持续更新最新教程！本文文字和图片来源于网络加上自己的想法。它们仅用于学习和交流。它们没有任何商业用途。版权归原作者所有。如有任何问题，请及时联系我们解决。

上一篇：如果因此而辞职，下一份工作就不好做了

下一篇：新手Python避坑——vscode千万别装这个PythonforVSCode插件

Python爬虫踩坑：新手如何在一个月内学会爬取大规模数据？相关文章