一直觉得爬虫是一个很有意思的方向。互联网时代,谁掌握了数据,谁就掌握了未来,而爬虫是获取数据的手段之一。本系列文章是我在学习爬虫过程中阅读《Python3网络爬虫开发实战》一书及其他网络资料的过程中的笔记和心得。我希望与您分享。第一章Python3.8开发环境配置与安装我的开发环境是Ubuntu16.04,安装最新版本Python的方法如下:sudoapt-getupdatesudoaptinstallbuild-essentialzlib1g-devlibncurses5-devlibgdbm-devlibnss3-devlibssl-devlibreadline-devlibffi-devwgetwgethttps://www.python.org/ftp/python/3.8.0/Python-3.8.0.tgztar-xfPython-3.8.0.tgzcdPython-3.8.0。/configure--enable-optimizationsmake-j8sudomakealtinstallpython3.8--version安装第三方库和工具练习爬虫,我们需要还原爬虫的步骤,主要分为以下几个步骤:分析不同的网站,findcrawlers获取目标URL,解析URL参数,发起请求,抓取网页内容,处理数据存储,所以需要一些工具和库来模拟学习过程中的步骤。我根据Python3网络爬虫开发实践推荐的第三方库进行了安装和深入研究。的。按照以上步骤安装的工具和第三方库如下:请求库a.请求:pip3安装请求b。Selenium,一个自动化测试工具,可以驱动浏览器执行特定的动作:pip3installseleniumc。浏览器和浏览器驱动程序(用于对接Selenium),我使用Firefox和GeckoDriver从https://github.com/mozilla/geckodriver/releasesmvgeckodriver/usr/binvi~/.profile#exportPATH="$PATH:/usr/local下载/geckodriver"source~/.profilegeckodriver#启动d.PhantomJSe.aiohttp:pip3安装aiohttp解析库a.lxml,支持HTML和XML解析:pip3安装lxmlb.BeautifulSoup,支持HTML和XML解析:pip3installbeautifulsoup4c.pyquery,jQuery语法分析HTML文档和CSS选择器:pip3installpyqueryd.tesserocr,验证码识别:sudoapt-getintall-ytesserocr-ocrlibtesserocr-devlibleptonica-devdatabasea.MySQLsudoapt-getinstall-ymysql-servermysql-clientsudoservicemysqlstartssudoservicemysqlstopsudoservicemysqlrestartb.Redissudoapt-getinstall-yredis-serverrepository(Python用来与数据库交互的repository)a.PyMySQL:pip3installpymysqlb.PyMongo:pip3installpymongoc.redis-py:pip3安装redisd.RedisDump:pip3安装redis-dumpWeb库a.Flask:pip3installflaskb.Tornado:pip3installtornado虫框架a.pyspider:pip3installpyspiderb.Scrapy:pip3installScrapyc.Scrapy-Splash:pip3installscrapy-splashd.Scrapy-Redis:pip3installscrapy-redis部a.Dockerhttps://docs.docker.com/insta...b.Scrapyd:pip3安装scrapydc.Scrapyd-Client:pip3安装scrapyd-clientd.ScrapydAPI:pip3安装python-scrapyd-apie.Scrapyrt:pip3安装scrapyrtf.Gerapy:pip3安装gerapy
