Python3网络爬虫开发实战读书笔记---第一章开发环境配置

时间：2023-03-26 15:05:01 Python

一直觉得爬虫是一个很有意思的方向。互联网时代，谁掌握了数据，谁就掌握了未来，而爬虫是获取数据的手段之一。本系列文章是我在学习爬虫过程中阅读《Python3网络爬虫开发实战》一书及其他网络资料的过程中的笔记和心得。我希望与您分享。第一章Python3.8开发环境配置与安装我的开发环境是Ubuntu16.04，安装最新版本Python的方法如下：sudoapt-getupdatesudoaptinstallbuild-essentialzlib1g-devlibncurses5-devlibgdbm-devlibnss3-devlibssl-devlibreadline-devlibffi-devwgetwgethttps://www.python.org/ftp/python/3.8.0/Python-3.8.0.tgztar-xfPython-3.8.0.tgzcdPython-3.8.0。/configure--enable-optimizationsmake-j8sudomakealtinstallpython3.8--version安装第三方库和工具练习爬虫，我们需要还原爬虫的步骤，主要分为以下几个步骤：分析不同的网站，findcrawlers获取目标URL，解析URL参数，发起请求，抓取网页内容，处理数据存储，所以需要一些工具和库来模拟学习过程中的步骤。我根据Python3网络爬虫开发实践推荐的第三方库进行了安装和深入研究。的。按照以上步骤安装的工具和第三方库如下：请求库a．请求：pip3安装请求b。Selenium，一个自动化测试工具，可以驱动浏览器执行特定的动作：pip3installseleniumc。浏览器和浏览器驱动程序（用于对接Selenium），我使用Firefox和GeckoDriver从https://github.com/mozilla/geckodriver/releasesmvgeckodriver/usr/binvi~/.profile#exportPATH="$PATH:/usr/local下载/geckodriver"source~/.profilegeckodriver#启动d.PhantomJSe.aiohttp：pip3安装aiohttp解析库a.lxml，支持HTML和XML解析：pip3安装lxmlb.BeautifulSoup，支持HTML和XML解析：pip3installbeautifulsoup4c.pyquery，jQuery语法分析HTML文档和CSS选择器：pip3installpyqueryd.tesserocr，验证码识别：sudoapt-getintall-ytesserocr-ocrlibtesserocr-devlibleptonica-devdatabasea.MySQLsudoapt-getinstall-ymysql-servermysql-clientsudoservicemysqlstartssudoservicemysqlstopsudoservicemysqlrestartb.Redissudoapt-getinstall-yredis-serverrepository(Python用来与数据库交互的repository)a.PyMySQL:pip3installpymysqlb.PyMongo:pip3installpymongoc.redis-py:pip3安装redisd.RedisDump：pip3安装redis-dumpWeb库a.Flask:pip3installflaskb.Tornado:pip3installtornado虫框架a.pyspider:pip3installpyspiderb.Scrapy:pip3installScrapyc.Scrapy-Splash:pip3installscrapy-splashd.Scrapy-Redis:pip3installscrapy-redis部a.Dockerhttps://docs.docker.com/insta...b.Scrapyd：pip3安装scrapydc.Scrapyd-Client：pip3安装scrapyd-clientd.ScrapydAPI：pip3安装python-scrapyd-apie.Scrapyrt：pip3安装scrapyrtf.Gerapy:pip3安装gerapy

上一篇：悉尼大学INFO1110课业分析_0

下一篇：全排列（Python3）

Python3网络爬虫开发实战读书笔记---第一章开发环境配置相关文章