人生苦短,我用Python):前期准备(一)基础类库安装小白学习Python爬虫(三):前期-准备(二)Linux小白学习Python爬虫基础介绍(四):前期准备(三)Docker白雪Python爬虫基础介绍(五):前期准备(四)数据库基础编辑,你还没完!!!前期准备那么多,还没开始写呢!!!别着急,别着急,前期准备的上一篇,我们已经在本文介绍了基础类库的安装、Linux基础、Docker基础以及爬虫框架的安装。主要是内容比较多,小编怕同学们不能一起看,所以分成了多篇(小声说,方便小编多推几篇)天)。pyspider安装pyspider是中文binux开源的一个强大的网络爬虫框架。pyspider自带WebUI(这个很关键),让我们可以实时看到更多的数据,而且它还有脚本编辑器、任务监视器、项目管理器和结果处理器,支持多数据库后端,多种消息队列,还支持爬取JavaScript渲染的页面,非常强大。Github链接:https://github.com/binux/pysp...官方文档:http://docs.pyspider.org/开始安装,我们还是使用pip安装:pipinstallpyspider跟着小编一步步来如果一步安装环境,这里应该会报错。会报我们安装pycurl失败。这里我们需要使用wheel来安装。第一步是安装轮子。pipinstallwheel下载pycurl的wheel文件进??行安装,下载地址:http://www.lfd.uci.edu/~gohlk...,找到对应版本的wheel文件。比如这里的电脑是win64,python3.7,那么下载文件pycurl?7.43.0.3?cp37?cp37m?win_amd64.whl。小编这里把下载好的文件放在D盘根目录下,使用如下命令安装。pipinstallD:\pycurl-7.43.0.3-cp37-cp37m-win_amd64.whl安装完成后,重新执行上面的安装语句。pipinstallpyspider静静等待进度条读完。完成后可以直接在命令行启动pyspider。命令如下:pyspiderall然后发现启动的时候报错。报错内容如下:SyntaxError:invalidsyntaxbecauseasyncandawaitisfrompython3.7Starthasbeenaddedtothereservedkeywords.所以async不能作为函数参数名。所以我们需要修改pyspider代码中async有用的地方。具体路径为:修改%homepath%\AppData\Local\Programs\Python\Python37\Lib\site-packages\pyspider\路径下python文件中的async为async1(全部替换)run.pyfetchertornado_fetcher修改后.pywebuiapp.py完成,执行pyspiderall,发现还是报错,不过这次报错换成了:ValueError:Invalidconfiguration:-Deprecatedoption'domaincontroller':use'http_authenticator原因是因为WsgiDAV发布版本预发布3.x。解决方法:在刚才路径下的webui文件中找到并打开webdav.py文件,修改209行。把:'domaincontroller':NeedAuthController(app)改成:'http_authenticator':{'HTTPAuthenticator':NeedAuthController(app),},然后执行pyspiderall,发现还是起不来,这是因为pyspider依赖在PhantomJS上,我们下载PhantomJS进行安装。下载路径为:https://phantomjs.org/downloa...下载完成后将压缩包中的可执行文件phantomjs.exe放入%homepath%\AppData\Local\Programs\Python\Python37\Scripts,有没有觉得似曾相识?是的,这与之前的Chrome驱动程序文件位于同一位置。这次我们输入pyspiderall启动,这次应该可以启动成功,然后打开浏览器访问:http://localhost:5000/,可以看到如下页面:证明我们的pyspider已经成功安装成功。Scrapy安装Scrapy就不用我多介绍了。它是著名的。接下来主要介绍一下安装过程。Scrapy官网:https://scrapy.org/同学们的电脑环境应该和小编相差不远(如果你用的是win10),小编也没有背着同学安装其他东西。安装命令:pipinstallscrapy由于Scrapy依赖大量的第三方包,执行上述命令后不会立即下载Scrapy,而是会先继续下载第三方包,包括但不限于以下:pyOpenSSL:支持SSL(安全套接字层)的Python包。密码学:用于密码学的Python库。CFFI:Python调用C的接口库。zope.interface:针对Python缺少接口的地方提供扩展的库。lxml:一个处理XML和HTML文档的库,比Python内置的xml模块要好用。cssselect:用于处理CSS选择器的Python包。Twisted:用于Python的事件驱动网络引擎包。......命令执行完成后,直接输入scrapy进行验证。Scrapy1.8.0-无活动项目使用:scrapy
