Data-Crawler-01爬虫入门做质量的标尺。有些人不习惯期望卓越的环境。--SteveJobs数据系列,虽然我们的数据很多时候是来自于已有的数据集,但是如果要开发个人的小程序,有时候还得自己去爬取数据,爬虫也很有意思,一起研究学习吧关于爬虫。一、爬虫简介网络爬虫是一种按照一定规则自动抓取万维网上信息的程序或脚本。(摘自百度百科)简而言之,爬虫是利用自动脚本和程序来爬取互联网上的信息。2.爬虫相关知识计算机网络:爬取互联网信息自然涉及到计算机网络请求、响应、URL、HTTP等知识Web前后端:前端HTML、CSS、JS和其他的知识,还有跟后台的交互方式,这些也跟搭建爬虫息息相关。数据库和安全:有些网站信息需要先登录,或者有数据库安全认证。这个知识也很重要(当然不是为了违法)。另外,一些加解密知识也需要一定的了解。数据存储格式:有时候需要从网页中获取各种格式的文件,对于这些文件类型自然需要一定的知识。Python基础:这个不用多说了。其他知识:正则表达式三、爬虫的基本流程爬虫的基本流程可以分为三个部分:获取网页、解析网页(提取数据)、存储数据四、爬虫相关的包和工具一些爬虫工具:Octoparse、CyotekWebCopy、HTTrack、Getleft、Scraper等;获取网页:request,urllib,selenium|多进程多线程爬取,登录爬取,突破IP封锁,服务器爬取;解析网页:正则表达式、BeautifulSoup、Ixml|解决中文存储数据乱码:保存为txt文件,保存为csv文件|存入数据库这部分来自《PythonWebCrawlerfromGettingStartedtoPractice》一书。5.虽然我对爬虫相关的法律问题不是很了解,但是在开始所有的研究之前还是要提一下法律问题。这里有几篇网上的文章,希望大家自己去看看,不要触犯法律问题。你的爬虫是要把你送进监狱吗?“来我公司写爬虫?要坐牢的那种!”另外,Python网络爬虫从入门到实践这本书里有两段。个人使用或科研领域基本没有问题;如果数据是出于商业利益而收集的,则必须根据具体情况进行考虑,这可能是非法的,也可能不是非法的。你需要约束你的网络爬虫行为,将请求的速度限制在一个合理的范围内。还有一点需要了解的就是Robots协议(爬虫协议,全称是“网络爬虫排除标准”,RobotsExclusionProtocol),网站用这个协议来说明哪些页面可以被搜索引擎抓取,哪些页面不能被抓取。您可以通过Robotsdetection查看您关注的网站的Robots协议。淘宝好像删了robots.txt。这是怎么回事?Allow、Disallow等说明也应该清楚。参考资料网络爬虫工具Top20,马克!Python爬虫所需的包Python网络爬虫从入门到实践
