当前位置: 首页 > Web前端 > HTML5

非计算机专业自学爬虫指南(附资源)

时间:2023-04-05 22:17:32 HTML5

爬虫是我对计算机编程的入门。别提当年写第一行代码的时候有多痛苦。本文旨在用一篇文章来说明爬虫是如何通过自己学习来满足找工作的要求的。爬虫的学习就是从实际项目中学习。每个项目都会涉及到不同的知识点。项目做多了,自然就学会了。练习练习练习!!!!本文推荐的资源是通过项目练习驱动爬虫学习,涵盖了爬虫工程师所需的大部分知识点。爬虫工程师需要的知识点1.Python入门和进阶(进阶包括多进程等)2.HTTP知识(因为要爬取网页,所以需要懂网页)2.Web前端:HTML,CSS,Javascript等3、爬虫知识(爬虫基础库、scrapy框架等的使用)4、反爬虫(代理池、分布式等)5、数据库(大规模数据存储涉及到mysql、etc.)Pilot知识HTTP协议:https://www.cnblogs.com/ranyo...html、css、javascript:学习爬虫必看。我推荐W3school,但你不需要全部阅读。了解最好的学习资源是件好事。推荐前置教程:https://cuiqingcai.com/1052.html(当今网上最全的爬虫学习教程)以下资料,花了我好几个月的时间自学,选教程,最重要的。包含知识点:IP代理、mongoDB、mysql、抓包、分布式、selenium、模拟登录、cookie等爬虫实战项目1、涉及知识点:mysql存储、断点续爬、抓包app、ip代理、cookie模拟登录1、https://zhuanlan.zhihu.com/p/...2、https://zhuanlan.zhihu.com/p/...3、https://www.cnblogs.com/hearz。..4、https://www.jianshu.com/p/887...爬虫实战项目二,涉及知识点:scrapy具体应用scrapy知识点:https://www.cnblogs.com/cnkai...Scrapy中文文档:https://scrapy-chs.readthedoc...Scrapy项目实战:https://www.cnblogs.com/cnkai...补充:https://segmentfault.com/a/11。..爬虫实战项目3,涉及知识点:去重、分布式、多进程、模拟登录1、https://cuiqingcai.com/4352.html数据库,掌握基本用法mysql即可:http://www.runoob.com/mysql/m...mongodb:http://www.runoob.com/mongodb...找工作必备的计算机基础,包括(数据结构与算法、计算机网络协议等计算机基础课程,我的上一篇文章介绍了如何学习),非计算机专业的同学往往会忽略其他技能(选修,加分)javascript、验证码、app破解1.想要破解加密,需要非常扎实的javascript基础,这不是很懂2.验证码。目前,业界仍然使用打码平台来破解验证码。3、现在不仅网站被破解,很多公司都需要你抓取app数据。抓包是最常用的,还得能解压app等等,这些我都不懂。延伸阅读:一篇关于爬虫和反爬虫的文章https://segmentfault.com/a/11...最后请注意,爬虫的工作机会相对较少。讨论学习,文章发表,公众号:learningthem