第1天-12天搞定Python网络爬虫，吃里吃外卖？

时间：2023-03-26 17:21:16 Python

人力资源部漂亮的小MM来问我：老陈，数据分析和爬虫有什么关系？说实话，我真的不想和她说话，因为我总觉得这和她的工作关系不大，但是一想到她是我部门的招聘负责人，我又不得不无奈的告诉她：数据分析，食物，爬虫，在外面爬，一起在里面吃，在外面爬。在大数据时代，要想分析数据，首先要有数据源。单靠公司的毛毛雨（数据）来分析孤独感是不够的。只有学习爬虫，从外部（网站）爬取一些相关的、有用的数据，才能让老板做商业决策有据可依，你也是老板。一提到老板，漂亮的小MM就很激动，立马大声问道：你们IT行业最帅的人是搞搜索的李老板吗？我虽然有些不服气，有些不爽，但我可怎么会呢，毕竟在网络爬虫方面，他（李老板）的技术比那要好。他知道每天如何利用爬虫技术爬取互联网海量信息，爬取优质信息并收录到他设置的数据库中。当用户在搜索引擎中输入关键词时，引擎系统会对关键词数据进行分析处理，从收录的网页中找出相关的网页，按照一定的排名规则进行排序，并将结果显示给用户。想到我靠排名赚的钱，李大哥一分都没给我，我就跟人类MM说：好了，不跟你说了，我来讲解一下网络爬虫的原理对我的老人，你这个令人毛骨悚然的家伙，见见你的老板。1、什么是爬虫？网络爬虫也叫网络蜘蛛、网络蚂蚁、网络机器等，它们按照我们的规则爬取网络上的数据。抓取的结果将包括HTML代码、JSON数据、图片、音频或视频。程序员根据实际需求对数据进行过滤，提取有用的，存储起来。说白了，就是用Python编程语言模拟一个浏览器，访问指定的网站，返回结果，按照规则过滤提取出你需要的数据，存储起来备用。看过我《第10天 | 12天搞定Python，文件操作》和《第11天 | 12天搞定Python，数据库操作》的应该都知道，数据往往存在于文件或者数据库中。2、抓取过程用户通过浏览器访问网络数据的方式：打开浏览器->输入网址->向浏览器提交请求->下载网页代码->解析成页面。爬虫编程，指定一个URL，模拟浏览器发送请求（获取网页代码）->提取有用数据->存入文件或数据库。爬虫编程推荐使用Python，因为Python爬虫库简单易用，Python内置环境可以满足大部分功能。它可以：（1）使用http库向目标站点发起请求，即发送一个Request（包括请求头和请求体等）；(2)使用内置库（html、json、正则表达式）进行分析(3)将需要的数据存储在文件或数据库中。如果Python自带库不够用，可以使用pipinstall库名快速下载使用第三方库。3、爬取点定位在编写爬虫代码的过程中，往往需要指定爬取节点或路径。如果我告诉你，用Chrome浏览器可以快速获取节点或路径，你会马上查看电脑是否安装了吗？如果是，那就对了，如果不是，赶紧去安装吧。在页面上，按键盘上的F2键，显示源代码。鼠标选中要获取的节点，右击【Check】定位代码，右击代码，选择【Copy】-【CopySelector】或【CopyXPath】复制节点内容或路径。好了，老陈讲完了爬虫的原理。如果您觉得对您有帮助，希望老铁能够转发点赞这篇文章，让更多人看到这篇文章。您的转发和点赞，是对老陈继续创作和分享的最大鼓励。做了10年技术总监的老家伙，分享多年的编程经验。想学习编程的朋友可以关注今日头条：老陈讲编程。我会分享Python、前端（小程序）和App的干货。跟着我，是的。

上一篇：一个简单的傀儡师例子

下一篇：Python使用协程的缺点

第1天-12天搞定Python网络爬虫，吃里吃外卖？相关文章