当前位置: 首页 > 网络应用技术

多线程科学项目摘要

时间:2023-03-07 15:34:42 网络应用技术

  以下是该项目的总体想法。实际上,当使用此完整项目时,我还编写了相同的网站代码,但是要求不同。位置Web标签数据,最后通过CSV添加标题以保存相应的数据想法,因此代码相对简单。

  但是网页限制是阻止帐户,您的VPN帐户!似乎抓取不会缓慢地阻止,因为先前阻止的帐户在5个多线程下被阻止。以下帐户被稳步捕获。它没有被阻止。这是一个坑。网络速度必须很好!交叉分解

  该帐户很稳定,因为我远程选择了,我正在每晚三个小时的请求!这很贪婪。结果,他沸腾了一夜之间,写了一千多行代码,并给了您一堂课。

  如果您有兴趣,可以找到我(^_-)☆。首先,准备一个帐户!非常重要?当然,查看您的数据需求,帐户号对于需要同一服务器很重要。否则,标题后,更改请求参数将更改为您的呕吐!

  第二,当然要确定您的需求!上面的图片是我要捕获的数据。搜索后,搜索了大约15,000个数据。因此,我必须首先了解其请求方法,网页的基本反捕获方法和页面转动方法。

  现在,这是其请求方法。我们可以看到,URL地址是通过代理帐户IP+网站HTTP加密域名+网页简介:完整的数据编译+构成参数,然后通过GET请求从网站服务器获取数据。

  背面的参数绝对不在我们的考虑之内。只需进行地址,然后缝合即可。地址是!

  url =“ 2.14.1.A346.prox.zhixinglib.com/full_record ...”

  然后是网站的基本反捕获。当然,我们有请求参数。隐藏在网站上的限制并不是我们的首次考虑。要考虑的第一件事是,当然是我们的反挑选三个剑客!让我们看一下请求参数。小主人摇晃他的手指。

  请注意主机,转介,这些可见参数带有我们的VPNIP,也就是说,更改帐户或服务器,您必须再次更改它。不应该将此构造为请求!

  就是这样。

  (PS:我最初想尝试代理池,但是我发现该网站与IP无关,但它与代理帐户有关系,所以IP !!!!)

  下一步是他的页面转动参数。实际上,我们将误会。我们应该认为页面是页面转动参数,而我直接范围为一个手页!但是我们要注意他的请求参数!此时,页面为1,doc是1,因为我尚未't尚未翻页,然后启动页面以观察参数测试!

  启动分析,我首先使用迭代测试页面,发现数据随着页面的转换没有变化。所以...我开始怀疑该文档,所以首先做页面要调试!

  转3页!发现它与页面无关。DOC是迭代的重点。根据这个值,我们获得了页面的重点。然后,我们获得了三个基本需求。网页数据请求,基本的网页反理攀岩和页面。

  启动Pycharm Catalum!

  标题= {'这是标题参数,请参阅上面的图!

  以上是我发送请求的参数。它构建了通过获取请求,标题请求参数和发送GET请求的参数。相应的参数将继续。验证是验证!将DOC修改为DOC+10*页面。在10页的数据之后,该页面将刷新+1,因此是10页!

  以下是数据分析

  分析实际上很难成为其标题和作者。实际上,我真的很想定期匹配,但是我发现常规中包含的数据发现该潜艇是空的,所以我使用了Beautifutsoup.find.find()位置,将类属性放置,发现他无法得到数据。他仔细考虑,一次又一次地思考,并想到一件事情,也就是说,他也有一种超级简单的方法,可以定位CSS标签,然后获得数据,呵呵!

  以上是我发送请求的参数。它构建了通过获取请求,标题请求参数和发送GET请求的参数。相应的参数将继续。验证是验证!将DOC修改为DOC+10*页面。在10页的数据之后,该页面将刷新+1,因此是10页!

  获得标题数据后,它是作者的价值,但我看不起它。首先,我直接在p标签中定位了soup.find()。文本。一旦您只能在文档中看到作者的两个字符和契据,其背后的数据还没有进来!

  好的,事实证明了错误是错误的,我应该做什么,我只能首先放弃生活哲学:首先做简单的人,然后再回来找到它,这是如此困难,就是这样,在哪里秋天,只要您跌倒,您就会跌倒,所以您会跌倒。让它放下一会儿。

  然后!

  事实证明,在失败之后,它变得顺利。当然,事实证明生活中没有光滑的航行,就在这里!

  参考!交叉启动beautifulsoup只能使用lai pippi的方法,即上述标题方法,将lang_id的值放置在内部,但是只能获得一个值!但是它有很多!我发现我不明白。我很绝望。我把正式的文档转了,没有说如何在《美感》上定位的标签中获取所有值。我希望看到,只有线标记黑色的身体,呵呵!)

  因此,我用它是一种用Xpath,呵呵分析它的方法!

  现在,就是这样,完美的解决方案,每个参考都有一个列表和“”部门,非常易于使用!

  这是保存后的效果,纳斯!我觉得生活充满希望,可惜!

  因此,作者的数据有希望,因此根据需求而改变和改变。最终获得数据代码是以上,作者!

  我希望有人会看到我的不是@class标签,哈哈哈,有点小心,它真的被困在这里很长时间了!但是我也学到了很多细节,并且以前的知识已经连接了!

  这是最终效果。

  上面的params_list是存储每个需求数据的列表。

  通过CSV保存每个列表的数据!

  此CSV的标题非常低!cry!

  最后添加了一个线程!

  速度很高兴,帐户也很高兴!大约有11个帐户被封锁,幸福来了,有人报销,呵呵!

  最后,整个完整项目的实施。

  通过页面!

  最后,我希望大个子可以教更多

  我是**白色和白色我**,一个喜欢分享知识的程序??