当前位置: 首页 > 后端技术 > Python

Python超快公共情报收集爬虫

时间:2023-03-26 12:44:17 Python

Photon是由s0md3v开源的一款情报收集爬虫。它的主要功能有:1.爬取链接(内链和外链)。2、爬取带参数的链接,如(pythondict.com/test?id=2)。3.文档(pdf、png、xml)。4.Key(前端代码中不小心释放)。5.js文件和Endpoint(spring中比较重要的一个监控器)6.匹配自定义正则表达式的字符串。7.子域和DNS相关数据。你可以用它来做很多事情,比如爬图片、找漏洞、找子域、爬数据等等,而且提取出来的数据格式非常整齐:不仅如此,它甚至还支持json格式,你只需要在输入命令的时候加上json参数:pythonphoton.py-u"http://example.com"--export=json为什么可以用来收集情报呢?耐心回头看看。1.下载安装完整工程可以去photon的github下载:https://github.com/s0md3v/Photon或者关注下方的Python实战书公众号后台回复photon获取下载地址国内网盘。下载后解压到你要使用的地方。如果你还没有安装过Python,推荐阅读这篇文章:超详细的Python安装指南。安装好Python后,打开CMD(windows)/Terminal(macOS),下面简称终端,进入刚才解压的文件夹,然后输入如下命令安装Photon的依赖:pipinstall-rrequirements.txt如图如图所示:2.简单易用注意使用时要在Photon文件夹下。例如,我们尝试随机提取一个网站的URL,在终端输入如下命令:pythonphoton.py-uhttps://bk.tencent.com/结果如下:会生成一个文件你在当前目录下测试的域名的文件夹,比如这里是bk.tencent.com:嘻嘻,看看里面有什么,有没有程序员留下的小彩蛋,打开external.txt,这是网站外部链接的存放位置。可见这里不仅有网站页面,连CDN文件地址都会放在这里,所以external可能是个宝库。您还可以一次找到本网站链接的所有开源项目:3.扩展本项目的价值不仅在于能够快速拉取您想要的数据,还在于能够构建强大的智能系统(如果你技术够强的话)。因为它可以不断延伸,比如从外部链接开始,你可以找到很多与这个网站相关的信息:与搜索引擎搜索结果相比,这些信息其实是符合情报要求的。因为并不是所有的信息都可以在搜索引擎中搜索到,而通过这个光子,你可以顺着蛛丝马迹找到隐藏在网络世界中的他们。试想一下,如果你收集了很多这样的网站……然后用正则表达式搭建一个属于自己的搜索引擎,是不是很爽?这是我们文章的结尾。如果你今天想要我们的Python教程,请继续关注我们。如果对您有帮助,请在下方点赞或观看。如果您有任何问题,可以在下方留言区留言。我们会耐心解答!Python实战宝典(pythondict.com)不只是收藏欢迎关注公众号:Python实战宝典原文来自Python实战宝典:超快公共情报采集爬虫Python