一、概述网络空间测绘的概念最早是由白帽汇率提出的。在很长一段时间内,国家对这个行业都不太重视。近两年,尤其是去年,行业发展迅猛,各大网络安全公司纷纷开始布局。该行业虽然发展了数年,但在行业标准、资质类别等方面一直处于不成熟阶段。例如:到目前为止,厂商的相关产品在申请销售许可时都依赖漏洞扫描器;因为是新兴行业,大家在一些非常基础的概念上还没有达成共识,在理解偏差方面出现了一些非常明显的“理解”。因此,如果能够多加关注,这个行业肯定会发展更规范。当然,我们也一直希望能为行业的进步做点小小的贡献。最近,一篇关于“网络空间搜索引擎技术研究”的报道(https://link.springer.com/chapter/10.1007/978-981-33-4922-3_15#Tab1)在中国网络安全年会上发布,报告对几家知名的网络空间测绘平台进行了对比分析,可见网络空间测绘技术mapping作为网络安全的一个细分领域,得到了相关权威部门的重视和认可,对于团队和公司来说,绝对是一件非常开心的事情,对于其中的一些说法和数据,我们认为都是一些问题,我们也有一些小的建议和想法。在此,我们就“抛砖引玉”与大家共同探讨。二、详细说明1、参考链接非权威来源,缺乏价值信息。在图1的上图中,根据文章链接内容3(https://www.zoomeye.org/doc?Thechannel=user#d-service),作者试图解释ZoomEye的用户手册中提到协议来自NMAP-Services的描述。点开页面后发现没有提到这个的内容,连Nmap这个字眼都看不到。让我们认为网站改版了,看不到以前的信息了。那么我们思考一个问题。我们可以声称引用某个规范,可以解释为:a)我们已经实现了其中的一些协议;b)我们已经执行了其中的所有协议;官方可能没有这个意思,文章中显然采用了第二个假设。所以我们做了一个小的随机抽样测试,在NMAP-Services中随机抽取了50个协议进行确认。ZoomEye只实现了其中的11个。证伪过程比较简单(具体测试方法,如有兴趣请联系我们)。换个角度,如果以后所有的网络空间测绘引擎都在自己的官网上写上:我们的“协议指的是Nmap和Wireshark”,这个领域的比较会不会很简单?文章参考链接4(https://www.freebuf.com/articles/ics-articles/196647.html)是一篇名为《2018年工业控制网络安全态势白皮书》的文章。研报称佛法的协议清单由此而来,但实际上引用来源文章不仅没有提及佛法。而且,消息人士明确表示,该信息是“东北大学帝霆网络安全团队基于‘帝霆’网络空间工控设备搜索引擎收集的各类安全数据”。这样的情况出现在严谨的学术论文中未必合适。退一步说,2018年的分析当然不能和现在的其他公司相比。很简单的逻辑:仅工控协议,佛发自2018年以来新增十余个。综合以上分析,我们认为数据的参考不可取。如果各个平台自己提交,由权威部门汇总整理,核实确认,数据的价值会更高,不会有偏颇和公平。因为参考未必实现,实现未必准确,准确度未必是全面的全网数据采集。比较是为了区分不同平台的优缺点。每个人选择使用的方向不同,结果自然也会不同。2.比较的核心维度概念模糊,存在不一致。图2更具代表性。首先介绍一下网络空间测绘领域中比较重要的几个基础数据的统计维度:1)网络资产数:数据记录数一般是数据记录数,从技术上讲,它是用作存储的键值。不同平台实现的机制不一致。比如Shodan按照ip:port存储数据,Fofa和ZoomEye按照host:port存储数据,360的Quake平台按照ip:port:date存储数据。因为Shodan选择了只在IP层面进行分析,所以他们直接放弃了对主机域名的分析。一个IP可以对应任意多个域名,所以Shodan在梳理某企业的互联网曝光度方面相对来说效果不佳。其他平台都采用了网站域名的方式,数据量差异很大。目前,佛法的主机域名数量暂时还是有一定优势的。基于host:port方式,会存储两个数据存储:一个叫热点数据,比如昨天发现了1.1.1.1:80,今天又发现了,你的热点数据会被覆盖,还有只会是最新的;另一种叫冷数据或历史数据,看名字就知道了。Quake平台有点特别。由于加了日期作为key,会导致一个IP的端口相同,可以查询到多条数据。2)独立IP的数量:根据上面的说法,大家知道记录的数量并不代表IP的数量。一个IP多端口对应多条记录。通常IP大家比较容易理解,所以佛法在搜索的时候会明确的告诉你聚合IP的总数。直接在Shodan上查询一个端口,例如:port:80,这个查询得到的统计数据就是IP的确切数量。大家可以在其他平台自行分析方法。在硬件领域(物联网或者服务器),IP和硬件是一一对应的,但是在软件应用领域,一个IP可以承载任意数量的应用,也就是我们俗称的攻击点。3)指纹规则数量:指纹规则只是一条查询语句,可用于识别某种类型的设备或软件。这是佛法最先提出的。早期各个平台都嵌入了一些简单的设备识别库,没有提供html等大文本的关键字搜索,用户无法自定义规则保存。Fofa最初的设计理念是让用户更好地理解场景,所以发布了这个方法,允许用户自定义识别语法,然后保存起来以备后用。一开始我们叫它应用规则库,后来叫法不一样了,有的叫指纹库,有的叫规则集,有的叫软硬件识别库。一个指纹可以对应任意数量的设备。目前,在指纹规则库方面,佛法在数量上还是有一点优势的。4)特定规则集匹配的网络资产数量:如前所述,规则查询的结果实际上是匹配的网络资产数量,所有指纹规则库匹配的网络资产数量基本上是整个数据库.图3如果上面的还是看不懂,我们用上面的简单例子来说明:我们尝试在网上搜索打开的ApacheWeb服务器的数量,在Fofa中可以检索到app="APACHE-Web-Server",也就是当时返回的11682万代表在互联网上使用这台服务器的资产数量。网站和协议可以重叠,分别对应7446万和4235万,因为协议中存在一个80端口,但是可能会绑定多个域名。独立IP只有2918万个,因为一个IP的Apache服务器可以绑定多个端口。回头看图2,是一个很有意思的结果:Shodan对应4亿,ZoomEye对应11亿,Fofa对应27万。我们相信每一条数据的作者都经过深思熟虑和选择,但我们一直没能梳理清楚到底是全网网络资产数量、独立IP数量、指纹规则数量bases,或者特定规则集匹配的网络资产数量,甚至是热点数据,还是包含历史数据,有没有可能不清楚?如果不在一个维度上比较,没有太大的参考价值。另外,值得强调的是,即使是在一个维度上进行比较,简单地比较数据也是非常具有误导性的。比如Shodan只拿出一个月的数据作为热点数据,旧数据不显示(不覆盖)不显示),而ZoomEye显示所有历史数据,所以实际上很难计算出一个公平的结果。在比较的时候,我们需要考虑一定时间内获取数据的能力(注意一定要考虑一定的时间段),以及数据的深度和准确性(比如协议或者规则)。没有这些,必然会有各大平台玩刷数据的游戏,百看不厌。如果Shodan隐藏了力量,我们仍然可以从中学习。3、数据抽样测试的参考标准存在差异,直接影响结果。这里给ZoomEye说一句:如果用一年多的时间去扫描HTTP协议,这个互联网使用最广泛的协议,基本上这个平台就没用了,ZoomEye也不会至于这么烂。Shodan的周期略有偏差,ZoomEye和Fofa的时机问题很大。这些协议在Internet上使用最广泛,并且数量变化很快。在实战系统中能很好的使用,所以各个公司都比较重视,不会有不抢的情况。图中“-”表示没有扫描数据,但是Shodan和Censys有。我们大胆推测,用于对比测试的IP是基于Shodan或Censys的(这只是猜测)。因为网络变化太快,一个IP端口上线下线很快,所以即使在这种极速一天一次的轮询过程中,也会恰好有一些IP只被一个平台抓到,而其他平台没有抓到。举个反例,比如24.232.7.242这个IP,你去各个平台搜索,会发现这个IP对应的23端口只有佛法平台存在。我去的时候23端口是关闭的,但这肯定不能证明Shodan或者Censys的扫描频率是“-”。在实际操作过程中,你会对不同的端口进行分组。一个端口可以存在于不同的扫描簇中。例如,一个大端口(覆盖大量IP的端口)可能同时并行存在于不同的端口组策略中。扫描。而且因为大网络的端口扫描肯定是随机IP,肯定会有网络抖动,所以不可能一次性完成95%的数据相似度。我们将进行持续的轮询和扫描,以尽可能覆盖最新的在线资产。尝试使用Nmap实现端口扫描和协议识别的网络空间测绘技术,暂时打个问号,号称快速、完整、准确。4.其他一些细节1)协议分类和设备分类是同一个概念吗?2)Domain数据库项提到了Censys,它只分析了Alexa排名前100万的域名,但没有提到库存域名最多的Fofa?3)探针分布的分析维度?这些细节无关紧要,但大家对权威论文的理解是分析方法应该被宣传和挑战。如果有很多歧义,就很容易引起分歧和误解。3.总结Shodan是先行者,大家或多或少都会受到影响,站在大师的肩膀上前行。时至今日,高手依旧是高手,无论是投资基础、数据严谨性,还是历史股票数据的积累和功能的丰富性等方面,国内平台仍难以与之并驾齐驱。暂且。不过,我们当然也有弯道超车的可能,我们也看到了很多机会,但在当下,任何一家公司单方面宣称自己是世界第一,都不合适。一个让我们深思的问题:在实战能力方面,如果真的需要攻守,我们真的有足够的储备吗?我们应该注意各种数据的比较。根据我们多年来对网络空间测绘的理解,网络空间测绘的技术比较维度应该以实战为主,应该包括以下几点:1.总资产(历史数据、域名数据等)2.支持的端口和协议3.搜索和显示字段数4.数据更新速度(每周、每月)5.数据准确性(协议、规则等)6.协议分析深度7.产品规则数量8.规模活跃用户的增加是为了满足实战和持续常态化实战的需要。我们呼吁有关部门对网络空间测绘细分领域给予指导,出台相关技术标准和规范。规范一些概念和名称,规范搜索关键字和语法,规范数据存储格式,规范资产分类和分层。进而制定相应的技术评价标准,最终引导行业健康有序发展,为国家创造更多更好的技术产出。
