当前位置: 首页 > 科技观察

合理监管强化规范防止网络爬虫成“害虫”

时间:2023-03-21 12:22:04 科技观察

近年来,随着移动互联网、人工智能、大数据、云计算等新技术的快速发展和普及,人们的工作、通讯、和生活方式都发生了深刻变化,数据成为驱动社会发展的新生产要素和各行各业竞争力的重要来源。但是,在大数据采集过程中,也存在着各种违法犯罪问题。网络爬虫(WebCrawler)作为一种能够快速准确获取数据信息的基础网络技术,近年来得到越来越多的青睐和应用。如何对其进行规范,使其越来越好,成为当前法治建设的重要课题。“小爬虫”的“大作用”网络爬虫又称“网络蜘蛛”、“网络机器人”,是按照一定规则自动抓取网络信息的程序或脚本。在特定程序的驱动下,它可以通过模仿手动点击从网站、移动应用程序、小程序或搜索引擎中检索、提取和存储数据。我们可以形象地将它们理解为一种在互联网上爬行的蜘蛛。他们根据程序的指令,在互联网大网中爬行,通常是沿着URL(网址)的蜘蛛丝,寻找并带回所有需要的数据资源。我们熟悉的百度、搜狗、谷歌等搜索引擎的核心技术要素之一就是“网络爬虫”。例如,百度蜘蛛通过互联网入口抓取网页,实时存储和更新索引,然后为用户提供检索服务。自1993年第一个网络爬虫程序——“互联网漫游者”问世以来,网络爬虫这一便捷、高效的搜索技术就受到了业界的关注。尤其是随着数据资源的爆发式增长,网络爬虫的应用场景更加广泛多样,长期活跃在市场调研、产品开发、财务分析、舆情监测、风险预测等领域.近年来,一些利用爬虫技术为客户提供数据服务的互联网公司也取得了快速发展。就个人而言,我们可以使用爬虫软件等计算机编程语言,让网络爬虫为我们服务。比如你想买一套理想的房子,你可以爬取房产中介的公开信息,分析房屋数据和趋势,辅助决策。网络的本质和价值在于连接,核心是实现数据的流动和共享。网络爬虫作为一种数据抓取的技术工具,通过爬取增强网络节点之间的联系,提升网络的整体价值。它们是构建互联网开放共享理念的重要技术基石。但网络爬虫所到之处,并不总是鲜花和掌声,尤其是涉及到隐私和网络安全领域时。因此,为了规范爬虫,维护网络秩序,1994年诞生了“robots.txt协议”。虽然这个协议只是一个“君子协议”,但逐渐被视为爬虫技术应用的公认行业标准在网络空间,也成为判断爬行行为是否被网站认可的主要依据。在2014年百度诉奇虎360违反机器人协议案中,法院认为被告未遵守原告网站的机器人协议,其行为明显不当,应承担相应的责任。不良后果。技术异化:“好爬虫”与“坏爬虫”技术本身就是一种中性工具,是善还是恶,是合法还是非法,关键在于用户的选择。本来,通过robots协议,一方获取数据信息,另一方增加流量和关注度,皆大欢喜。但是,机器人协议能防“君子”,防不了“小人”。一些爬虫不遵守规则,随意爬取他人不愿分享的数据和信息,占用大量服务器资源,成为“网络害虫”。例如,近年来,一些大数据风控公司利用爬虫技术在互联网上非法收集用户个人信息,并转售给第三方,以谋取经济利益。网络爬虫设计的初衷是利用计算机技术为网站自动编制索引,更新信息,为用户提供高效的检索服务。它具有访问、下载和解析(分析和过滤数据)三个基本功能。目前爬行动物作恶主要是前两种功能的异化,体现在三种作恶方式上。一种是恶意获取未经授权的数据。访问数据是“网络爬虫”行为的起点,也是其价值的源泉。一些公司或个人出于经济利益或其他特殊目的,试图使网络爬虫突破道德规范和技术障碍(网站“反爬虫”措施),爬取未经授权或超出授权范围的不明数据。例如,2018年2月至4月,马某通过编写“爬虫”程序,在手机应用和网站上窃取用户信息约20万条,再通过微信出售给他人,共计违法获利2.4万元。构成侵犯公民个人信息罪。二是恶意侵犯知识产权。一些网络爬虫在数据爬取过程中,未经著作权人许可,擅自下载、复制、传播文字、图片、视频等内容,并从中牟利。通常的形式是爬虫为具有版权的文学或影视作品设置加框链接,吸引用户点击,然后通过销售广告获利。例如,段某建立的“窝窝电影”网站,利用爬虫技术,在多个视频网站上对500多部影视作品设置了框架链接,吸引用户点击播放,赚取了100万元以上的广告费.著作权法。三是恶意扰乱系统运行。网络爬虫访问系统时,原理与手动点击相同。因此,当大量的爬虫同时访问一个网站时,会占用大量的带宽资源,导致服务器不堪重负甚至崩溃。业内专家表示,2019年,近40%的网络流量来自爬虫,其中20%来自恶意爬虫,而且这一比例还会继续上升。旅游业是重灾区。以中国铁路“12306网”为例。自2011年上线以来,春运期间曾多次因爬虫(主要是抢票软件)的攻击而无法访问。据统计,2018年春运期间,该网站高峰期单日浏览量达813.4亿次,其中近90%是由“爬虫”完成的。合理监管,让“爬虫”为善据统计,截至2020年12月,我国网民规模达9.89亿。加强网络空间治理,保障个人信息和数据安全已成为重大时代命题。目前,我国还没有专门的法律法规对网络爬虫进行规范,主要依靠民法典、反不正当竞争法、著作权法、网络安全法和刑法中的相关法律规定。但从法律调控的效果来看,情况不容乐观。一方面,由于互联网技术的快速发展以及互联网的开放性、虚拟性和移动性等特点,对违法犯罪行为的监管和取证难度较大,尤其是随着数据抓取从网页扩展到网上移动应用、小程序等移动平台,爬取方式更加复杂隐蔽;另一方面,网络世界和数字服务发展迅速,法律法规仍然滞后。在法律问题上缺乏足够的司法经验,相关司法解释也不够重视,难以形成有效的规制。例如,2017年今日头条与新浪微博就“微头条”言论同步内容与“微头条”业务的纠纷,本质上是数据权属难以认定的问题。但由于缺乏明确的司法解释指引,在实践中引起了广泛争议。2019年5月,国家互联网信息办公室发布《数据安全管理办法(征求意见稿)》,对利用互联网收集、存储、传输、处理、使用数据等行为进行具体规范,有望有效治理网络爬虫等技术行为。办法强调,国家坚持保障数据安全与发展并重,鼓励研发数据安全保护技术,积极促进数据资源开发利用,保障数据依法有序自由流动.这也提醒我们,网络爬虫等本质上是应数字经济发展的需要而诞生的。我们既要从法律层面高度重视,又要把握好法律规制的边界,努力实现数据利用与合理规制的健康平衡,让网络技术更好地服务于经济、社会和人民群众。生活,助推数字中国建设。