当前位置: 首页 > 科技观察

了解网页抓取:将一切留给人工智能,还是添加“人情味”?

时间:2023-03-16 12:09:04 科技观察

本文转载自公众号《核心阅读》(ID:AI_Discovery)。“互联网上有很多数据”是一种轻描淡写的说法。事实上,到2020年,“数??字宇宙”预计将容纳40TB或zettabytes的信息,一个zettabyte容纳的数据足以填满大约相当于曼哈顿五分之一大小的数据中心。有这么多信息需要分析,将收集数据的任务留给AI是有意义的。网络机器人可以以惊人的速度抓取网络,提取他们需要的相关信息。然而,尽管许多数据科学家和营销人员以完全合乎道德的方式获取和使用这些信息。但遗憾的是,随着人工智能在互联网上的日益普及,互联网机器人正逐渐被污名化。很多人工智能的负面形象都是由好莱坞电影和科幻小说间接造成的,毕竟在这些作品中,即使是在最好的时候,也要提防AI。此外,一些网络用户以不道德的方式使用机器人,这甚至会对那些专业和善意使用数据的人造成影响。对于许多专业人士来说,网页抓取仍然是必不可少的工具。那么,对于与网络机器人相关的污名化,我们能做些什么呢?首先,什么是网页抓取?您可以简单地将网络抓取行为视为数据提取。虽然数据科学家和其他专业人员使用抓取来分析非常复杂的数字信息堆栈,但从网站复制和粘贴文本的行为本身可以被视为一种简单的抓取形式。然而,即使在网站上具有最佳访问权限,由于可用信息量的缘故,从源头收集数据也可能需要很长时间。大多数时候,网络抓取留给人工智能,它会出于各种目的彻底分析检索到的数据。虽然这对网络爬虫来说极为方便,但网站所有者和旁观者都非常关注人工智能在网络上的“滥用”。使用网络机器人进行网络抓取会更好吗?有这么多信息需要分析,转向人工智能来收集数据是理所当然的。事实上,谷歌本身就是感兴趣的各方最值得信赖的网络抓取工具来源之一。例如,您可以使用它的数据集搜索引擎快速访问您认为可以免费使用的数据,甚至可以自定义搜索以查看信息是否可用于商业用途。完成这些任务只需要几秒钟。如果没有GoogleAI如此高效地检查每个网站的相关数据,这种速度是不可能实现的。这是使用人工智能以纯粹道德的方式为研究或商业收集有用信息的完美示例,它展示了“机器人”如何能够如此轻松地执行网络抓取任务。人工智能流量已经变得如此普遍,以至于它现在占互联网流量的一半以上。尽管如此,人们还是很容易忽视它的影响。有人说人工智能在互联网流量中的主导地位令人担忧。更糟糕的是,一小部分人工智能流量是由“坏机器人”组成的。即使有良好的意图和道德方法,人工智能的耻辱也是不可避免的。使用网络机器人处理大量数据是合乎逻辑的步骤。除了人工智能,在网络抓取时考虑其他必要的工具也很重要。代理如何提供帮助使用代理进行网络抓取有很多优势,匿名性就是其中之一。例如,如果您想对竞争品牌进行研究并使用该信息来确定改进您自己的业务的最佳方式,您可能不希望人们知道您访问过他们的网站。在这种情况下,使用代理可以在不泄露身份的情况下访问和检查数据,这是两全其美的做法。在我们继续之前,快速回顾一下代理服务器:代理服务器旨在充当用户和Web服务器之间的中间人。多功能:个人和企业都可以使用代理服务器来满足特定需求。代理的一种常见用途与网络抓取有关:使用代理服务器可以让您绕过网站管理员设置的限制,从而收集大量数据。那么问题来了,为什么要设限?这些数据不是可以在线免费获得的吗?对于人类用户,是的。这是一个典型的例子。价格聚合商的整个商业模式建立在准确的信息之上,这些信息为“我在哪里可以以最低的价格购买X产品?”这个问题提供准确的答案。虽然这是客户省钱的好机会,但提供商对其他公司窥探他们的数据不太感兴趣,因为聚合商的网络爬虫软件(通常称为“机器人”或“网络蜘蛛”))会给地点。因此,如果网站管理员怀疑给定的网络活动并非由真实用户执行,则该用户访问该网站将受到限制。代理的另一个实际用途是逃避审查禁令。住宅代理,顾名思义,会显示你是来自X国的真实用户,你可以自定义你来自哪个国家。对住宅代理的需求很简单:(可疑的)机器人活动通常来自某些国家/地区,因此即使是来自这些国家/地区的真正用户也经常遇到地理限制。此外,当您尝试从由于各种原因无法访问的数据源收集数据时,使用代理特别有用。网络抓取时使用代理的方法有很多种,但为了在数字社区中建立信任,我们建议您坚持使用那些为您的品牌建立信任和权威的方法。图片来源:unsplash用人类知名度和可信品牌来对抗人工智能的污名化目前,人工智能的发展速度确实快于在线人数的增长速度。尽管如此,互联网在未来几年内将如何发展仍是未知数,因此没有理由立即断定这种趋势是不可逆转的,或者它代表了一种内在的负面趋势。扭转网络上关于AI流量的负面叙述的最好方法是使AI在互联网上的使用非人道化。另请注意,以建立信任的方式使用AI并不需要太多思考。坚持使用来自高度认可、值得信赖的品牌的值得信赖的产品和服务。坚持符合道德的网络抓取做法。不要通过忽略站点上的robots.txt文件或在短时间内大量使用机器人来滥用信任。以专业和负责任的方式使用数据。检查您是否有权将抓取的数据用于预期目的。普及人工智能。与其他人讨论如何以及为何使用网页抓取,让人们对网页抓取有更深入的了解。人们越了解使用人工智能获取和研究大量数据的好处,他们就越不可能对网络抓取和网络机器人持有负面看法。虽然通过纯人力手动访问网站数据可能令人放心,但由于信息量巨大,这几乎是不可能的。可用的数据量几乎是无穷无尽的,而人工智能的使用是我们尽可能高效地浏览网络和分析数据的最佳方式。但是,它可能需要添加一点“人情味”。