网络时代给用户带来了极大的便利,但也让个人隐私信息无处藏身。打开电商购物平台,APP的精准推荐总是让人心神不宁;打开搜索平台,弹出智能搜索记录浏览行为;打开娱乐软件,推荐算法让用户渐渐沉迷其中……虽然“隐私”在数字世界里无处安放,但我们却很少认真思考隐私是如何泄露的?最近,诺顿LifeLock实验室的研究发现,超过80%的带有搜索栏的网站会将访问者的搜索词泄露给在线广告商,例如谷歌。显然,这是公然侵犯用户隐私,公然将敏感信息泄露给庞大的第三方服务商。借助这些信息,Google等在线广告商可以提供有针对性的广告或跟踪用户的在线行为。这些数据甚至可能在这些服务提供商之间共享,或者多次出售给更多公司。这样一来,用户的隐私信息就会一直存在于互联网上,暴露无遗。虽然某些网站可能会在其用户政策中说明这种做法,但访问者通常不会阅读这些内容,并认为他们在嵌入式搜索字段中输入的信息与大数据代理是隔离的。使用爬虫发现信息泄露为了研究用户隐私信息泄露的普遍性,诺顿LifeLock实验室开发了基于Chrome浏览器的网络爬虫。爬虫可以利用排名前100万的网站内部的搜索功能进行搜索,最终捕获搜索后的所有网络流量,从而查看用户的搜索词去了哪里。为了将其与其他常见搜索区分开来,该实验室使用了一个特定的搜索词“jellybeans”,以确保可以在网络流量中轻松找到被测试的搜索词。众所周知,一个典型的HTTP网络请求由三部分组成:URL、RequestHeader和payload。HTTP请求标头是浏览器自动发送的元数据(见下文),有效负载是脚本或表单请求的附加数据,其中可能包括更详细的跟踪信息,例如浏览器指纹或点击流数据。CNN加载广告的HTTP网络请求在实际研究中,安全研究人员在网络请求的Referer请求标头、URL和负载中寻找关键字“jellybeans”。结果非常令人惊讶。在具有内部网站搜索功能的顶级网站中,安全研究人员发现81.3%的网站以某种形式向第三方泄露搜索词:75.8%通过Referer标头,71%通过URL,21.2%的网站通过有效负载。这也意味着网站经常会在多个向量中泄露关键字。研究人员强调,80%是最低的数字,因为他们只在三个特定位置寻找“jellybeans”搜索字符串,并且有相当多的payload被混淆以避免被工具检测到,因此实际payload的数量会更高.鉴于可怕的结果,安全研究人员很好奇这些网站是否会告知用户他们的搜索词将被发送到第三方服务。事实上,自从欧洲通用数据保护条例(GDPR)和加州消费者隐私法案(CCPA)通过以来,许多网站都更新了他们的隐私政策,那么有多少网站明确传达了这一点?为此,安全研究人员再次使用爬虫对隐私政策进行爬取,并构建人工智能逻辑来读取隐私政策,发现只有13%的隐私政策明确提到了对用户搜索词的处理,如此低的比例再次让安全研究人员震惊。这不仅侵犯了用户隐私,也侵犯了用户的知情同意权。参考来源:https://www.nortonlifelock.com/blogs/norton-labs/search-privacy-research
