当前位置: 首页 > 科技观察

数据安全探索者之路

时间:2023-03-21 19:43:29 科技观察

数据安全探索者任奎:数据是新时代的生产要素;保护数据原有价值,实现数据所有权的保护、交换和管理;提高数据在采集、使用、存储等阶段的全生命周期安全;复杂物理数据交互场景下的数据安全攻防机制研究与分析;在保护数据所有权的前提下,实现高价值数据的安全交易;推广安全技术标准,完善法律法规。01数据安全保护是重大战略需求。当前业界共识认为,数据是数字经济发展的核心驱动力。基于数据的经济生态和云计算、物联网、区块链、人工智能等相关产业链,在智慧城市升级和国家重大基础设施产业发展中发挥着积极作用。《中国数字经济发展白皮书》显示,2020年我国数字经济规模达到39.2万亿元,比上年增加3.3万亿元,占GDP的比重达到38.6%。显然,数据正在加速许多国民经济行业的强势腾飞。考虑到数据作为核心生产要素的重要地位,数据安全和隐私保护不容忽视。随着数据科学与工业生产的深度融合,数据安全的影响正逐渐向军事、金融、医疗、教育等各个领域蔓延,关系到国家安全。事实上,学术界和工业界都开始大力推进大数据安全的战略布局,各国政府也相继出台了各种法律法规来规范数据的安全使用和生产,例如《网络安全法》和《密码法》在我的国家。数据驱动的应用场景不断推陈出新,因此对数据安全保护的要求也越来越高。从一个数据安全技术研究探索者的角度,我认为只有从真实场景的实际安全需求出发,才能找到最有价值的前沿研究领域。鉴于此,我们的团队一直在多方面进行探索,以揭示数据安全保护面临的安全性和性能之间的冲突和挑战。力争实现数据深度安全保护,从多方面抵御潜在攻击,尊重和保护数据拥有者的权益,同时尽可能保留数据作为生产要素的原有价值。这也是当今整个数据安全行业共同追求的目标。02全生命周期安全防护势在必行以刚刚过去的2020年为例,据IBMSecurityAgency发布,仅这一年,全球因数据泄露事件造成的经济损失平均就高达386万美元,涵盖医疗、金融、交通等各行各业。无数事例表明,数据隐私泄露可能发生在存储、传输、运行、处理等任何环节。因此,为最大程度防止数据隐私泄露,保障数据整个生命周期的安全成为亟待解决的问题。在过去的几十年里,国内外数据安全研究者和从业者建立了许多技术安全标准和规范,如AES、国密和TLS等,在数据存储和传输层面提供安全保护。强烈支持。但是,数据运行过程中的安全保护措施仍然存在相当大的局限性。具体而言,无论数据存储和传输过程中的安全措施做得多么好,一旦到达数据操作和处理环节,数据通常以明文形式呈现,这就给攻击者(他们可以来自外部或来自内部)提供了带来一个可以利用的机会。与自然界其他生产资料不同,数据作为核心生产要素,一旦以明文形式呈现,很容易被攻击者复制、复制或窃取,从而损害数据所有者的权益。因此,如何保护数据在运行时的安全,力求实现数据全生命周期的安全保护,是当前数据安全行业公认的痛点,也是我们正在研究的热点问题之一。数据运行时安全的技术方向和发展趋势日新月异,包括同态加密、安全多方计算、可搜索加密、可信硬件等技术点。虽然侧重点不同,但共同的目的是实现数据安全。“可用”和“不可见”。即在数据生命周期保护(尤其是运行时保护)的前提下,最大程度地保留数据作为生产要素的原有价值,从而为数据的深度安全保护提供强有力的技术支撑。这些技术的难点问题和标准法规的推广在学术界和工业界的共同推动下正在快速发展。我们课题组在这些领域也深耕多年,有幸见证了业界为保护数据全生命周期安全所做的共同努力。从我的职业生涯开始,我和我的合作者就一直致力于云数据安全(包括数据运行时安全)的技术研究。回首当初,数据上云的趋势刚刚兴起。云平台当然会带来很多优势,包括按需弹性服务、可扩展性和低入门成本。然而,随着数据和计算任务不断向云平台迁移和外包,这种计算服务模式的转变也引发了许多新的数据安全和隐私问题。这些考虑激发了我们的研究兴趣。在我们开展的众多研究课题中,一个具有代表性的主要挑战是如何保持密文数据的可搜索性,在不泄露查询或数据内容的情况下实现密文检索技术。本研究的出发点来自现实生活。数据搜索功能无处不在。数据搜索可以方便的让我们在大量的数据集中快速的获取到我们感兴趣的数据。当时只有少数密码原语能够满足相关安全设计的要求,其功能还十分有限。鉴于此,我们开始对加密数据的一般搜索进行系统研究,形式化了很多新的搜索概念和基于密文数据的安全搜索设计,如安全排序搜索、加密模糊搜索、多关键字搜索、图搜索和相似性搜索。令人欣慰的是,我们的许多早期成果得到了该领域的学术界和从业者的认可,这些认可也启发了我们进一步探索与密文检索相关的更优越的密码原语设计。同时,我们也关注了这些密码设计在实际部署中遇到的安全和性能挑战,以及相关使用场景的局限性。尤其是从功能和实际部署场景需求来看,仅实现上述密文数据的安全搜索设计是不够的。这也让我们近期的研究重点逐渐聚焦到如何构建功能完备的加密数据库管理系统这一前沿领域。数据库管理系统是当今各种应用场景的核心计算架构的支柱之一。提供对不同规模、不同类型数据的组织管理、存储、查询、分析、计算等丰富功能。加密搜索的安全设计只能为复杂的数据库系统提供一些原始操作,难以满足行业在性能和功能多样性方面日益增长的需求。幸运的是,ARMTrustZone和IntelSGX等基于硬件的可信执行环境(TEE)技术的发展为数据运行时安全性的设计带来了新的机遇。与传统复杂且功能受限的密码方案设计相比,TEE内部数据天然受到隐私和完整性的保护,可以提供更丰富的功能和更好的性能。如何用好TEE技术,并将其与加密数据库系统的建设深度融合,还有不少重点和难点问题需要解决。我们还必须认识到TEE技术并非无懈可击。首先,TEE本身存在安全隐患。一方面是因为硬件可能存在漏洞。另一方面,可信硬件在设计时并没有考虑到侧信道攻击。比如IntelSGX就明确表示不防御side-channel攻击。虽然这些攻击所需要的条件比较苛刻,但也在一定程度上影响了TEE的安全性。其次,如果TEE中运行的代码存在漏洞,仍然可以被攻击者利用,破坏相关系统设计的安全性(如前述的加密数据库系统)。TEE中运行的代码越多,就越容易受到攻击。最后,使用可信硬件将不可避免地引入额外的开销,例如程序进出Enclave和数据的页面交换。目前,我们已经在尝试解决这些问题,虽然面临的挑战很多,但我相信,我们在该领域以往项目中积累的经验,一定会为未来的研究提供很多帮助。我们不仅需要采用上述基于安全软硬件的数据保护方案来保证数据操作的安全和隐私,而且在数据操作后的数据发布阶段仍然存在隐私泄露的风险。通过结合用户在互联网上的公开信息(如微博等社交平台上发布的个人数据),攻击者通过推理攻击(ReferenceAttack),仍然可以从经过数据脱敏的匿名数据库中准确定位到大部分用户的个人信息).身份。为了解决这一问题,差分隐私(DifferentialPrivacy)这一敏感数据保护技术被提出。通过在原始数据中引入受控随机性,它提供了一个严格的数学工具来量化潜在的数据泄漏,并支持保护隐私的数据收集和发布。在实际场景中部署差分隐私机制面临的挑战是如何在实现差分隐私量化保护的同时保证数据在各种实际场景中的实用性。现有的解决方案大多依赖于随机值扰动,要求每个用户在差分隐私架构下根据预定义的隐私参数对自己拥有的数据进行扰动。我们团队最近的一项工作提出了一种新机制,该机制引入虚假数据并将其与扰动的原始数据相结合,以避免数据可用性的显着下降,同时增强数据隐私的可量化保护。在常见业务场景的模拟环境中,实验结果表明,该方法在保持相同隐私保护强度的情况下,数据效用提升了70%以上。目前,该技术已融入阿里巴巴集团数据安全产品Datatrust等应用,帮助保护数百万用户的隐私。03千家万户智能连接下数据安全的新挑战近二十年来,我们的社会见证了各种智能设备和系统的快速发展。异构软硬件平台的多样性必然导致系统的攻击面(包括硬件层、系统层、网络层、应用层、传感器层等)巨大。在物联网技术快速发展和广泛部署的今天,数据安全形势也更加复杂,导致数据安全和隐私问题面临更加严峻的技术挑战。在自动驾驶、智能制造、智能医疗等复杂场景下,用户数据安全和隐私保护面临更加严峻复杂的威胁和挑战。在数月前发生的特斯拉车主维权事件中,特斯拉公布事故行驶数据后,曾陷入公开数据是否侵犯车主隐私的争议。在此前多起特斯拉驾驶事故中,车辆运行数据是确定事故责任划分的重要依据,数据不透明成为特斯拉最受诟病的地方。根据中国法律法规,用户有权查阅自己的行车数据。为此,特斯拉开发了在线信息系统平台,供车主查询和获取车机交互数据。但是,这也带来了数据泄露等安全风险:首先,车主需要将身份认证信息传输到数据共享平台,在这个通信过程中存在身份信息泄露的安全风险;第二,为了让车主实时访问车内车辆与服务器的通讯量和频率可能会大幅增加,客观上会增加通讯链路被窃听或被车内人员攻击的风险。中间;第三,数据共享平台的开放性会影响行车数据的可及性。这很容易将车主在境外获取数据与境外势力窃取数据混淆起来,给非法跨境数据传输的监控带来更大的挑战。以便携式智能设备为例,我们团队发现了多种新形式的用户隐私攻击技术。其中一项结果表明:智能手机可以在没有任何授权的情况下窃听和恢复用户的声音,只需要使用加速度计。而且准确率高达90%。我们中的许多人可能收到过与关键词相关的未经请求的广告,这些关键词是我们设备上的麦克风或嵌入式传感器意外或秘密捕获的。这显然是对隐私的不可接受的侵犯。无论是利用内置传感器监听和窃取手机外部环境中的振动和声音,还是利用社交软件中附近陌生人的搜索功能来定位和追踪特定用户,都是利用智能设备来实现的。与用户的人机信息交互界面前所未有的丰富性和多样性,从而绕过传统的数据安全保护机制获取用户隐私信息。随着智能传感设备的日益普及,通过传感器数据和深度学习模型等交互应用,攻击者可以实现各种攻击。摆在我们面前的研究挑战既有理论的,也有实践的。.希望与社会各界共同保护数据隐私,维护数据安全。04打造保护所有权的数据交易平台在现有技术方案下,数据安全性和可用性往往存在矛盾,两者无法同时实现。例如,机器学习在各类任务中取得了巨大的成功,并广泛应用于各个行业(如高频交易市场、医疗诊断分析等)。然而,模型的训练依赖于大量高质量的训练数据。这表明,数据作为基础战略资源的地位日益凸显,数据安全和数据变现问题亟待解决。如何在安全性和实用性之间找到平衡点,既能保护数据生产者的权益,又能尽可能地挖掘数据中蕴含的巨大价值,需要我们提出一种新的处理和对待数据的方法。我们认为,建立一个高效、可信的数据市场是解决数据安全和隐私问题的可行方案之一。该方案可充分激发数据价值,满足市场多元化需求,推动建立模型数据市场,为机器学习模型交易提供渠道。我们研究团队最近的一项工作致力于挖掘机器学习模型的生产和交易环境中的数据价值。首次明确了数据市场中数据所有者、中间商和模型购买者各自的期望和能力,以及各自的局限性,并制定了一个名为“Dealer”的新数据市场框架。在此框架下,数据所有者与模型购买者之间的补偿问题和中间商的盈利问题得到了有效解决。在数据市场中,合理的补偿分配将极大激发数据所有者参与市场交易的积极性,对于进一步完善和优化数据市场治理具有重要意义。同时,目前的“中间人”框架中有一个非常严格的假设,即中间人必须是绝对可信的,这在现实世界中往往难以保证。为解决这一问题,我们一直与西蒙弗雷泽大学裴健教授密切合作,尝试利用联邦学习技术、差分隐私技术等多种安全技术构建安全可信的数据市场框架。05构建数据安全技术标准,完善相关法律监管在数据安全和隐私保护方面,没有一劳永逸的技术和手段。即使不断加强研究和新技术,也很难从技术层面从根本上解决数据泄露和隐私侵犯问题。比如智能汽车数据规范的使用,很难单纯从技术上解决。国家需要从标准和相关法律法规的制定上界定责任边界,相关审计部门要对事故的各个环节进行责任界定。对此,浙江大学网络安全研究团队牵头制定了ISO/IECPWI7748《基于零知识证明的隐私保护指南与实践》国际标准,并参与了国内首个SDK国家标准《移动互联网应用程序(APP)SDK安全指南》以及IEEE标准P2866.1《Standard for Device Trusted Extension: Software Architecture》、国内首个数字消费券团体标准《数字消费券服务规范》等国际国内相关安全标准制定。通过构建数据安全和隐私保护评价体系,制定安全技术标准和评价标准,建立数据平台和服务安全评价体系,将成为保障数据安全和隐私的有效措施,有效促进全面信息化建设。数据安全和隐私保护能力。推动。更重要的是,通过有效的监管手段,互联网企业可以将法律和监管的权力置于经济利益的追求之上。找到那个微妙的平衡。目前,我国正在加紧制定和出台《数据安全法》《个人信息保护法》,从法律层面为数据安全和个人隐私保护提供法律保障。“通过加快建立数据安全技术标准和相关法律法规综合治理体系,建立数据资源确权、开放、流转、交易等相关制度,进一步完善数据产权保护体系。完善运行机制,提供数据安全和个人保护,为隐私和个人信息保护提供制度保障。