当前位置: 首页 > 科技观察

为什么AI设计必须优先考虑数据隐私

时间:2023-03-12 03:58:13 科技观察

AI是医疗保健、技术和其他领域发展不可或缺的一部分,但人们担心数据隐私将如何受到监管。数据隐私对于获得公众对技术进步的信任至关重要。数据隐私通常与基于消费者数据的人工智能(AI)模型相关联。可以理解,用户对捕获和使用其数据(可能包括敏感信息)的自动化技术持谨慎态度。由于AI模型依赖于数据质量来提供卓越的结果,因此它们的持续存在取决于将隐私保护作为其设计不可或缺的一部分。良好的隐私和数据管理实践不仅仅是解决客户恐惧和担忧的一种方式,而且与企业的核心组织价值观、业务流程和安全管理有很大关系。隐私问题已被广泛研究和宣传,隐私感知调查数据表明,隐私保护是消费者的重要关注点。在上下文中解决这些问题至关重要,对于使用面向消费者的AI的公司而言,有多种方法和技术可以帮助解决通常与AI相关的隐私问题。一些产品和服务需要数据,但它们不需要侵犯任何人的隐私使用人工智能的企业已经面临着关于隐私的公众问题。根据欧洲消费者组织2020年的一项调查,45-60%的欧洲人认为人工智能将导致更多的个人数据滥用。有许多流行的在线服务和产品依赖于大型数据集来学习和改进他们的AI算法。这些数据集中的某些数据可能被认为是隐私的,即使是最不注重隐私的用户也是如此。来自网络、社交媒体页面、手机和其他设备的数据流增加了公司用于训练机器学习系统的信息量。由于一些企业对个人数据的过度使用和管理不善,隐私保护正在成为全球范围内的公共政策问题。我们收集的大部分敏感数据都用于改进支持AI的流程。许多分析的数据也是由机器学习的采用驱动的,因为复杂的算法需要根据这些数据集实时做出决策。搜索算法、语音助手和推荐引擎只是利用基于大量真实用户数据的AI的解决方案中的一小部分。对于可能包含范围广泛的数据的海量数据库,最紧迫的问题之一是这些数据可能是个人身份识别和敏感数据。事实上,教算法做出决定并不取决于知道数据与谁相关。因此,此类产品背后的公司应专注于保持其数据集的私密性,几乎没有办法在源数据中识别用户,并制定措施从其算法中删除边缘案例,以避免逆向工程和识别。数据隐私与人工智能之间的关系微妙。虽然某些算法可能不可避免地需要私人数据,但有一些方法可以以更安全和非侵入性的方式使用它。以下方法只是使用私有数据的公司可以成为解决方案一部分的一些方式。设计具有隐私的AI我们已经讨论了逆向工程的问题,不良行为者在其中发现AI模型中的漏洞并从模型的输出中识别潜在的关键信息。逆向工程是为什么面对这一挑战改变和改进数据库和学习数据对人工智能的使用至关重要。例如,在机器学习过程(对抗性学习)中组合相互冲突的数据集是区分AI算法输出中的缺陷和偏差的良好候选者。也有使用不使用实际个人数据的合成数据集的选项,但它们的有效性仍然值得怀疑。医疗保健是人工智能和数据隐私治理的先驱,尤其是在处理敏感的私人数据时。它还在同意方面做了很多工作,包括医疗程序和数据处理——风险很高,而且是合法执行的。对于人工智能产品和算法的整体设计,通过匿名化和聚合将用户数据解耦是任何使用用户数据训练其人工智能模型的企业的关键。有很多考虑可以加强AI公司的隐私保护:隐私在心:将隐私保护放在开发人员的雷达上,并想方设法有效地加强安全性。匿名化和聚合数据集,删除所有个人标识符和唯一数据点。严格控制公司中谁有权访问特定数据集,并持续审核这些数据的访问方式,因为这一直是过去一些数据泄露背后的原因。更多数据并不总是最好的解决方案。使用最少的数据测试您的算法,以了解您需要收集和处理的最少数据量才能使您的用例可行。应用户的要求,必须提供一种简化的方法来消除个人数据。只对用户数据进行伪匿名处理的公司应该不断地使用最新数据重新训练他们的模型。利用强大的去标识化策略,例如,使用完全匿名的聚合和合成数据集、用于算法训练、审计、质量保证等的不可逆标识符。通过重新思考从第三方获取和使用关键信息的方式来保护用户的自主权和隐私——审查数据源并仅使用那些在用户明确和知情同意的情况下收集数据的数据源。考虑风险:攻击是否有可能从您的AI系统的输出中损害用户隐私?数据隐私和人工智能的未来是什么?人工智能系统需要大量数据,如果没有用于训练人工智能算法的个人数据,一些顶级在线服务和产品将无法运行。然而,有许多方法可以改进数据的获取、管理和使用,包括算法本身和整体数据管理。尊重隐私的人工智能需要尊重隐私的公司。作者:EinarasvonGravrock,CUJOAI首席执行官兼创始人