当前位置: 首页 > 科技观察

如何利用人工智能和自动化大规模识别敏感数据

时间:2023-03-18 17:07:17 科技观察

如何使用人工智能和自动化来识别大规模的敏感数据分析和阐述了大规模识别的敏感数据和自动化技术。当企业试图解决漏洞和勒索软件攻击时,他们往往会忽视隐藏在数据中的敏感信息。主要原因是什么?Agarwal:理想情况下,企业应该能够控制敏感信息在他们拥有的数据中的位置。一般来说,企业会长期保留他们收集的信息,即使这些信息对他们没有实际用处。我认为这归结为更广泛的数据治理问题。如果没有一定程度的自动化,就不可能拥有强大的数据治理。例如,企业产生的数据量呈指数级增长,依靠人力资源评估所有隐藏在其数据库中的未被发现的敏感信息,而且往往需要处理非结构化格式的数据,因此无法大规模工作.数据泄露和勒索软件攻击的数量将继续增加,但企业可以使用AI技术做出响应,使他们能够主动识别大规模的敏感数据和个人数据。一旦识别出这些数据,他们就可以选择编辑、删除、加密或采取任何必要的措施来保护它,以免它落入坏人之手。非结构化数据如何构成风险以及可以采取什么措施?Agarwal:超过80%的企业数据是非结构化的——其庞大的攻击面使其很容易成为网络攻击者的目标。其次,这种非结构化数据充满了各种类型的敏感信息:商业秘密、个人信息、健康信息、知识产权等;例如,没有人可以建立包含商业秘密的结构化数据库,这些商业秘密更可能分散在电子电子邮件、聊天记录、Excel电子表格和其他形式的非结构化数据中。非结构化数据带来的挑战是数据量巨大,从中寻找敏感信息犹如大海捞针,因此需要可扩展的机器学习技术。自动化是唯一的出路还是人为因素仍然有价值?Agarwal:我认为数据的增长速度显然快于人口增长速度。没有足够的人力,就没有足够的能力来处理任务的数量和复杂性。我认为同样重要的是要注意人工智能技术或机器人不仅仅是通过按下按钮来自动完成这些任务,它们确实需要人类的帮助。而这项工作不能仅靠机器或人类来完成。您能解释一下AI如何识别和保护敏感信息吗?Agarwal:人工智能不会保护敏感信息,但它会识别。一旦识别出敏感信息,企业就可以采取措施通过删除、编辑、加密或更改对其的访问控制来保护它。挑战在于识别本身。在识别方面,如今使用的是过时的方法和技术,例如RegEx和搜索词。除了速度慢且可扩展性差之外,这些劳动密集型方法还会产生不准确的结果。但并非每个9位数字都是社会安全号码(SSN)。另一方面,人工智能系统可以查看信息所在的上下文,以更准确地确定它是否敏感。例如电子邮件。在分析电子邮件中的敏感信息时,AI能够考虑一些场景,例如编写邮件的人、收到邮件的人以及被复制到电子邮件链中的人之间的关系网络,以确定某些电子邮件是否敏感。理论上,人类可以评估和衡量所有这些场景,但没有足够的人去做;此外,虽然人类不擅长计算任务,但他们更擅长抽象思维。企业如何保护数据可能对其整体业务和声誉产生重大影响。您认为他们对此的理解程度如何?你认为应该改进什么?Agarwal:许多企业都非常清楚数据泄露对其整体业务和声誉的成本和影响。没有企业认为它完全不受数据泄露的影响。公司董事会成员了解这一点很重要。这是可以改进的地方。许多企业长期以来一直依赖数据丢失防护、搜索词和人工审查。他们确实需要转向并利用人工智能等新技术。