当前位置: 首页 > 科技赋能

OpenAI、蚂蚁集团、谷歌、科大讯飞等联合编制大模型安全国际标准,已正式发布

时间:2024-05-19 17:03:44 科技赋能

4月15日至19日,第27届联合国科技大会在瑞士日内瓦举行。

16日,在主题为“塑造人工智能的未来”的人工智能边会上,世界数字技术研究所(WDTA)发布了一系列突破性成果,其中包括两项国际标准《生成式人工智能应用安全测试标准》和《大语言模型安全测试方法》。

这是国际组织首次发布大模型安全领域的国际标准,代表了全球人工智能安全评估和测试的新标杆。

据了解,这两项国际标准由OpenAI、蚂蚁集团、科大讯飞、谷歌、微软、英伟达、百度、腾讯等数十家单位的多名专家学者共同编写。

其中,《大语言模型安全测试方法》由蚂蚁集团领衔。

图片:WDTA发布大型模型安全国际标准。

OpenAI、蚂蚁集团、科大讯飞等参与了WDTA人工智能安全、值得信赖和负责任的工作组。

组长和黄连金表示,随着人工智能系统的发展,特别是大型语言模型不断成为社会各方面不可或缺的一部分,一个全面的标准来解决其安全挑战变得至关重要。

此次发布的标准汇聚了专家在全球人工智能安全领域的智慧,填补了大语言模型和生成式人工智能应用安全测试领域的空白,为业界提供了统一的测试框架和明确的测试方法,助力人工智能的进步系统安全,推动人工智能技术负责任发展,增强公众信任。

世界数字技术研究所(WDTA)是在日内瓦注册的国际非政府组织。

它遵循联合国指导框架,致力于在全球范围内推广数字技术,促进国际合作。

AI STR(安全、可信、负责)计划是WDTA确保人工智能系统安全、可信和问责的核心举措。

蚂蚁集团、华为、科大讯飞、国际数据空间协会(IDSA)、弗劳恩霍夫研究所、中国电子等均为其会员。

近年来,世界各国加强了对大型模型安全性的研究和控制。

我国先后发布《全球人工智能治理倡议》《生成式人工智能服务管理暂行办法》《生成式人工智能服务安全基本要求》等,旨在推动生成式人工智能安全可信发展,推动全球人工智能治理领域合作共识。

信息显示,此次发布的两项国际标准分别是大型模型和生成式人工智能应用的安全测试标准。

其中,《生成式人工智能应用安全测试标准》以WDTA为首。

该标准提供了一个框架,用于测试和验证生成式人工智能应用程序的安全性,特别是那些使用大型语言模型(LLM)构建的应用程序。

它定义了人工智能应用架构各层的测试和验证范围,包括基础模型选择、嵌入和向量数据库、RAG或检索增强生成、AI应用运行时安全等,确保AI应用的各个方面都经过验证。

严格的安全和合规性评估,以在整个生命周期内防范威胁和漏洞。

《大语言模型安全测试方法》蚂蚁集团为牵头单位。

该标准为大型模型本身的安全评估提供了全面、严谨、实用的结构性解决方案。

提出了大语言模型的安全风险分类、攻击分类和测试方法,并率先给出了四种不同攻击强度的攻击方法分类标准。

它提供了严格的评估指标和测试程序等,可以解决大规模问题。

语言模型固有的复杂性,全面测试其抵御对抗性攻击的能力,使开发人员和组织能够识别和减轻潜在的漏洞,最终提高使用大型语言模型构建的人工智能系统的安全性和可靠性。

图:蚂蚁集团王伟强作为标准参与单位代表在会上发言。

蚂蚁集团机器智能部总经理、蚂蚁安全实验室首席科学家王伟强作为标准参与单位代表受邀出席会议并讲话。

他表示,生成式人工智能将释放巨大的生产力,但我们也必须高度警惕它带来的新风险。

大型科技公司应该在促进生成人工智能的安全和负责任的发展方面发挥关键作用,利用其资源、专业知识和影响力来推动最佳实践,并建立一个优先考虑安全、隐私和道德考虑的生态系统。

例如,通过制定行业标准和指南,为开发和部署生成式人工智能系统的开发者和机构提供明确的指导;投入研发和开放工具,确保生成人工智能的安全,形成行业共治。

公开信息显示,蚂蚁集团自2006年起积极投入可信人工智能技术研究,目前已建立起大模型综合安全治理体系。

蚂蚁集团还自主研发了业界首个集成大模型安全解决方案“蚂蚁天剑”,用于AIGC安全性与真实性评估、大模型智能风控、AI鲁棒性与可解释性测试等。

时光基于“倚天剑”人工智能安全检测系统的应用实践,通过与全球生态伙伴交流整理而成。

此外,蚂蚁集团还在公司内部设立了技术伦理委员会和专门团队,以评估和管理生成式人工智能的风险。

公司所有人工智能产品必须通过技术伦理评价机制,确保人工智能安全可信。