当前位置: 首页 > 科技观察

如何保证数据和人工智能的完整性?

时间:2023-03-18 20:25:06 科技观察

2022年,数据和人工智能正在为数字革命的新篇章奠定基础,并为越来越多的全球公司提供动力。那么,公司如何确保问责制和道德是这些革命性技术的核心?1.定义数据和AI责任注释者和数据标记者之间缺乏多样化的样本是造成AI偏见的最大因素之一。VentureBeat数据峰会的小组成员、东北大学Khoury计算机科学学院CitizenAI实验室的助理教授兼主任SaiphSavage说,负责任的AI需要从包容性的基础工作开始。“要考虑的关键是你需要不同类型的劳动力来为其标记数据。”Savage在VentureBeat的数据峰会上表示,假设工人只来自纽约,那么与来自农村地区的工人是一样的。不同的。这取决于工人不同类型的经历和不同类型的偏见。据业内专家介绍,目前大量投入生产的AI模型都需要经过标注、标注的数据进行学习,以增强AI的智能,最终提升机器的整体能力。能够支持这一点的技术是复杂的,包括自然语言处理(NLP)、计算机视觉和情感分析等,而这些技术的复杂性将决定训练人工智能的误差范围。研究表明,即使是著名的NLP语言模型也包含种族、宗教、性别和职业偏见。同样,研究人员记录的计算机视觉算法存在偏见的证据表明,这些模型会自动从对人群(按种族、性别、体重等)形成刻板印象的在线数据中学习偏见,甚至情绪分析模型也面临着同样的OlgaMegorskaya,数据峰会小组成员和全球数据标签平台TolokaAI的首席执行官认为,负责任的AI很重要,但是,只有在可操作的情况下它才会起作用。面向企业,负责任的人工智能需要随时监控部署在生产中的模型质量和人工智能决策的来源。用户需要了解模型训练数据,并根据模型运行的上下文不断更新。因此,负责任的人工智能意味着负责任地对待训练人工智能模型背后的参与者,这也是现阶段许多研究人员和大学密切合作的地方。2.可解释性和透明度如果负责任的人工智能是可操作的,那么人工智能背后的可解释性和透明度与信息的情感一样重要,这将取决于处理数据的注释者和标签者,以及使用服务的企业客户像托洛卡。自2014年上线以来,Toloka就将自己定位为众包平台和微任务处理项目,即在全球范围内寻找不同的个体,对大量数据进行快速标注,然后用于机器学习和改进的搜索算法。在过去八年中,Toloka不断扩大,现阶段该项目拥有超过200,000名用户,他们对来自全球100多个国家的数据进行注释和标记。同时,Toloka还开发了一些工具来帮助检测数据集和工具中的偏差,这些工具可以针对可能影响请求公司界面、项目或与标记项目相关的工具的问题提供快速反馈。此外,Toloka与Savage工作的东北大学Khoury计算机科学学院CivicAI实验室的研究人员密切合作。Megorskaya表示,人工智能和数据标签市场的公司应该努力提高透明度和可解释性,这将“符合工人的利益和企业的利益,使每个人都能从中受益的双赢局面一起成长。”’”Megorskaya建议企业在以下方面保持一致,以确保内部和外部的透明度和可解释性:1.不断调整AI训练数据,以使用反映当前现实生活情况的数据。2.测量模型质量并使用此信息构建模型质量指标以跟踪随时间的改进。3.保持灵活性,并将透明度视为数据标记者在注释时应遵循的可见性标准。4.使反馈易于访问和优先排序。例如,Toloka的平台为执行工作的贴标人员提供了可用任务的可见性和指导,确保了贴标人员和公司之间直接和快速的反馈循环。如果标签规则或指南需要调整,可以在短时间内更改。反过来,该标准为标记团队提供了空间,使他们能够以更加一致、准确和更新的方式处理其余的数据标记过程,从而为以人为本的方法解决可能的偏差留出空间。3.将“人性”推向创新的前沿Megorskaya和Savage都表示,将标记和训练AI模型外包的公司通常选择不与实际标记数据的个人进行交互。因此,公司决定将数据标记和注释任务留给第三方或外包给他们,这将在AI本身的负责任发展中造成裂痕。Toloka认为,消除AI生产空间中的偏见并打破系统断开的循环可以使AI和机器学习更具包容性和代表性。他们希望为这一变化铺平道路,并让开发工程师要求公司与数据标签制造商面对面交流。通过这种方式,它可以了解其数据和人工智能的用户多样性。当公司技术影响真实人物、地点和社区的可见性时,工程最终会造成差距,而缩小差距将为团队创造更有利的发展。Megorskaya说:“在现代世界中,可以根据一小群预先选定的人收集的一些数据来训练无效的AI模型,这些人一生都在做这种注释。”现在,Toloka正在构建数据表来显示员工可能存在的偏见。Savage解释说:“当你做数据标签时,这些工作表会显示员工拥有的背景类型以及他们可能缺少的背景等信息,”这对开发人员和研究人员特别有帮助,这样他们就可以做出决定,获得背景和观点在下一次运行中可能会丢失,并使模型更具包容性。在每个数据集和模型中包含无数的种族、背景和经验似乎是一项艰巨的任务。但在这方面,Savage和Megorskaya强调,公司、研究人员和开发人员增强公平和负责任的人工智能的最重要方式是让尽可能多的关键利益相关者参与进来,因为纠正偏见是一项比这项工作更困难的任务。“人工智能很难做到绝对负责任和合乎道德,但尽可能接近那个目标很重要。”Megorskaya说,需要有尽可能广泛和包容的代表,以便为工程师提供工具来负责任和有效地构建人工智能。最好的工具。