当前位置: 首页 > 科技观察

美国劳工统计局利用机器学习自动进行数据编码

时间:2023-03-21 01:17:25 科技观察

政府机构总是充斥着各种文件,其中很多是纸质文件;即使是电子文件,实际的处理和解读仍然需要大量的人力。为此,联邦机构寄希望于人工智能技术,利用先进的机器学习、神经网络和自然语言处理(NLP)技术,帮助提高此类文件的处理效率,尽可能释放宝贵的人力资源.虽然其中许多技术在其他行业已经很成熟,并且已经扩展到增强各种工作流程和任务,但在一些政府部门中,它们是全新的。以美国劳工统计局(BLS)为例。该机构的主要职责是进行职业伤害和疾病调查,以确保各种工作场所存在常见的健康危害,并协助制定指导政策。为完成这项任务,劳工局在全国各地的办公室拥有数十名训练有素的员工,致力于根据工作场所调查数据对伤害和疾病进行分类。然而,这方面的工作一直由人工执行,导致各种标记、编码错误,甚至速度和成本瓶颈,阻碍了整个流程的效率。▲图片:美国劳工统计局经济学家AlexMeasure为了简化整个流程,劳工局决定引入机器学习技术。大约十年前,劳工局经济学家AlexMeasure决定探索机器学习(ML)技术如何帮助该机构提高流程效率,他本人与我们分享了在劳工局和整个联邦政府中采用AI技术的独特潜力.挑战,各个机构在应用AI过程中面临的数据挑战,加上他未来几年最期待的重要发现。在本文中,我们将听到他将机器学习应用于政府业务场景的宝贵见解,尤其是在文档和人工流程中。问:劳工局在数据收集和处理方面面临哪些特殊挑战?AlexMeasure:劳工局需要收集很多方向的话题性信息,包括就业、劳动力成本、工作时间、工伤风险等。在调查中,跨领域的唯一共同点是调查结果通常以自然语言的形式出现。在信息收集过程中,无论是采用访谈、调查还是其他方式,收集到的内容大多以语言的形式传达。为此,我们需要将语言转化为统计数据,也就是我们常说的编码过程。在此过程中,我们需要分配标准化的分类指标来指示值得关注的关键特征。例如,《职业伤害与疾病调查》每年收集数十万份工伤和疾病调查。回答诸如“看门人在工作中受伤的最常见原因是什么?”等问题。我们需要仔细阅读每个描述并将对方的职业编码为造成伤害的因素。接下来,我们汇总结果信息以回答实际问题。直到最近,整个过程还是乏味的,而且主要是手动的。在职业伤害和疾病调查中,我们每年需要大约25,000个工作小时。想要尽快完成工作意味着雇佣更多的人,同时培训更多的新员工,并确保他们能够以一致的方式解释内容。这是相当困难的,事实上我们发现,即使是两位同样经验丰富的专家,在编写相同的伤害描述材料时,也只有大约70%的机会对相同的材料给出完全相同的伤害编码分类。这些挑战不仅存在于劳工局内部,也存在于世界各地从事类似任务的范围广泛的组织中。问:那么该局如何使用机器学习技术来解决这些问题?AlexMeasure:七年前,劳动局完成了《职业伤害与疾病调查》的所有编码工作。在过去的一年里,我们使用有监督的机器学习,特别是深度神经网络,将超过85%的处理任务自动化。劳工局随后开始使用这些技术来解决其他相关任务,从职业/生产分类到医疗福利和工作要求。问:多年来,劳动局对人工智能技术的看法和应用有哪些变化?AlexMeasure:我大约12年前加入了劳工部,当时人们仍然主要使用知识工程或基于规则的方法对材料进行编码。基本思想是,如果你想让计算机做某事,你需要明确地告诉它它需要做这件事的每条规则和信息。例如,如果您要对职业进行分类,您可能想要创建一个包含所有可能的职位名称及其相应职业代码的列表。这种方法适用于简单和标准化的任务,但不幸的是,即使在工作分类等相当具体的应用领域,该系统也几乎无法直接处理人类语言。比如在《职业伤害与疾病调查》,我们发现每年收到的职位中,大约有2000个被系统直接映射到“管理员”。更糟糕的是,数据中总会出现以前从未出现过的新职位,有些职位与行业密切相关,这取决于特定公司的命名惯例或行业中使用的传统术语。结果就是我们需要制定体量大、规则复杂的规则,而这一切最终只能支持840多个职业分类。更何况,这个系统的建设和维护难度极大。监督机器学习提供了另一种选择——我们现在可以引导它从数据中学习,让它自己找到执行某些任务的最佳方式,而不是准确地告诉计算机它需要知道什么和做什么来执行任务。只要每个人都有大规模的数据资料(多年来,我们积累了可观的数据资源),那么往往只需要少量的人工输入就可以构建出高效的系统。在我们的案例中,劳工局在短短几周内使用免费和开源软件构建了我们的第一个机器学习系统,并发现它的性能远远优于我们长期以来使用的昂贵的基于规则的解决方案。更令人惊讶的是,它的表现甚至超过了我们的编码员。机器学习方法也为自动化带来了比传统解决方案更大的空间。今天,该办公室和世界各地的统计机构已经在类似任务中迅速推广该技术。当然,机器学习在其他领域也有不俗的表现。我们正在使用机器学习技术来自动检测数据错误并自动匹配和标记数据集中缺失的记录。这对我们意义重大,因为它可以帮助办公室从越来越多的不同来源收集大量数据。Q:AI/ML技术的介入对原码员有什么影响?AlexMeasure:最初考虑引入自动化解决方案时,人们普遍担心许多员工抵制自动化并将其视为一种威胁。但实际情况并非如此。我想这是我们采取的具体实施方式,是统筹兼顾的。首先,我们很早就决定将自动化重点放在提高数据质量上。这一点非常重要,因为除了数据质量本身,它还代表了一种非常新颖的做事方式,要求我们确保编码过程正确执行,并及时启动预先制定的可靠备份计划当出现问题时。我们的计划基本上是这样的:首先,把计算机最擅长的工作自动化,把人类最擅长的工作交给员工。二是逐步引入自动化机制,确保员工有时间适应工作量和工作方式的变化。第三,员工负责监督自动分配的代码,如果他们认为计算机有错误,则指派人员进行调整。第四,将节省的资源用于其他重要任务,例如数据收集和数据审查。因此,在接下来的六年里,越来越多的常规编码工作逐渐被更快更好的数据审查和收集自动化解决方案所取代。它还有一个令人惊讶的结果,即虽然我们对传统手工编码的需求大大减少,但我们仍然依赖人类专家来处理模型无法处理的困难情况。因此,自动化程度越高,能够处理的总数据量就越大,需要人工干预的数据也就越多。因此,负责人工调整和验证机器学习系统是否正常工作的员工人数有所增加。Q:能否分享一下人工智能技术在劳动局应用场景中发现的一些有趣或意想不到的见解?AlexMeasure:就个人而言,我认为这里有两个令人印象深刻的惊喜。首先是免费和开源软件的存在,这使得构建机器学习系统变得如此容易,这些系统实际上比我们过去使用的昂贵的、基于规则的方法要好得多。第二点是这样的系统在分配代码方面比训练有素的人类编码员更准确。这一切,在当初都是不可想象的。事实上,这样优秀的效果,整个劳动局都用了一段时间才适应,结果也确实很稳定。平均而言,自推出以来,我们的机器学习系统在编码准确性方面一直优于人类员工,随着数据的涌入和随后的培训,两者之间的差距越来越大。它还驱使我们逐渐转向更强大的机器学习算法——比如深度神经网络。问:我们在数据使用方面面临哪些独特的挑战?这些挑战是否会成为政府机构使用人工智能技术的障碍?AlexMeasure:最大的挑战之一是数据保密性。机器学习需要大量的数据,政府机构拥有丰富的有用数据,但不能自由公开使用——这无疑限制了机构使用机器学习技术的具体方式。例如,当我们第一次尝试使用深度神经网络时,我们不能直接使用云资源,因为现有政策禁止这样做。这就带来了一个大问题,因为劳动局本身显然没有足够的硬件来训练我们需要的那种神经网络模型。最终,我们通过内部购买和安装必要的硬件解决了这个问题,但其他很多机构可能无法跨过这个门槛。另一个重要的挑战是模型共享。当劳工局开发出一种可以自动将职业或伤害分类为标准化类别的机器学习模型时,这一成果不仅将为该局本身服务,而且对处理类似任务的其他联邦机构也具有深远的影响,甚至可以提供外部研究.机构和研究人员带来了很大的帮助。由于我们掌握了大量的相关数据,劳工局等政府机构在训练这些类型的模型方面处于独特的地位。然而,研究表明,此类模型可能会在不经意间泄露训练过程中使用的数据信息,这就需要我们谨慎对待模型共享。最近的其他研究表明,某些技术有望减轻这些风险,劳工局已开始探索这些技术,但这仍然是一项艰巨的挑战。问:从更广泛的角度来看,联邦政府的哪些领域有望在人工智能技术的推动下显着提高效率?AlexMeasure:我在政府机构工作了很长时间,在我看来,几乎每个联邦机构都有可能使用有监督的机器学习技术来自动化相当一部分日常任务。统计机构是最典型的例子,其主要工作内容是语言编码和分类。越来越多的统计机构已经在使用类似的技术来自动检测错误并匹配来自不同数据集的记录。问:联邦机构可以采取哪些措施来吸引具有技术创新能力的高技能劳动力?AlexMeasure:我认为联邦机构吸引人才的最佳方式是强调使命感和荣誉感。联邦机构倾向于关注那些最重要的任务,如果成功,将造福整个国家,这对具有强烈公民意识的人才极具吸引力。毕竟,有意义的项目不是那么容易得来的。我还想强调,外部招聘并不是吸引熟练劳动力的唯一途径。该局的许多编码项目和随后的机器学习工作并不依赖外部人工智能专家,而是依赖受过培训并对自动化技术感兴趣的内部员工。当然,Coursera等免费在线教育资源也在这一时期发挥了重要作用。该办公室之所以能够走这条路,是因为工作人员已经在统计领域拥有丰富的经验。可以肯定的是,成功的机器学习项目需要同时强调技术方面和专业知识的积累。政府雇员对这个职业的理解非常深刻,互联网上有大量免费资源可以建立技术基础,两者和谐统一。Q:展望未来几年,您最期待哪些AI技术成果?AlexMeasure:我的工作在很大程度上依赖于有监督的机器学习,这仍然有一个很大的局限性。我们需要丰富的训练数据才能获得良好的性能。我们这里说的不是少量的数据,而是海量的数据集合,远远超出了普通人需要学习的范围。在大多数情况下,我们需要为模型提供数百或数千个训练数据示例,然后它才能掌握相关概念。这是一个巨大的障碍,因为大多数应用场景不提供如此丰富的数据。在过去的几年里,研究人员在这个领域取得了巨大的进步。这种进步主要来自两个方面:一是迁移学习,将在一个任务中学到的知识迁移到另一个任务中,有时也称为自监督学习。这基本上是将监督学习技术应用于未标记的数据。最近,一个流行的自监督语言任务开始受到关注,即先收集大量文本,然后对其中的一些小子集重复采样,隐藏样本中的一些词,训练模型进行预测根据上下文缺失的片段。正确完成此操作后,我们可以获得对语言有深刻理解的模型,而无需任何明确的标签。然后,我们可以通过迁移学习将这种技术应用于针对不同语言处理任务的模型,例如预测伤害分类。如果一切顺利,它可以显着减少任务自动化所需的训练数据总量。这无疑为许多目前由于缺乏训练数据而无法自动化的应用场景打开了机器学习的大门。我们关注的另一个重要领域是差分隐私,它在人工智能内外都有应用。最近的进展带来了一种新机制,该机制可以共享机器学习模型,同时为底层训练数据提供严格的隐私保护。这一领域的进步有望加快可信数据收集者之间的自动化结果(例如训练有素的机器学习模型和统计估计)的流动,同时提高基础数据的机密性级别。