随着人工智能在商业和社会中的使用越来越普遍,企业需要意识到机器模型中出现的人类偏见。企业可以利用人类智能来获取训练其算法所需的各种数据和输入。有一些方法可以避免数据集中的偏差。在训练人工智能(AI)算法时,它取决于数据的输入。在商业环境中尤其如此,人工智能的目的可能是与客户互动、管理自动化系统或模仿人类决策。结果与目标保持一致至关重要。然而,至关重要的是,企业必须能够解决任何可能扭曲AI对指令或请求的响应方式的偏见。任何新产品的设计和开发阶段都至关重要,因为它允许企业运行测试、识别和消除任何缺陷。如果由于某种原因忽略了设计缺陷或产品出现故障,可以快速修复。可以召回有故障的设备,同时可以发布更新和补丁来修复任何软件问题。对于典型的软件构建来说,这一切都很好,但处理人工智能算法并不是那么简单。人工智能算法是高度复杂的系统,旨在基于机器学习(ML)执行非常具体的任务。一旦投入运行,试图从人工智能中消除任何偏见可能既昂贵又耗时;对于“学习”的技术来说,这也是违反直觉的。在设计和开发阶段制定流程以检测和消除偏差会更有效。偏见对企业不利人工智能的基本目的和功能已融入其底层算法中。如果人工智能发展出固有的偏见,就会对算法产生不利影响。这可能会严重影响AI预期提供的准确性和效率,限制AI满足其业务需求的能力,所有这些都对业务不利。尽管开发人员的初衷是好的,但偏见总会找到渗透到AI算法中的方法。与任何学习过程一样,学生会受到老师的影响。认可机构的教育范围取决于其课程。毫不奇怪,课程越多样化,学生就越开明。同样,更大、更多样化的数据集有助于产生更精确、更高效的人工智能算法,从而能够做出更明智的决策。训练数据和测试结果每个成功的AI算法都建立在训练数据的基础上。然而,采购数据以满足业务需求可能会带来重大的后勤和管理费用挑战,尤其是当这些需求包括满足大众市场需求时。内部开发团队、软件工程师和质量保证专家通常来自相同的年龄段、性别和背景。偏差通常发生在数据收集和数据标记过程中。因此,在构建AI算法时,最好不要依赖单个人或团体提供将用于训练算法的数据。为了正确地训练算法,需要不同类型的数据和输入。使用为AI算法提供更接近最终服务客户的人员和体验的模型会更有效。企业可以使用此模型来训练他们的算法以响应现实世界的情况,检测偏差发生的位置并减少其潜在影响。社区构建的算法训练数据的成功获取和实施取决于数据本身的数量、质量和多样性。企业获取和处理这些数据的唯一方法是利用不同的参与者。企业需要能够从为他们提供特定人口统计信息的社区中进行选择,包括性别、种族、母语、位置、技能、地理位置和其他适用的过滤器。事实上,开发有效的算法需要大量数据。大多数企业不具备大规模获取数据的能力。他们需要专用资源的支持来交付新的软件和服务。最近一个为媒体和广播服务培训智能语音助手的项目需要超过100,000种不同的声音。这些话语最终由972个人提供,他们被远程召集起来训练算法。令人难以置信的壮举是,虽然可以在实验室中模拟语音,但AI仍然需要接触各种真实的声音和口音。演讲训练只是教学大纲的一方面。众包解决方案还可以帮助公司训练AI算法来阅读手写文档。最近的另一个项目需要数千个手写样本。数量再次成为关键因素,因为算法需要尽可能广泛的独特样本。远程召集了1000多名参与者,提供手写文档,满足各种内容需求。无偏见的结果重要的是要消除可能降低AI最终结果准确性的意外偏见。它永远不会完美,但AI会不断学习,最好的机器模型是那些基于大量多样化数据集的模型。最好的策略是从提供数量、质量和多样性的池中获取训练数据。没有训练数据的多样性,算法将无法识别广泛的可能性,从而使算法无效。远程社区使企业能够访问这些数据并补充内部开发和测试能力。众包测试可用于训练AI算法以研究和识别语音、文本、图像和生物特征,为企业提供可满足不同客户群需求的强大输出。
