当前位置: 首页 > 科技观察

AI入门必须问的10个问题

时间:2023-03-13 03:12:49 科技观察

人工智能(AI)和机器学习(ML)技术正在颠覆世界上几乎每一个行业,AI技术不仅应用于机器人和车辆自动化,还应用于在财务上。服务、零售、制造、健康和生命科学等行业的组织也在通过人工智能(AI)和机器学习(ML)产生的洞察力推动业务发展。许多数字领导者也在关注这些新兴技术:根据研究公司IDG的2019年数字业务研究,大型组织计划平均花费1530万美元用于数字计划,其中包括人工智能(AI)和机器学习(ML)名列前茅。尽管对技术充满热情,但人工智能(AI)和机器学习(ML)项目的失败率一直在50%到85%之间。这些失败的原因包括:没有提前计划,没有得到高管或业务领导的支持,或者没有找到合适的团队来执行项目。在没有适当策略的情况下追逐热门技术趋势通常会使组织走上失败之路。幸运的是,许多组织从这些失败中吸取了教训,可以更好地规划他们的下一个人工智能(AI)或机器学习(ML)项目。以下是AI团队在开始新的AI项目时应该问自己的10个问题:1.是否明确定义了目标并确定了正确的问题?对于要实现的目标没有明确的愿景。此外,他们对在实现目标的过程中应采取的必要步骤没有适当的认识。WekaIO的首席技术官ShimonBenDavid说:“很多公司的出发点是‘我们知道AI会改变游戏规则,所以让我们看看我们能用它做什么’”,该公司提供并行文件系统来帮助解决存储问题,就像那些踏上人工智能之旅的公司。就像准备到达目的地的探险家一样,组织项目负责人需要确定最终目标,然后提供一张地图,其中包含在旅程的每一步要遵循的具体方向。对于AI项目,需要确定具体结果,然后通过提问和回答来指导,以帮助实现目标并实现预期结果。这里的关键是建立一个有能力提出和回答这些问题的优秀人工智能团队。团队成员可能包括软件工程师、业务主管、主题专家,甚至客户。例如,假设一家金融机构的最终目标是通过提高利润率来产生更多收入。第一个要问的问题是,“如何使用人工智能来做到这一点”,解决方案之一是考虑使用人工智能来帮助降低贷款违约率,从而获得更好的投资回报。那么,谁可以提出正确的问题来识别违约风险最高的客户呢?在这种情况下,金融机构的团队成员和个人客户将是提出问题和收集数据的最佳人选,因为他们是最接近数据来源的人——客户。一个组织的团队需要了解客户面临的问题并经常与他们互动,他们经常会听到延迟付款的原因,这可能会危及贷款情况,有时甚至会导致违约。对于好的客户,金融机构可以提供激励措施,例如降低利率。对于高风险客户,金融机构可以提供程序和监控措施,以确保他们保持定期付款或将他们排除在高风险类别之外。重要的是要记住,随着收集到更多数据,组织为实现其最终目标而提出的问题可能会发生变化和演变。如果选择了正确的目标,那么它应该保持不变,但是当组织遇到问题和障碍时,实现目标的步骤可能会改变。如果没有确定正确的目标,提出问题可能会让组织清楚这一点,以便它可以朝着正确的方向前进。BenDavid说:“组织需要不断地提出问题,这些问题可能会随着项目的进展而改变,但组织必须在一开始就对这些问题做出初步的回应。”2.实现目标或解决问题需要什么数据?在AI项目团队确定AI可以实现什么或可以解决特定问题后,组织团队将继续提出问题,以确定实现目标或解决特定问题所需的数据或变量。就这家金融机构而言,在识别出高风险类别的贷款客户后,其团队朝着该目标迈出了第一步。需要记住的是,目标不仅是识别违约风险较高的客户,还要防止他们违约,从而提高利润率。为了进入下一步,研究团队提出了更多问题:高风险类别中的每个客户是否都面临着阻止他们偿还贷款的相同情况?如果不是,团队如何识别和分类对不同形式帮助的需求?实现客户及时付款?有哪些补救措施可以帮助这些客户并防止他们违约?这就是数据真正发挥作用的地方。金融机构拥有客户姓名、个人信息、银行信息、社交媒体帖子、图像、视频和其他用于回答问题的记录。虽然存在大量数据,但并非所有数据都是必需的。另一方面,一些信息可能会丢失。事实上,大多数组织开始他们的AI项目时都认为他们有足够的数据来回答这个问题,但很大一部分数据已经丢失,或者他们拥有的数据对回答问题没有用。BenDavid表示,在他的经历中,他从未遇到过收集过多数据的公司。“也许我有银行记录,但他们没有信用评分。也许我的社交媒体上没有他们发布的相关主题标签来帮助我了解他们的财务状况。了解数据中的内容很重要,”本大卫说。有时,组织必须用自己的数据填充缺失的内容。用于提取数据集的工具将根据需要收集的数据类型而有所不同。例如,GoogleAnalytics提供网站访问者数据和指标,但您也可以通过Hubspot、Salesforce或许多其他服务拥有客户或联系人数据库。但要记住的是:保留一切!组织往往会获取大量数据,在创建人工智能或机器学习模型时将其提取出来,然后将原始数据存储在永远无法访问的某个地方,或者更糟的是,删除未使用的数据。当稍后重新评估需要再次使用原始数据的特定模型时,数据可能很重要。例如,犯罪专家使用DNA技术和方法来帮助验证嫌疑人在数年或数十年前犯罪的事实。由于在这些案件中需要存储和保存证据,犯罪专家可以重新分析犯罪线索。同样的原则也适用于人工智能:人们可能认为他们现在不需要所有收集到的数据,但多年后,更好的算法或新技术的进步可能会将一些看似无用的数据变成高度相关的证据(例如头发DNA采样)。3.如果数据不存在,从哪里获得?如果组织发现自己需要更多数据,下一步就是确定从何处获取所需数据。组织是否生成数据、购买或租用数据?例如,从事涉及遗传学的AI项目的医疗公司需要查看公共基因组数据库中的数据,但可能会发现他们没有特定AI模型所需的数据,在这种情况下,他们可能需要进行试验。或者他们可能只需要图??像中的一段数据,而不是查看完整的标记数据集。“组织需要确保他们知道他们将从哪里获取数据,但也要明白这可能会随着时间的推移而改变,”BenDavid说。收集用于跟踪作物生长或土壤湿度的数据。即使农民收集了一个月的数据,条件也会不断变化(天气、作物生长、野生动植物等),因此数据收集永远不会完成。因此,数据收集不是一劳永逸的事情。BenDavid说,“你需要提前计划何时何地获取下一批数据,并采取措施获取它,通常与其他工作同时进行。”4.组织的计算策略是什么:本地、云还是混合?人工智能项目遇到的一个主要问题是让它在与组织的整体数字计算战略不一致的计算平台上运行。组织需要了解当前和未来的计划可以帮助AI团队正确规划最佳方法来处理用于AI或机器学习模型的平台。BenDavid说,“如果你想用最有效的方式来适应你的组织的战略。这可能是因为组织已经大量投资于具有多个GPU的本地环境,这是组织成功的最快途径。”人工智能和机器学习项目可以通过本地、云或混合平台取得成功,因为它们符合组织的总体战略,并且不会与未来的变化或修改相冲突。主要在云中运营的中小型组织可能会发现,随着规模的扩大,运营成本会变得更高,因此迁移到本地环境更有意义。5.数据迁移和存储的计划是什么?许多组织发现他们在使用AI模型时没有存储和移动数据的计划。想象一家业务部门遍布全球的跨国公司,在全球多个地点生成数PB的数据。那么是在创建数据的地方进行处理,还是以某种方式在世界各地的站点之间传输数PB的数据?这是AI项目有时未能考虑的关键事项之一。另一种选择是将数据集中在一个数据中心,但传输数据可能需要压缩数据或物理传输数据,而不是通过云平台传输数据,这是非常昂贵的。此外,确保数据安全是一个主要问题,因为某些数据由于当地法规而无法传输。最后,当数据到达AI处理站点时,可能会发现它已经过时了。“每个组织都有不同的答案,”本大卫说。“但如果你在项目开始时不考虑它,你很可能会遇到问题。”此外,组织需要考虑保留数据以备将来使用的策略。在许多情况下,组织经常进行实验以生成数据。这些实验数据需要保存、存储和保护,但也需要在需要时提供快速检索。如上所述,保留的数据集包括原始数据,这些数据在当时可能看起来无关紧要,但随着AI模型的发展和分析能力的发展,以后可能会有用。BenDavid强调,组织不应删除或忽略原始数据。6.您将如何消除和验证模型结果?收集并存储数据后,您需要确保知道如何验证AI或ML模型生成的结果。一种方法是运行已知数据集并审查结果,以确保组织对预期结果有更高的准确性。例如,如果一个组织的AI算法正在识别一批照片并确定哪些包含苹果图像,哪些包含橙子图像,那么它的模型能否准确识别出正确的水果?BenDavid说,人类通常可以很简单地做到这一点。答案,但当数据集包含成百上千张图像时,人工智能的能力无法很好地扩展。在这种情况下,人工智能专家通常会通过模拟器进行验证,这使得人工智能模型可以在更大范围内得到验证。此外,验证结果是确定AI是否在模型中内置了固有偏差的重要步骤。例如,当Amazon.comInc.的简历筛选应用程序没有以性别中立的方式对软件开发人员职位和其他技术职位的申请人进行评级时。这是因为经过训练的模型根据10年期间提交的简历模式来选择候选人,其中大部分来自男性申请人(男性在软件开发领域占主导地位)。在评估AI模型时,您需要确保有适当的策略来检测和消除偏差,否则最终结果可能会失真并影响项目的可信度。7.模型多久微调一次?由于大部分AI和机器学习都是基于软件的,因此开发人员通常采取“设置后忘记”的方法,这对AI技术来说可能是灾难性的。微调不仅包括准备定期更改模型,还包括了解从业者如何更改模型中的不同变量以获得不同的结果。例如,某些人工智能模型将根据组织的数据提供结果,但也会解释它们是如何得出这些结果的。然而,一些模型只是简单地提交他们的结果并将其留给数据科学家来找出原因,从而导致许多数据科学家称之为“可解释的人工智能”。BenDavid表示,任何人工智能项目始终是一项正在进行的工作,在能够为其决策提供充分理由的模型上创建和执行是建立对模型信任的重要一步。组织经常发现带有“坏数据”的结果。坏数据是没有被“清理”过的数据,或者包含缺失字段、重复项,或者数据类型的格式不正确,例如以文本格式而不是日期格式编写的日期。但即使是干净的数据也可能被认为是坏数据,如果它过于具体或有偏见,比如面部识别中出现的问题,或者亚马逊简历扫描应用程序中发现的性别偏见。初始数据可能看起来不错,但在算法不断筛选女性申请人的简历后,结果很糟糕,因为该模型没有考虑历史数据中女性申请人简历的数量。这个数学上的错误实际上表明了数据集中的错误:历史数据不够广泛。确定数据好坏的最佳方法是首先确保数据是干净的,然后检查数据的范围是否足以产生无偏差的结果。8、新模式将如何落地?对于定期微调的模型,组织需要围绕部署新AI模型的可能性制定策略,这些模型可以更好地回答原始问题,或者根据他们认为可能的结果生成新问题。例如,在某些时候,数据科学家可能决定将他们的AI模型或算法转移到其他神经网络,这可能需要创建新模型而不是微调或修改原始模型。其中许多决策取决于组织试图实现的特定算法或目标,但AI团队应该关注如何在以后部署新模型。有些人可能认为获取更多数据是微调或创造更好结果的一种方式,但这对许多公司来说可能是一个陷阱。如果数据不好,再增加数据也解决不了问题。当人们认为获取更多数据会有帮助时,他们通常暗示需要获取更广泛的符合高质量标准的数据集。DataQualitySolutions总裁ThomasC.Redman在2018年《哈佛商业评论》发表的一篇文章中指出,好的数据必须以两种方式正确处理:它必须是正确的、标记的、去重的等。它必须适合于组织。在Redman今年早些时候发表于《麻省理工学院斯隆管理评论》的一篇文章中,他还谈到了组织在处理不良数据时如何经常浪费关键资源。“反过来,不良数据会滋生对数据的不信任,进一步减缓创造优势的努力,”他说。9.计算基础设施在第3天和第300天的表现如何?人工智能项目在不断变化和发展。算法或软件以及计算基础设施可能会发生变化,这意味着模型可以开始在组织拥有的服务器上运行,然后过渡到在公共云或混合平台上运行。如果组织将其AI数据策略与组织的整体计算策略保持一致,这并不是什么大问题。BenDavid说,“例如,一个组织可以使用一两个数据科学家,用带有GPU的笔记本电脑来开展项目。如果一切顺利,那么就需要更多的数据科学家工作,因此需要提供更多的基础设施。组织需要好好计划。”随着数据量的规模和模型变得越来越复杂,对更强大的计算的需求也越来越大;否则,10倍的数据量意味着模型将花费10倍的时间,从而降低生产率和灵活性。计算扩展要求组织确保网络可以相应地扩展。组织经常犯的一个代价高昂的错误是未能规划项目过程中的显着数据增长。积累10倍以上的数据意味着存储成本的显着增加和额外的延迟,这通常是由于在冷存储层中存储更多数据并将其来回移动到热存储层。这些读写操作非常耗时。一些组织将云中的一些数据分层以实现规模经济和灵活的容量,这会为多个服务器和不同的运营模式带来管理开销。较新的文件系统(如WekaFS)以与本地存储设施相当的吞吐量管理服务器中的不同层。使用现代文件系统可以大大降低成本和管理负担,帮助组织随着数据的增长保持高生产力。大多数现代文件系统都是从头开始设计的,以支持EB级数据以及人工智能和机器学习工作负载。10.如何让项目永不过时?BenDavid表示,他看到很多组织开始AI项目时都寄希望于成功,但团队并没有全面看待整个项目,所以在开发中会出现问题。麻烦。“随着业务的增长,许多组织需要更多的基础设施,”他说。“通常,您会看到客户试图扩展他们现有的基础设施,而不是重新设计它。”例如,数据科学家可能从您自己的笔记本电脑开始工作,然后需要更多数据科学家的参与,而组织的团队需要在网络连接的存储设备上工作。另一方面,一个项目可能从云端开始,但团队有10到50名数据科学家参与该项目,因此组织领导者决定为计算、网络和存储环境购买内部部署更具成本效益.围绕如何有效管理增长和扩展项目制定战略将有助于您组织的AI项目需要面向未来。结论总之,项目成功的组织必须拥有能够灵活应对基础架构变化、愿意微调其模型并具有足够前瞻性的AI团队来制定安全高效地移动和存储数据的计划。