当前位置: 首页 > 科技观察

87%的机器学习项目失败的10大原因

时间:2023-03-12 18:49:45 科技观察

这些天人们总是听说机器学习,而机器学习技术确实有更大的潜力。研究公司Gartner预测,对于许多组织而言,80%的人工智能项目仍然是一种难以成功的炼金术。根据VentureBeat发布的《Transform2019》研究报告,87%的人工智能项目永远不会投产。为什么会这样?为什么这么多项目失败了?1.专业知识不够。原因之一是机器学习技术对人们来说仍然是新事物。此外,大多数组织仍然不熟悉软件工具和所需的硬件。今天,一些从事数据分析或软件开发并完成一些数据科学项目的人将自己标记为数据科学家。事实上,组织需要经验丰富且真正的数据科学家来处理大多数机器学习和人工智能项目,尤其是在定义成功标准、最终部署和模型持续监控方面。2.数据科学与传统软件开发之间的脱节数据科学与传统软件开发之间的脱节是另一个主要因素。传统的软件开发往往更具可预测性和可衡量性。数据科学研究通过许多迭代和实验向前发展。有时,整个项目将不得不从部署阶段返回到规划阶段,因为所选指标不会驱动用户行为。传统的基于敏捷的项目交付可能不适合数据科学项目。对于那些一直在努力在常规软件开发项目的每个任务周期结束时交付清晰结果的领导者来说,这将造成巨大的混乱。3.数据量和质量众所周知,数据集越大,人工智能系统的预测就越好。除了数据量增加的直接影响之外,随着数据量的增加,还会出现许多新的挑战。在许多情况下,组织必须合并来自多个来源的数据。一旦开始这样做,就会意识到它们的同步有多么少,这会造成很多混乱。有时,组织最终会合并不应合并的数据,这会导致数据点名称相同但含义不同。不正确的数据会导致无所作为或洞察力,以及误导性的结果。4.标记数据标记数据的不可用性是阻碍机器学习项目的另一个挑战。《麻省理工学院斯隆管理评论》杂志指出,76%的人通过尝试自己标记和注释训练数据来应对这一挑战,而63%的人甚至尝试构建自己的标记和注释自动化技术。这意味着数据科学家无法在标记过程中充分利用他们的专业知识。这是有效执行AI项目的主要挑战。这就是为什么许多公司将标签任务外包给其他公司的原因。但是,如果标记任务需要足够的领域知识,则将标记任务外包是一个挑战。如果组织需要保持数据集的质量和一致性,则必须对标记员进行标准化培训。如果要标记的数据很复杂,另一种选择是开发自己的数据标记工具。然而,这通常需要比机器学习任务本身更多的成本。5.组织孤岛数据是机器学习项目中最重要的实体。在大多数组织中,这些数据将驻留在具有不同安全约束和不同格式(例如结构化、非结构化、视频文件、音频文件、文本和图像)的不同位置。在不同的地方以不同的格式存储这些数据本身就是一个挑战。然而,当组织孤立且不协作时,挑战会加倍。6.缺乏协作另一个主要挑战是数据科学家、数据工程师、数据管理员、商业智能(BI)专家、DevOps和工程等不同团队之间缺乏协作。这对于从物联网到数据科学的工程项目团队尤其重要,因为他们的工作方式和完成项目所使用的技术存在许多差异。工程团队将实施机器学习模型并将其投入生产。因此,他们之间需要有正确的理解和强有力的合作。7.技术上不可行的项目因为机器学习项目往往非常昂贵,所以大多数企业倾向于雄心勃勃的“登月计划”,这将彻底改变组织或产品并带来超额回报或投资。此类项目永远不会完成,并将把数据科学团队推向极限。最终,商业领袖将对该项目失去信心并停止投资。8.技术团队和业务团队之间的一致性问题很多时候,机器学习项目的业务团队和数据科学团队在项目的期望、目标和成功标准上没有明确的一致性。这些类型的项目将永远停留在研究阶段,因为他们永远不知道自己是否取得进展,因为目前还不清楚目标是什么。在这里,数据科学团队将主要关注准确性,而业务团队将更关注财务收益或业务洞察力等指标。最后,业务团队最终不接受数据科学团队的结果。9、缺乏数据战略据《麻省理工学院斯隆管理评论》杂志调查显示,50%的员工人数超过10万的大型组织可能会采用数据战略。在开始机器学习项目之前,组织必须制定可靠的数据策略,这一点至关重要。作为数据战略的一部分,组织需要清楚地了解:组织总共拥有多少数据?项目实际需要多少数据?需要它的人访问数据的方式和难易程度如何将来自不同来源的所有这些数据汇集在一起???这些数据将如何清洗和转换?大多数组织一开始就没有计划,或者根本不认为他们没有数据。10.缺乏领导支持许多人认为他们只需投入一些资金和技术来解决问题,结果就会自动出现。但他们看不到在组织领导的正确支持下确保成功需要什么,组织领导有时对数据科学家开发的模型没有信心。这可能是由于组织领导者对人工智能缺乏了解,以及数据科学家无法向他们传达这些模型具有商业利益。最终,组织的领导者需要了解机器学习的工作原理以及人工智能对其组织的真正意义。