知道为什么失败吗?87%的机器学习项目是这样栽的……根据Garner的预测:“2020年,80%的AI项目依然神秘”,而VentureBeat的Transform2019预测87%的AI项目永远不会被栽生产。为什么会这样?为什么这么多项目失败了??首先缺乏专业知识,因为大多数人对这项技术仍然陌生,而且大多数组织仍然不熟悉软件工具和所需的硬件。如今,似乎任何曾经从事数据分析或软件开发工作并完成过一些样本数据科学项目的人在参加在线短期课程后都称自己为数据科学家。事实上,大多数机器学习和人工智能项目,尤其是在定义成功标准以及最终部署和持续监控模型时,都需要更有经验的数据科学家。数据科学与传统软件开发之间的脱节数据科学与传统软件开发之间的脱节往往更容易预测和衡量,这是另一个主要因素。·数据科学仍然是研究与工程的结合数据科学研究通过许多迭代和实验向前发展。有时,整个项目将不得不从部署阶段回到规划阶段,因为选定的指标不会驱动用户行为。传统项目可能无法传达与数据科学项目相同的结果。对于在传统软件开发项目的每个任务周期结束时都有明确可交付成果的领导者来说,这可能会造成混淆。数据的质量和规模是众所周知的,人工智能系统的数据库越广泛,它产生的预测就越好。除了数据量增加的直接影响,随着数据量的增加,还会面临很多新的挑战。在许多情况下,来自多方的数据必须合并。这时候,我们就会意识到,他们并不是多次同步的。问题也随之而来,有时候不该合并的数据被合并了,会导致数据点重名意义不同。不正确的数据不仅会产生无用的结果,还会产生误导。·DataLabeling根据《麻省理工学院斯隆管理评论》,许多机器学习项目停滞不前的另一个原因是数据标签的不可用性。76%的人通过标记和注释训练数据来解决这个问题,而63%的人甚至尝试构建自己的数据标记和自动注释技术。这意味着大量数据科学家将无法在数据标记过程中应用他们的专业知识,这是有效执行AI项目的主要挑战。这就是为什么许多公司将标签任务外包给其他公司的原因。但是,如果标签任务需要综合领域的专业知识,任务外包将不是一个好的解决方案。如果公司想要保持数据集的质量和一致性,就必须对数据注释者进行正式和标准化的培训。如果要标记的数据很复杂,另一种选择是开发自己的数据标记工具。但这通常需要比机器学习任务本身更多的工程开销。·封闭组织数据是机器学习项目中最重要的部分。在大多数组织中,这些数据将具有不同的安全约束,并以结构化、非结构化、视频文件、音频文件、文本和图像的形式存储在不同的位置。将这些数据以不同的格式保存在不同的位置本身就是一个挑战。但是,当组织关闭且领导者不再相互合作时,团队面临的挑战就会加倍。缺乏协作沟通另一个主要挑战是数据科学家、数据工程师、数据管理员、商业智能专家、开发运营(DevOps)和工程等不同团队之间缺乏协作。这对于从事数据科学工程项目的团队来说尤其重要,因为他们的工作方式和使用的技术之间存在许多差异。工程团队将最终确定机器学习模型并将其投入生产。因此,他们之间需要有正确的理解和有效的协作。技术上不可行的项目由于机器学习项目通常成本高昂,因此大多数企业倾向于雄心勃勃的“登月计划”,试图彻底改变公司或产品并为企业产生超额回报或投资。这样的项目将使数据科学团队无法突破极限,永远无法完成这样的项目。最终,商业领袖将对该项目失去信心并停止投资。企业最好集中精力在一个可实现的项目上,在力所能及的范围内为分散的业务设定小的阶段性目标。技术和业务团队之间的协调问题当机器学习项目开始时,业务和数据科学团队之间没有明确的期望、目标和成功标准。这样的项目将永远停留在研究阶段,因为他们不知道自己的目标,所以他们永远不知道自己是否在取得进展。数据科学团队将主要关注准确性,而业务团队更感兴趣的是财务收益或业务洞察力等指标。最终,业务团队不会接受数据科学团队的结果。缺乏数据战略根据《麻省理工学院斯隆管理评论》,拥有超过100,000名员工的大型企业中只有50%最有可能拥有数据战略。在开始机器学习项目之前制定可靠的数据策略至关重要。作为数据策略的一部分,您需要清楚地了解:贵公司的全部数据项目真正需要多少数据参与项目的员工是否有权查看数据数据如何来自不同的地方来源具体策略如何清理和转换这些数据大多数公司开始时都没有计划,或者不知道他们没有数据。·缺乏领导支持问题可以通过资金和技术的投入来解决。这是公众普遍存在的误解。领导者可能没有提供正确的支持来确保成功所需的条件得到满足。有时,企业高管不喜欢数据科学家开发的模型。这可能是由于企业领导者对人工智能缺乏了解,以及数据科学家无法准确地将模型的商业价值传达给领导者。领导者需要了解机器学习的工作原理以及人工智能对其业务的真正意义。这就是机器学习项目“接近死亡”的原因。
