翻译|布加迪评论家|SunShujuan由于数据是人工智能(AI)的核心,因此AI和机器学习(ML)系统需要足够的优质数据来学习也就不足为奇了。通常需要大量高质量数据,特别是对于监督学习方法,才能正确训练AI或ML系统。需要多少数据取决于实施AI的模式、使用的算法以及其他因素,例如内部数据与第三方数据。例如,神经网络需要大量的数据来训练,而决策树或贝叶斯分类器不需要那么多的数据来获得高质量的结果。所以,您可能认为数据越多越好,对吧?请再考虑一下。拥有大量数据(甚至EB级数据)的组织意识到拥有更多数据并不一定意味着可以按预期解决问题。确实,数据越多,问题越多。您拥有的数据越多,就越需要清理和准备,越需要标记和整理,就越需要保护、保护、偏见和采取其他措施。当数据量开始增加时,小项目可以迅速变成大项目。事实上,大量数据往往会扼杀项目。显然,在确定业务问题和整理数据以解决问题之间缺少的步骤是确定需要哪些数据以及实际需要多少数据。需要足够的数据,但不要太多:不多也不少。不幸的是,组织经常在不了解数据的情况下就投入人工智能项目。组织必须回答的问题包括弄清楚数据在哪里、已经有多少数据、数据处于什么状态、数据的哪些特征最重要、内部和外部数据的使用、数据访问挑战、增强现有数据的要求数据,以及其他关键因素和问题。如果没有这些问题的答案,人工智能项目可能会失败,甚至迷失在数据的海洋中。1.更好地了解你的数据为了了解你需要多少数据,你首先需要了解数据在你的AI项目结构中的位置。“DIKUW金字塔”(有时称为“DIKW金字塔”)是帮助我们理解我们从数据中获得的不断增加的价值的一种直观方式,它展示了数据的基础如何通过信息、知识、理解和智慧流动,帮助获得更大的价值。有了坚实的数据基础,您可以在下一层信息中获得更深入的洞察,这可以帮助您回答有关该数据的基本问题。一旦在数据之间建立了基本联系以深入了解信息,就可以在该信息中找到模式,以了解各种信息如何联系在一起,从而获得更深入的见解。组织可以通过构建知识层来了解更多关于这些模式出现的原因并帮助理解底层模式,从而获得更多价值。最后,在情报层,您可以深入了解基于信息的决策的因果关系,从而从信息中获得最大价值。最新的AI浪潮最关注知识层,因为机器学习提供了洞察力来识别信息层之上的模式。不幸的是,机器学习在理解层遇到了瓶颈,因为发现模式不足以进行推理。我们有机器学习,但我们没有理解模式产生原因的机器推理。每次与聊天机器人交互时,您都会看到此限制。虽然基于机器学习的自然语言处理(NLP)非常擅长理解人类语言和推断意图,但在尝试理解和推理时会遇到局限性。例如,如果你问你的语音助手你明天要不要雨衣,它不会理解你是在问天气。人类必须向机器提供这种洞察力,因为语音助手不知道雨到底是什么。2.了解数据以避免失败大数据教会了我们如何处理大量数据。这不仅与数据的存储方式有关,还与所有数据的处理、操作和分析方式有关。机器学习能够处理组织收集的许多不同类型的非结构化、半结构化或结构化数据,从而增加了更多价值。事实上,最近的人工智能浪潮实际上是一波大数据驱动的分析浪潮。但正是出于这个原因,一些组织受到了AI的沉重打击。他们不是从以数据为中心的角度运行AI项目,而是专注于功能方面。为了驾驭AI项目并避免致命错误,组织不仅必须更好地理解AI和机器学习,还必须更好地理解大数据的几个“V”。这不仅仅是关于有多少数据,而是关于数据的性质。大数据的一些V包括:数量:您拥有的大数据的绝对数量。速度:大数据变化的速度。成功应用人工智能意味着将人工智能应用于高速数据。多样性:数据可以有多种不同的格式,包括数据库等结构化数据、发票等半结构化数据以及电子邮件、图像和视频文件等非结构化数据。成功的人工智能系统可以处理这种多样性。真实性:这是指数据的质量和准确性以及您对该数据的信任程度。垃圾进,垃圾出,尤其是在数据驱动的人工智能系统中。因此,成功的人工智能系统需要能够处理广泛不同的数据质量。凭借数十年管理大数据项目的经验,在AI领域取得成功的组织主要在大数据领域取得了成功。经历过AI项目失败的组织通常以应用程序开发的心态来处理AI问题。3.错误数据太多而正确数据不足正在扼杀AI项目。AI项目虽然起步正确,但缺乏必要的数据、缺乏理解、未解决的实际问题正在扼杀AI项目。组织在没有真正了解所需的数据和数据质量的情况下继续前进,这带来了真正的挑战。组织犯此数据错误的原因之一是,除了使用敏捷或应用程序开发方法外,他们在AI项目方面没有任何真正的方法。然而,成功的组织已经意识到数据理解是使用以数据为中心的方法的项目方法的第一阶段。已经存在20多年的CRISP-DM方法将数据理解规定为确定业务需求后要做的下一步。基于CRISP-DM,结合敏捷方法,人工智能认知项目管理(CPMAI)方法需要在第二阶段进行数据理解。其他成功的方法也需要在项目早期了解数据,因为AI项目毕竟是数据项目。如果您在不了解数据的情况下开始项目,您如何在数据上构建一个成功的项目?这肯定是您要避免的致命错误。原文链接:https://www.forbes.com/sites/cognitiveworld/2022/08/20/are-you-making-these-deadly-mistakes-with-your-ai-projects/?sh=352955946b54
