当前位置: 首页 > 科技观察

专家观点:广义数据在人工智能应用中比大数据更有价值

时间:2023-03-12 22:59:52 科技观察

在当今快节奏的数字世界中,数据的使用不断发展,以帮助企业更好地从海量结构化和非结构化数据存储库中洞察数据。然而,虽然大数据可以提供关键业务分析,但这些数据主要用于显示过去时发生的事情。在执行预测性和规范性分析时,必须越来越多地考虑范围广泛的数据。这就是AI可以发挥作用的地方,也是大数据对AI的需求不同的地方。大数据由三个因素定义:容量、速度和多样性。容量是指可用数据的大小,速度是指数据到达和处理的速度。然而,为了让企业有效地将数据用于人工智能的预测目的,他们需要各种数据。随着AI在各个领域变得越来越普遍,访问不同数据集的能力变得至关重要,并且是AI算法的催化剂。换句话说,不要让数据太平淡无奇,而是让它更加多样化。我们将这类数据称为各种“广域数据”(WideData),它们来自组织的内部、外部、结构化和非结构化数据。这一点很关键,因为在全球化经济中,业务绩效取决于许多参数。大数据应用的一个例子是查看在美国不同地区设计产品的两家制造工厂。两家工厂的地理位置会对生产产生影响,尤其是在发生暴风雪等自然灾害时。考虑到天气和其他几个不同的外部因素,结合内部数据来提供人工智能算法,将导致对每个制造组织的库存、供应链和需求的更准确的预测。数据的多样性提供了更多相关性,因此AI算法可以更好地学习以提供准确的结果。为什么不是数据量?由于缺少不同的因变量,数据量大并不一定意味着算法学得更好。虽然拥有大量数据在理论上对AI应用很重要,但对于高效算法而言,数据的多样性比数据的大小更重要。例如,我们正在开展一个预测癌症患者数据的项目。研究对象不多,只生成了150行数据。这会产生相对较少的数据来筛选,因此不被视为大数据。这就提出了一个问题——人工智能算法是否有足够的数据来学习和预测癌症患者接下来会发生什么?在这种情况下,答案是肯定的。因为虽然只有150行,但生物识别、生物传感器和症状数据却构成了数千列,使其成为一个庞大的数据集。重点是对于人工智能应用来说,数据的多样性比数据量更重要。宽数据的类型如前所述,有不同类型的数据,当它们组合在一起时,就会成为一个宽数据,例如:内部结构化数据:驻留在ERP、CRM系统甚至财务系统等软件应用程序中的数据.内部非结构化数据:属于内部非结构化数据一部分的文档、图像、报告、图表和图表。外部数据:来自外部来源的数据,例如天气、社会、经济数据、人口普查数据、证券交易所数据等。外部非结构化数据:来自组织防火墙外部的新闻、图像、视频等。CUPP框架:提供数据策略为了成功采用人工智能,拥有最佳人工智能实践非常重要。一个这样的框架是CUPP,它代表收集、统一、处理和呈现。部署这四个步骤是组织开始其AI之旅的典型方式。可能没有数据策略或数据平台的传统企业将受益于创建像CUPP这样的框架。在确保数据的准确性或准确性方面,框架也很重要。组织需要干净、高质量的数据来确定所需的结果,而准确性可以显着加快流程。以下是组织使用CUPP框架的基本步骤:1.从数据普查开始利用数据普查方法发现组织内部和外部拥有的数据资产。该规划过程的一部分是定位结构化和非结构化数据的来源。许多组织可能会对他们拥有如此多的非结构化数据感到惊讶,而进行数据普查可以让他们清点所有数据资产。2.了解您的数据资产在建模之前,了解组织已经拥有的内容很重要。这有助于开发AI最佳实践,但需要一点耐心。这将作为人工智能应用程序采用和交付能力投资回报率的基础。组织还需要检查其内部-外部结构化和非结构化数据收集和统一策略。3.使用机器学习和自然语言处理以及机器学习来转换和理解非结构化内容组织可以将他们获取的非结构化数据使用自然语言处理将其转换为结构化内容来训练您的数据。组织也应该受到非结构化内容的鼓励,而不是害怕它,因为现在有几种技术可以非常有意义地使用这些内容。关于需要使用广泛数据的关键要点广泛数据可以更快地启动您的AI之旅,并且对于帮助组织将来自大型和小型、非结构化和结构化数据源的见解背景化至关重要。随着技术的发展和发展,任何企业都不能忽视数据的作用和价值,都需要围绕各种数据的获取和分析来制定数据战略。