企业正被来自各种来源的实时数据所淹没,包括来自网络和移动应用程序、物联网、市场数据和交易等。从理论上讲,企业应该能够利用这些丰富的信息来改善客户体验、节省资金并产生利润。这里的挑战是弄清楚如何利用这些数据流,以及应该使用什么类型的分析。有效的实时分析架构可以帮助业务经理和数据科学家快速测试新想法,以确定和扩展最佳用例。传统的分析方法依赖于结构化数据并将其存储在针对特定查询类别进行优化的数据库中。实时分析处理不断变化的数据,必须实时构建。IT咨询公司ITRenew的计算和存储解决方案高级副总裁ErikRiedel表示:“通过流式分析,可以随时了解企业在特定时刻发生的事件并采取行动,并利用这一点信息以做出更好的业务决策。“与此同时,重要的是设计可以响应和扩展的实时分析架构,而不是仅仅构建一次性流分析项目。决定流式数据架构的关键问题所有流式架构都将具有相同的核心组件,包括流式数据聚合器、代理(管理对数据的访问)和分析引擎。但是这些组件需要针对不同类型的业务和用例进行定制。“流式传输所需的特定数据架构将随数据大小、交易频率以及分析提出的问题的复杂性而变化,”Riedel说。向公司总部的少数分析师提供实时分析数据以发现季度趋势之间可能存在很大差异。需要考虑的关键问题包括:数据的大小是多少?更新或交易的频率是多少?查询的复杂度是多少?需要服务多少分析师或应用程序?Riedel说,这些问题的答案将影响系统设计,一直到硬件级别——在数据存储、RAM和分布式内存访问方面。流数据的地理分布会给系统带来额外的压力,因为即使是适度的交易率也需要仔细的系统设计。实时分析架构的构建块根据国际IT咨询和软件开发公司ScienceSoft数据分析部门负责人AlexBekker的说法,该公司使用以下模块来构建物联网实时分析架构:事物——对象配备传感器以生成数据进行分析;网关——事物与架构的云部分之间的关??键数据湖——以原始格式存储数据的临时存储库;大数据仓库——存储处理过的和结构化数据的存储库,需要进一步分析以提供有意义的见解;数据分析部分——进行分析的地方;控制应用程序——在这个模块中,自动命令和警报被发送到应用程序或物联网应用程序中的实际执行周期。为实时分析用例的增长制定计划当一些实时分析应用程序取得成功时,数据经理和数据工程师将因对新分析方法的需求而不知所措。“当分析的商业价值变得清晰时,系统的使用和对丰富分析的需求迅速增长,”Riedel说,他发现开放标准和开放框架可以帮助解决硬件和软件的关键基础设施可扩展性和可扩展性问题.适应性挑战还可以消除供应商锁定等障碍。当数据管理员需要在现场突然改变分析方法或工具,需要彻底改变基础设施时,这一点很重要。Riedel看到的一个常见挑战是如何在需求和分析复杂性增加时有效地扩展分析,以及如何在事务或分析速度减慢时有效地缩小分析。通过从最低级别开始追求开放的基础架构,可以更轻松地扩展应用程序。目标明确的实时分析项目在处理过多的流数据或关注错误的目标时可能会遇到问题。AWS咨询合作伙伴FuseForwardSolutionsGroupLtd.的创始人兼首席技术官MarkDamm表示,许多IT团队缺乏处理大型复杂数据集的技能、资源或预算。结果,他们实际上只利用了大约1%的数据。在他看来,从数据架构、基础设施或工具入手是错误的。相反,最好尽可能清楚地了解您的企业的近期和长期目标。接下来,确定可用的数据流。只有这样,才有可能围绕基础设施和工具做出可行的信息选择。Damm发现在云中部署实时分析提供了快速创建和发展新解决方案的灵活性和敏捷性。“传统本地架构面临的挑战是提供流分析所需的适当存储、处理和快速响应,”他说。Damm将雾计算视为一种日益流行的处理复杂数据流以满足本地需求的方法,因为它可以更轻松地将流处理移动到边缘。减少数据处理中的噪音分析和数据管理工具提供商信息了解业务用例是构建支持流的基础架构时最重要的因素之一,Builders产品管理高级副总裁KeithKohl说。它还可以更轻松地构建反映业务功能且更加模块化和可重用的应用程序。许多流行的流处理工具都包含为特定功能过滤掉流数据的功能。例如,Kafka流数据架构使您能够创建包含与特定用例相关的消息的主题。分析应用程序可以配置为订阅您需要的主题的适当子集。其他流行的工具也具有类似的功能,例如ApacheFlink、ApacheSpark和ApacheFlume。流分析组件的数据湖摄取和转换工具提供商Upsolver的首席执行官OriRafael表示,随着存储成本的增加,企业可以更好地存储流数据以供后续分析应用使用。传统数据架构围绕企业数据仓库构建,为报告和分析提供高性能SQL数据库。然而,对于流数据架构,将无模式数据从流转换为数据仓库所需的关系格式可能非常昂贵。企业现在正在采用流数据架构,他们将数据直接存储在消息代理中——使用Kafka持久存储等功能,或将数据存储在Inthelake中——使用AmazonSimpleStorageService或AzureBlob等工具。这些工具减少了预先将数据组织到表格中的需要。但是,当需要新类型的分析时,数据管理员必须花费更多时间来构建这些数据。企业备份工具提供商SungardAS的首席技术官架构师KiranChitturi表示,影响架构选择的另一个因素是不同类型分析所需的查询类型。流行的用例包括使用分布式SQL引擎、数据仓库存储或文本搜索,或将低延迟流事件发送到业务应用程序。维护数据来源也很重要,这样业务用户才能了解他们正在使用什么。生命周期管理软件提供商PTC的分析副总裁EdCuoco表示,这可以包括了解数据质量以及来自各种来源的数据量。这可以帮助业务用户确定数据对各种类型的描述性、诊断性和预测性分析的适用性。
