根据我们在2022年到目前为止的情况,Datanami有信心对今年剩余时间做出这五个预测。数据可观察性继续上半年对于数据可观察性来说意义重大,使客户能够更好地了解其数据流发生的情况并制定相关指标。随着数据对决策制定越来越重要,数据的健康状况和可用性也越来越重要。我们已经看到许多数据可观察性初创公司筹集了数亿美元的风险投资,包括Cribl(1.5亿美元的D轮融资);蒙特卡洛(D轮融资1.35亿美元);Coralogix(1.5亿美元D轮融资);1.42亿美元);和别的。其他制作新闻的公司包括推出元数据指标的Bigeye;StreamSets,被SoftwareAG以5.8亿美元收购;IBM上个月收购了可观察性初创公司Databand。这种势头将在2022年下半年继续,因为更多的数据可观察性初创公司走出困境,现有的初创公司寻求加强他们在这个新兴市场中的地位。实时数据的出现实时数据多年来一直处于次要地位,服务于一些利基用例,但并未真正广泛用于常规企业。但由于过去几年的COVID-19大流行和相关业务计划重组,实时数据进入主流技术圈的条件现在已经成熟。Databricks首席执行官AliGhodsi在最近的Data+AI峰会上表示:“我认为流媒体终于出现了。”他指出,该公司基于云的数据平台上的流媒体工作负载增加了2.5倍。“他们有越来越多的需要实时的人工智能用例。”内存数据库和内存数据网格也有望从实时复兴中受益(如果是这样的话)。RocksDB是一种快速分析数据库,可增强Kafka等基于事件的系统,现在有一个名为Speedb的替代品。SingleStore将OLTP和OLAP功能结合在一个单一的关系框架中,在上个月的一轮融资中估值达到13亿美元。还有StarRocks,它最近获得了基于ApacheDoris的快速新OLAP数据库的资金;Imply在5月完成了1亿美元的D轮融资,以继续其基于ApacheDruid的实时分析业务;DataStax将ApachePulsar添加到其ApacheCassandra工具包中,筹集了1.15亿美元用于推动实时应用程序开发。Datanami预计这种对实时数据分析的关注将继续下去。监管增长GDPR已生效四年,将大数据用户置于聚光灯下,并加速数据治理作为负责任数据计划的必要组成部分的兴起。在美国,规范数据访问的任务落到了各州,加州以CCPA领先,它在许多方面模仿了GPDR。但更多的州可能会效仿,从而使美国公司的数据隐私等式变得复杂。但GDPR和CCPA只是法规的开始。我们也正处于第三方cookie的消亡之中,这使得公司更难跟踪用户的在线行为。谷歌决定将其平台上第三方cookie的到期时间推迟到2023年1月1日,这为营销人员提供了一些额外的时间来适应,但来自cookie的信息将难以复制。除了数据法规外,我们还处于有关使用人工智能的新法规的风口浪尖。欧盟于2021年推出了一项人工智能法案,专家预测该法案可能会在2022年底或2023年初成为法律。系统,谁可以访问它,以及用户可以用它做什么。最近几个月,ApacheIceberg作为数据表格式的潜在新标准而备受关注。云数据仓库巨头Snowflake和AWS今年早些时候出面支持提供交易和其他数据控制的Iceberg,并退出了Netflix和Apple的工作。前Hadoop分销商Cloudera在6月也支持Iceberg。但是Databricks的人们提供了DeltaLake表格格式的替代方案,它提供与Iceberg类似的功能。ApacheSpark支持者最初以专有方式开发了DeltaLake表格式,这导致有人指责Databricks为客户设置了锁。但在6月的Data+AI峰会上,该公司宣布将开源整个格式,让任何人都可以使用。在洗牌中迷失的是ApacheHudi,它也提供数据一致性,因为它驻留在一个大数据存储库中,可以被各种计算引擎访问。Onehouse是一家由ApacheHudi的创建者支持的企业,今年早些时候推出了基于Hudi的Lakehouse平台。大数据生态系统喜欢竞争,因此在2022年剩余时间里观察这些格式的演变和竞争将很有趣。语言模型,它一直在变得更好。事实上,大型语言模型已经变得如此出色,以至于在6月份,一名谷歌工程师声称该公司的LaMDA对话系统已经变得有感知能力。人工智能还没有感知能力,但这并不意味着它们对企业没有用处。提醒一下,Salesforce有一个名为CodeGen的大型语言模型(LLM)项目,旨在理解源代码,甚至用不同的编程语言生成自己的代码。上个月,Meta(Facebook的母公司)推出了一个可以翻译200种语言的大型语言模型。我们还看到通过BigScience的LargeOpenScienceOpenAccessMultilingualLanguageModel(BLOOM)等项目使AI民主化的努力。
