当前位置: 首页 > 科技观察

曾在国内外五家大厂做数据库工程师,这是他给出的五大数据库趋势预测

时间:2023-03-17 20:12:28 科技观察

曾在国内外五家大公司担任数据库工程师。这是他对数据库五大趋势的预测。出门要健康码,买东西要支付码……什么都可以变成数据,而最近备受追捧的元宇宙甚至告诉我们,连人都可以变成数据。我们似乎已经习惯了依赖数据的生活,但你有没有想过未来的数据会是什么样子?拥有30多项机器学习和数据云专利的LuhuiHu发布了一篇博客。他梳理了数据库的发展和现状,从中我们可以洞悉数据的未来。一起来看看吧~数据探索首先,我们简单了解一下数据库。简而言之,就是存储和管理庞大复杂数据的能力。在过去的30年里,作为编程语言和操作系统中不可或缺的技术,数据库的数量呈指数级增长,诞生了数百种不同的数据库。典型的例子是SQL到NoSQL和NewSQL。这些数据库主要执行两个任务:联机事务处理(OnLineTransactionalProcessing:OLTP);联机分析处理(OnLineAnalyticalProcessing:OLAP)。早在60年代初期,查尔斯·巴赫曼(CharlesBachman)就开发了第一个数据库。最初对数据库的探索主要集中在数据库查询及其模型上,包括SQL(结构化查询语言)、XML(可扩展标记语言)和面向对象。经过众多数据库10多年的竞争,Oracle、SQLServer和MySQL脱颖而出。凭借结构化的查询语言和符合ACID(原子性、一致性、隔离性、持久性、即使发生故障也能保证数据有效性),它们几乎统治了商业市场和开源社区。但是,数据的种类、速度和容量在不断增加,这就对数据库提出了更高的要求,这时候一种新型的数据库应运而生:NoSQL。与传统数据库不同,NoSQL允许一些数据使用SQL系统存储,而其他数据则使用NOSQL系统存储。此外,NoSQL还首次提出了性能效率、模式灵活性和一些新功能,还有键值存储、文档数据库、面向列的数据库、图数据库等。但是由于NoSQL数据库在遵守CAP定理(不能同时满足一致性、可用性和分区容错性)时更注重可用性而不是一致性,所以很多数据库都会做出折衷和优化来实现最终的一致性或反规范化。这也恰恰表明,数据库必须与时俱进,符合当前数据的特点和人们的需求。以NewSQL为例,这是一类现代关系数据库,它为OLTP工作提供与NoSQL相同的可扩展性能,同时仍然使用SQL并保持传统数据库的ACID保证。在数据库的发展过程中,还有一个不得不提的东西:数据仓库。它是数据分析和业务洞察的核心组件,但在10年前大数据平台出现后从传统数据仓库向大数据平台的迁移中黯然失色。直到云技术的出现,重新赋予了数据仓库新的性能,使其具有可扩展性,数据仓库才重新受到关注。随着高性能、高度可扩展的数据云的出现,出现了一个新的数据平台生态系统——现代数据堆栈。云技术通过云托管(半托管甚至全托管)和云原生方式实现数据库自动化或半自动化。其中,云技术是如何运作的?主要通过将数据库的存储和计算解耦来重新定义架构。并且还可以独立扩展存储或计算,以提高数据库的效率、性能和灵活性。此外,这种解耦架构还可以为数据库系统结合不同类型的存储和计算,实现整体的高性能和新功能。目前,云技术正在逐步应用于数据库。S3(SimpleStorageService)因其简单、低成本、高可用性和可扩展性而成为云计算的基础。此外,它还演变成一个数据湖,可用于存储、处理和保护大量结构化、半结构化和非结构化数据。现代数据库讲了那么多数据库的发展,我们再回到现代数据库。谈到现代数据库,你必须了解以下两种架构。首先是DataLakehouse,相当于数据仓库和数据湖的结合,可以看成是在对象存储上运行快速SQL。兼具数据仓库的性能和数据湖的灵活性,可以消除数据孤岛(数据之间无法通信)和ETL(extract-transpose-load)流程,使性能、灵活性和成本-数据的有效性都得到提升。除其他外,它统一了所有数据,简化了数据工程流程,并同时支持BI(商业智能)和AI工作负载。了解了DataLakehouse之后,我们再来说说HybridTransaction/AnalyticProcessing(HTAP)。它是一种新兴的应用程序架构,为流行的现代数据库提供支持。例如谷歌发布的HTAP数据库产品AlloyDB,具有出色的性能、扩展性和可用性,能够在高并发的OLTP环境下快速响应用户的复杂操作。Snowflake(数据云公司)紧随其后,发布了Unistore,它也支持HTAP,可以在单一平台上同时处理交易和分析数据。此外,与Lakehouse一样,HTAP的目标是消除从OLTP到OLAP或从数据湖到数据仓库的ETL过程。并且,当前的HTAP是单一系统架构,支持OLTP和OLAP工作负载,而早期的数据库只能配置为OLAP或OLTP(不能同时配置)。未来走向数据对于我们现在的生活来说确实是至关重要的,我们也可以从现在数据库的发展中窥见未来数据的走向。大致概括了五个大方向。统一BI和AI首先,未来数据库可能会统一BI和AI。总的来说,未来数据库的目标应该是解锁所有数据的商业价值,支撑BI和AI的整个数据格局,包括从描述到诊断、预测和规范的数据分析操作。统一BI和AI不仅消除了数据仓库和ETL,而且简化了管道并提高了利益相关者的生产力。DataLakehouse可以看作是一个巨大的飞跃,但它仍处于起步阶段。此外,在从数据到商业价值的过程中,也会激发多种工作需求:数据工程师、数据分析师、数据科学家、机器学习工程师等。专用网络。就目前而言,数据库技术融合已经成为一种趋势,如NewSQL、Lakehouse、HTAP等。但是NewSQL和Lakehouse仍然是OLTP或者OLAP的一种,CAP定理依然成立。而目前的HTAP解决方案主要是OLTP,只适合小工作负载。目前市场上的HTAP还远远不能作为大型企业数据仓库或数据非结构化数据。因此,需要更好地满足不同业务目标的专用数据库,包括性能、可扩展性或/和特定用例(例如,时间序列数据、图形、搜索等)。还可以将数据库与一个汇聚层分开,以实现互连、统一数据服务和一致的治理。多云战略前面已经提到了云技术和数据库的结合,这也是未来的一大发展趋势,比如多云战略。多云战略是指在不移动数据的情况下联合公共云和私有云。它可以提高多个云提供商的服务可用性,通过邻近计算减少延迟,启用来自特定云生态系统的独特功能,通过更多云产品扩展全球可用性,并增强数据合规性。而且,多云战略可以推动数据可观察性、数据编目、数据共享和数据编排的浪潮。智能数据数据和人工智能也有结合的潜力。目前,人工智能和数据在三个领域相互赋能:人工智能用于数据、人工智能用于数据库和数据用于人工智能。智能数据是AIforData,它使数据具有数据治理、数据谱系、元数据、语义以及来自分析和人工智能的新数据等元素。据估计,到2025年,所有数据的10%将由生成式人工智能模型生成。这些数据包括声音、视频、图像、文本、结构化数据、代码等。除了上述发展趋势外,数据资产数据库还可以用于资产管理。数据资产是将数据作为数据库或组织或个人存储中的数字资产进行管理。这样的数据库不仅是数据管理系统,还提供数据可观察性、安全隐私、定价、数据生命周期管理等。

猜你喜欢