当前位置: 首页 > 科技观察

超过10个用户就玩完了:Gartner说数据湖无法处理SQL并发机制!

时间:2023-03-20 10:56:24 科技观察

Spark支持者Databricks宣称我们正在努力解决这个问题。根据Gartner的说法,数据湖在尝试执行SQL查询时难以支持10个以上的用户,而这曾被认为是数据仓库技术的完美选择。在处理数据湖时,ApacheSpark是使用最广泛的处理引擎,因为它是一个单一的框架,既可以处理机器学习和图形处理,也可以处理批处理(能够支持实时处理)。然而,这家知名研究公司表示,Spark不适合许多也在尝试使用SQL查询数据的企业用户。根据Gartner分析师兼高级总监SumitPal的说法,“使用数据湖中的数据的一些挑战在于并发性。密集的并发活动,即使是两位数的并发用户,通常也会减慢数据湖的速度。延迟时间变长了。”数据湖技术一直在努力通过支持SQL,让业务用户更方便地访问存储的连续数据。例如,去年11月,数据管理和机器学习框架供应商Databricks为此预览了SQLAnalytics。Databricks的这个开放格式数据引擎基于DeltaLake,旨在确保现有数据湖的规范和高性能。同时,AWS的数据湖:ElasticMapReduce可以通过SQLWorkbench或PrestoSQL处理SQL查询。Azure在其数据湖(HDInsight或AzureDatabricks)中支持SQL查询,而谷歌云平台(GCP)则结合使用Bigtable、Dataflow和Bigquery。但这些巨头实施的系统无法处理“传统”数据仓库支持的SQL查询数量,其中一些可能扩展到数万个并发用户。延迟和并发性是大问题Pal在Gartner的数据和分析峰会上告诉与会者:“数据湖如今并没有真正用于商业智能(BI)工作负载,尤其不是用于需要高并发性和低延迟的BI工作负载。大型组织。过去在数据湖上开发的SQL引擎,一直无法真正满足并发和时延的要求。”DatabricksCEOAliGhodsi表示,公司已经意识到并发问题,并正在努力改进。这一直是我们的重点。他说:“我们在非常大的数据仓库方面已经是世界一流的:我们可以处理海量数据,而且我们可以比任何其他公司更快更好地处理它们,但是当数据仓库很小的时候,同样的仓库有还有很多不同的并发用户(比如32个用户),这不一定是我们最擅长处理的。Ghodsi表示,SQLAnalytics最初是去年7月份构建的,最初无法支持32个并发用户,但2月份的发布表明,它每小时能够为单个SQL端点处理来自32个用户的19,000个查询。他表示,为了支持更多用户,客户可能需要在云端启动更多端点。