从线下到实时客服，湖仓一体化释放数据全部价值

时间：2023-03-16 15:09:24 科技观察

近日，巨杉数据库召开线上发布会，发布基于“湖仓一体化”架构的v5.2版本，它改进了许多“实时”功能。诠释公司“释放数据全部价值”的价值主张。深入分析SequoiaDB如何围绕数字时代金融银行业的实时需求，全面提升结构化查询分析、非结构化访问、性能监控、故障诊断、数据生命周期管理四大能力，让全量数据的价值可以从“内部线下”进一步释放到“实时客服”。会议期间，赛迪顾问对全国首个《湖仓一体技术研究报告》进行了深度解读，详细介绍了湖仓一体化结构的兴起及未来发展方向。巨杉基于数据湖的实时能力已达到全球领先水平，技术实力得到顶级金融客户的认可。2012年，巨杉数据库正式成立，2014年正式投入商用，产品已量产上线，覆盖人保财险、民生银行、南方电网、中国太平等100多家金融银行客户保险等世界500强企业及广发银行、广东农信、四川农信、吉林农信、恒丰银行、渤海银行、上海银行、上海农商银行、中国证券登记结算有限责任公司、海通证券和其他典型客户。在单个客户中，SequoiaDB支持的最大数据量达到1.4万亿行，服务器规模超过400台，数据容量达到数PB；SequoiaDB还服务于多个政府平台，比如医保、社保数据查询，这些数据也帮助新冠核酸检测，帮助政府匹配核酸检测情况。双核：交易核心+数据核心，全量数据实时可用过去的10年，是从信息化到数字化的过渡。随着数字化的深入，企业不仅需要传统的信息化“交易内核”进行业务交易，同时更需要一个面向数据价值的“数据内核”。随着移动互联网、人工智能、物联网、大数据等的兴起和发展，数字化成为企业的新课题，而数据库是企业数字化转型的基石。信息时代，“交易内核”解决交易系统的问题，面向渠道、产品、客户、核算、清算等业务流程，确保业务闭环。交易过程中产生的海量数据流，将成为“数据核心”的生产要素。数字时代，“数据核心”解决的是数据的收集、整理、聚合、应用等问题。新的数字核心将为信息化“交易核心”提供实时、跨业务的全方位数据和基于数据的决策依据，实现数据价值的持续释放。“实时”是“解锁数据全部价值”的关键。10年前，巨杉数据库从创立伊始就意识到数据将成为社会发展的关键要素资源，需要为全量数据提供实时面向客户的高并发处理能力。业界普遍遇到的痛点是，面向“交易核心”的数据库受结构和技术限制，只能服务于指定的业务系统，无法处理全量数据；以Hadoop为代表的大数据产品虽然可以存储全量数据，但不能提供实时处理能力，两者都不能满足全量数据实时客服的发展需求。于是，巨杉毅然走上了自研原生分布式数据库内核之路，从“多模式数据湖”、“实时数据湖”向“湖仓一体化”发展，为客户提供全量数据“数据核心”所需的存储、实时客户服务、基于统一数据源的分析能力，充分激活客户线下数据。四大实时能力提升，SequoiaDBv5.2释放全量数据价值。基于湖仓一体化架构的SequoiaDBv5.2经历了多次更新。本次发布会主要介绍四大实时特性的能力。即将到来的SequoiaDBv5.2版本，将进一步释放全量数据从“内部离线”到“实时客户”的价值。查询更实时，所有数据毫秒级访问。针对结构化数据，SequoiaDBv5.2提供了深度的Join优化和列存微分区技术。在多种查询场景下，性能达到毫秒级实时返回；在分析场景中，性能提升了10倍以上。让数据湖的查询分析更加实时。访问更实时，吞吐量提升30%以上。对于非结构化数据，SequoiaDBv5.2通过“分片并发”和“可变分区大小”的技术，比原来的版本提高了30%以上的吞吐量，让数据湖的非结构化数据访问更加真实——时间。诊断更实时，业务问题分钟级定位。发布会上，巨杉数据库发布了SAC运维管理工具的重要功能更新。在运行监控方面，提供完整的GUI性能和故障分析能力。基于分布式架构的SAC实时诊断，实现业务问题分钟级定位。完整的数据生命周期管理提高了人的效率和能源效率。在部署架构上，支持多配置硬件混合部署，实现高并发数据和低并发数据的按需调度；针对结构化和非结构化数据，提供一体化开发和管理能力，提高人力效率和能源效率，在成本可控的前提下，全量数据实时可用。技术迭代是红杉数据库的补充而非替代，深耕第三代分布式数据库技术。我们相信，分布式数据库的星海绝不仅限于核心事务数据库的更替。SequoiaDB的“湖仓一体化”由“多模式数据湖”、“实时数据湖”结合“实时数仓”发展而来，为客户提供“数据核心”所需的全量数据存储、实时客服，以及基于统一数据源的分析能力，充分激活客户线下数据。SequoiaDB通过湖仓一体化架构，提供多模式、实时、面向分析的需求，与各类集中式、分布式事务核心数据库成为上下游合作伙伴，驱动数字业务创新，释放全链条。数据的价值。60年前诞生的第一代数据湖，以网格型、层次化数据库为代表，至今仍被许多企业所采用；以处理核心事务的关系型数据库为代表的第二代数据库，是目前业界的主流。大多数第一代和第二代数据库都基于集中式架构。由于架构和数据结构的限制，大量数据产生后，无法保存和沉淀业务流、用户流程数据等全量数据。往往需要将全量数据异步导出到大数据等后端平台，无法提供给终端用户进行实时查询和分析。成为仅供内部使用的离线数据，难以满足终端用户的实时查询需求。SequoiaDB通过“湖仓一体化”架构支撑企业“数据核心”。企业多个“交易核心”数据库产生的业务流数据，可以流式入湖，秒级聚合至SequoiaDB，形成全量数据库。实时数据湖：提供高并发实时查询能力，用于不同业务的跨系统查询，或多年流量数据采集，所有数据实时可用。与原有的跨多系统异构数据访问方式相比，SequoiaDB协助客户将业务响应时间从分钟级、小时级延迟变为秒级延迟，极大地提升了用户满意度。多模数据湖：针对影像系统、远程银行等需要管理大量非结构化数据的系统，提供多模数据湖技术，重点优化非结构化对象数据的高并发实时访问能力，实现跨多种数据类型的整合优化管理，提升研发和运维的“人效”。实时数仓：在数据湖中提供高性能的分析引擎，协助企业基于准确统一的数据源，对数据进行实时探索、分析、统计和处理，降低数据成本回流，提高数据处理“能效”，构建绿色低碳数据基础设施。培育数据沃土，打造产学研生态链数据库的发展不仅需要技术的创新和迭代，更需要建立良好的技术生态。依托南沙“立足湾区、联动港澳、面向世界”的发展定位，过去一年，红杉数据库积极打造产学研生态链。通过分布式人才培养、高校协同、上下游企业赋能等方式，与客户、合作伙伴、高校共同推动分布式技术的发展。目前已有超过10000名技术工程师通过了巨山数据库的培训认证。在校企合作方面，巨山数据库先后在华南理工大学、深圳大学设立长期“巨山数据库奖学金”，推动国内分布式数据库人才培养。在产业生态方面，巨杉积极推进行业标准、团体标准和生态联盟建设，致力于打造开放的基础软硬件企业级生态，特别是与鲲鹏、飞腾、海光、麒麟、同心等制造商。150多个鑫创上下游产品完成相互认证。发布会上，赛迪顾问还对全国首篇文章《湖仓一体技术研究报告》进行了深度解读，将湖仓技术定义为未来的发展趋势。未来，SequoiaDB也将继续聚焦分布式特性，通过“湖仓一体化”架构，为客户打造“数据核心数据库”，成为数字时代坚实的数据基础设施。在“信创”行业，坚持信息技术应用创新理念，服务企业全数据实时业务场景，以各类集中式和分布式交易核心数据库成为上下游合作伙伴，驱动数字业务创新发展并释放数据的全部价值。

上一篇：如何分三步搭建声纹系统

下一篇：Google发布了深度学习库TensorFlowFold，支持动态计算图_0

从线下到实时客服，湖仓一体化释放数据全部价值相关文章