4月8日,腾讯云宣布云存储解决方案针对AIGC场景全面升级,可用于AI大模型数据采集??、清洗、训练、推理、整个数据治理流程提供全面高效的云存储支持。
数据显示,使用腾讯云AIGC云存储解决方案可以使大型模型的数据清洗和训练效率提高一倍,所需时间缩短一半。
据介绍,腾讯云AIGC云存储解决方案主要由对象存储COS、高性能并行文件存储CFS Turbo、数据加速器GooseFS和数据万象CI组成。
是国内首个实现存储引擎全面自研的云存储解决方案。
。
目前,80%的领先大型模型公司都选择了腾讯云AIGC云存储解决方案,其中包括明星旗下的百川智能、智浦、远翔等大型模型公司。
此前,腾讯云针对AIGC场景推出了大模型训练集群HCC、向量数据库、基于星脉网络的行业大模型服务MaaS等大模型全链路云服务。
腾讯集团副总裁、腾讯云与智能产业集团COO、腾讯云总裁邱跃鹏曾表示,大车型将打造下一代云服务,腾讯云致力于打造“最适合大车型的云”。
解决大模型全链路数据处理问题。
大型AI模型的研发和生产过程分为数据收集和清洗、模型训练和推理三大环节。
每个环节都涉及海量数据处理。
在数据采集和清洗过程中,由于原始训练数据规模庞大、来源多样,存储技术需要多协议支持、高性能、大带宽。
腾讯云对象存储 COS 支持数百 EB 级存储规模的单集群管理,提供便捷高效的公网数据访问,支持多种协议,全面支持大模型 PB 级海量数据采集。
在数据清洗过程中,大数据引擎需要快速读取并过滤掉有效数据。
COS 通过自研的数据加速器 GooseFS 提升数据访问性能,可实现高达数 TBps 的读取带宽,支持高速计算运算,大幅提升数据清洗能力。
效率。
在模型训练过程中,通常需要每2-4小时保存一次训练结果,以便在GPU出现故障时可以回滚。
因此,快速读写检查点文件也成为计算资源能否得到有效利用和提升的一个因素。
训练效率的关键。
腾讯云自主研发的并行文件存储CFS Turbo,专门针对AIGC训练场景进行优化。
每秒总读写吞吐量达到TiB/s级别,每秒??元数据性能达到百万OPS,均排名业界第一。
3TB检查点的写入时间从10分钟缩短到10秒以内,大大提高了大型模型训练的效率。
大模型推理场景对数据安全性和可追溯性提出了更高的要求。
腾讯云数据万向CI提供图像隐式水印、AIGC内容审核、智能数据检索MetaInsight等能力,为数据生产从“用户输入-预处理-内容审核-版权保护-安全分发-信息检索”整个业务提供有力支撑流程,优化AIGC内容生产和管理模式,遵守监管指导,扩大存储边界。
同时,随着训练数据和推理数据的增长,需要提供低成本的存储能力,以降低存储开销。
对象存储服务提供高达12个9的数据持久性和99%的数据可用性,为业务提供持续可用的存储服务。
业界唯一完全自研存储引擎的优异性能来自于腾讯云自研存储引擎和自研技术。
这也是国内唯一拥有完全自主研发存储引擎的云存储解决方案。
腾讯云自主研发的分布式对象存储引擎YottaStore支持任意数量副本并存和纠删码冗余模式,大幅提升可用性、可靠性和性能,同时大幅降低成本。
腾讯云对象存储服务 COS 基于 YottaStore 作为统一的数据存储池,支持单集群万台服务器、单集群数百个 EB 级存储。
在数据清洗过程中,数据加速器GooseFS可以根据数据的使用频率,智能地将数据存储到内存、计算集群本地磁盘或可用区全闪存存储集群等不同级别的缓存中,缩短IO路径以低成本。
提高数据访问性能。
与直接从对象存储 COS 读取相比,GooseFS 可以提供亚毫秒级的数据访问延迟、百万级 IOPS 和 Tbps 级吞吐量,有效提升数据清洗效率。
针对模型训练场景的CFS Turbo是目前业界唯一自主研发的并行文件存储系统。
基于自研分布式高性能存储引擎Histor,CFS Turbo底层采用自研用户态协议栈和RDMA等技术,减少数据多副本和虚拟化消耗,显着降低存储延迟,提高吞吐量表现;在应用方面,CFS Turbo自研并行文件传输协议,实现多链路并行访问,大幅提升吞吐效率。
原来的文件存储受到传统NFS协议的限制,单个客户端只能访问单个链路,这也导致了吞吐量方面的性能瓶颈。
此外,腾讯云CFS Turbo还针对AIGC的卡点记录、大视频文件读写、小图片读写等开发了自研的分层缓存、自适应条带化、分布式元数据技术,极大地完善了AIGC场景。
读写性能较低。
除了大型模型公司外,CFS Turbo还广泛应用于自动驾驶和工业仿真场景,包括博世汽车、蔚来等自动驾驶厂商,上海电气、深圳电气等仿真场景,以及影视特效场景等至于墨镜天合和追光。
。
今年1月,腾讯云存储入选“Leader”阵营,在沙利文和Leopard研究院发布的《年中国云存储解决方案市场报告》中排名第一。
随着AIGC时代的到来,腾讯云也在不断迭代优化产品,服务于最新场景的需求,帮助企业抓住时代红利。