当前位置：首页 > 科技赋能

第四范式率先发布XGBoost++，轻松切换AI异构算力

时间：2024-05-20 02:24:57 科技赋能

近日，第四范式宣布将推出两项算力黑科技：XGBoost++和pyGDBT。

XGBoost 是 AI 开发人员熟知的工具。

在前者的基础上，XGBoost++只需修改一行代码即可轻松切换到异构计算模式，享受软硬件一体化技术带来的极致算力升级。

即将于10月初发布的pyGDBT将从另一个维度为用户带来极致的计算体验。

用户只需基于类似scikit-learn的语法编写Python程序，通过智能调参框架即可享受异构计算带来的好处。

终极性能。

XGBoost++和pyGDBT的共同点是，以往在AI开发中想要使用异构加速或者实现高维离散场景的计算需求，必须有深厚的AI技术基础，而这两者的易用性工具使得数据科学家和数据分析师、普通AI开发人员都可以轻松上手。

这也让第四范式距离“人工智能为所有人”的愿景又近了一步。

第四范式FlashGBM：将医学、金融等高维离散场景的计算速度提高10倍。

第四范式FlashGBM是XGBoost++和pyGDBT的底层异构加速引擎。

它采用基于FPGA开发的GBM专用加速芯片，并进行定制以匹配加速器的高性能。

特别擅长处理高维的复杂离散特征的软件程序。

FlashGBM不仅在不同场景下平均加速10倍以上，而且相比传统CPU方案内置自动参数优化功能，无需专家手动调整参数，自动调整到最佳性能，降低降低使用门槛，缩短建模周期。

FlashGBM具有以下特点： 1.对高维离散稀疏场景提供高性能支持，覆盖传统GBM难以覆盖的场景。

2、引入自动参数调整技术。

用户无需手动调整参数即可确定效率最优的参数组合。

3. 基于GBM训练算法和FPGA本身的架构特点进行了深度流水线优化，避免Cache Bank冲突，提高内存访问效率。

在测试实验中（见上表）可以看出，不同场景下的加速比从4.0x到26x不等，平均加速比达到12.5x。

其中，互联网广告点击率预测是典型的高维稀疏离散计算场景；该场景存在大量离散特征，例如用户A是否购买X产品，用户B是否收集Y产品；海量用户和海量行为的交集形成了一个超级高维，比如数百万用户和数百种行为交集产生数十亿维度。

在这种情况下，FlashGBM 速度最高可达 26 倍。

FlashGBM通过PCIe从主机获取数据并将其传递给计算核心。

计算核心通过与板载内存交互来计算GBM的统计直方图，并将结果发送回主机内存。

第四范式XGBoost++：一键从XGBoost切换到FlashGBM高性能模式。

XGBoost 是梯度提升的高效系统实现。

作为一个开源系统，XGBoost社区非常活跃，应用广泛。

第四范式XGBoost++在FlashGBM底层框架上实现了与XGBoost兼容的接口。

数据科学家可以零学习成本切换到高性能FlashGBM模式，享受FPGA带来的异构加速优势。

第四范式pyGDBT：打造易用的高维分布式机器学习框架 GDBT是第四范式自主研发的超大规模分布式机器学习框架。

设计初衷是创建一个专门为分布式大规模机器学习设计的计算框架，同时兼顾开发效率和运行效率。

与主流开源架构相比，GBM在高维场景下具有一百倍以上的优势。

即将推出的第四范式pyGDBT面向AI科学家的使用习惯，进一步整合和优化GDBT，在建模效率、模型维度和效果、性能、易用性等多个方面进行升级： 1）高效率：鉴于重复参数调整和研究成本较高，采用智能调整速度机制，减少特征和模型研究周期。

2）模型维度和效果：通过集群计算框架和分布式训练算法支持海量数据和高维模型，提高模型表达能力和效果。

3）高性能：结合FlashGBM底层计算框架，提供异构加速能力。

4）易用性：它提供了类似于scikit-learn的python接口，因此AI建模人员可以快速迁移和使用代码。

第四范式率先发布XGBoost++，轻松切换AI异构算力相关文章