当前位置: 首页 > 科技观察

AI建模不再难:九丈云集DataCanvas发布两项开源成果

时间:2023-03-16 11:59:46 科技观察

【.com原创文章】  》软件基础设施将进行重大升级,AI将通过软件基础设施升级实现,升级千个行业云中的软件基础设施将是数据智能‘新IT’的历史性机遇。九丈云集DataCanvas预测了这个未来,并拥抱了这个愿景。”近日在北京举办的“2021数据画布”,九丈云集数据画布董事长方雷在智能高峰论坛上表示。  中国人工智能生态呈现蓬勃发展态势。如何全面加速AI在各行业场景的应用,如何利用AI基础软件加速企业数字化智能升级,是当前AI领域关注的焦点。  面对AI落地的诸多挑战,深耕数据科学领域多年的九丈云集DataCanvas致力于在两个方面实现突破:一是通过自动化对机器学习进行建模的能力机器学习和深度学习的二是让数据分析的速度更快,服务更及时,从准实时到毫秒级的实时响应。  就在本次高峰论坛上,九丈云机DataCanvas联合创始人兼CTO尚明东现场发布了两项自主研发的技术成果——DAT自动机器学习工具包和DingoDB实时交互分析数据库。针对以上两个方面提出了新的解决方案。  End-to-endAutoML:降低AI建模门槛,推动百花齐放应用。  传统AI模型训练往往需要经过数据准备、特征工程、模型选择、调参评估等步骤。它被省略了,并且需要很长时间,通常是几个月。于是自动机器学习(AutoML)技术应运而生,也就是以一种自动化的方式,让机器自己解决这些问题。可以说,AutoML是推动AI应用落地的重要技术路径,对于降低AI应用门槛、繁荣AI生态具有深远意义。  九丈云集DataCanvas高级架构师杨健介绍,DataCanvasAutoMLToolkit(DAT)是一个自动机器学习工具包,包含了一系列强大的AutoML开源工具。自动建模工具实现了从底层通用自动机器学习框架到结构化和非结构化领域的端到端覆盖,率先突破“不平衡、概念漂移、泛化能力和海量数据”四大难关.  DAT就像一个储备丰富的“军火库”,里面囊括了各种“法宝”。  搭建模型就像搭积木。第一步是确定可以使用哪些部件。为此,首先需要对可用的组件进行编码,定义一个搜索空间,并在此范围内进行过滤;然后确定搜索策略,即按照一定的方式在众多积木中找到最合适的组件,并将它们适当地组合起来;最后需要一个评价标准来测试搭建的模型是否可以使用,是否好用。因此,一个优秀的AutoML框架应该具备:富有表现力的搜索空间描述语言、高效的搜索算法、高性能的评估策略。Hypernets就是这样一个自动机器学习的底层通用框架,可以结合各种机器学习和深度学习框架开发专用的自动机器学习工具;同时提供了开放的训练服务框架,能够满足单节点和分布式高性能模型训练的需求,大大降低了AutoML工具的开发门槛;最新的神经网络架构搜索(NAS)算法的支持也使深度学习的网络架构设计自动化。  另外,作为结构化数据建模的深度学习工具,DeepTables具有开箱即用、架构灵活、易用等特点,解决了深度学习在结构化数据上性能不佳的问题.大量公开数据集甚至打败了XGBoost、LightGBM等传统算法;  HyperGBM是一个基于Hypernets框架的自动建模工具,集成了多种先进的GBM模型。不仅可以实现全自动机器学习的一键式训练,同时可以将整个Pipeline组合成一个模型,实现一键启动,彻底解决生产问题;  对于没有编程基础的非专业人士,选择Cooka即可轻松完成机器学习建模。作为一款界面友好的开源交互式自动机器学习系统,Cooka操作简单,安装在便携电脑上即可运行。使用Cooka也可以更轻松地使用HyperGBM和DeepTables。  总而言之,我们可以看到一个易于使用的AutoML平台可以涵盖机器学习的所有步骤。即使是非IT人员,只要准备好数据,也能得到适合任务目标的模型,这将对人工智能融入千行百业、人工智能应用的蓬勃发展产生深远影响。  实时数据分析:配合AI模型更高效地洞察和预测世界  方磊在大会主题演讲中提到,实时数据处理非常重要。如果模型训练好后需要很长时间才能输出结果,那无疑是令人失望的。例如无人值守的油田发生突发事件需要报警,只有数据采集实时、数据处理实时、模型预测实时,才能最终结果实时通知相关个人和团队,或实时反映在其他机器上。这个过程涉及的核心技术是实时数据库。只有让数据实时流动,配合智能模型,才能帮助人类更好地感知世界,更自动、更智能地做出预测。  计张云集DataCanvas产品总监胡宗兴为参会人员详细讲解了实时分析数据库DingoDB。  DingoDB是新一代实时分析数据库HSAP(HybridServing&AnalyticalProcessing),集分析和服务于一体,支持高频修改查询,实时交互分析,实时多维分析。  具体而言,该实时分析数据库的主要创新点如下:第一,智能优化器实现了行和列的最优选择。DingoDB数据库内置智能SQL优化器,可以实现分析型SQL和记录级SQL的自动优化,实现根据不同业务场景智能选择行存模式和列存模式。DingoDB可以通过列存储模式实现数据聚合计算和高效分析;对于记录级的查询和更新操作,DingoDB可以通过行存储方式快速定位数据,实现数据的查询和更新操作;二、高频点检查和修改操作。为了满足数据的时效性要求,DingoDB数据存储采用Key-Value模式实现存储,同时基于数据复制策略,实现数据的行列混合存储。针对高频记录级场景,如数据关联、记录修改等场景,可实现记录级的高并发、高频查询和修改操作;第三,多副本机制存储和计算弹性扩展。DingoDB数据表采用多分区多副本机制,保证数据安全稳定;同时,存储和计算分离的模式保证了容器化部署的横向扩展,实现了计算和存储的数据弹性。  将AI嵌入每一个云端,开启真正的数字智能时代  无论是AutoML、AI基础软件,还是数据智能,很多行业的用户一开始都没有清晰的认知。在会后的采访中,九丈云集DataCanvas的联合创始人兼CTO尚明东提到,用户可能更倾向于获得基于特定业务场景的AI解决方案,但这种个性化定制的解决方案从长远来看并不,不仅在后续的运维管理上可能会后患无穷,而且在规模化实施方面也存在诸多障碍。因此,加强人工智能基础软件建设,提升人工智能自主开发能力,是每个企业数字化、智能化转型的必然要求。  目前,在一些行业龙头企业,AI基础软件的完善升级已经带来了实实在在的好处,比如金融行业已经实现了智能风控和实时审批,可以对AI基础软件进行智能检测零部件和设备预测性维护制造行业等。人工智能应用的实施不仅可以降低成本,还可以提高效率。  这些行业的顶尖群体,也是九丈云集DataCanvas的主要服务对象。因为这部分客户的需求最为迫切,数据资产足够厚实,具备实现AI自主研发的资金和技术能力。基于对中国未来AI产业生态发展的预测,九丈云集DataCanvas建设性地提出了“云中云”战略,即将AI基础设施及相关AI能力嵌入各类行业云、企业云等。云。将九丈云集DataCanvas的AI能力与云端一起导出,可以达到事半功倍、借力发力的效果。  在技术能力上,九丈云集DataCanvas将继续深化在开源数据科学领域的造诣,为AI应用的落地打造更加普适的工具平台;为它开辟了更广阔的商业空间和更具想象力的创意空间。在数字智能的浪潮中,让我们满怀期待,砥砺前行。【原创稿件,合作网站转载请注明原作者和出处为.com】