什么是科学计算平台?科学研究是人们探索新事物、认识新规律、创造新技术的重要途径。随着人类社会的不断进步,当今的科学研究已经迈向更加复杂和深刻的世界,研究对象也朝着复杂系统工程领域的大规模、多维度推进。例如,航天工程、全球气候、生态环境问题等,也对科学研究方法和手段提出了新的挑战。科学计算作为现代科学研究的主要手段,广泛应用于信息检索、环境模拟、数值计算、数据分析等场景。与此同时,机器学习的飞速发展也将科学计算平台推向了百家争鸣的时代:各种统计软件、数据分析软件、仿真软件、图形软件应有尽有……然而,这种传统的、去中心化的科学研究方法给科学研究带来了巨大的挑战:●知识是碎片化的、孤立的,很难建立关系。●AI模型搭建编程技能要求高,时间成本巨大,训练后优化费时费力;人工处理复杂建模操作效率低下,高维方程求解困难,精度和性能无法兼顾;大量机器学习训练数据的收集、清洗和治理工作繁琐枯燥;深度学习框架缺乏租户功能,难以实现资源的有效隔离和集群算力的有效管理。工欲善其事,必先利其器。为了快速、实时地分析海量科学数据背后的意义,最大程度地满足科研机构与科研人员之间交流与协作的需要,基于现代信息技术的科研平台对于提高科研水平至关重要。科学研究,促进学科交叉与融合,加强高水平科学研究。创新人才的培养起着至关重要的作用。轩辕研究院:与鲲鹏合作打造AI科学计算平台DataLab轩辕研究院是轩辕网络的全资子公司。是一家专注于人工智能研究和实践培训的新型研发机构。深耕教育行业23年,国内龙头企业。AI+产教融合服务商。依托高校多年技术成果和丰富的产学研合作方式,将国内外先进技术成果转化为科研应用技术和产品,促进科技研究与创新。轩辕AI科学计算平台DataLab是轩辕研究院与广州市“鲲鹏+升腾”生态创新中心共同打造的科研工作一体化解决方案。该解决方案集成了鲲鹏算力、多领域科研样本数据、算法模型开发和管理工具,可有效支持机器学习、神经网络、知识抽取、关联规则、智能预测、决策推理、高清科研图表输出。可用于自然科学和社会科学研究,以及计算机、软件、电子、自动化相关科研团队进行计算机技术原理验证场景,基于算法和数据进行科研实验,形成图形化展示实验结果和解决技术问题的界面,助力科技成果转化推广。【轩辕AI科学计算平台DataLab解决方案架构】随着科研数据的持续爆发式增长,科学家们需要更高的计算效率、数据处理效率和工程效率,以更好地支持跨领域科学研究,这也影响到IT平台.计算能力提出了更高的挑战。●鲲鹏多核多并发、高性能、高算力、低功耗的天然优势,能够很好地满足科研平台对海量数据处理、并行计算、低时延、绿色计算的要求;作为科学计算平台DataLab的算力基地,鲲鹏还提供完善的鲲鹏DevKit开发包和专业服务,帮助用户快速完成应用迁移、开发、编译调优,支撑科研平台高效创新。鲲鹏DevKit1人日/应用快速迁移AI科学计算平台项目实施初期,开发者需要将DataLab平台快速迁移至鲲鹏。由于整个系统模块众多,迁移工作带来了诸多挑战:●代码量大:5个子模块\15个微服务,共约100万行代码;●第三方软件较多:包括redis、rabbitmq、nacos、datax、hadoop,500+个JAR包,手动查找兼容版本非常耗时;经分析,如果采用人工迁移,完成整个系统的15个微服务需要30个工日。鲲鹏DevKit代码迁移工具可实现自动识别依赖文件、一键下载兼容JAR包、一键替换代码修改建议,无需费时费力的检查和跟进。在鲲鹏DevKit的帮助下,整个系统仅用时10人天,平均每项服务不到1人天即可完成自动迁移。【使用鲲鹏DevKit代码迁移工具进行代码分析】基于鲲鹏DevKit,高效开发构建违规检测算法模型,性能提升89%违规检测算法模型。在开发过程中,为了进一步提升业务性能和稳定性,将平台之前使用的OpenJDK替换为必胜JDK。BishengJDK提供更好的版本稳定性、GC(GabarageCollector)性能和增强的Decryption性能,可以提高DataLab平台数据处理应用的运行效率。此外,针对系统存在的性能瓶颈,轩辕研究院的技术人员使用鲲鹏性能分析工具,对操作系统和JVM的运行状态进行了优化、分析和优化,完善了AI计算模型的运行——DataLab平台相关业务效率:在系统性能分析中创建系统全景分析任务。通过收集系统软硬件配置信息,以及系统CPU、内存、存储IO、网络IO资源的运行状态,可以识别出单CPU利用率高和两个热点功能。瓶颈比较大,给出了优化建议,解决了DataLab平台93093线程的38-CPU单机利用率高的问题,提升了平台的性能。【AI科学计算平台DataLab系统性能调优-全景分析】通过内存访问分析功能的高阶分析能力,分析出应用中存在跨芯片、跨DIE内存访问,流程为绑定核心,根据系统的建议优化每一个微观。服务硬件资源分配,提高计算资源利用率。通过微架构分析对DataLab平台的操作系统进行采样分析,发现badSpeculation的branchMispredic比例较高,代码中嵌套if判断的for循环中存在大量分支预测响应失败,优化建议为针对以上问题给出。优化了平台程序响应时间和内存分配的性能。通过Java性能分析,调整平台的Java方法采样、线程转储、老年代对象采样等多种采样分析方式,调整垃圾收集器的配置策略,提高查询业务的吞吐量;通过以上一系列的优化分析,轩辕研究院DataLab平台在鲲鹏上的运行性能得到了有效提升:例如,与优化前后的鲲鹏DevKit相比,模型查询业务平均响应时间缩短了27%典型场景(1分钟200并发),极压测试场景(1分钟1万)。并发)缩短了89%;【模型查询业务平均响应时间对比】鲲鹏DevKit优化后,模型查询业务的吞吐量也提升了30%。【模型查询服务吞吐量对比】此外,数据集检索、数据集上传、模型训练等服务的综合性能得到显着提升。在鲲鹏原生开发过程中,轩辕研究院通过鲲鹏DevKit对DataLab平台的数据处理能力进行了优化,有效提升了违建检测的查询速度,也让GIS领域的科学研究更加便捷高效。轩辕研究院AI科学计算平台DataLab可在地理遥感、生物医学、地球科学、工业互联网、社会科学等诸多领域发挥重要作用。2018年鲲鹏科研领域唯一入选方案。作为鲲鹏计算产业生态的重要合作伙伴,轩辕研究院也与广州市“鲲鹏+升腾”生态创新中心建立了长期合作关系,将基于此持续实现科学计算领域的应用创新。鲲鹏原生开发。鲲鹏原生开发是指利用鲲鹏DevKit的原生开发能力,如鲲鹏开发框架(含场景化SDK)、编译调试工具、云测试服务、调优诊断工具等,开发新软件/鲲鹏平台新功能。充分发挥鲲鹏架构优势,提升开发效率/运行性能。未来,鲲鹏DevKit将持续提升开发体验,优化工具能力,提升鲲鹏开发效率,推动千行百业的数字化转型。【扫描二维码登录鲲鹏社区DevKit专区了解更多】
