当前位置: 首页 > 科技赋能

数据共建、算力共享、百度吴华:打造中文信息处理全球影响力

时间:2024-05-20 02:16:26 科技赋能

近年来,尽管自然语言处理技术快速发展,但在模型鲁棒性、可解释性、复杂知识表示和文本等方面仍存在问题在融合、跨模态语义理解等方面仍存在挑战。

为解决自然语言技术发展面临的挑战,推动中文信息处理技术进步,百度大脑语言与知识技术峰会于8月25日在线举办。

中国中文信息学会联合发布“千字数据共建计划”(网址:百度联合中国计算机学会、中国中文信息学会联合发布“千字数据共建计划”。

目前, “千言万语”项目第一期涵盖7大任务、20多个中国开源数据集,由哈尔滨工业大学、清华大学、中科院信息工程研究所吴华表示:“我们希望通过这些计划,能够与业界同仁共同解决中国信息处理技术发展中的挑战,并在世界范围内推广。

在一定范围内打造中国信息处理影响力。

”此次峰会除了公布两大计划外,还汇聚了百度在语言和知识领域十年的技术积累和产业实践。

百度CTO王海峰发表主题演讲并解读百度语言。

百度集团副总裁吴天以知识技术的发展历史、最新成果和趋势展望为主题,推出五款新产品,加速发展大规模应用技术,共同打造中国开源数据集“千词”项目处理语言和知识。

技术应用新挑战自然语言处理技术让机器像人类一样理解语言、掌握知识,是人工智能中认知智能的核心;处理语言信息的能力也是我们日常使用的一个国家的核心竞争力。

搜索、翻译、信息流推荐、响应你每一个需求的智能助手等等,都是由语言和知识技术发挥的。

如此大规模的工业应用也对技术提出了新的挑战,包括需要综合模型。

处理多个子任务的能力;良好的跨领域数据泛化能力;应用程序具有足够的鲁棒性以确保安全性等。

此外,这些大规模应用程序需要更高水平的语义理解。

要求模型具有一定的常识、背景知识甚至推理能力;同时,随着内容承载格式的多样化,模型也需要具备多模态融合的内容理解能力。

为了应对上述问题,百度与中国计算机学会联手。

与中国中文信息学会联合启动“千字”数据共建计划,联合高校、企业数据资源开发者,共同建设中国开源数据集。

本次峰会上,百度技术委员会主席吴华、中国中文信息学会副理事长兼秘书长孙乐、中国计算机学会自然语言处理专业委员会主任周国栋共同解读了“ “千言”数据集及“千言”的目标涵盖了广泛的任务类型,从语义理解、知识融合、跨模态融合等角度推动技术进步。

它还提供了可以进行多维度综合评价的数据集,以评价模型的综合性、泛化性和鲁棒性。

等待。

截至目前,千言计划第一期已涵盖开放领域对话、阅读理解、机器同声传译、情感分析、语义分析、信息抽取和文本相似度等7大任务和20多个中文开源数据集,由百度与来自哈尔滨工业大学、清华大学、中科院信息工程研究所等10所顶尖高校和企业的数据集作者共同建立。

为了给千言提供数据浏览、下载、评估的一站式科研体验,百度还对所有数据进行处理,每个任务都有统一的数据格式和评估,并基于此提供基线系统。

帮助加速模型开发。

吴华表示,未来三年,前言项目将聚焦20余项任务,收集和构建不少于10个中文自然语言处理数据集,全面覆盖知识图谱、语言理解、语言生成、跨模态融合,以及NLP应用系统。

以及许多其他领域。

我们也期待更多的数据集作者加入共建,共同推动中文信息处理技术的进步。

推出算力共享计划!百度全力支持语言和知识技术开发者和研究人员。

除了数据之外,计算能力是语言和知识技术发展面临的另一重大挑战。

超大规模深度学习模型带来显着性能提升的同时,对算力的需求也呈现指数级增长。

计算能力的缺乏已经成为许多开发者和研究人员技术研发的一大瓶颈。

为此,百度正式启动语言和知识算力共享计划。

通过AI STUDIO平台,百度将提供算力支持,协助语言和知识技术开发者。

吴华表示,未来,百度将邀请“千词”数据集的用户、百度开源语言和知识的用户以及更多的中文语言和知识技术开发者和研究人员免费使用这些算力。

传承数千年的汉语创造了灿烂的中华文明。

在人工智能时代,百度也希望与学术界和产业界携手,共同推动中文信息处理技术的进步,用智能技术学习和传承中文凝聚的无尽宝藏。