当前位置: 首页 > 科技观察

百度CTO王海峰详解语言与知识的完整布局

时间:2023-03-21 11:39:16 科技观察

自然语言理解(NLP)被誉为“人工智能皇冠上的明珠”,这也意味着在语言和知识等认知方面的技术突破知识将进一步推动人工智能的深入发展。8月25日,以“掌握知识,理解语言,拥有智能”为主题的百度大脑语言与知识技术峰会召开。学术界和研究界共同分享技术和产业发展趋势和前景。百度集团副总裁吴天、百度技术委员会主席吴华分别发布了百度语言与知识技术系列产品和数据集共建计划,推出了五款新产品。加快人工智能技术规模化应用。这是一场凝聚了百度在语言知识领域十年技术积累和产业实践的盛会,必将带来深远的影响。百度CTO王海峰十年:开拓者、深耕者、引领者人工智能认知能力的核心是语言和知识技术。2010年,百度成立自然语言处理事业部,在前瞻技术和产业结构上持续引领和创新。十年来,它已成为中国NLP发展的一面旗帜。峰会上,王海峰回忆道,“在百度语言和知识科技的布局和发展中,我们一直注重把握两个趋势,即技术发展趋势和行业发展趋势,力求引领潮流。“百度语言与知识技术发展概况课程从研究方法、研究对象、研究方向、产业应用等方面布局完整,不断打磨和成熟。十年来,百度大脑语言与知识技术取得了丰硕的成果。先后获得国家科技进步奖等20余项,国际竞赛冠军30余项,发表学术论文300余篇,申请专利2000余项。在技??术不断突破创新的同时,也在不断创新探索产品,同时向开发者和合作伙伴输出领先技术,提升各行业的智能化水平。全面分享语言与知识科技成果王海峰全面分享了百度语言与知识科技的完整布局与最新成果。首先,知识图谱是机器认识世界的重要基础。百度创造了全球最大的知识图谱,拥有超过50亿个实体和5500亿个事实,并且还在不断进化和更新。百度知识图谱应用于各行各业,每天调用量超过400亿次。其次,在整合知识的基础上,语言理解能力不断增强。2019年3月,百度提出ERNIE,一种知识增强的语义理解框架,在深度学习的基础上整合知识,具有持续学习能力。列举历史。基于知识图谱和语义表示,突破阅读理解、对话理解、跨模态深度语义理解等技术。第三,语言生成是语言和知识技术的重要组成部分。基于预训练技术的成功经验,百度提出了基于多流机制的语言生成预训练技术,兼顾了词、短语等不同粒度的语义信息,显着提高了生成效果。百度还探索了多文档摘要的生成,通过图结构语义表示引入章节知识,提升单文档和多文档摘要的生成效果。在应用系统层面,在对话系统、机器翻译等方面取得了突出成绩。百度提出了知识图谱驱动的对话控制技术、首个基于潜在空间的大规模开放域对话模型PLATO等,并推出了智能对话定制和服务平台UNIT,帮助开发者高效构建智能对话系统和实现大规模应用。百度翻译支持200多种语言,每天响应超过1000亿字符的翻译请求,支持超过40万个第三方应用。技术上,提出了多智能体联合学习、基于语义单元的同声传译模型、稀有语言分组混合训练算法等,百度大脑语言与知识技术的不断探索与创新,取得了业界瞩目的成就。同时,这些技术以平台化方式输出,赋能千行百业,不断提升工业智能化水平。重磅推出5大新品2大计划王海峰首次发布了百度大脑语言知识产品全景图。百度集团副总裁吴添先后发布了语义理解技术与平台文心、智能文档分析平台TextMind、AI同声传译会议解决方案三款新品。以及智能对话定制和服务平台UNIT的三项全新升级。百度集团副总裁吴添表示,“我们一直致力于将语言和知识技术凝聚成一系列技术平台和产品,在应用中产生大量价值,为开发者和行业从业者提供语言以知识技术为基础的一系列核心驱动产品。”百度推出的语义理解技术及平台文心,基于深度学习平台飞桨,依托领先的语义理解核心技术,集成优秀的预训练模型、完备的NLP算法集、端到端的开发套件和平台提供一站式NLP开发和服务,让开发者更轻松高效地定制企业级NLP模型。文心经过大量真实应用场景的锤炼,具备优秀的工业级落地能力。新发布的智能文档分析平台TextMind,基于OCR和NLP技术,以文档分析为核心能力,支持文档比对和文档审阅,具有“多、快、好、省”的核心优势,推动企业办公智能化升级。百度大脑智能创作平台针对媒体应用场景进行升级,推出智能策划、智能采编、智能校对三大媒体新场景解决方案,进一步助力媒体人更快更好地创作,可谓重磅来袭媒体人的“痛点”。智能对话定制与服务平台UNIT升级,拥有三大特色:更智能的任务式对话理解、极致便捷的形式问答、融合通用的全新对话引擎。UNIT新升级的三项能力,将进一步降低任务型对话和智能问答的定制成本,融合通用对话能力,提升交互体验。全新发布的AI同传会议解决方案覆盖会议全场景、全流程,旨在为用户打造“会议同传专家”。吴天现场演示了如何仅用一台电脑和一部手机快速搭建一套同声传译服务。只需轻点鼠标,输入几个字,即可快速获得专业的同声传译服务。数据匮乏、计算能力不足一直是语言与知识技术研发面临的瓶颈。为突破瓶颈,百度联合中国计算机学会、中国中文信息学会发起了中文自然语言处理数据共建项目——千言,以解决数据稀缺问题。千眼一期由国内11所高校和企业的数据资源开发者共同建设。涵盖开放领域对话、阅读理解等7大任务,20余个中文开源数据集。百度技术委员会主席吴华表示,“未来,我们希望更多的数据集作者能够参与千词网的共建,共同推动中文信息处理技术的进步,打造具有世界影响力的千词网。中文信息处理。我们计划在未来三年内,针对20多个任务,收集和构建不少于100个中文自然语言处理数据集,涵盖语言和知识技术的所有领域。”百度技术委员会主席吴华(中)、中国信息学会副理事长兼秘书长孙乐(左)、中国计算机学会自然语言处理专业委员会主任周国栋(右),一起正式启动了千字计划。吴华还发布了百度语言与知识技术算力共享计划,通过百度AISTUDIO平台提供算力支持,让广大开发者打破算力的束缚,专注于技术创新。十年征程,百度在语言和知识技术发展过程中培养和吸纳了一大批全球顶尖人才。会上,百度推出了以王海峰为代表的百度NLP“十年十人”。十年坚守,不忘初心,秉承“技术信仰”,勇攀技术高峰,坚定不移地致力于让机器更好地理解世界,更好地服务于人。正如王海峰所说,“我们致力于更好地与学术界和产业界合作,推动语言和知识技术的发展,进而推动人工智能技术的不断进步,为产业智能化升级和社会高质量发展贡献力量。经济发展,我们致力于我们对未来充满信心,坚持研发让机器掌握知识、理解语言、拥有智能,不断突破创新,为科技和社会做出更大的贡献进步。”