文章|莉娜智东西7月5日报道今天,百度AI开发者大会在北京召开,超过100人参加了本次盛会开发者大会,这是百度历史上规格最高的人工智能大会。
在上午的开幕致辞中,百度创始人李彦宏、总裁兼COO陆奇、度米事业部总经理景坤上台依次介绍。
智东西还对讲话内容进行了详细报道。
(整个百度AI大会毫无线索:人工智能与阿波罗计划全面公开【附90+页PPT下载】)下午,智东西来到了六大分论坛之一:AI技术与平台分论坛- 论坛,看看百度在做什么 AI 的新进展。
(百度副总裁、百度人工智能技术与平台体系(AIG)总经理 王海峰) 百度副总裁、百度人工智能技术与平台体系(AIG)总经理王海峰首先上台开启仪式。
他提到,目前几乎所有主要的人工智能技术都已在百度搜索引擎中得到应用。
搜索引擎十七年来积累的用户需求、数据和平台支撑了百度AI的发展。
正如李彦宏在上午的演讲中反复强调“开放”的理念一样,王海峰表示,本次百度AI开发者大会之后,百度完整的AI技术平台(迄今为止共60项技术能力)将全面向开发者开放。
包括语言理解与交互的开放、图像/视频分类与理解技术的开放、AR技术平台的开放,以及本次分论坛将提到的PaddlePaddle深度学习开源平台。
整个场景下来,“开放”两个字都快认不出来了……DuerOS被百度提到如此重要的战略高度,基于语音的AI交互技术自然成为了亮点。
语音交互技术还包括语音技术、语义理解等方面: 1、语音:综合开放语音生态系统2.0。
语音技术部总监高亮首先上台介绍了百度全新升级的一套语音技术,即面向偏远地区的语音开放生态2.0。
现场识别、离线唤醒、多硬件适配等方面都进行了优化。
现在,这项升级优化的语音技术将全面向开发者开放。
1)开放远场语音识别及唤醒:识别:近场数据适配(通过数据增强技术将近场数据模拟成远场声音)、麦克风阵列适配、中文家居适配(房屋类型、噪音等问题)。
唤醒:海量唤醒词数据、唤醒/误唤醒打磨(语音识别模型、解码器等方面的优化与平衡)、厂商定制、用户可配置。
2)开放定制语音合成技术:定制TTS、SSML标签语言、基础标签、百度扩展。
3)开放语音合成音色:追求极致自然音色(讲故事的声音、小孩讲故事的声音),个性化、名人语音合成(个性化很难,但对用户体验很有帮助) 4)开放情感CUI (情感CUI):增强对话感——融入更多情感对话体验,为对话带来更多互动信息。
包括音量(说话人的情绪、态度等)、音域(说话人的性格)、语速(说话人的心情)、音色(说话人的性别、年龄)等,根据说话人的属性提供个性化的声音,对话生动(简短)以及说话快时的快速回答)、情绪反应。
2.语义理解:百度UNIT语音理解交互平台正在开放语音技术,让机器能够清晰地听到用户的声音。
更重要的是,它正在开放自然语言处理技术,让机器能够理解用户的需求。
接下来,百度自然语言处理部总监赵世奇介绍了即将向开发者开放的百度语言理解与交互技术平台——UNIT(理解与交互技术平台)。
UNIT平台将开放语言理解技术(意图+词槽,提供深度学习、迁移学习等技术)、多轮交互技术(对话管理、跟踪、设计动作触发机制、自动澄清、主动引导)以及基础还创建了“训练师”模式,让开发者可以更轻松地训练对话机器人,让机器能够理解用户需求并进行多轮对话。
上午,陆奇提到,今年将举办第十三届“百度之星”开发者大赛。
赵世奇在会上补充道,本次大赛的命题是基于UNIT平台提供的语言理解和交互技术,“设计开发一款以对话式人机交互为核心的智能产品”。
3. DuMix AR平台 除了语音技术之外,另一个值得关注的新产品是名为DuMix(发音很像“DuMi”...)的AR技术平台,该平台为开发者提供DuMix AR SDK、内容制作工具、云内容平台和内容分发服务。
百度增强现实实验室主任吴忠勤介绍,百度DuMix AR平台具有以下优势:1、数据(搜索系统带来强大的数据积累)2、三维感知与跟踪(稳定的图像跟踪、单目视觉SLAM)等)3、智能交互(语言、手势、人脸)4、自研超轻量级AR渲染引擎(超轻量、跨平台、门槛低)我们从Demo视频和现场也可以看到DuMix AR 提供的一些比较基础的 AR 技术与 Facebook 或 Apple 之前推出的 AR 平台类似。
它们本质上是为了降低AR内容创作的门槛,希望吸引更多开发者使用他们的SDK和工具进行制作。
此外,百度研究院院长林元庆上台介绍了百度在图像分类、图像识别、人脸识别、视频分析理解等方面的AI技术和应用(他还特别提到了百度参与最强大脑识别和理解)人脸识别支付)。
有趣的面部识别应用,例如在 ATM 机上买水);百度杰出科学家徐巍还介绍了百度深度学习开源平台PaddlePaddle。
这些都是智动之前跟踪报道过的AI项目,这里不再详细解释。
正如前面所提到的,整个会议中“开放”这个词出现的频率如此之高,以至于我听完都差点没认出来……无论是完全开放的语音生态2.0、UNIT语义交互平台,还是DuMix AR平台,还是我们熟悉的PaddlePaddle。
这些开放平台本质上是百度为了构建自己的AI生态而搭建的平台。
现在剩下的就是开发者上台唱歌了。