6月1日,阿里云公布通义大模型进展,聚焦音视频内容“听物”的AI新产品“通义”上线正式上线,成为国内首个公开测试的大型模型应用产品。
通义听音接入通义钱文大模型的理解和概括能力,可以成为用户工作学习中的强大AI助手,帮助用户随时高效完成音视频内容的抄写、检索、总结和整理。
以及任何地方,比如使用大型模型自动记笔记、组织采访、提取PPT等。
公测期间,用户可以获得一小时以上听力理解的免费转录时间。
“以不同的方式,音频和视频可以轻松阅读、组织和共享。
”阿里云CTO周靖介绍,听物是一款针对知识附加值高的音视频内容场景的勤工助学型AI。
比如会议、上课、面试、培训、采访、直播、看视频、听播客等,都可以通过大模型等最新的AI技术,快速提炼和沉淀知识。
据现场演示,听物集成了十余项AI功能,可全面提升知识从音视频到图文的转化效率。
除了“听力好”之外,它还能生成高精度的会议记录,并区分不同的发言人。
这个AI助手也有“极高的悟性”。
大模型可以将音频和视频章节分章并一秒形成摘要,总结全文和每个发言人的观点,整理您的焦点和待办事项清单。
大模型一键提取PPT、针对多个音视频内容进行AI提问、总结特定段落等功能也将于近期上线。
通义听力可以自动生成音视频全文摘要、章节摘要、演讲摘要。
针对一些小众场景,听力还设置了很多“宝藏功能”:打开Chrome插件,外语学习者和听障人士可以使用双语悬浮字幕条,让你随时随地观看无字幕视频。
当日程冲突时,对舞还可以成为专业人士的“会议替身”。
当您以静音模式加入会议时,AI可以代您录制会议并整理要点;转录结果可以作为字幕文件下载,方便新媒体从业者进行视频后期制作;听力理解问答审核可以让记者、分析师、律师、HR等群体更高效地组织采访。
通义听屋Chrome插件将于近期开放给所有用户下载。
另一个显着优势是听物与阿里云盘对接,云盘上的音视频内容可以一键转录。
公测期间注册的听屋用户还将可以一键重写云盘上的音视频内容。
您将获得更大的阿里云盘存储空间,在线播放云盘视频时可以自动制作字幕。
孔廷舞支持一键导入阿里云盘音视频文件。
据周靖介绍,听物集成了阿里巴巴最先进的语音和语言技术。
内置阿里巴巴新一代工业级语音识别模型,识别准确率在多个权威中文数据集中排名第一;集成自主研发的语音语义多模态说话人算法,可在10人以上说话的场景中区分角色;接入通义钱文大规模模型后,可概括数万字音视频内容,事实准确度、要点完整性领先全国,支持跨多个音视频内容的精准问答理解。
继史无前例的降价之后,阿里云再次送出了人人都可以用的AI“大礼包”。
此前,国内语音厂商的AI转录价格达到19.8元/小时,而听屋用户可以通过日常登录等各种任务获得免费转录时间。
公测期间,阿里云官方微博、微信及各大平台社区还将发放大量20小时音译密码。
用户获得的福利权益可累计,一年内有效。
空闲时间可达10多个小时,市场价值数千元。
据了解,听屋除了个人版外,还有企业应用。
此前,听物企业版已在阿里巴巴集团内部广泛使用,帮助减少了大量的会议录制和组织工作,并受到好评。
同时,听的能力还可以嵌入到各种音视频平台中,形成实时字幕、智能摘要等。
典型的应用如钉钉的“钉钉”,背后就集成了听。
未来听物还将在夸克APP、阿里云盘等端口提供服务。