随着信息传播内容和渠道日益多元化,人们获取信息的边界不断扩大,搜索引擎也正在从工具向服务转变,成为互联网商业生态系统的一部分 企业宣传和洞察风险的重要起点。
在此背景下,米读将传统搜索引擎与多模态技术相融合,推出跨模态多语言智能检索平台——索机,为企业提供精准化、场景化、多元化的信息检索服务体验,助力企业宣传向上推广生长。
米度索吉帮助企业跨模态障碍推动内容检索,大幅提升效率。
“在现实世界中,人们通过语言、文本、图片等各种模态信息进行交流,而在互联网世界中,对于计算机来说,不同模态的内容存在语义障碍。
通过文本只能检索与文本相关的内容,而在互联网世界中人们需要对非文本内容进行注释才能检索。
”上海米渡信息技术有限公司产品经理索吉张帅表示。
在通信内容日益图形化、视频化的时代,不同模式的内容才是互联网世界的真实面貌,但目前对图片、视频添加注释的方式已经远远不能满足信息检索的需求。
为了克服模态之间的语义识别障碍,米读自主研发了多模态多语言能力引擎MiduCMR,涵盖了NLP、CV单模态和多模态之间的交互和融合技术,可以制作不同模态的信息。
文本、图片、视频等语义互通,实现带文字搜索图片、带文字搜索音视频、带图片搜索文字、带图片搜索图片、带图片搜索视频、带音频搜索文字、音频搜索、视频等跨模态信息检索功能,可以更好地满足企业形象维护、品牌推广等多种业务需求。
Mitusuoji通过跨模态比较学习、跨模态语义融合、跨模态语义表示、跨模态语义检索四大技术对多种模态信息进行整合和联合表示,并利用搜索特征向量搜索海量目标采用维度向量进行计算,提高理解能力和效率,实现语音和文本纠错能力,提高识别准确率。
对于具体的使用场景,张帅举了一个例子。
在企业声誉领域,米度索吉主要为客户提供品牌风险洞察、声誉评估等方面的智能搜索服务。
在品牌风险洞察过程中,品牌只需几分钟即可直接检索系统中与品牌相关的文字、图片、视频等模态内容,加快了品牌风险的排查速度。
在口碑评价过程中,米度索吉可以帮助用户了解品牌的正面评价和负面评价,为品牌提供更全面的口碑评价服务。
在精度方面,米度索基还设计开发了特殊的场景识别功能,以满足特定领域的高精度需求。
目前,已针对各政府单位、特殊场景完成高精度训练,有效帮助特定领域客户快速发现相关图片、视频信息。
除了在多模态认知过程中充分整合不同模态的特征外,米读索基还利用跨模态检索来提取相似特征,并在秒级内识别图像和视频。
米渡索基采用Transformer架构模型,泛化能力和效果出色。
它在单峰认知中也能派上用场。
该模型架构可以通过自注意力机制充分学习特征,帮助用户在短时间内完成相似图像检索。
例如,如果一家企业想知道其标志或包装是否被盗,以诱导消费者购买假冒产品,使用米度索基的相似图片搜索功能将帮助该公司更快地搜索到与该公司标志或包装相似的图片并且更全面。
包装与图片相似。
美图索基还可以帮助主管部门对申请注册的商标进行比对,协助相关部门进行商标管理。
除了相似图片之外,在CV、OCR等前沿技术的支持下,索吉还可以识别视频甚至图片、音视频中的场景、字幕、弹幕、背景、商标等元素,从而服务更精细的内容。
应用场景。
例如,企业可以使用锁机提取和处理字幕和弹幕,以更好地了解用户对内容的关注点和情绪;还可以用于品牌信息追溯、洞察传播路径等。
多语言输入信息检索更加丰富。
我们一直在语言智能的道路上努力,试图让机器更好地理解人类的语言。
说到让机器理解人类语言,就需要谈到“多语言技术”的加入。
。
为此,索吉作为米读探索语言智能之路上的应用之一,在今年年初进行了全新升级。
面对多种语料数据的稀缺,米都索吉仍然完成了多语言集成训练。
目前,用户可以输入英语、韩语、日语、印尼语、印地语、亚美尼亚语等语言,完成全媒体跨模态智能检索。
张帅表示,从实际意义上讲,多语言输入将帮助用户使用自己熟悉的语言访问不同语言的内容。
从更广泛的意义上讲,实现不同语言之间的互通,消除经济活动和文化交流中的语言障碍,是人们共同努力的方向。
跨模态多语言智能检索平台米读锁机将继续以更好的技术、更场景化的功能,为用户提供精准化、场景化、多元化的信息检索服务体验。