在过去的5年中,图片,视频和声音等非结构化数据的数量已经经历了爆炸性的增长。随着深度学习技术的持续升级,深度代表性学习,迁移学习和比较学习等技术正在开始越来越成熟,搜索非结构性数据已逐渐成为可能。
在这种情况下,专注于神经搜索技术的商业开源软件公司Jina AI提出了神经搜索:采用深度学习技术来实现多模式和交叉模块化搜索。
现在,Jina Framework已在AI领域的GPU云服务提供商Matpool上启动。学者和研究人员只需要在租用机器时选择Jina镜子,也就是说,他们可以体验高效,大型非结构性数据搜索。在同一时间,Ruyun Team版本用户还可以基于镜像来实现有效的协作,数据,计算能力,存储和其他共享。
神经搜索是指使用深度学习技术搜索非结构化数据。
与传统搜索不同的是,传统搜索主要基于文本标签,而神经搜索可以处理文本,图像,视频,音频甚至3D网格多模式和交叉模式搜索问题。
神经搜索系统的应用包括搜索地图,文本搜索,问答机器人,照片重,大量标签分类等。
在深度学习模型的帮助下,神经搜索将非结构化数据表示为向量。在矢量空间中,类似的数据将聚集在一起,不同的数据将分散在空间的不同位置。,在矢量空间中找到最近的邻居可以实现对非结构性数据的搜索。
尽管多模式和交叉模式搜索是神经搜索的重要应用程序方案,但神经搜索解决方案的建立非常复杂,通常涉及工程,AI建模和DevOps。简化这种复杂性是Jina AI所做的。
Jina AI提供了涵盖整个开发过程的结尾开源技术堆栈,即神经搜索生态。
Jina家庭桶产品清单
docarray:非结构化数据的数据结构
神经搜索生态学中的第一个产品是Docarray,这也是创建神经搜索项目的第一步。
docArray统一的非结构化数据进入相同的数据结构。使用Python API,R&D人员可以有效处理,多功能,搜索,推荐,推荐,存储,存储,存储和传输数据。
它适用于大型项目的构建,并优化了许多数据科学家和AI工程师。
Jina:任何类型数据的云原生神经搜索框架
吉纳(Jina)是生态学中最早的产品,出生于2020年。Jina是一个云本土神经搜索框架。简而言之,它可以将本地docarray程序升级到高度可扩展的云服务中。
如果开发人员设计一个神经搜索系统,他们通常需要自己维护一组工具链,包括建筑模型预测服务,维护向量索引等。大大减少了神经的神经。搜索系统的开发成本。
Finetuner:Fintune任何DNN,以更好地嵌入神经搜索任务
出色的神经搜索解决方案通常需要出色的矢量模型。公共培训模型通常可以解决此问题。Finetuner可以在特定字段中使用数据进一步罚款 - 以获得更高的精度,更好,更好的地面应用于搜索任务。
为此,Finetuner可以被视为神经搜索的最后一步。
剪贴画:嵌入图像和句子与夹子中的固定长度向量
夹子服务使用夹模型将图像和句子嵌入固定长度的向量中。开发人员可以将新的搜索解决方案用作定向服务,也可以使用Jina在生产中生产中的生产服务。简单地将其用作最佳实践。
集线器:分享并发现神经搜索应用的构建块
在实际应用中,搜索解决方案通常包括许多组件。某些组件可以在不同的任务中重复使用。使用共同的组件可以极大地简化开发过程。出于这个原因,集线器开始存在。
通过枢纽,开发人员可以共享并发现官方和社区的组成部分。从头开始并快速构建新的搜索解决方案只需几分钟即可。
JCloud:简化Jina Cloud上的Jina项目的部署和管理
将Jina项目部署到云中,您可以使用Jcloud。这是一个命令行界面,可以管理Jina Cloud上Jina项目的生命周期。
Jina Cloud是一个云控制台平台,它运载Jina项目并提供免费的计算和存储资源。
现在:一行托管他们全部。在几分钟内引导您的图像搜索案例
Jina现在将文本的搜索问题通过一系列代码解决图像。对于第一次使用Jina的用户,它提供了更简化的用户体验。
有很多方法可以使用Jina的家庭水桶。通常,研发人员将开始设计docarray的原型,然后使用Jina将其转变为服务,然后通过参考集线器上的组件,然后通过JCloud部署来加速开发进度。
部署后,如果您对准确性,精度(精度)和召回率不满意,则可以使用Finetuner此时调整优化。
如果目前处理任务是文本和图像,我们还可以将剪辑AS服务用作向量。
Rugao Yun现在支持Jina Mirror,开发人员输入Matpool.com,并可以直接通过“主机市场输入Jina”运行。
编辑
在此示例中,我们使用Mini Imagenet数据显示它。
Jiyun的公共数据集为您提供了相应的数据。我们将数据复制到当前文件夹
使用docuray库提供的文档封装图片。多数文档形成了一个文档。
DocumentArray提供的功能可以帮助我们快速加载文件夹下的所有图片。图片文件的位置信息存储在URI属性中。功能可以预览图片。
定义用于预处图片的功能,并使用该函数在DocumentArray中运行每个文档的功能。
通过文档的URI信息,我们加载了图片内容,并以ndaray格式存储在张量属性中。
加载RESNET50模型并调用嵌入功能以计算DocumentArray中每个文档的向量。
在这里,我们在Muchi Cloud的预训练模型仓库中使用RESNET50模型。
每张图片的向量表明它以张量格式存储在嵌入属性中。
构建DocumentArray使用的查询,并在上一步中创建的文档array中调用匹配函数以搜索最相似的图片。搜索结果保存在匹配变量中,并使用plot_matches_sprites函数进行可视化。
原始:https://juejin.cn/post/709677789111877669