简介:今天,首席CTO注释要与您分享如何选择人工智能的模型设计。如果您能解决您现在面临的问题,请不要忘记注意此网站。让我们现在开始!
目标测试是人工智能的重要应用。它是识别图片中内部的对象并标记对象的位置。通常,需要两个步骤:
1.类别,识别对象是什么
2.定位,找出对象在哪里
除了检测一个对象外,还必须支持多个对象,如下图所示:
这个问题并不容易解决。因为对象的大小具有很大的变化,可变的位置角度和不确定的姿势,并且对象有很多类型,因此有许多类型的对象,可以出现在图片中,并出现在任何位置因此,目标检测是一个更复杂的问题。
最直接的方法是构建深层神经网络,将图像和标签位置用作样本输入,然后通过CNN网络,然后识别分类头的完整连接层识别的对象。头部完整连接层的回归位置,如下图所示:
但是,“返回”并不容易,计算量太大,收敛时间太长。应该发现它是“分类”的。此时,在位置中,计算此框的分数,然后将最高分数框作为预测结果,如下图所示:
根据比较中的得分高和低,右下角的黑色框架被选为目标位置的预测。
但是问题是:盒子应该花多少钱?太小,不完整的对象识别;太大了,已经确定了许多其他信息。我应该做什么?然后计算各种尺寸的框。
如下图所示(要识别熊),反复用图片中的各种尺寸的盒子拦截,输入CNN以识别计算得分,并最终确定目标类别和位置。
该方法非常有效,太时间 - 库存。是否有有效的目标检测方法?
1. R-CNN出生
R-CNN(区域CNN,区域卷积神经网络)可以说使用深度学习来进行目标检测。作者罗斯·吉尔希克(Ross Girshick)在Pascal VOC目标检测竞赛中反复折叠。在2010年,终身成就奖,现在在Facebook的人工智能实验室(Fair)工作。
R-CNN算法的过程如下
1.输入图像
2.每个图像生成1K?2K候选区域
3.对于每个候选区域,请使用深层网络提取功能(Alextnet,VGG和其他CNN可以))
4.将功能发送到每个类别SVM分类器中以确定其是否属于此类
5.使用回归设备可精细纠正候选框的位置
让我们在下面介绍
1.生成候选区域
使用选择性搜索(选择性搜索)方法为图像生成约2000-3000个候选区域。基本想法如下:
(1)使用过度切割方法将图像分为小区域
(2)查看合并最高可能性的两个区域,然后重复直到整个图像合并到区域位置。回顾以下区域:
3.类别判断
对于每种类型的目标,请使用线性SVM第二分类器进行判断。输入为4096 Vitasncorcing症状,来自深网(如上图所示),以及输出是否属于此类别。
4.维修
目标检测的测量标准是重叠的区域:许多看似准确的测试结果,通常是因为候选盒不准确并且重叠区域很小,因此必须修复步骤。对于每个班级,训练线性回归模型以确定框是完美的,如下所示:
在R-CNN对测试领域进行深入学习后,Pascal VOC的检测率从35.1%增加到53.7%。
2.快速的R-CNN急速加速
在2014年推出R-CNN之后,Ross Girshick于2015年推出了快速的R-CNN,具有精致的想法和更紧凑的过程,大大提高了目标检测速度。
与快速R-CNN和R-CNN相比,训练时间从84小时减少到9.5小时,测试时间从47秒减少到0.32秒,Pascal VOC 2007的测试准确性几乎相同,大约相同。66%-67 -67%之间。
快速R-CNN主要解决R-CNN的以下问题:
1.训练和测试期间速度缓慢
R-CNN图像中R-CNN的候选框之间的大重叠,提取特征性操作冗余。FastR-CNN返回整个图像并将其直接发送到深层网络,然后将其发送到候选者从该图像中提取的区域。这些候选区域的前几层无需重复计算。
2.培训所需的空间很大
R-CNN中的独立分类器和回归需要大量的功能作为培训样本。FastR-CNN将类别判断和位置改进与深度网络实施相结合,不需要额外的存储空间。
让我们在下面详细介绍
1.在功能提取阶段,通过CNN的操作(例如Alexnet)不需要修复CNN中固定大小和大小的输入(例如Alexnet)。功能映射的大小也不同,因此不能分类。直接到完整的连接层。
在快速R-CNN中,作者提出了一个称为ROI POLING的网络层。该网络层可以将不同的尺寸映射到固定尺度的特征向量中。ROI合并层均匀地将每个候选区域均匀地划分为M×N块,并且在每个块上执行最大池。图表被转换为统一数据并发送到下一个级别。尽管输入图片的大小不同,但功能映射的大小(功能图)也不同,但是您可以添加此神奇的ROI池池以提取固定的固定层每个区域的维度功能。do类型识别。
2.在分类回归阶段,在R-CNN中,制作了一个候选框,然后通过CNN提取该功能,然后使用SVM分类,最后返回到特定位置(Bbox回归)。Fast R-CNN,作者巧妙地将最终的Bbox回归放入了神经网络的内部,并将区域分类合并为多任务模型,如下图所示:
实验表明,这两个任务可以共享卷积标志并相互推广。
快速R-CNN的重要贡献是,成功地让人们看到了对区域提案+CNN(候选区域+卷积神经网络)实时检测的希望。
3.更快的r-CNN速度更快,更强
在2014年推出R-CNN之后,2015年快速R-CNN推出了目标测试行业的Ross Girshick团队,Ross Girshick Team在2015年推出了一项杰作:更快的R-CNN,可以实现简单的网络目标在Pascal中达到17fps的检测速度。VOC的准确率为59.9%,复杂网络达到5FP,精度率为78.8%。
快速R -CNN中仍然存在一个瓶颈问题:选择性搜索。这是时间 - 耗时以查找所有候选框。我们有一种更有效的方法来查找这些候选盒吗?
添加一个神经网络以将边缘提取到更快的R-CNN,这意味着还将找到候选框的工作也可以在神经网络中进行。候选区域的生成,特征提取,分类和位置)最终统一到一个深层网络框架中。如下所示:
更快的R-CNN可以简单地视为“区域生成网络+快速R-CNN”的模型,并使用区域生成网络(RPN)来替换快速R-CNNMethod中的选择性搜索选择性搜索(选择性搜索)。
如下所示
RPN如下所示:
RPN的工作步骤如下:
更快的R-CNN设计了提取候选区域的网络RPN,以取代时间时间选择性搜索,从而大大提高了检测速度。下表比较了R-CNN,快速R-CNN,更快的R-CNNNNNNSPEED的检测:
总结
R-CNN,快速R-CNN,更快的R-CNN出现了,基于深度学习目标检测的过程变得越来越精简,准确性越来越高,速度越来越快,速度越来越快。基于区域建议(候选区域)的CNN系列目标检测方法是目标检测技术领域中最重要的分支之一。
为了更准确地识别目标,实现像素级别场景中的不同目标,并使用“图像分割”技术来定位每个目标的精确像素,如下图所示(准确地分配了人员,汽车,交通信号灯,, ETC。):
蒙版R-CNN是此“图像分割”的重要模型。
面具R-CNN的想法非常简单。由于更快的R-CNN目标检测的效果非常好,因此每个候选区域都可以输出标签和定位信息,然后根据更快的R-CNN添加另一个分支,以增加一个分支以添加一个分支以添加单位图,也就是也就是说,从两个原始任务(分类+返回)到三个任务(分类+回归+分段)。如下图所示,蒙版R-CNN由两个分支组成:
蒙版R-CNN的两个分支是平行的,因此训练很简单,仅比更快的R-CNN计算得更高的开销。
如下图所示,蒙版R-CNN添加了完整卷积网络的分支(图中的白色部分),以将二进制掩码输出到更快的R-CNN,以解释给定的像素是否是目标的一部分。- 称为二进制蒙版意味着,当所有位置属于目标时,标识为1,另一个位置被识别为0
从上图可以看出,二进制掩码基于功能图,并且在一系列卷积和汇总后多次更改了原始图像。图像绝对不准确。这次,您需要对其进行纠正也就是说,使用Roialign代替roipooling
如上图所示,原始图像的大小为128x128,卷积网络后的特征图变为大小的大小至25x25。原始图像的左上方,如何在功能图中选择相应的像素?
从上面的两张图片可以看出,原始图像中的每个像素都对应于功能图的25/128像素。因此,如果您从原始图像中选择15x15像素,则只需在功能图中选择2.93x2.93像素。(15x25/128 = 2.93),在Roialign中可以准确获得2.93像素的内容,因此可以在很大程度上避免并避免错位。
修改后的网络结构如下图所示(黑色部分是原始的更快的R-CNN,红色部分由Mask R-CNN修改)
从上图可以看出,损失函数已进入
损耗函数是分类误差+检测误差+分割误差,分类误差和检测(回归)误差(回归)误差在更快的R-CNN中,并且分割误差在蒙版R-CNN中是新的。
对于每个MXM大小的ROI区域,蒙版分支具有KXMXM尺寸的输出(k是指类别数)。对于每个像素,使用Sigmod函数来查找双值交叉熵,也就是说,即,即每个像素的逻辑返回以获得平均双值交叉熵误差lmask。通过介绍预测K输出的机制,允许每个类生成独立的掩码以避免类之间的竞争,从而将蒙版和类型预测解除。
对于每个ROI区域,如果检测到获得了哪个类别,则仅将此类的横向熵错误用于计算,即ROI区域中KXMXM的输出确实只有某个类别的输出才有用。如图所示。以下:
例如,目前有3个类别:猫,狗,人和检测“人”当前的ROI,那么所使用的lmask是“人类”分支的面具。
Mask R-CNN将这些二进制掩码与更快的R-CNN的分类和边界框架结合在一起,该分类和边界框架产生了精确图像的惊人图像,如下图所示:
蒙版R-CNN是一个小的,灵活的一般对象实例分割框架。它不仅可以检测图像中的目标,还可以输出每个目标的高质量分割结果。加上,蒙版R-CNN也很容易概括到其他任务,例如关键点检测,如图所示下图:
从R-CNN,快速R-CNN,更快的R-CNN到掩盖R-CNN,每个进展不一定都是飞跃的发展。这些进展实际上是一个直观且逐步的改进。它带来了非常重大的效果。
最后,总结目标检测算法模型的开发过程,如下图所示:
如果您设计人工智能产品,则可以设计智能的家务机器人。目的是准确清洁家务劳动并解决办公室工作人员的困扰。
智能家庭将自动测量工作空间,计划合理的道路,并大大节省扫地的时间。它的身体是一种用于自动化技术的移动设备,并使用带有尘土飞扬盒的真空吸尘器设备来设置控制路径身体设置。
例如:清洁,浓缩清洁,随机清洁,直线清洁等,并补充侧刷,中央主刷,抹布等,以增强清洁效果,以完成拟人化家用的清洁效果。
人工智能的影响
在需要使用数学计算机工具来解决问题的学科中,人工智能对自然科学的影响是自我的。更重要的是,AI反过来又有助于人类最终理解自己的智能的形成。
人工智能对经济的影响,专家系统已经渗透到各个行业,带来了巨大的宏观福利。EAI还促进了计算机行业网络行业的发展。但与此同时,它也带来了劳动力就业AI在科学,技术和工程中的应用,它可以取代人类进行各种技术工作和心理工作,这将导致社会结构的严重变化。
人工智能对社会的影响,AI还为人类文化生活提供了新的模型。存在的游戏将逐渐发展为更高智能的互动文化和娱乐方法。如今,游戏中的人工智能应用已渗透到主要游戏制造商的开发中。
最简单的模型肯定是智能扬声器。这应该很简单。否则,智能摄像机可以是对话,这是非常先进的。
分析类型AI,功能性AI,交互式AI,文本AI,Visual AI。
人工智能建模:通过模拟人们理解客观事物并解决实际问题的描述和表达实际系统某个部分的过程。它也可以简要描述以描述和表达实际系统或系统。
建立人工智能是基于人们以这种方式思考的方式。这种方法称为:认知建模。
所谓的认知通常包括感知和关注,知识表示,记忆和学习,语言,解决问题和推理等。认知模型的技术通常称为认知建模。目的是探索和研究人类思维机制从某些方面,尤其是人类信息处理机制,还提供了设计相应人工智能系统的新架构和技术方法。
人类的认知过程非常复杂。作为研究人类感知和思维信息处理过程的学科,认知科学(或思维科学)是为了解释人类如何在认知过程中进行信息处理。
认知科学是人工智能的重要理论基础,涉及非常广泛的研究主题。除了休斯顿的相关活动,例如意识,记忆,思维,学习,学习,学习,语言,想象力,创造,关注和解决问题,还将受环境,社会和文化背景的影响。
人工智能不仅必须研究逻辑思维,而且还必须在对图像思维和鼓舞人心思维的深入研究中,以便人工智能具有更扎实的理论基础,并为智能系统的发展提供了新的思想和新方法。
例如,对分析半导体故障的基于规则的专家系统进行分析的示例,该系统根据以下症状诊断诊断电路故障:设备上的污渍(可能表明该组件已被燃烧),相似设备的故障历史或电子仪器的内部工具检查设备之战。但是,连接观察情况和诊断结果的规则失去了对设备结构和功能的好处。强大而深刻的解释方法是从该电路的物理结构的详细模型以及描述每个组件和组件之间的预期行为的公式。并使用这些数据及其电路模型来确定确切的故障点。
由于第一个代理系统取决于从人类专家获得的灵感规则,因此它具有许多局限性(Clancy 1985)。如果与系统的启发不匹配,则可以通过理论分析找到解决方案。该解决方案失败了。许多专家系统使用灵感来不适当的情况,例如,在对问题的更深入地理解问题中,问题可能表明一个过程。这是基于模型方法的缺点。如果知识 - 知识 -基于的推理过程直接构建了对物理系统的特征和功能的分析,然后称为基于模型的系统。基于模型的推理过程在设计和使用中创建了一个软件以模拟(通常称为“定性”)要理解或修复对象(当然,应该引入基于本章的基于模型的系统,尤其是第9个系统,尤其是9逻辑和随机模型的系统。最早的模型推理程序出现在中间1970年代并在1980年代之后逐渐成熟(Davis and Ham-Scher 1992)。值得注意的有趣事物之一是,最早的研究是软件模型(Dekleer 1976,Br。1982,)为教学目的创建了各种物理设备(例如电子电路)。在这些早期的教学系统中,设备或电路的功能描述由常规集(例如Kirhoff的法律和OHM定律)反映出来。这些教学系统不仅测试学生对设备和电路的知识,也向学生传授他们可能忽略的知识。规则不仅代表了硬件的功能,还代表了将这些知识传递给学生的媒介。
基于模型推理程序,从这些早期的教学系统(其任务是系统的功能建模和教授的功能),它们逐渐转移到发现故障的系统中,当发现物理系统中的失败时,模型将产生一系列预期行为,然后通过分析预期行为和观察行为之间的差异来发现失败。模型系统上的用户会告诉用户:什么是期望,观察和期望之间的差异以及这些差异如何推断系统。
基于定性模型的推理包括:
1)设备中每个组件的描述。这些描述可以模拟组件的行为。
2)对设备内部结构的描述。这些描述通常表明每个组件及其互连方法应具有模拟组件之间的相互作用的能力。内部结构知识的程度取决于应用深度和预期诊断水平。
3)当诊断特定问题时,您需要播放设备的实际工作,通常是输入和输出测量值。输的输出测量最容易获得,但是在实际过程中,其他指标也可能需要是测量。
结论:以上是首席CTO注释为每个人选择人工智能的全部内容。感谢您阅读本网站的内容。我希望这对您有帮助。有关人工智能如何选择模型设计的更多信息,请不要忘记在此站点上找到它。