简介:许多朋友询问了有关人工智能培训模型的相关问题。本文的首席CTO笔记开始为您的参考做出详细的答案。我希望这对每个人都会有所帮助!让我们一起看看!
分析类型AI,功能性AI,交互式AI,文本AI,Visual AI。
人工智能建模:通过模拟人们理解客观事物并解决实际问题的描述和表达实际系统某个部分的过程。它也可以简要描述以描述和表达实际系统或系统。
人工智能的三个基石 - 算法,数据和计算能力。作为其中之一,算法非常重要。那么,人工智能将涉及哪些算法?哪些方案适合不同的算法?
I.不同的建模方法可以分为四类:监督的学习,无监督的学习,半监督学习和强化学习。
常见的监督学习算法包括以下类别:
(1)人工神经网络类:返回传播,Boltzmann机器,卷积神经网络,Hopfield Network和Multi -Layer AntiementsMultilyer Perceptron,Radial Basit功能网络(RBFN),受限制的限制性玻璃体机器,返回神经网络(RNN)和自我自我网络(RNN),以及自我自我网络(RNN)和自我有组织的映射(自我)组织地图,SOM),尖峰神经网络等。
(2)贝丝辛:天真的贝叶斯,高斯天真的贝叶斯,许多多项式幼稚的贝叶斯,平均依赖性评估依赖性估计器,AODE)
贝叶斯信仰网络(BBN),贝叶斯网络(BN),等。
(3)决策树类:分类和回归树(CART),迭代二分法3(迭代二分法3,ID3),C4.5算法(C4.5算法),C5.0算法(C5.0算法),Chi-squared自动互动检测(CHAID),决策树桩,ID3算法,ID3算法(ID3),随机森林(监督铅))等待。
(4)线性分类器类:Fisher的线性判别(Fisher的线性判别)
常见的无监督学习算法包括:
(1)人工神经网络:生成对抗网络(GAN),FEDForward神经网络,逻辑学习机和自我图像)等。
(2)协会规则学习类:Apriori算法,ECLAT算法,FP-GROWTH算法等
(3)分层聚类:单链群集,概念聚类等。
(4)聚类分析:桦木算法,DBSCAN算法,预计将最大化(EM),模糊聚类,K-Means算法,K-MEANS聚类),K-MEDIANS群集,平均漂移算法(平均值移动),Optics AlgorithM,Optics Algorithm,,,,algorithm,,,algorithm,optics algorithm,,,,shift algorithm,,,,shift algorithm,,,,shorgorithm,sETC。
(5)异常检测类别:K-Nearest邻居(KNN)算法(KNN)算法,局部异常因子(LOF),等等。
常见的半监督学习算法包括:生成模型,低密度分离,基于图形的方法,共培训等。
常见的增强学习算法包括:Q-学习(Q学习),状态奖励 - 奖励 - 奖励 - 奖励 - 奖励状态(SARSA),DQN(深Q网络)和战略梯度算法(策略等级),基于模型的RL,暂时不同的学习等等。
常见的深度学习算法包括:深信念机器,深度卷积神经网络,深度循环神经网络和层次结构,),深玻尔兹曼机器(DBM),堆叠的自动编码器,生成对抗性网络,等等。
2.根据任务的差异进行分类,可以将大致分为两类分类算法(两类分类),多级分类,回归,聚类和异常检测义检测)。
1.两级分类
(1)两类类别支持向量机(两级SVM):它适用于具有更多数据功能和线性模型的方案。
(2)两级平均感知器:适用于具有短训练时间和线性模型的场景。
(3)两类逻辑回归:适用于具有短训练时间和线性模型的场景。
(4)两级贝叶斯点机:适用于训练时间短和线性模型的场景。(5)两级决策森林:适用于短期训练时间和准确的场景。
(6)两级提升决策树:适用于训练时间短,准确性且记忆率较大的场景
(7)两级决策丛林:它适用于训练时间短,准确性和少量记忆职业的场景。
(8)两类本地深SVM:适用于具有更多数据功能的方案。
(9)两级神经网络:它适用于具有高精度和较长训练时间的场景。
解决多分类问题通常应用三个解决方案:第一个解决方案,从数据集和适用的方法开始,并使用两个类别的分类器来求解多重分类问题;,将两个分类器改进到今天的多类分类器求解中。
常见算法:
(1)多类逻辑回归:具有短训练时间和线性模型的适用场景。
(2)多类神经网络:适用于具有高精度和较长训练时间的场景。
(3)多类决策森林:它适用于具有高精度和短训练时间的场景。
(4)多类决策丛林:它适用于精度高且内存少的场景。
(5)“一到杂化”多级类别(一vs-All多类):取决于连膜的效果。
返回
回归问题通常用于预测特定值而不是分类。除了回报的结果,其他方法类似于分类问题。我们调用定量输出或连续变量预测。固定输出或离散变量预测称为分类。长毛巾的算法为:
(1)序数回归:它适用于分类数据分类。
(2)索斯回归:适合预测事件的场景。
(3)快速森林分位回归:它适用于预测分布。
(4)线性回归:它适用于短训练时间和线性模型的场景。
(5)贝叶斯线性回归:它适用于线性模型和更少的训练数据。
(6)神经网络回归:它适用于具有高精度和较长训练时间的场景。
(7)决策森林回归:适用于具有高精度和短训练时间的场景。
(8)增强决策树回归:它适用于具有高精度,较短训练时间和大量记忆职业的场景。
簇
聚类的目的是找到数据的潜在定律和结构。分类通常用作描述和测量不同数据源之间的相似性,并且数据源被分类为不同的群集。
(1)分层聚类:适用于训练时间短和大数据的场景。
(2)K-均值算法:适用于高精度和短训练时间的场景。
(3)模糊C均值(FCM):适用于具有高精度和短训练时间的场景。
(4)SOM神经网络(SOM):SOM):适用于长期。
异常检测
异常检测是指数据中异常或非典型分裂的检测和迹象,这有时称为偏差检测。
异常测试似乎与监督和学习非常相似,所有这些测试均已分类。它们均被预测和判断样本的标签,但实际上两者之间的差异非常大,因为阳性样品(异常点)在异常检测中很小。公共算法为:
(1)一级SVM(一级SVM):适用于具有更多数据功能的方案。
(2)基于PCA的异常检测(基于PCA的异常检测):适用于训练时间短的场景。
常见的迁移学习算法包括:归纳转移,跨传输转移学习,无监督的转移)本质
适用的算法方案:
需要考虑的因素是:
(1)数据,数据质量和数据本身的特征
(2)在机器学习中要解决的特定业务方案中问题的本质是什么?
(3)可接受的计算时间是多少?
(4)该算法的准确性要求有多高?
—————————————————————————————
原始链接:
目标测试是人工智能的重要应用。它是识别图片中内部的对象并标记对象的位置。通常,需要两个步骤:
1.类别,识别对象是什么
2.定位,找出对象在哪里
除了检测一个对象外,还必须支持多个对象,如下图所示:
这个问题并不容易解决。因为对象的大小具有较大的变化,可变的位置角度和不确定的姿势,并且有许多类型的对象,因此有许多类型的对象,可以出现在图片中,并出现在任何位置因此,目标检测是一个更复杂的问题。
最直接的方法是构建深层神经网络,将图像和标签位置用作样本输入,然后通过CNN网络,然后识别分类头的完整连接层识别的对象。头部完整连接层的回归位置,如下图所示:
但是,“返回”并不容易,计算量太大,收敛时间太长。应该发现它是“分类”的。此时,在位置中,计算此框的分数,然后将最高分数框作为预测结果,如下图所示:
根据比较中的得分高和低,右下角的黑色框架被选为目标位置的预测。
但是问题是:盒子应该花多少钱?太小,不完整的对象识别;太大了,已经确定了许多其他信息。我应该做什么?然后计算各种尺寸的框。
如下图所示(要识别熊),反复用图片中的各种尺寸的盒子拦截,输入CNN以识别计算得分,并最终确定目标类别和位置。
该方法非常有效,太时间 - 库存。是否有有效的目标检测方法?
1. R-CNN出生
R-CNN(区域CNN,区域卷积神经网络)可以说使用深度学习来进行目标检测。作者罗斯·吉尔希克(Ross Girshick)在Pascal VOC目标检测竞赛中反复折叠。在2010年,终身成就奖,现在在Facebook的人工智能实验室(Fair)工作。
R-CNN算法的过程如下
1.输入图像
2.每个图像生成1K?2K候选区域
3.对于每个候选区域,请使用深层网络提取功能(Alextnet,VGG和其他CNN可以))
4.将功能发送到每个类别SVM分类器中以确定其是否属于此类
5.使用回归设备可精细纠正候选框的位置
让我们在下面介绍
1.生成候选区域
使用选择性搜索(选择性搜索)方法为图像生成约2000-3000个候选区域。基本想法如下:
(1)使用过度切割方法将图像分为小区域
(2)查看合并最高可能性的两个区域,然后重复直到整个图像合并到区域位置。回顾以下区域:
3.类别判断
对于每种类型的目标,请使用线性SVM第二分类器进行判断。输入为4096 Vitasncorcing症状,来自深网(如上图所示),以及输出是否属于此类别。
4.维修
目标检测的测量标准是重叠的区域:许多看似准确的测试结果,通常是因为候选盒不准确并且重叠区域很小,因此必须修复步骤。对于每个班级,训练线性回归模型以确定框是完美的,如下所示:
在R-CNN对测试领域进行深入学习后,Pascal VOC的检测率从35.1%增加到53.7%。
2.快速的R-CNN急速加速
在2014年推出R-CNN之后,Ross Girshick于2015年推出了快速的R-CNN,具有精致的想法和更紧凑的过程,大大提高了目标检测速度。
与快速R-CNN和R-CNN相比,训练时间从84小时减少到9.5小时,测试时间从47秒减少到0.32秒,Pascal VOC 2007的测试准确性几乎相同,大约相同。66%-67 -67%之间。
快速R-CNN主要解决R-CNN的以下问题:
1.训练和测试期间速度缓慢
R-CNN图像中R-CNN的候选框之间的大重叠,提取特征性操作冗余。FastR-CNN返回整个图像并将其直接发送到深层网络,然后将其发送到候选者从该图像中提取的区域。这些候选区域的前几层无需重复计算。
2.培训所需的空间很大
R-CNN中的独立分类器和回归需要大量的功能作为培训样本。FastR-CNN将类别判断和位置改进与深度网络实施相结合,不需要额外的存储空间。
让我们在下面详细介绍
1.在功能提取阶段,通过CNN的操作(例如Alexnet)不需要修复CNN中固定大小和大小的输入(例如Alexnet)。功能映射的大小也不同,因此不能分类。直接到完整的连接层。
在快速R-CNN中,作者提出了一个称为ROI POLING的网络层。该网络层可以将不同的尺寸映射到固定尺度的特征向量中。ROI合并层均匀地将每个候选区域均匀地划分为M×N块,并且在每个块上执行最大池。图表被转换为统一数据并发送到下一个级别。尽管输入图片的大小不同,但功能映射的大小(功能图)也不同,但是您可以添加此神奇的ROI池池以提取固定的固定层每个区域的维度功能。do类型识别。
2.在分类回归阶段,在R-CNN中,制作了一个候选框,然后通过CNN提取该功能,然后使用SVM分类,最后返回到特定位置(Bbox回归)。Fast R-CNN,作者巧妙地将最终的Bbox回归放入了神经网络的内部,并将区域分类合并为多任务模型,如下图所示:
实验表明,这两个任务可以共享卷积标志并相互推广。
快速R-CNN的重要贡献是,成功地让人们看到了对区域提案+CNN(候选区域+卷积神经网络)实时检测的希望。
3.更快的r-CNN速度更快,更强
在2014年推出R-CNN之后,2015年快速R-CNN推出了目标测试行业的Ross Girshick团队,Ross Girshick Team在2015年推出了一项杰作:更快的R-CNN,可以实现简单的网络目标在Pascal中达到17fps的检测速度。VOC的准确率为59.9%,复杂网络达到5FP,精度率为78.8%。
快速R -CNN中仍然存在一个瓶颈问题:选择性搜索。这是时间 - 耗时以查找所有候选框。我们有一种更有效的方法来查找这些候选盒吗?
添加一个神经网络以将边缘提取到更快的R-CNN,这意味着还将找到候选框的工作也可以在神经网络中进行。候选区域的生成,特征提取,分类和位置)最终统一到一个深层网络框架中。如下所示:
更快的R-CNN可以简单地视为“区域生成网络+快速R-CNN”的模型,并使用区域生成网络(RPN)来替换快速R-CNNMethod中的选择性搜索选择性搜索(选择性搜索)。
如下所示
RPN如下所示:
RPN的工作步骤如下:
更快的R-CNN设计了提取候选区域的网络RPN,以取代时间时间选择性搜索,从而大大提高了检测速度。下表比较了R-CNN,快速R-CNN,更快的R-CNNNNNNSPEED的检测:
总结
R-CNN,快速R-CNN,更快的R-CNN出现了,基于深度学习目标检测的过程变得越来越精简,准确性越来越高,速度越来越快,速度越来越快。基于区域建议(候选区域)的CNN系列目标检测方法是目标检测技术领域中最重要的分支之一。
为了更准确地识别目标,实现像素级别场景中的不同目标,并使用“图像分割”技术来定位每个目标的精确像素,如下图所示(准确地分配了人员,汽车,交通信号灯,, ETC。):
蒙版R-CNN是此“图像分割”的重要模型。
面具R-CNN的想法非常简单。由于更快的R-CNN目标检测的效果非常好,因此每个候选区域都可以输出标签和定位信息,然后根据更快的R-CNN添加另一个分支,以增加一个分支以添加一个分支以添加单位图,也就是也就是说,从两个原始任务(分类+返回)到三个任务(分类+回归+分段)。如下图所示,蒙版R-CNN由两个分支组成:
蒙版R-CNN的两个分支是平行的,因此训练很简单,仅比更快的R-CNN计算得更高的开销。
如下图所示,蒙版R-CNN添加了完整卷积网络的分支(图中的白色部分),以将二进制掩码输出到更快的R-CNN,以解释给定的像素是否是目标的一部分。- 称为二进制蒙版意味着,当所有位置属于目标时,标识为1,另一个位置被识别为0
从上图可以看出,二进制掩码基于功能图,并且在一系列卷积和汇总后多次更改了原始图像。图像绝对不准确。这次,您需要对其进行纠正也就是说,使用Roialign代替roipooling
如上图所示,原始图像的大小为128x128,卷积网络后的特征图变为大小的大小至25x25。原始图像的左上方,如何在功能图中选择相应的像素?
从上面的两张图片可以看出,原始图像中的每个像素都对应于功能图的25/128像素。因此,如果您从原始图像中选择15x15像素,则只需在功能图中选择2.93x2.93像素。(15x25/128 = 2.93),在Roialign中可以准确获得2.93像素的内容,因此可以在很大程度上避免并避免错位。
修改后的网络结构如下图所示(黑色部分是原始的更快的R-CNN,红色部分由Mask R-CNN修改)
从上图可以看出,损失函数已进入
损耗函数是分类误差+检测误差+分割误差,分类误差和检测(回归)误差(回归)误差在更快的R-CNN中,并且分割误差在蒙版R-CNN中是新的。
对于每个MXM大小的ROI区域,蒙版分支具有KXMXM尺寸的输出(k是指类别数)。对于每个像素,使用Sigmod函数来查找双值交叉熵,也就是说,即,即每个像素的逻辑返回以获得平均双值交叉熵误差lmask。通过介绍预测K输出的机制,允许每个类生成独立的掩码以避免类之间的竞争,从而将蒙版和类型预测解除。
对于每个ROI区域,如果检测到获得了哪个类别,则仅将此类的横向熵错误用于计算,即ROI区域中KXMXM的输出确实只有某个类别的输出才有用。如图所示。以下:
例如,目前有3个类别:猫,狗,人和检测“人”当前的ROI,那么所使用的lmask是“人类”分支的面具。
Mask R-CNN将这些二进制掩码与更快的R-CNN的分类和边界帧相结合,该镜头产生了精确图像的惊人图像,如下图所示:
蒙版R-CNN是一个小的,灵活的一般对象实例分割框架。它不仅可以检测图像中的目标,还可以输出每个目标的高质量分割结果。加上,蒙版R-CNN也很容易概括到其他任务,例如关键点检测,如图所示下图:
从R-CNN,快速R-CNN,更快的R-CNN到掩盖R-CNN,每个进展不一定都是飞跃的发展。这些进展实际上是一个直观且逐步的改进。它带来了非常重大的效果。
最后,总结目标检测算法模型的开发过程,如下图所示:
结论:以上是首席CTO注释为每个人编写的人工智能培训模型的相关内容,我希望它对您有所帮助!如果您解决问题,请与更多关心此问题的朋友分享?