当前位置: 首页 > 网络应用技术

[5机器学习]计算机视觉横向横向神经网络(CNNS)的世界

时间:2023-03-06 20:44:20 网络应用技术

  我们知道数据不仅包含文本,数字,还包含图片,视频等,如何更好地查看,识别和解释图像和视频的内容,就像人类的视觉一样,它一直是主要的研究方向人工智能。机器学习无疑是现代数据科学的核心。经过数十年的回归,分类,制造树木和异常检测,数据科学的魔术爪经常暂时暂时进行研究。

  今天,Ofter将带每个人通过最简单,简单的理解和完整的解释来欣赏计算机视觉世界(尽量不要像诸如公式之类的乏味元素一样出现!

  图片的本质是数字。通过处理大量数量,图片的一系列处理:

  最简单的图片类型应该是黑白手写编号图?这与我们一点点学习的情况非常相似。一开始,我们还在纸上写了数字。从上图,还可以看出我们写了一个数字,只有一个,但是计算机看到了一系列数字。

  为了模拟人类视觉神经的处理过程,有些人发明了人工神经网络,实际上将神经病变的信号替换为数字。

  查看下图,输入层是一个数字,也可以是一个数组,通过隐藏层的层进行处理,最后识别图片中的内容。

  但是,这是对人类神经网络的初步模仿,无论它是速度和准确性,都不能与人类的视觉进行比较。因此,我们已经开发了诸如卷积神经网络(CNN)和循环神经网络(RNNS)之类的模型不断地进化我们的计算机,以便计算机的识别能力无限地接近人类,甚至超越人类。

  今天,我们专注于卷积神经网络的开发过程和常见模型。卷积神经网络极大地改善了图片的计算性能。它的体系结构主要分为三种类型的层:卷积层,合并层和完整的连接层(神经网络)。

  上图也很明显,也就是说,在响应+汇总的n时,传统的神经网络最终被执行以输出识别内容。由于作为数据科学家,您不需要知道特定的卷积层,汇总层如何和常规神经网络。我们只需要了解模型的哪种标识,性能和效果可以带来。因此,我不会详细扩展每个模型的每个模型的计算方式。

  我们需要知道4个参数。这必须在模型培训期间定义:

  ?滤波器尺寸(滤波器,例如3×13)

  ?过滤器数(例如,我们要使用多少过滤器,例如,我们可以使用20个过滤器,然后k = 20)

  ?大步(例如,每次指定过滤器的步骤,例如步幅= 2)

  ?填充零填充(添加一层零值像素(灰色区域),以使我们的特征映射不会收缩,例如填充= 2)

  在过去的10年中,我们研究了许多架构,并且性能和准确性也不断提高。从下面的图中可以看出,它的整体发展迅速。

  每个架构或多或少地站在前辈的肩膀上,以及他们自己的一些亮点。卷积神经网络已在矮人测试中用于最佳情况。更多体系结构:

  有两种主要的培训方法:从头开始,预训练模型迁移学习。

  实际上,很少有人会从头开始培训整个卷积网络,并且需要大量数据来从头开始训练准确的模型,大约需要数百万个样本,这需要大量时间。一个简单的例子,并且在学习识别汽车时获得的知识可以应用于卡车。在哪里找到类似的培训模型?推荐网站:http://modelzoo.co.co

  许多研究和开发人员是针对各种任务的机器学习模型,并在模型动物园中分享了他们的预训练模型。作为数据科学家,您可以评估哪种模型更适合您关注的场景和数据,或结合新的模型使用,甚至改善了先前发布的模型。

  分类和定位是更好的理解。

  语义细分的应用包括自动驾驶,医学成像分析,工业测试,室内导航,甚至虚拟或增强现实系统。下图是医学成像的一个示例。

  语义分割是为图像中的每个元素进行分类,并且具有相同标签的像素具有相同的特征。例如,下图:

  但是,语义细分仍然不是一个成熟的领域,许多研究人员仍在研究它。在过去的几年中,已经开发了许多新方法。

  实例检测模型有两个主要类别:基于未基于预测区域的预测区域和模型的模型。

  CSDN上也有许多Yolo和SSD的案例。一般来说,更快的R-CNN比Yolo/SSD算法要慢,但是更准确。因此,当实时性质相对较高时,我们必须采用像Yolo这样的模型,而当实时要求不高但是,但是精度要求很高,我们需要使用更快的R-CNN。

  Mask R -CNN是一种非常有影响力的实例分割技术。这是一个两个阶段框架:第一阶段扫描图像并生成建议(可能包括对象的区域)。在第二阶段,建议的内容被分类并生成边框和面具。

  今天,Ofter介绍了一些常用的深度学习模型和使用情况。当您需要使用机器学习时,您知道需要使用哪种模型。在下一期中,我们将使用python+TensorFlow等框架+模型/keras通过实际战斗来识别图片内容。

  原始:https://juejin.cn/post/7100572453763547173