当前位置: 首页 > 科技观察

无监督机器学习如何使工业自动化受益?

时间:2023-03-16 12:53:28 科技观察

现代工业环境充满了传感器和智能组件,所有这些共同产生了大量数据。这些数据目前并未在大多数工厂中得到深入利用,但它为各种令人兴奋的新应用提供了动力。事实上,根据IBM的说法,平均每个工厂每天产生1TB的生产数据。然而,只有大约1%的数据被转化为可操作的见解。机器学习(ML)是一项基础技术,旨在利用这些数据并释放大量价值。使用训练数据,机器学习系统可以建立数学模型来教系统在没有明确指令的情况下执行特定任务。机器学习使用作用于数据的算法在很大程度上无需人工干预即可做出决策。工业自动化中最常见的机器学习形式是有监督的机器学习,它使用人类标记的大量历史数据来训练模型(即人类监督算法的训练)。这对于轴承缺陷、润滑故障或产品缺陷等众所周知的问题非常有用。有监督的机器学习的缺点是没有足够的历史数据可用,标记太耗时或昂贵,或者用户不确定他们在数据中到底要找什么。这就是无监督机器学习发挥作用的地方。无监督机器学习旨在使用擅长识别模式和查明数据异常的算法对未标记的数据进行操作。正确应用无监督机器学习服务于各种工业自动化用例,从状态监控和性能测试到网络安全和资产管理。监督学习与无监督学习监督机器学习比无监督机器学习更容易执行。使用经过适当训练的模型,它可以提供非常一致、可靠的结果。监督机器学习可能需要大量的历史数据——因为需要包括所有相关案例,即为了检测产品缺陷,数据需要包含足够数量的缺陷产品案例。标记这些海量数据集可能既耗时又昂贵。此外,训练模型是一门艺术。它需要大量数据,组织得当,才能产生好的结果。如今,使用AutoML等工具大大简化了对不同ML算法进行基准测试的过程。同时,过度约束训练过程会导致模型在训练集上表现良好但在真实数据上表现不佳。另一个主要缺点是监督机器学习在识别数据中的意外趋势或发现新现象方面不是很有效。对于这些类型的应用程序,无监督机器学习可以提供更好的结果。常见的无监督机器学习技术与有监督机器学习形成对比,后者仅对未标记的输入进行操作。它提供了强大的数据探索工具,无需人工协助即可发现未知模式和关联。对未标记数据进行操作的能力可以节省时间和金钱,并使无监督机器学习能够在输入生成后立即对数据进行操作。不利的一面是,无监督机器学习比有监督机器学习更复杂。它更昂贵,需要更高水平的专业知识,并且通常需要更多数据。它的输出往往不如有监督的ML可靠,最终需要人工监督才能获得最佳结果。无监督机器学习技术的三种重要形式是聚类、异常检测和数据降维。聚类顾名思义,聚类涉及分析数据集以识别数据之间的共享特征并将相似的实例分组在一起。由于聚类是一种无监督的ML技术,算法(而不是人类)决定排名标准。因此,聚类可以带来惊人的发现,是一种极好的数据探索工具。举一个简单的例子:假设有三个人在一个生产部门被要求分拣水果。可以按水果类型分类——柑橘类、核果类、热带水果等;另一个可能按颜色排序;第三个可能按形状排序。每种方法都突出了一组不同的特征。集群可以有多种类型。最常见的是:独占集群:一个数据实例专门分配给一个集群。模糊或重叠聚类(FuzzyClustering):一个数据实例可以分配给多个聚类。例如,橙子既是柑橘类水果又是热带水果。在无监督ML算法对未标记数据进行操作的情况下,可以分配数据块正确属于A组与B组的概率。层次聚类:此技术涉及构建聚类数据的层次结构而不是一组集群。橙子是柑橘类水果,但它们也包含在较大的球形水果组中,可以进一步被所有水果组吸收。让我们看看一组最流行的聚类算法:K-meansK-means算法将数据分为K个簇,其中K的值由用户预设。在过程开始时,算法随机分配K个数据点作为K个簇的质心。接下来,它计算每个数据点与其集群质心之间的平均值。这导致数据被诉诸于集群。此时,算法重新计算质心并重复均值计算。它重复计算质心和重新排序簇的过程,直到它达到一个常数解(见图1)。图1:K-means算法通过首先随机选择K个数据点作为质心,然后将剩余实例随机分配到簇中,将数据集划分为K个簇。K-means算法简单高效。它对于模式识别和数据挖掘非常有用。不利的一面是,它需要对数据集有一些高级知识才能优化设置。它也受到异常值的不成比例的影响。K-medianK-中值(K-median)算法是K-means的近亲。它使用基本相同的过程,除了计算每个数据点的平均值,而不是计算中位数。因此,该算法对异常值不太敏感。以下是聚类分析的一些常见用例:聚类对于分割等用例非常有效。这通常与客户分析相关联。它还可以应用于资产类别,不仅可以分析产品质量和性能,还可以识别可能影响产品性能和使用寿命的使用模式。这有助于OEM公司管理资产“车队”,例如智能仓库中的自动化移动机器人或用于检查和数据收集的无人机。它可以作为图像处理操作的一部分用于图像分割。聚类分析也可以用作预处理步骤,以帮助为受监督的ML应用程序准备数据。异常检测异常检测对于从缺陷检测到状态监控再到网络安全的各种用例至关重要。这是无监督机器学习中的一项关键任务。无监督机器学习中使用的异常检测算法有几种,让我们看一下最流行的两种:IsolationForest异常检测的标准方法是建立一组正常值,然后分析每条数据以查看它是否偏离正常以及偏离多少。在处理ML中使用的那种海量数据集时,这是一个非常耗时的过程。隔离森林算法采用相反的方法。它将异常值定义为既不常见又与数据集中的其他实例非常不同。因此,它们更容易与其他实例上的其余数据集隔离开来。隔离森林算法具有最小的内存要求,并且所花费的时间与数据集的大小成线性关系。他们可以处理高维数据,即使它涉及不相关的属性。局部异常值因素(LOF)仅通过与质心的距离来识别异常值的挑战之一是,距离小集群较近的数据点可能是异常值,而看起来远离大集群的点可能不是。LOF算法旨在进行这种区分。LOF将异常值定义为局部密度偏差远大于其邻居的数据点(参见图2)。尽管与K-means一样,它确实需要预先进行一些用户设置,但它可能非常有效。当用作半监督算法并仅在正常数据上训练时,它也可以应用于新颖性检测。图2:局部异常值因子(LOF)使用每个数据点的局部密度偏差来计算异常分数,从而将正常数据点与异常值区分开来。以下是异常检测的一些用例:预测性维护:大多数工业设备都经久耐用,停机时间最短。因此,可用的历史数据通常是有限的。由于无监督ML即使在有限的数据集中也可以检测到异常行为,因此它可以潜在地识别这些情况下的发育缺陷。在这里,它也可以用于车队管理,提供缺陷预警,同时最大限度地减少需要审查的数据量。质量保证/检验:机器操作不当可能会生产出不合格的产品。无监督机器学习可用于监控功能和流程以标记任何异常。与标准QA流程不同,它可以在没有标签和培训的情况下执行此操作。识别图像异常:这在医学成像中特别有用,可以识别危险的病理。网络安全:网络安全面临的最大挑战之一是威胁在不断变化。在这种情况下,通过无监督ML进行异常检测可能非常有效。一种标准的安全技术是监控数据流。如果通常向其他组件发送命令的PLC突然开始从非典型设备或IP地址接收稳定的命令流,则可能表示存在入侵。但是,如果恶意代码来自可信来源(或者不良行为者欺骗了可信来源)怎么办?无监督学习可以通过在接收命令的设备中寻找非典型行为来检测不良行为者。测试数据分析:测试在设计和生产中都起着至关重要的作用。所涉及的两个最大挑战是所涉及的数据量庞大,以及在不引入固有偏见的情况下分析数据的能力。无监督机器学习可以解决这两个挑战。当测试团队甚至不确定他们在寻找什么时,它在开发或生产故障排除期间可能特别有用。降维机器学习基于大量数据,通常非常大。拥有一个可以过滤到十到几十个特征的数据集是一回事。具有数千个特征(它们当然存在)的数据集可能会让人不知所措。因此,ML的第一步可以是降维,将数据减少到最有意义的特征。用于降维、模式识别和数据探索的常用算法是主成分分析(PCA)。对该算法的详细讨论超出了本文的范围。可以说它有助于识别相互正交的数据子集,即它们可以从数据集中删除而不影响主要分析。PCA有几个有趣的用例:数据预处理:在机器学习方面,普遍的口头禅是越多越好。也就是说,有时越多越好,尤其是在不相关/冗余数据的情况下。在这些情况下,无监督机器学习可用于去除不必要的特征(数据维度),加快处理时间并改善结果。对于视觉系统,无监督机器学习可用于降噪。图像压缩:PCA非常擅长降低数据集的维度,同时保留有意义的信息。这使得该算法非常擅长图像压缩。模式识别:上面讨论的相同特征允许PCA用于人脸识别和其他复杂图像识别等任务。无监督机器学习并不比有监督机器学习好或坏。对于正确的项目,它可以非常有效。也就是说,最好的经验法则是保持简单,因此通常只在监督机器学习无法解决的问题上使用无监督机器学习。在确定哪种机器学习方法最适合您的项目时,需要考虑以下几个问题:问题是什么?什么是商业案例?量化的目标是什么?该项目将多快带来投资回报?这与监督学习或其他更传统的解决方案相比如何?有哪些类型的输入数据可用?你有多少?它与您要回答的问题相关吗?是否有已经产生标记数据的流程,例如,是否有识别缺陷产品的QA流程?是否有记录设备故障的维护数据库?它适合无监督机器学习吗?最后,这里有一些有助于确保成功的提示:在开始项目之前做好功课并制定策略。从小处着手,小范围地修复错误。确保您的解决方案是可扩展的,您不希望最终陷入试点项目炼狱。考虑与合作伙伴一起工作。所有类型的机器学习都需要专业知识。找到合适的工具和合作伙伴来实现自动化。不要重新发明轮子。您可以付费在内部培养必要的技能,也可以将您的资源用于提供您最擅长的领域,同时让合作伙伴和生态系统处理繁重的工作。在工业环境中收集的数据可能是一种宝贵的资源,但前提是要妥善利用。无监督机器学习可以成为分析数据集以提取可操作见解的强大工具。采用这项技术可能具有挑战性,但它可以在充满挑战的世界中提供显着的竞争优势。