当前位置: 首页 > 科技观察

关于如何使用机器学习来做异常检测的7个问题

时间:2023-03-22 16:50:14 科技观察

关于如何使用机器学习进行异常检测的7个问题提问是最好的学习方式之一。但有时您不知道从哪里开始,或者不知道该问什么-特别是在您仍然相对熟悉的异常检测等主题上。在这种情况下,最好多听听别人的问题,让他们的思维来指导你的学习。以下是我们在“[AskMeAnything:AnomalyDetection](https://www.tibco.com/events/ask-me-anything-webinar-anomaly-detecing-machine-learning)”网络研讨会上收到的一些有帮助的问题你开始吧。异常值和异常值有什么区别?离群值是远离分布的位置或均值的观察值。但是,它们不一定代表异常行为或由不同过程产生的行为。另一方面,异常是由不同进程生成的数据模式。异常检测在制药中有什么应用吗?异常检测在制药生命科学中有许多应用。包括在制药制造中使用统计过程控制(SPC)或质量控制(QC)和多变量过程控制(MSPC)图表进行过程监控和质量控制。及时发现异常是避免异常事件和遵守安全标准的关键。发现场外交易中的异常可用于打击药品零售数据中的处方滥用。实时检测多参数临床试验数据中的异常有助于确保临床试验的成功。GAN是否也用于异常检测?如果是这样,您能否提供一个行业用例生成对抗网络(GAN)是一种新的无监督学习方法,在识别异常方面非常有效。由于GAN被设计为可迭代的,而对抗训练的目的是利用重建样本来优化减少残差损失,因此它们在半结构化和非结构化数据中表现良好。它们在医学图像分析(帮助放射科医生发现难以识别的肿瘤)、面部识别、文本到图像转换等方面很有用。数据关联会影响异常检测吗?我们可以使用什么方法来减少这些影响?是否最好在开始异常检测之前清理和删除相关数据?正如网络研讨会中提到的,我们认为相关性不会影响异常检测,但我们有许多可用的技术来帮助确定如何处理相关变量。一个建议是使用主成分分析(PCA)等技术来降低维度。建议使用哪些算法来检测与识别网络活动或数据中的异常活动相关的异常?正如网络研讨会中提到的,有许多方法和算法适用于异常检测的各个方面。应用程序和用例。其中包括递归神经网络(RNN)、生成对抗网络(GAN)、隔离森林、深度自动编码器等。如果您对网络/图分析特别感兴趣,用于识别网络图中异常的两种主要方法是Direct邻居异常值检测算法(DNODA)和社区邻居算法(CNA)。在我目前的工作中,“新奇”是我们试图发现的主要内容。质量控制图适用于已知模式,但很难自动识别新模式。我希望获得一些可以在这方面提供帮助的工具的想法。对于单变量质量控制图,可以使用西方电气规则来检测一些常见模式。经典的多变量方法,例如偏最小二乘法(PLS),捕获涉及多个单变量方法无法检测的变量的模式。自动编码器是最全面的工具,将涵盖最广泛的不同模式。它可以捕获多元、循环、非线性和交互模式。您在一组正常数据上训练自动编码器,新数据中出现但训练集中不存在的任何模式都将被标记。通过PCA降维会影响数据集中的异常吗?会不会导致异常消失?如果是这样,如何预防?执行PCA将捕获原始数据集中一定比例的方差。所以我们用PCA做异常检测的方法是计算原点到低维空间表示的点的“距离”。距离越大(即,当将观察映射到较低维空间时,观察“丢失”的越多),我们就越认为它是异常的。