当前位置: 首页 > 网络应用技术

Chud算法

时间:2023-03-06 15:43:31 网络应用技术

  写在前面:传统的高效率使用采矿算法从数据集中挖掘大量高效率项目,但这会导致用户对用户产生某些信息干扰,并且无法快速找到最重要的关键信息。要解决这个问题,算法需要提供更简洁有效的采矿结果。因此,将近亲概念引入了公用事业开采中。自然,如何从这些高效闭合项目(得出)中集中精力(得出)所有有效的项目需要解决的集合也是一个需要解决的问题。

  在频繁的项目领域,学者提出了“关闭”的概念,该概念旨在获得少量的采矿结果。在同一时间,通过封闭设置,所有频繁的项目都可以恢复。思考,本文的作者提出了一个想法:在高效率的物品使用中,采矿能否更简洁?

  作者总结了需要通过以下四个点解决的关键问题:

  高效使用项目的定义可以转介给先前的票据(HUI-DINER),该票据仅引入关闭的相关定义。此外,使用$ h $高效率由$ h $表示,并且关闭项目集用于$ c $,并且设置为$ i $的项目表示

  )$ = sc(y)$}。y在f_c(i)$和$ x子群y $}中(ps.在挖掘算法中,定义用于集中频繁关闭项目以恢复所有频繁的项目)。

  作者提出,有两种方法可以确定项目集是否关闭:

  因此,这两种方法的最终结果是否一致,即$ h^prime $ = $ c^prime $?证明如下:

  GM修剪策略(例如TWU)在这里不会引入太多。本文仅记录新设计的策略

  从本地tu桌(RML)中删除物品的MIUS

  由于Chud算法每次都会扩展该项目集,因此它增加了单个单个单个的长度(即$ y $ = $ = $ x cup x_i $),因此每个$ x_i $ every processedboth concentedBoth contractedboth contracteDboth $ miu $ miu(x_i)$,$因此,可以使用更新的本地Tu-Table来估计项目集合$ y $的扩展(PS。可以扩展的实用程序值实际上正在减少)

  用小于最低公用事业阈值(DCM)的MAU丢弃候选人

  显然,$ mau $是一个非常松散的上边界值。当$ mau(x)$小于给定的$ Minutil $时,此套装$ x $必须效率低下。

  本文提出的新算法是根据原始[DCI封闭式]()算法修改的。CHUD算法本质上是两相算法,即首先找到候选人,然后在其中找到真正的chuis。候选人

  主伪代码

  前两个步骤是准备,应尽可能多地过滤未提升的项目,以减少以下检索空间

  I期伪代码

  找出所有适当的封闭候选人

  子计算伪代码

  如果是真的,则意味着这一集是已发现的封闭项目集的子集。

  计算闭合伪代码

  计算项目集$ x $ $ c(x)$

  计算估计性伪代码

  计算项目集$ x $估计

  探索伪代码

  Dahu伪代码

  从顶部开始的一种方法,从最长的项目集开始(属于$ hc $),每次缩短长度,一一判断

  从论文提供的实验数据来看,CHUI的数量远小于HUI的数量(密集的数据集性能更明显),并且在运行时间方面,即使添加了还原步骤,也不会要高得多。作者分析了两个阶段的时间和中间结果的数量和中间结果。更有趣的是,该算法中使用的参考算法是增长的,并且实际数据集的测试性能不如它那样好。证明该算法实际上不是很好。在实验图中,运行时间显然很长。我个人认为在减少高效率项目和修剪切割过程的过程中仍然存在优化的空间。您可以添加更有效的判断条件

  高级公用事业集的简洁和无损式增长的有效挖掘