关联规则用于发现数据之间潜在的关联。最典型的应用是电子商务网站的购物车分析。本文将通过一个简单的例子来说明关联规则中各个术语的含义以及具体的计算方法。这是一些用户的购物数据。uid是用户的ID,后面是每个用户购买的产品名称。我们用字母来识别它。接下来,我们将使用关联规则对这些数据进行分析,挖掘不同商品之间的联系。首先,将之前的一维购物车流量数据转化为二维列表。在此基础上,再计算出不同商品和商品成分的出现频率。在关联规则中,有三个重要的术语,即Support、Confidence和Lift。第一个属性是支持度,它是商品出现在所有购物车中的频率。如果我们要分析两个项目之间的关联,那么支持度就是这两个项目一起出现的频率。支持度是用来衡量关联规则重要性的指标。简单来说,就是我们要挖掘的关系有多普遍。普适性越大,这个关联规则就越重要。第二项是可靠性,指的是当第一项出现时,两项中第二项同时出现的频率。可信度用于衡量关联规则的准确性。第三项是作用度,用来衡量关联规则对项目出现频率的影响。只有作用度大于1的关联规则才具有实际应用意义。下面我们分别介绍这三项的计算方法。支持度(Support)支持度是两个商品同时出现在所有购物车中的概率,可以记为P(AUB)。支持度的计算公式是A和B同时出现的次数占购物车总数的比值。对于前面的例子,如果我们要计算5条购物车记录中产品A和B的支持度,具体计算公式为1/5。项目A和B只出现在5条购物车记录中的uid1中。单个产品支持度的计算方法与两个产品相同。如果我们要计算产品A的支持度,具体计算公式为3/5。商品A在5条购物车记录中出现了3次。单个商品的支持度描述了在不受其他商品影响的情况下,该商品在购物车中出现的次数。置信度(Confidence)置信度是一个条件概率,当购物车中出现两个商品中的一个时,另一个也会出现的概率。可以记为P(B|A)。对于前面的例子,如果要计算A和B两个项目的可信度,具体计算公式为1/3。产品A出现3次,产品B同时出现1次。Lift是通过衡量规则使用后的提升效果来判断规则是否可用。简单来说就是使用规则后商品出现在购物车中的次数是否高于商品单独出现在购物车中的频率。如果大于1,则规则有效,如果小于1,则规则无效。对于前面的例子,如果要计算规则A-B是否有效,计算公式为(1/5)/(3/5*3/5)=(0.2)/(0.6*0.6)=0.2/0.36=0.55。作用度小于1表示A-B规则对商品B的推广没有影响。根据前面的计算公式,我们分别计算出以下4条规则,得到后计算4条规则的作用度支持和信誉。其中,A-D规则的作用度大于1,表示已经将商品A放入购物车的用户推荐商品D,购买概率是单独推荐D的1.11倍。
