您好,欢迎来到尚佳旅游分享网。
搜索
您的当前位置:首页一个基于兴趣度的关联规则度量方法的改进

一个基于兴趣度的关联规则度量方法的改进

来源:尚佳旅游分享网
科技信寓 一个基于 趣度硇关联规则度量方法昀改进 兰州交通大学数理学院王枭翔 陈小强 【摘要]关联规则是数据挖掘和知识发现领域的重要课题,但就判定关联规则是否成立的问题,即兴趣度的度量方法问题,学术界 没有一致的标准。既有的兴趣度度量方法包括支持度一置信度方法、提升度方法、卡方分析方法等。这些传统的兴趣度度量方法存 在各自的局限,表现为缺乏客观标准,只能度量正向关系等方面。为了克服这些问题,本文提出了一个基于兴趣度的关联规则度量 方法的改进,并对该方法与传统方法进行了比较,证明了该度量方法的一些性质,指出了新方法的优点,实证了新方法的特征属性。 该方法较之原有方法有一定的优势。 [关键词]数据挖掘 关联规则 兴趣度度量方法 1.引言 关联规则挖掘是伴随着数据库中频繁模式的出现而出现的。比 如,在大型超市的商品交易数据中频繁出现的各种商品数据,在银行或 证券公司的客户数据中频繁出现的身份信息、信用记录等。由于计算 P( )<P( ) 这意味着在买A的人中,买B的比例反而小于平均水平,也就意 味着(买A 买B)的规则不成立,反倒是买了A就不倾向于再买B。 的复杂性,关联规则挖掘的算法问题首先被提出来。这些问题已由 这与上面的支持度与置信度的框架得到的结果恰好相反。 Apfiofi算法及其后续的不断改进给予解决“ 。但是,关于关联规则取 再则,由上面的比较可以发现,支持度与置信度的框架只能得到正 舍的标准问题,一直没有很好的解决。兴趣度度量问题就是讨论关联 向的关联规则。如本例,通过比较发现,买A与买B是替代的,买A就 规则成立的标准问题,其一直是关联规则挖掘领域热议的问题之一。 不再倾向于买B,而这种负相关的关系不会从支持度与置信度的框架 文献[4]总结了2003年以前国内外讨论兴趣度方面的文献,重点介 中得到。因为当提高支持度时,能得到的结论最多是两者购买没有联系。 绍了支持度一置信度框架的含义,同时提出了提升度、全置信度、余弦 2.2提升度方法的局限与启示 度量及卡方分析等方法。最近几年,国内外关于这一领域的研究主要 既有的文献,如文献[4】,用如下的公式定义提升度: 是对度量方法的研究,但是不够完善,对度量方法性质的研究不是太明 /9(AI lR、 L 买A 买B)= 确,可以参阅文献f5卜【8】。 』V1 ), 2.传统方法的局限性及改进方法应该具有的特征 其中,P(A)表示购买A的人数占全部顾客的比例,其他符号意义 为了统一表述,以下的分析背景为这样一个问题:在商品销售的数 同上。 据分析中,某商场委托咨询公司对商品的销售情况做分析,找出商品之 从此公式可以发现以下的一些事实: 间的购买规律。比如,给出一定时间段内每个顾客的商品购买情况,考 (1)(买A 买B)与(买B 买A)的提升度是一样的,而事实上这 察购买某种商品是否就倾向于购买另外一种商品。找出其中的规律, 不一定符合实际,因为买A的人倾向于购买B,并不意味着买B的人 可为商品搭配、货架安排提供依据,以提高售卖数量。 就一定倾向于购买A。 由于这是个频繁模式的数据库,可以应用Apnoif算法,但涉及减枝 (2)当买A与买B时,显然提升度为1;当买A与买B正相关 步骤时,要考虑用兴趣度来作为规则是否成立的标准。这里仅以两种 时,也就是有相互倾向的关系时,提升度大于1;反之小于1。 商品的购买情况为例,说明既有文献中度量方法的缺陷。针对这两种 (3)依旧没有客观的标准。比如提升度大到多少时,可以认为规则 商品,假定扫描数据库后得到表1所示的购买情况表。 是显著的。经计算本例的提升度为0.89,到底是显著的相关还是不相 表1说明,总共有顾客10000人,其中买商品A叉买商品B的有 关,仍然不清楚。因为选择0.95与0.85两个不同的阈值时,得到的结果 4000人,买A没买B的有2000人,买B没买A的有3500人,两种商品 显然是不同的。 都没买的有500人。在这个背景下,逐条讨论传统方法的局限,为改进 2-3卡方分析方法的局限与启示 方法提供思路。 表1的形式很容易让人联想起列联表的检验问题。就问题的提出 表1两种商品的购买情况表 来说,研究“购买A是否倾向于购买B”,似乎与列联表检验的研究目 买B 没买B 合计 的“买A与买B是否存在显著的相关关系”有些类似。同时,这种方法 超越前面方法的优越性在于不用主观地设定阈值,这是一个统计检验 买A 4Ooo 2O00 6ooo 的问题,可以计算卡方值,查卡方表决定是否显著。 但是,以上的关联规则兴趣度度量的问题不是一个列联表的检验 没买A 3500 5oo 4O00 问题,因为问题的结构不一样。在列联表检验中,讨论的是两件事物的 合计 750o 2500 1O00O 相关性问题,即A的发生是否与B的发生有关,注意到这样一个问题, “A与B同时不发生这样的事件”会对检验结果有较大的影响。比如 2.1支持度一置信度方法的局限与启示 考察吸烟与慢性支气管炎的问题,有表2所列数据: 注意到购买商品A就倾向于购买商品B的支持度定义为: 不吸烟与未患慢性支气管炎的数据121对这个问题的检验结果有 Support(买A= 买B)=P(A UB) 较大的影响。直观的理解是,如果不吸烟,不患慢性支气管炎的概率较 其中,P(A UB)表示同时购买A、B两种商品的人数占全部顾客 高,说明吸烟与患慢性支气管炎是有关系的,一旦戒烟就可以减少发病 数的百分比。 率。但是商品购买的关联规则挖掘与之不同,考察购买A是否会影响 置信度的定义为: 对B的购买这个问题,与既不买A又不买_B的人是关系不大的,这与 c够 1"ice( 买B): A和B都不买的人无关。一个直观的反例是,如果不买A与不买B的 数据对发现购买A与B存在关联规则产生影响的话,我们研究的样本 其中,P(A)表示购买A的人数占全部顾客数的百分比。 还应包括那些进了商店什么都没买的人,因为他们一定既没买A又没 由于没有客观的设定阈值的标准,这里人为的设置支持度阈值为 买B。显然这样的做法是没有依据的。 30%,置信度阈值为60%。根据支持度与置信度的定义,计算得到以上 表2吸烟与患慢性支气管炎情况统计表 问题的支持度为40%,置信度为66.7%。可见它们都大于阈值,说明“购 买A就倾向于购买B”的规则成立。 患慢性支气管炎 未患慢性支气管炎 总计 以上是在支持度与置信度的框架下得到的结果,但是事实果真如 吸烟 151 30 l81 此吗? 观察数据表,考察在买A与没买A的两类人中购买B的情况。在 不吸烟 162 121 283 购买了A的6000人中,有4000人买了B,2000人没买,买B与没买B 总计 313 151 464 的比例是2:1;而在没买A的4000人中,买B与没买B的比例要高达7: 比如对于上面吸烟与患慢性支气管炎的问题,当应用原始数据进 1;但在全部顾客当中,买B与没买B的比例是3:1。 行卡方分析时,结果如下(关于卡方分析的细节,可参考文献【9】): 以上的讨论归结为下式: =34.5>菇01(1):6.63 ・-——154・-—— 在0.01置信度下拒绝原假设,可以认为吸烟与患慢性支气管炎有 则的判别,这与i,-t ̄度量式(2)时的必要条件是一致的。 关。当更改121为6O时,卡方分析的结果如卞: 为了对比敏感性,这里复制表2的数据,将其修改为商品的购买表 =6.27< 01(1):6.63 (表3),应用新的兴趣度度量关系,考察将121修改为60时,规则 这时没有通过置信度为0.O1的统计检验,接受原假设,认为二者无 (买A 买B)是否有显著差异。 关。可见卡方检验的结果对于这个值是很敏感的。 表3商品购买情况表 这里的启示有以下两点: (1)关联规则挖掘问题不能用卡方检验方法,它们研究的问题不同; 买B 没买B 总计 (2)关联规则的结果应对两种商品都不购买的人数不敏感。 买A l51 30 l81 2.4对传统方法利弊的总结 以上列举了目前最常用的兴趣度度量方法,对它们的优缺点进行 没买A 162 121 283 了分析,可见要弥补上述方法的缺点、继承其优点的兴趣度度量方法应 总计 313 151 464 有以下一些特点: (1)关联规则的标准应避免主观性,类似卡方检验,有统计学依据; 当两者都不购买的数据为121时,读表算得P(A)= -0.39, (2)能像提升度一样,既能判断正的关联关系,也能判定负的关联 关系; P )= :0.67,P(AB)= =o.33。应用式(3)得到: (3)继承论证支持度一置信度框架不足的期望概率比较方法的思 想,给出符合实际情况又相对简单的兴趣度度量方法。 B):等 譬 =0蕊.33-0.39x0.67=0.11 3.改进的兴趣度度量方法 在0.O1置信度下,由于 (A B)=0.11>0.01,可以拒绝两者的 结合以上的讨论,由(1)式可知,如果(买A 买B)规则成立,则需 原假设,认为(买A 买B)的规则成立。 要满足条件: 现将两者都不购买的数据改为6O,这时总人数变为403,算得 p(BIA)>p(B) 即在买A的条件下购买B的比例,要大于没有条件下购买B的比 P(A)=器_0.45,P(B)= =0.78,P(AB)=器=0.37。应用式(3) 例,这说明购买A对购买B的行为有提升。 得到: 由此得到一个度量式: B)= = 0.37-0.45x0.78_o_o2 ^ P(A,B)一P(A)P(;iB)百j  (2) 同样在0.01置信度下,由于 A B)=O.02>0.Ol,可以拒绝两者独 立的原假设,认为(买A 买B)的规则成立。 根据已有的讨论,容易知道:当五>0时,是规则(买A 买B)成立 同样的问题,在应用卡方检验时,得到了修改前两者相关、修改后 ^ ^ 的必要条件;当五=o时,买A与买B相互;当五<0时,是规则“买 两者无关的结论;而对于改进的度量方法,修改前后结论一致,这说明 A就不倾向于买B”的必要条件,既可以判定正向关联规则,也可以判 了改进的度量公式对于两者都不购买的数据是不敏感的。 定负向关联规则。之所以是必要的而不是充分的,是因为这个值比零 5.结论 大多少才显著的标准没有给出。由于样本选择的关系及随机性的存 在应用改进的度量公式时,在减枝步骤用这个度量标准进行减枝, 在,可能真实情况下买A与买B是的,即五的真实值为O。而统 取代原有的支持度一置信度框架及其他方法。改进的度量公式是简单 A 的,对都不购买这个参量不敏感,是可以体现正负相关两方面效应的方 计中由于随机误差的存在,使得五略大于零一点,这时也不能认为这两 法,较之既有的方法,有一定的优势。 者有相互关联的正向关系。 由此引入兴趣度度量公式如下: 参考文献 , n、 尸(A,B)-P(A)P(B) ,1、 [1]李旭成,王保保.挖掘关联规则中Apfiofi算法的一种改进[I]l戟. … 一P(A,B)+P(A)P(B) 、 件技术与数据库,2002,28f7):1104—1106. 该相关性度量具有非常好的性质:首先,它具有合适的上下界 [2]冯玉才,冯建琳.关联规则的增量式更新算法[I].软件学报, f_1,1】,可以有效估算模式的相关程度,容易对输入参数进行控制和调 1998,9(4):301—306. 节;其次,当模式中的项两两时,有 (A B)相关性度量L )为 [3]高峰,谢剑英.一种无冗余的关联规则发现算法[J].上海交通大 0,其值大于0时,表示模式中的项两两正相关,小于0时,则模式中必有 学学报,2001,35(2):256—258. 负相关的两项;再次,当模式X满足L(x) L(0 L≤1)时,可以确保该 [4]HanJM,KamberM.数据挖掘概念与技术:第1版[M].范明,孟 模式中的任意两项A和B,满足:“B发生的概率足够小于A发生的 小峰等译.北京:机械工业出版社,2008. 条件下B发生的条件概率”,可以利用该性质促进B的发生;最后,当 [5]罗可,吴杰.关联规则衡量标准的研究[I].控制与决策,2003(5): 模式x满足L )≥L(O≤L 1)时,则x中任意一项的发生,均确实能 277-280. lt[6]杨建林,邓三鸿,苏新宁.关联规则兴趣度的度量[J]情报学报, —L 倍提高X中其余项发生的可能性,该性质可以用于促销整个模 2003,22(4):419—424. 式x中的商品项,具有非常好的应用价值。 [7]伊卫国,卫金茂,王名扬.挖掘有效的关联规则[y].计算机工程 4.改进的兴趣度度量方法的实证应用及优点分析 与科学,2005,27(7):91-93. 改进的度量公式(3)指出了规则(买A 买B)与(买B 买A)是 [8]徐勇,周森鑫.一种改进的关联规则挖掘方法研究[_1]_计算机技 不同的,这是由于 (AjB)与 (B A)在数学表达上有不同的结果。 术与发展,2006,16(3):77-79. 再则式(3)可以表示正的关联规则的判别,也可以表示负的关联规 [9]赵选民,徐伟,师义民等.数理统计[M].北京:科学出版社,2004. (上接第153页) 槽上脱落,安装不方便,甚至出现过0形圈从缝隙挤 出现象。为了解决这些问题,将密封圈在原来基础上作了改进,与金属 注释 的支架硫化成整体。新结构密封圈橡胶截面大,工作时挤胶量大,并且 ①稳定可靠型闸板防喷器,江苏省高新技术产品认定,编号 可同时实现轴向密封和径向密封。密封接触面完全转移到了端面和内 100507G0892N,认定时间2010.12 孔表面,避免在密封槽圆角处密封,降低了密封槽R角的加工要求。经 过试验和现场使用证明,新结构的侧门密封圈安装方便,密封可靠,取 参考文献 得了良好的试验结果。 [1]肖力彤.闸板防喷器侧门密封失效研究[J].钻采工艺,2009,32 4.结论 (5):65—67 设计闸板防喷器侧门密封圈总的趋势是将端面密封转化为径向密 [2]王志远.防喷器领域的最新进展[J].石油机械,2005,33(3): 封,同时要考虑加工成本。用最简便的结构,实现高寿命、高可靠度的 71-72 密封是最终的目标。将端面密封方式转化成径向和轴向同时密封方 [3]中国市场调查研究中心.中国防喷器行业调查研究报告 式,能有效地减小螺栓的预紧力;将橡胶和金属支架硫化成整体,成本 [R].2009 低,同时可以防止橡胶脱落,使安装和更换密封圈方便。新型的侧门密 [4]陈惠琴.闸板防喷器密封失效原因及对策分析[I].钻井工程, 封圈的设计,打破了国内一些大公司对闸板防喷器侧门密封技术的垄 2006,11:80-82 断,为产品研发和市场推广开辟了一条新思路。 [5]APISPEC16A(3th)-2004,钻井通道设备规范Is].2004 —155— 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- shangjiatang.cn 版权所有 湘ICP备2022005869号-4

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务