有趣项集获取方法和装置的制造方法

文档序号:8922775阅读:302来源:国知局
有趣项集获取方法和装置的制造方法
【技术领域】
[0001] 本发明涉及数据挖掘领域,特别涉及一种有趣项集获取方法和装置。
【背景技术】
[0002] 关联规则挖掘是数据挖掘技术中研究的热点之一。通过对大型事务集进行关联规 则挖掘,可以挖掘出隐藏在该大型事务集中不同项之间的关联规则,这些关联规则可以应 用于电子商务推荐、购物篮分析等多种领域。
[0003] 关联规则挖掘算法中一般使用"支持度-置信度"框架,挖掘出支持度不小于支持 度阈值的候选项集,再基于这些候选项集,挖掘出置信度不小于置信度阈值的关联规则。但 是,这种方法容易产生没有实际应用价值的"干扰性"的关联规则,具有一定的局限性。例 如,对于"茶"和"咖啡"两个项来说,通过对事务集进行挖掘后,得到关联规则"不买茶,则 不买咖啡",该否定式的关联规则没有实际应用价值。
[0004] 为了弥补"支持度-置信度"框架的不足,引入了兴趣度,以修剪具有"干扰性"的 关联规则。该兴趣度用于在挖掘出关联规则之后,对关联规则进行评价和过滤。但是,对于 被过滤掉的项集来说,在挖掘关联规则的过程中仍然需要计算该项集的支持度和置信度, 增加了冗余的计算量,极大地降低了效率。

【发明内容】

[0005] 为了解决现有技术的问题,本发明实施例提供了一种有趣项集获取方法和装置。 所述技术方案如下:
[0006] 第一方面,提供了一种有趣项集获取方法,所述方法包括:
[0007] 扫描待分析的事务集,得到所述事务集中的每个项目,并计算每个项目的支持度, 所述事务集包括多个事务,每个事务包括至少一个项目;
[0008] 基于每个项目的支持度,得到多个候选项集;
[0009] 对于每个候选项集,计算所述候选项集的支持度和余弦相似度;
[0010] 判断所述候选项集的余弦相似度是否大于第一预设阈值,并判断所述候选项集的 支持度是否大于第二预设阈值;
[0011] 当所述候选项集的余弦相似度大于所述第一预设阈值,且所述候选项集的支持度 大于所述第二预设阈值时,将所述候选项集作为有趣项集。
[0012] 第二方面,提供了一种有趣项集获取装置,所述装置包括:
[0013] 扫描模块,用于扫描待分析的事务集,得到所述事务集中的每个项目,并计算每个 项目的支持度,所述事务集包括多个事务,每个事务包括至少一个项目;
[0014] 候选项集获取模块,用于基于每个项目的支持度,得到多个候选项集;
[0015] 计算模块,用于对于每个候选项集,计算所述候选项集的支持度和余弦相似度;
[0016] 判断模块,用于判断所述候选项集的余弦相似度是否大于第一预设阈值,并判断 所述候选项集的支持度是否大于第二预设阈值;
[0017] 有趣项集获取模块,用于当所述候选项集的余弦相似度大于所述第一预设阈值, 且所述候选项集的支持度大于所述第二预设阈值时,将所述候选项集作为有趣项集。
[0018] 本发明实施例提供的技术方案带来的有益效果是:
[0019] 本发明实施例提供的方法和装置,通过定义项集的余弦相似度,在获取有趣项集 的过程中,计算候选项集的支持度和余弦相似度,通过判断该候选项集的余弦相似度是否 大于第一预设阈值,并判断该候选项集的支持度是否大于第二预设阈值,对候选项集进行 过滤。与使用"支持度-置信度"框架挖掘出关联规则再使用兴趣度进行过滤相比,应用余 弦相似度这一客观兴趣度和支持度,能够在挖掘有趣项集的同时,对候选项集进行评价和 过滤,以修剪"干扰性"的候选项集,无需计算出所有候选项集的支持度和置信度后再进行 过滤,降低了计算量,提高了挖掘效率。
【附图说明】
[0020] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 的附图。
[0021] 图1是本发明实施例提供的一种有趣项集获取方法的流程图;
[0022] 图2是本发明实施例提供的一种有趣项集获取方法的流程图;
[0023] 图3是本发明实施例提供的项集枚举树形图;
[0024] 图4是本发明实施例提供的一种有趣项集获取装置结构示意图。
【具体实施方式】
[0025] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发 明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施 例,都属于本发明保护的范围。
[0026] 图1是本发明实施例提供的一种有趣项集获取方法的流程图,参见图1,所述方法 包括:
[0027] 101、扫描待分析的事务集,得到该事务集中的每个项目,并计算每个项目的支持度。
[0028] 102、基于每个项目的支持度,得到多个候选项集。
[0029] 103、对于每个候选项集,计算该候选项集的支持度和余弦相似度。
[0030] 104、判断该候选项集的余弦相似度是否大于第一预设阈值,并判断该候选项集的 支持度是否大于第二预设阈值。
[0031] 105、当该候选项集的余弦相似度大于该第一预设阈值,且该候选项集的支持度大 于该第二预设阈值时,将该候选项集作为有趣项集。
[0032] 本发明实施例提供的方法,通过定义项集的余弦相似度,在获取有趣项集的过程中,计 算候选项集的支持度和余弦相似度,通过判断该候选项集的余弦相似度是否大于第一预设阈值, 并判断该候选项集的支持度是否大于第二预设阈值,对候选项集进行过滤。与使用"支持度-置 信度"框架挖掘出关联规则再使用兴趣度进行过滤相比,应用余弦相似度这一客观兴趣度和支持 度,能够在挖掘有趣项集的同时,对候选项集进行评价和过滤,以修剪"干扰性"的候选项集,无需 计算出所有候选项集的支持度和置信度后再进行过滤,降低了计算量,提高了挖掘效率。
[0033] 可选地,计算该候选项集的支持度和余弦相似度包括:
[0034] 获取该事务集包含的事务数目,并获取该候选项集中的每个项目在该事务集中同 时出现的次数;
[0035] 根据该事务数目以及该候选项集中每个项目在该事务集中同时出现的次数,计算 该候选项集的支持度;
[0036] 根据该候选项集的支持度以及该候选项集中每个项目的支持度,应用以下公式计 算该候选项集的余弦相似度:
[0038] 其中,X为该候选项集,XHii,i2, . . .,iK},K为该候选项集的宽度,K彡2, k=l,2,...K,cos(X)为该候选项集的余弦相似度,supp(X)为该候选项集的支持度, supp({ik})为该候选项集中项目ik的支持度。
[0039] 可选地,基于每个项目的支持度,得到多个候选项集包括:
[0040] 将每个项目所构成的项集分别作为候选项集。
[0041] 可选地,该方法还包括:
[0042] 当该第一候选项集的余弦相似度大于该第一预设阈值,且该第一候选项集的支持 度大于该第二预设阈值时,将该第一候选项集的直接超集作为该第二候选项集,继续执行 计算该第二候选项集的支持度和余弦相似度的步骤;
[0043] 其中,在该第一候选项集的直接超集与该第一候选项集的差集中,每个项目的支 持度均大于该第一候选项集中每个项目的支持度。
[0044] 可选地,将该第一候选项集的直接超集作为该第二候选项集包括:
[0045] 从不属于该第一候选项集的项目中选取第一项目,该第一项目的支持度大于该第 一候选项集中每个项目的支持度;
[0046] 将该第一候选项集与该第一项目合并后的项集作为该第二候选项集。
[0047] 可选地,判断该候选项集的余弦相似度是否大于第一预设阈值,并判断该候选项 集的支持度是否大于第二预设阈值之后,该方法还包括:
[0048] 当该候选项集的余弦相似度不大于该第一预设阈值时,过滤该候选项集的直接超 集和该候选项集;
[0049] 当该候选项集的支持度不大于该第二预设阈值时,过滤该候选项集的超集和该候 选项集;
[0050] 其中,在该候选项集的直接超集与该候选项集的差集中,每个项目的支持度均大 于该候选项集中每个项目的支持度。
[0051] 可选地,余弦相似度具有如下的条件反单调性:
[0052] 对于任意的项集X和Y,满足.
,当 8即卩({;[})〈8即卩({;['})时,(30800>(308(¥);
[0053] 其中,i为项集X中的任一项,i'为项集Y与项集X的差集中的任一项,supp({i}) 为i的支持度,supp(U'})为i'的支持度,cos(X)为项集X的余弦相似度,cos(Y)为项集Y的余弦相似度。
[0054] 上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再 --赘述。
[0055] 图2是本发明实施例提供的一种有趣项集获取方法的流程图,参见图2,所述方法 包括:
[0056] 201、扫描待分析的事务集,得到该事务集中的每个项目。
[0057] 其中,该事务集包括多个事务,每个事务包括至少一个项目,则一个事务可以看作 一个项集。例如,该事务集可以根据用户选择物品的行为生成,一个用户一次可以选择多种 物品,用户的一次选择行为构成一个事务,此次用户所选择的至少一种物品即为该事务包 括的至少一个项目。
[0058] 该事务集用于挖掘隐藏在该至少一个项目中的关联规则,通过对该事务集进行分 析,可以确定每个项目的出现频率
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1