海量数据集上主观兴趣度的关联规则优化算法

文档序号:6504924阅读:254来源:国知局
海量数据集上主观兴趣度的关联规则优化算法
【专利摘要】一种海量数据集上主观兴趣度的关联规则优化算法,本发明使用复合模板同时优化分析,即分为总体印象知识模板(GI)、相对精确知识模板(RPC),这种分类扩大了用户含义表达范围,有助于从不同侧重点对关联规则进行优化,此外,把限制与包含模板的作用转而体现在不同兴趣度上,细化兴趣度为四种类型,包括一致度、后件不可预知度、前件不可预知度、不可预知度,使得优化粒度非常清晰;优化结合了复合模板的兴趣度计算模型,使得兴趣度的计算能合理适应复合分析环境。
【专利说明】海量数据集上主观兴趣度的关联规则优化算法
【技术领域】
[0001]本发明是一种有关海量数据集上主观兴趣度的关联规则优化算法,该方法能够发现大量数据中项集之间有趣的关联或者相关联系,可以帮助许多商务决策的制定,如分类设计、交叉购物和贱卖分析等,属于关联规则挖掘中的关联规则优化算法领域。
【背景技术】
[0002]对海量数据进行关联挖掘导出的关联规则数量巨大,这给分析、决策人员的判断带来了困难,而且仅基于支持度-置信度框架的传统关联规则挖掘算法并不能指出用户真正感兴趣的规则,给用户对所导出规则的分析带来了不便,规则优化则成为了提升规则质量、发现有价值规则的有效手段。
[0003]目前现有的规则优化算法主要从两个方面对关联规则进行优化:
[0004]1.客观关联规则优化:一般从规则的结构、集合性质、统计结果、离差模型等入手进行分析,这类方法包括RuleCover算法、冗余删除算法。客观性优化方法能有效删除多余、无效的规则。
[0005]2.主观关联规则优化:一般利用领域知识、模板、兴趣度等主观量度对规则进行分析。Piatetsky-Shapiro首先提出了兴趣度问题。Hoschka和Klosgen首次提出模板的概念。离差分析法被提出用来衡量真实结果与期望结果间的距离,而Piatetsky-Shapiro和Matheus把离差与兴趣度相结合,分析了离差的兴趣度。Klemettinen等人在中也提出了规则模板的概念,并使用包含模板和限制模板分别过滤有趣规则和非有趣规则。
[0006]虽然客观优化方法删除多余规则的效果明显,但无法实现主观优化方法所带来的优点。从用户需求分析,对主观思路进行研究有以下两点意义:①面对挖掘出来的规则,用户唯一的目标就是去寻找那些特殊的、没有被发现的规则。若仅给出一堆杂乱无序的规则,用户便需要花费较多的时间来分析和发现有价值的规则。②当规则数量成千上万时,用户希望能快速切入主题、发现价值,而不是面对规则无从下手。
[0007]同时,模板是主观兴趣度算法中使用到的一个重要的工具,是用户表达含义的载体,但目前基于模板的优化方法一般仅涉及一个模板的分析。兴趣度是规则有趣程度的客观度量,目前基于兴趣度的优化方法一般结合具体领域知识提出相应的兴趣度计算模型,用来衡量规则的有趣程度。
[0008]然而,在一般的规则优化方案中,模板使用单一模板进行优化分析,用户含义表达受限;模板类型种类少,部分论文提出限制模板、包含模板这两种模板类型用于过滤与匹配规则。另一方面兴趣度,一般只涉及一种兴趣度类型,分析的细化程度受限;兴趣度计算模型单一、杂乱,优化效果难以评判。

【发明内容】

[0009]本发明针对目前兴趣度优化算法存在的不足:兴趣度计算方法欠妥;用户含义表达受限;领域知识、模板、兴趣度等主观量度未有机结合,本算法提出了一种海量数据集上主观兴趣度的关联规则优化算法对上述不足进行了改进
[0010]本发明为解决上述技术问题所采用的技术方案是:
[0011]海量数据集上主观兴趣度的关联规则优化算法,其特征在于该优化算法包括:
[0012]1-(a).数据获取步骤:为优化算法提供基础数据;
[0013]l-(b).用户指定模板步骤:所述模板是用户表达含义的载体,具体地:形如A1...A1...Ak=>Ak+1,的蕴含式,其中Ai可以是属性名、类名或者C+、C*的表达式,若为C+表示一个或多个类C的实例,若为C*表示零或多个类C的实例;用户选择指定GI模板、RPC模板或者同时指定GI模板和RPC模板;
[0014]所述GI模板:用户因项间关系模糊而给出的不确定的知识模板,称为总体印象知识模板,简称GI模板,表不为giliS”...,Sj其中,Si可以是一个属性名、类名或者一条表达式;
[0015]所述RPC模板:用户知晓项间关系且明确关系方向而给出的相对合理的知识模板,称为相对精确知识模板,简称RPC,表示为rpc [S1,SmAV1,...,Vg]其中,Sk可以是一个属性名、类名或者一条表达式;
[0016]l-(c).解析模板步骤:根据模板对待优化的关联规则进行扫描计数;
[0017]l-(d).获取相关参数步骤:获取模板的相关数据及不匹配度量;
[0018]l-(e).计算模板权重累计值步骤:当指定多个模板时,模板权重为weight=l/n,其中η模板数,设XU、YU分别为Ri中前件、后件与GI]或RPq中前件、后件不匹配程度的度量。TXi为Xu的权重累计值,TYi为Yu的权重累计值。TXp TYi按如下公式计算:`[0019]TXi=TX^lMXij.;
[0020]TYi=TY^lMYij.;
[0021]1-(f).兴趣度计算:
[0022]l-(f-l).根据公式计算一致度的步骤:规则Ri的兴趣度表示规则前件、后件与指定模板集U匹配的程度,用符号Confi表示,称为规则Ri的一致度;
[0023]Confi = TXi^TYi
[0024]l-(f-2).根据公式计算后件不可预知度的步骤:规则Ri的兴趣度表示规则后件与指定模板集U不匹配的程度,用符号UnexpYi表示,称为规则Ri的后件不可预知度;
【权利要求】
1.海量数据集上主观兴趣度的关联规则优化算法,其特征在于该优化算法包括: 1-(a).数据获取步骤:为优化算法提供基础数据; l-(b).用户指定模板步骤:所述模板是用户表达含义的载体,具体地:形如A1...A1...Ak=>Ak+1,的蕴含式,其中Ai包含属性名、类名或者C+、C*的表达式,若为C+表示一个或多个类C的实例,若为C*表示零或多个类C的实例;用户选择指定GI模板、RPC模板或者同时指定GI模板和RPC模板; 所述GI模板:用户因项间关系模糊而给出的不确定的知识模板,称为总体印象知识模板,简称GI模板,表不为gi [S1,...,Sm]其中,Si类型包含一个属性名、类名或者一条表达式; 所述RPC模板:用户知晓项间关系且明确关系方向而给出的相对合理的知识模板,称为相对精确知识模板,简称RPC,表示为rpc [S1,Sm=M1,…,Vg]其中,Sk类型包含一个属性名、类名或者一条表达式; l-(c).解析模板步骤:根据模板对待优化的关联规则进行扫描计数;l-(d).获取相关参数步骤:获取模板的相关数据及不匹配度量;l-(e).计算模板权重累计值步骤:当指定多个模板时,模板权重为weight=l/n,其中η为模板数,设Xij、Yu分别为第i条相关规则Ri中前件、后件与GI]或RPCj中前件、后件不匹配程度的度量,TXi为Xu的权重累计值,TYi为Yu的权重累计值,TXpTYi按如下公式计算:Txi=Tx^iMxij;
TYi=TY^iMYij;
l-(f).兴趣度计算: l-(f-l).根据公式计算一致度的步骤:规则Ri的兴趣度表示规则前件、后件与指定模板集U匹配的程度,用符号Confi表示,称为规则Ri的一致度;
Confi=TXi^TYi l-(f-2).根据公式计算后件不可预知度的步骤:规则Ri的兴趣度表示规则后件与指定模板集U不匹配的程度,用符号UnexpYi表示,称为规则Ri的后件不可预知度;
2.根据权利要求1所述海量数据集上主观兴趣度的关联规则优化算法,当用户仅指定GI模板时,所述一致度公式为:
3.根据权利要求2所述海量数据集上主观兴趣度的关联规则优化算法,所述获取相关参数步骤包含: 若为GI模板Yij分别为Ri中前件、后件与GIj或RPCj中前件、后件不匹配程度的度量 设TNj为GIj中元素总数;ΧΜυ、ΥΜυ分别为Ri中前件、后件与GIj中元素相匹配的个数;TMij为GIj中已被Ri中元素所匹配的元素总数,则Xu、Yij分别为Ri中前件、后件与GIj或RPCj中前件、后件不匹配程度的度量为: 若 TNj=O,则 TMJTNj=I
4.根据权利要求1-3中任意一条所述海量数据集上主观兴趣度的关联规则优化算法,所述兴趣度计算完成后,对含不同类型兴趣度的规则集排序步骤。
【文档编号】G06F19/00GK103810371SQ201310265305
【公开日】2014年5月21日 申请日期:2013年6月28日 优先权日:2013年6月28日
【发明者】牛新征, 周冬梅, 侯孟书, 杨健 申请人:电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1