本发明属于计算机、大数据和云计算领域,涉及一种数据集对象和属性之间的关联规则挖掘方法。
背景技术:
在数据挖掘关联规则发现领域中,由二元关系构建的概念格是一种非常直观的形式概念分析方法,它利用概念的内涵(属性)和外延(对象)以及知识概念之间的泛化和特化关系,能够充分反映对象和属性之间的蕴含规则。但是目前的概念格方法过于强调对象之间的差异性,却没有充分考虑它们的相似性,这在偶发性极强的商业数据分析领域,往往忽略了对象之间某些细微的共性,导致规则挖掘过于苛刻而错过一些细微且关键的规则发现;一些新兴算法加入了对象间的相似性考量,却因为由此引发的关联规则过于复杂而造成算法时效性太差,资源占用过高,无法在实时性要求高的领域发挥作用。
技术实现要素:
为解决上述问题,本发明提出了一种基于概念格扩展理论的关联规则挖掘方法,可在传统形式概念分析提取关联规则的基础上,将狭义概念格理论扩展,在关注数据集对象之间差异性的同时,充分探索对象之间的相似性。同时采用相应的属性和规则约简算法,保证方法的计算效率。
本发明的技术方案为:
一种基于概念格扩展理论的关联规则挖掘方法,其特征在于:所述方法包括以下步骤:
a.在基础概念格构建理论的基础上,引入容限范围内的二元关系,将数据集中的对象、属性以及属性值依据所关注的关系提取,允许对象之间具有一定的差异性,构建出目标数据集的形式背景;b.对概念格上的元素进行判定,计算出概念格上的不可约元集;c.根据设置的支持度和可信度,对关联规则进行缩减,进一步提高算法的计算效率;d.计算方法复杂度,指示计算量。
进一步的,所述步骤a的具体实现方式为:
用三元组定义目标数据集的形式背景,记为fc=(u,d,r),其中u表示数据集中对象的集合,d表示对象的描述符——属性的集合,r表示u和d之间的某个二元关系,其中
幂集u和d之间的伽罗华关系记为如下两个函数f1和f2:
进一步,将上述两个函数定义成以下两个算式:
显然,u*计算得到了共同具有u中对象的全体属性集,d*计算得到了共同具有d中属性的全体对象集;
满足上述两个算式的序对(ui,di)就是形式背景fc上的形式概念,所有形式概念构成的集合记为l(fc),其中l(fc)的所有的对象概念集记为lu(fc)={u|(u,d)∈l(fc)},相应的属性概念集记为ld(fc)={d|(u,d)∈l(fc)}。
进一步的,所述步骤b的具体实现方式为:
利用求解不可约元集来约简形式背景的属性的算法如下:
对于步骤a中所述的形式背景fc=(u,d,r),
由属性概念集和对象概念集的性质,可得:
另外,设a,b,c∈l(fc),则由不可约元集的定义,可推得下式:
由上述两算式可得,若(ui,di)∈ise(l(fc)),则
在上面形式背景fc上,当
当
由上述算式可得
同样方法可得到并不可约元集的判断条件,再结合交不可约元集的判断条件,可得概念格的不可约元集判断算式如下:
上述形式背景fc=(u,d,r),设d∈d,u∈u:
进一步的,所述步骤c的具体实现方式为:
对于唯一对应于上述步骤所建概念格中的节点二元组(n1,n2),其中n1=(f2(rulea),f1(f2(rulea))),n2=(f2(rulea∪ruleb),f1(f2(rulea∪ruleb))),则关联规则
其中,
根据上述计算出概念格中规则项集的支持度和可信度后,根据系统设置的阈值对概念节点进行缩减,假设系统设置的支持度阈值记为
满足上面算式的节点(n1,n2)作为在当前系统阈值
若rulea,ruleb,rulec是互不相交的项集:
由上述两个算式可知,本方法可通过系统阈值
进一步的,所述步骤d的具体实现方式为:
通过上述步骤a、步骤b和步骤c,从概念格的构建、属性集以及关联规则项集的系统阈值多方面进行约简,可使得计算具有相当好的实时性:对于一个包含a个对象,b个属性特征,c个属性/对象的试验数据集,得到节点与对象之间的空间复杂度曲线图、概念格的构建与对象数目间的时间复杂度曲线图、计算复杂性与形式背景的属性数目关系曲线图这些关键指标性结果,即可明显看出方法的计算效率的提高。
本发明的有益效果为:本发明在传统形式概念分析提取关联规则的基础上,将狭义概念格理论扩展,引入了容限范围内的二元关系作为形式背景关系,允许对象之间具有一定的差异性,在关注数据集对象之间差异性的同时,充分探索对象之间的相似性;同时采用相应的属性和规则约简算法,保证了方法的计算效率,具有快速、稳定和高效的特点,特别适用于具有超大属性数目数据集的在线关联规则提取。
附图说明
图1为节点与对象之间的空间复杂度曲线图。
图2为概念格的构建与对象数目间的时间复杂度曲线图。
图3为计算复杂性与形式背景的属性数目关系曲线图。
具体实施方式
本发明基于概念格扩展理论的关联规则挖掘方法,包括以下步骤:
a.将数据集中的对象、属性以及属性值依据所关注的关系提取,构建出目标数据集的形式背景,利用基础概念格构建理论,分析出各概念节点。
用三元组定义目标数据集的形式背景(formalcontext),记为fc=(u,d,r),其中u表示数据集中对象的集合;d表示对象的描述符——属性(特征)的集合;r表示u和d之间的某个二元关系,其中
幂集u和d之间的伽罗华关系记为如下两个函数f1和f2:
为方便运算,将上述两个函数定义成以下两个算式:
显然,u*计算得到了共同具有u中对象的全体属性集,d*计算得到了共同具有d中属性的全体对象集。
满足上述两个算式的序对(ui,di)就是形式背景fc上的形式概念,所有形式概念构成的集合记为l(fc),其中l(fc)的所有的对象概念集记为lu(fc)={u|(u,d)∈l(fc)},相应的属性概念集记为ld(fc)={d|(u,d)∈l(fc)}。
b.对概念格上的元素进行判定,计算出概念格l(fc)上的不可约元集。
采用概念格扩展方法所构建的概念格模型,会造成计算复杂度的快速上升,因此必须采取约简手段来精简数据模型。下面将利用求解不可约元集来约简形式背景的属性,算法如下:
对于步骤a中所述的形式背景fc=(u,d,r),
由属性概念集和对象概念集的性质,可得下面算式:
另外,设a,b,c∈l(fc),则由不可约元集的定义,可推得下式:
由上述两算式可得,若(ui,di)∈ise(l(fc)),则
在上面形式背景fc上,当
当
由上述算式可得
同样方法可得到并不可约元集的判断条件,再结合交不可约元集的判断条件,可得概念格的不可约元集判断算式如下:
上述形式背景fc=(u,d,r),设d∈d,u∈u:
实例:
表1给出了数据集的形式背景fc=(u,d,r),其中u={id},
d={a,b,c,d,e},“1”表示对象具有该属性,“0”表示对象没有该属性。
表1fc=(u,d,r)的形式背景
根据上表,计算fc所包含的所有对象概念:
(1**,1*)=(15,abde);
(2**,2*)=(245,abc);
(3**,3*)=(135,d);
(4**,4*)=(245,abc);
(5**,5*)=(5,abcde);
再计算fc所有的属性概念:
(a*,a**)=(1245,ab);
(b*,b**)=(1245,ab);
(c*,c**)=(245,abc);
(d*,d**)=(135,d);
(e*,e**)=(15,abde);
在所有概念的基础上,用不可约元集的判断算式可得:
由实例可见,本方法有效约简了形式概念的节点数。
c.根据设置的支持度和可信度,对关联规则进行缩减,进一步提高算法的计算效率:
对于唯一对应于上述步骤所建概念格中的节点二元组(n1,n2),其中n1=(f2(rulea),f1(f2(rulea))),n2=(f2(rulea∪ruleb),f1(f2(rulea∪ruleb))),则,关联规则
其中,
根据上述计算出概念格中规则项集的支持度和可信度后,根据系统设置的阈值对概念节点进行缩减,假设系统设置的支持度阈值记为
满足上面算式的节点(n1,n2)作为在当前系统阈值
若rulea,ruleb,rulec是互不相交的项集:
由上述两个算式可知,本方法可通过系统阈值
d.复杂度计算。
传统的概念格挖掘关联规则的算法中,最大的应用限制就在于算法的复杂度,对于n个属性的形式背景fc=(u,d,r),其属性di∈d,
在实际的数据集中,其对应的形式背景往往会出现成千上万的属性特征,计算复杂度是难以忍受的,而本算法从概念格的构建、属性集以及关联规则项集的系统阈值等多方面进行约简,可使得计算具有相当好的实时性,对于一个包含2000个对象,52个属性特征,10属性/对象的试验数据集,采用本发明所述方法进行关联规则提取,其关键指标性结果如图1、图2、图3所示。
可见,本发明所述方法可将概念格扩展理论发现关联规则的计算复杂度降至属性数目的三次方级别,相比传统算法的指数级复杂度,极大地提高了算法的效率。
本发明在传统形式概念分析提取关联规则的基础上,将狭义概念格理论扩展,引入了容限范围内的二元关系作为形式背景关系,允许对象之间具有一定的差异性,在关注数据集对象之间差异性的同时,充分探索对象之间的相似性。同时采用相应的属性和规则约简算法,保证了方法的计算效率,具有快速、稳定和高效的特点,特别适用于具有超大属性数目数据集的在线关联规则提取。