数据关联分析系统及方法以及计算机可读存储介质的制作方法

文档序号:6452063阅读:276来源:国知局
专利名称:数据关联分析系统及方法以及计算机可读存储介质的制作方法
技术领域
此发明是关于一种数据关联分析系统及方法,特别是一种在支持度以及计算方法中考虑时间因子的数据关联分析系统及方法。
背景技术
在数据采矿(data mining)技术领域中,从一个充满大量数据的数据库中发掘出以前不为人知的关联法则,称为关联法则(association rule)分析,其可应用在选择性行销、决策分析等企业管理议题上。其中,最为人所熟知的应用为市场篮分析(market basket analysis),用来发掘出消费者通常会一起购买或依序购买哪几个商品,然后提供行销人员拟定有效的行销策略,近来,关联法则分析也被应用到使用者网页浏览行为分析或者是股市交易分析等领域上。
就概念上来说,在使用者给定一支持度下限(minimal support)与一信心水准下限(minimal confidence)的情况下,关联法则分析通常使用下列两步骤进行分析,首先找出所有超过支持度下限的经常关联物品集(frequent itemset),然后,从选定的经常关联物品集中,产生所有超过信心水准下限的关联法则。
然而,若想从大量数据挖掘出有用的关联法则相当耗时,各式各样的关联法则技术无不想办法提高其运算效率,降低运算时间。除了时间的问题外,关联法则分析技术最令人诟病的是挖掘到的关联法则,往往是数以千计,但是里头又包含了许多原来该领域专家所知道的关联法则,知道这些经过大量运算所得到的关联法则,对于其知识的增益并没有太大的贡献。
为了降低运算时间、提高关联法则的有效性,有许多限制性规则被提出,包括知识类型限制(knowledge type constraints)、数据限制(data constraints)、兴趣取向限制(interestingness constraints)和法则限制(rule constrains)等,用以筛选掉许多对使用者没有用的关联法则,得到更有效的关联法则。
虽然以上方法可以从知识类型、数据、兴趣取向和法则角度来删除无效的关联法则,但是,对于一个拥有成千上万笔交易纪录的数据库来说,交易纪录的时间性相当重要,但过去所提出的关联法则分析方法却没有将此一重要因素纳入分析方法中,据以降低运算时间、筛选掉无效的关联法则。很多关联法则在经过一段时间后,会因为外在因素变化而失效,例如,A牌牛奶和B牌面包经常一起购买,但是,A牌牛奶已经在半个月前停产了,如果使用过去的方法,在为期一年的数据库中挖掘关联法则,这些失效的关联法则还是会被挖掘出来。除此之外,距离现在越接近的物品关联性越重要,例如,C牌牛奶上周被推出,深获好评,并常搭配D牌土司面包一起购买,如果使用过去的方法,在为期一年的数据库中挖掘关联法则,则会因为支持度不足而被排除在外。
为克服上述的缺点,在进行关联法则分析时,需要一纳入时间因素的分析方法,据以降低运算时间并提高关联法则的有效性。

发明内容
有鉴于此,本发明的目的是提供一种数据关联分析系统及方法,降低运算时间,并由于其纳入时间考量因素,提高关联的有效性。
依据上述目的,本发明的数据关联分析系统及方法首先设置一数据库、一存储体与一关联分析单元。数据库存储一交易纪录与一权重纪录,存储体存储一最小支持度。
关联分析单元在进行关联分析时,会循序读取时间区段,并以渐增(incremental)的方式,进行关联分析。先使用以时间区段定义、权重以及最小支持度为参数的支持度计算公式,计算出至少一个区段最小支持度,然后,使用以时间区段定义以及权重为参数的关联系数计算公式,计算关联对象的区段关联系数,最后,比较关联系数是否大于区间最小支持度,判断关联对象的关联显著性。
本发明的数据关联分析系统,包括一数据库,用于存储至少一个权重纪录以及至少一个交易纪录,该权重纪录包含一时间区段定义与一权重,该交易纪录依据该时间区段定义切分为至少一个区段交易纪录,该区段交易纪录包含一交易对象集合;一存储体,用于存储一最小支持度;以及一关联分析单元,耦接于该数据库以及该存储体,从该存储体输入该最小支持度,从该数据库输入该交易纪录以及该权重纪录,使用以该时间区段定义、该权重以及该最小支持度为参数的一支持度计算公式,计算出至少一个区段最小支持度,由该交易对象集合求得至少一个关联对象,使用以该时间区段定义以及该权重为参数的一关联系数计算公式,计算该关联对象的一区段关联系数,比较该关联系数是否大于该区间最小支持度,判断该关联对象的关联显著性。
本发明的数据关联分析方法,其方法被一计算机执行,包括下列步骤从一数据库中输入一时间区段定义、一权重、相应于该时间区段定义的至少一个区段交易纪录,以及从一数据存储体中输入一最小支持度;从该区段交易纪录中检索出至少一个关联对象;使用以该时间区段定义、该权重以及该最小支持度为参数的一支持度计算公式,计算出至少一个区段最小支持度;使用以该时间区段定义以及该权重为参数的一关联系数计算公式,计算该关联对象的一区段关联系数;以及比较该关联系数是否大于该区间最小支持度,判断该关联对象的关联显著性。
本发明还提供一种计算机可读存储介质,用于存储一计算机程序,该计算机程序被加载到一计算机,用以实现数据关联分析方法,其方法包括下列步骤输入一时间区段定义、一权重、相应于该时间区段定义的至少一个区段交易纪录以及一最小支持度;从该区段交易纪录中检索出至少一个关联对象;使用以该时间区段定义、该权重以及该最小支持度为参数的一支持度计算公式,计算出至少一个区段最小支持度;使用以该时间区段定义以及该权重为参数的一关联系数计算公式,计算该关联对象的一区段关联系数;以及比较该关联系数是否大于该区间最小支持度,判断该关联对象的关联显著性。


为使本发明的上述目的、特征和优点能更明显易懂,下文特举实施例,并结合附图,进行详细说明如下图1示出了本发明第一实施例的数据关联分析系统的系统方块图;图2示出了本发明第一实施例的权重纪录示意图;图3示出了本发明第一实施例的交易纪录示意图;图4示出了本发明第一实施例的P1区段关联分析数据示意图;图5示出了本发明第一实施例的P2段关联分析数据示意图;图6示出了本发明第一实施例的数据关联分析方法的方法流程图;图7示出了本发明第一实施例的计算机可读存储介质示意图。
符号说明
11~数据库;12~存储体;13~关联分析单元;111~交易纪录;112~权重纪录;113~关联对象纪录;121~最小支持度;S61、S62、…、S68~操作步骤;70~计算机可读存储介质;720~数据关联分析计算机程序;721~输入交易数据逻辑;722~检索双关联对象逻辑;723~求得区段最小支持度逻辑;724~计算关联系数逻辑;725~判断关联显著性逻辑;726~加入关联对象集合逻辑。
具体实施例方式
图1示出了本发明第一实施例的数据关联分析系统的系统方块图。数据关联分析系统包括数据库11、一存储体12与一关联分析单元13。数据库11存储一交易纪录111、一权重纪录112与一关联对象纪录113,存储体12存储一最小支持度(minimum support)121。
数据库11可以实施于关联性数据库或对象数据库中,用来存储多笔交易纪录111与多笔权重纪录112,交易纪录利用区段编码相应于权重纪录。交易纪录111和权重纪录112在实施时,并不限定于使用单一数据表,也可以是多关联性数据表组合而成,交易纪录111含有三个字段,区段编码、交易编码与交易对象,交易编码字段为一数据库主键,用以识别交易数据,交易对象字段用以存储一笔交易纪录中的多个交易对象。权重纪录112用来纪录各时间区段的定义数据与权重,含有三个字段,区段编码、区段期间与权重。关联对象纪录113用来纪录经关联分析结果,含有两个字段,关联对象、开始区段与关联系数。
图2示出了本发明第一实施例的权重纪录示意图,此权重纪录中共包含3笔纪录,其编码从P1到P3,分别代表1月到3月的资料,且其权重分别为0.5、1与2。
图3示出了本发明第一实施例的交易纪录示意图,此交易纪录中共包含12笔纪录,其编码从t1到t12,其中t1到t4、t5到t8、t9到t12分属三个不同区段的交易数据,每一笔交易纪录存有2到5个不等的交易对象,形成交易对象集合。例如,在t1交易纪录中,消费者购买了B与D两对象。
存储体12可以纪录于数据库系统、档案、内存,甚至是程序代码中,纪录了最小支持度121与最小信心水准122。在本例中,最小支持度设为0.3,最小信心水准设为0.75。
关联分析单元13可以实施于数据库系统、数据仓储系统、数据采矿系统或其它各式各样的数据处理系统中。关联分析单元13在进行关联分析时,会循序读取时间区段,并以渐增的方式,进行关联分析。
图4示出了本发明第一实施例的P1区段关联分析数据示意图。关联分析单元13从数据库11中读取区段P1的交易纪录t1到t4,如图3所示,找出所有的双关联对象(two itemset)分别为AD、BC、BD与CD,计算其发生次数,并注记其开始区段为P1。之后,关联分析单元13从数据库11读取区段P1的权重纪录,如图4所示,计算出区段P1关联系数,其计算公式如下所示区段P1关联系数=区段P1发生次数*区段P1权重....(1)计算出的关联系数分别为0.5、1、1与0.5。从存储体12中读取最小支持度121,计算出区段P1最小支持度,其计算公式如下所示区段P1最小支持度=区段P1交易纪录总数*区段P1权重*最小支持度.....................................(2)计算后的区段最小支持度为0.6(4*0.5*0.3)。最后,将判断双关联对象的关联系数是否大于区段最小支持度,若是则将此双关联对象加入双关联对象集合C2中,然后将结果存储到关联对象纪录113中。
图5示出了本发明第一实施例的P2段关联分析数据示意图。关联分析单元13首先从关联对象纪录113中,读取双关联对象集合C2中的双关联对象,BC与BD,注记其开始区段为P1,之后,从数据库11中读取区段P2的交易纪录t5到t8,如图3所示,找出所有不属于C2的双关联对象,分别为AB、AC、BE、CD、CE与DE,并注记其开始区段为P2。从数据库11读取区段P2的权重纪录,如图4所示,并依据不同的开始区段,使用不同计算公式,计算各双关联对象的关联系数,开始区段为P1的关联计算公式如下区段P2关联系数=区段P1关联系数+区段P2发生次数*区段P2权重.........................................(3)双关联对象BC与BD依据上述公式,所求得的区段P2关联系数分别为3与1。
开始区段为P2的关联计算公式如下区段P2关联系数=区段P2发生次数*区段P2权重.....(4)双关联对象AB、AC、BE、CD、CE与DE,依据上述公式,所求得的区段P2关联系数如图5所示。
关联分析单元13从存储体12中读取最小支持度121,分别计算出区段P1&2以及区段P2最小支持度,其计算公式如下所示区段P1&2最小支持度=区段P1最小支持度区段+区段P2交易纪录总数*区段P2权重*最小支持度..............(5)P2最小支持度=区段P2交易纪录总数*区段P2权重*最小支持度...............................(6)计算后的区段P1&2最小支持度为1.8(0.6+4*1*0.3),区段P2最小支持度为1.2(4*1*0.3)。
判断开始区段为P1的双关联对象的关联系数是否大于区段P1&2最小支持度,若否,则将此双关联对象剔除双关联对象集合C2中,因此,双关联对象BD被剔除在双关联对象集合C2之外。判断开始区段为P2的双关联对象的关联系数是否大于区段P2最小支持度,若是则将此双关联对象加入到双关联对象集合C2中,因此,双关联对象CE与DE被加入到双关联对象集合C2中,双关联对象集合C2中包含BC、CE与DE,然后将结果存储到关联对象纪录113中。
虽然本实施例以双关联对象为例,但本发明并不限定于双关联对象,亦可以实施于三关联对象、四关联对象等多关联对象上。
图6示出了本发明第一实施例的数据关联分析方法的方法流程图。
首先,如步骤S61,关联分析单元13从数据库11输入区段P2的交易纪录111,如图3所示、权重纪录112,如图4所示,以及关联对象纪录113,并从存储体12中输入最小支持度121。
如步骤S62,从交易纪录111及关联对象纪录113中,找出所有的双关联对象。从关联对象纪录113中,读取双关联对象集合C2中的双关联对象,BC与BD,注记其开始区段为P1,从数据库11中读取区段P2的交易纪录找出所有不属于C2的双关联对象,分别为AB、AC、BE、CD、CE与DE,并注记其开始区段为P2。
如步骤S63,求得各区段最小支持度,各区段最小支持度不一定要重新计算,如果的前已计算出区段最小支持度,则沿用即可。由于目前处理的区段为P2,所以必须求得区段P2最小支持度与区段P1&2最小支持度。如果所处理的区段为P3,则必须求得区段P3、P2&3以及P1&2&3最小支持度。
如步骤S64,从步骤S62所产生的双关联对象中,读取一双关联对象,计算其关联系数。在计算之前,会先判断此双关联对象是否为此区段所产生的新双关联,采用不同的计算公式。
如步骤S65,判断其关联系数是否大于区段最小支持度,其判断方法会因此双关联对象的开始区段不同而采用不同的判断方法。关联对象BC的开始区段为P1,其关联系数需与区段P1&2最小支持度比较;关联对象AB的开始区段为P2,其关联系数需与区段P2最小支持度比较。
若此双关联对象的关联系数大于区段最小支持度,则执行步骤S66,将此双关联对象加入到关联对象集合,否则将已加入到关联对象集合的双关联对象剔除。
如步骤S67,判断是否处理完所有此区段的双关联对象,若没有则回到步骤S63继续读取下一个双关联对象。
如步骤S68,判断是否处理完所有区段交易纪录,若没有则回到步骤S61继续读取下一个区段交易纪录。
本发明并不限定此方法要由以上顺序循序执行,只要能达到本发明所述的功效,任何有可能的顺序调换都在本发明的范围中。
再者,本发明提出一种计算机可读存储介质,用以存储一计算机程序,上述计算机程序用以实现数据关联分析方法,此方法会执行如上所述的步骤。
图7示出了本发明第一实施例的计算机可读存储介质示意图。此计算机可读存储介质70,用以存储一计算机程序720,用以实现数据关联分析方法。其计算机程序包含六个逻辑,分别为输入交易数据逻辑721、检索双关联对象逻辑722、求得区段最小支持度逻辑723、计算关联系数逻辑724、判断关联显著性逻辑725与加入关联对象集合逻辑726。
因此,通过本发明所提供的数据关联分析系统及方法,符合渐增计算的特性,降低运算时间,并由于其纳入时间考量因素,提高关联的有效性。
虽然本发明已以优选实施例公开如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,当可做些许更动与修改,因此本发明的保护范围当以后附的权利要求书所界定者为准。
权利要求
1.一种数据关联分析系统,包括一数据库,用于存储至少一个权重纪录以及至少一个交易纪录,该权重纪录包含一时间区段定义与一权重,该交易纪录依据该时间区段定义切分为至少一个区段交易纪录,该区段交易纪录包含一交易对象集合;一存储体,用于存储一最小支持度;以及一关联分析单元,耦接于该数据库以及该存储体,从该存储体输入该最小支持度,从该数据库输入该交易纪录以及该权重纪录,使用以该时间区段定义、该权重以及该最小支持度为参数的一支持度计算公式,计算出至少一个区段最小支持度,由该交易对象集合求得至少一个关联对象,使用以该时间区段定义以及该权重为参数的一关联系数计算公式,计算该关联对象的一区段关联系数,比较该关联系数是否大于该区间最小支持度,判断该关联对象的关联显著性。
2.如权利要求1所述的数据关联分析系统,其中该数据库中,还包括一关联对象纪录,用以存储至少一个显著关联对象。
3.如权利要求1所述的数据关联分析系统,其中该关联分析单元中,该支持度计算公式为一区段交易纪录总笔数乘以该权重,再乘以该最小支持度。
4.如权利要求1所述的数据关联分析系统,其中该关联分析单元中,该支持度计算公式为该区段交易纪录总笔数乘以该权重,再乘以该最小支持度,加上该区段最小支持度。
5.如权利要求1所述的数据关联分析系统,其中该关联分析单元中,该关联系数计算公式为一关联次数乘以该权重。
6.如权利要求1所述的数据关联分析系统,其中该关联分析单元中,该关联系数计算公式为该关联次数乘以该权重,加上该区段关联系数。
7.如权利要求1所述的数据关联分析系统,其中该关联分析单元中,还包括将具显著关联的该关联对象纪录到该关联对象纪录。
8.一种数据关联分析方法,其方法被一计算机执行,包括下列步骤从一数据库中输入一时间区段定义、一权重、相应于该时间区段定义的至少一个区段交易纪录,以及从一数据存储体中输入一最小支持度;从该区段交易纪录中检索出至少一个关联对象;使用以该时间区段定义、该权重以及该最小支持度为参数的一支持度计算公式,计算出至少一个区段最小支持度;使用以该时间区段定义以及该权重为参数的一关联系数计算公式,计算该关联对象的一区段关联系数;以及比较该关联系数是否大于该区间最小支持度,判断该关联对象的关联显著性。
9.如权利要求8所述的数据关联分析方法,还包括将具显著关联的该关联对象存储到一关联对象纪录的步骤。
10.如权利要求8所述的数据关联分析方法,在检索该关联对象步骤中,还包括从该关联对象纪录,输入该关联对象。
11.如权利要求8所述的数据关联分析方法,在计算该区段最小支持度步骤中,该支持度计算公式为一区段交易纪录总笔数乘以该权重,再乘以该最小支持度。
12.如权利要求8所述的数据关联分析方法,在计算该区段最小支持度步骤中,该支持度计算公式为该区段交易纪录总笔数乘以该权重,再乘以该最小支持度,加上该区段最小支持度。
13.如权利要求8所述的数据关联分析方法,在计算该关联对象的该区段关联系数中,该关联系数计算公式为一关联次数乘以该权重。
14.如权利要求8所述的数据关联分析方法,在计算该关联对象的该区段关联系数步骤中,该关联系数计算公式为该关联次数乘以该权重,加上该区段关联系数。
15.一种计算机可读存储介质,用于存储一计算机程序,该计算机程序被加载到一计算机,用以实现数据关联分析方法,其方法包括下列步骤输入一时间区段定义、一权重、相应于该时间区段定义的至少一个区段交易纪录以及一最小支持度;从该区段交易纪录中检索出至少一个关联对象;使用以该时间区段定义、该权重以及该最小支持度为参数的一支持度计算公式,计算出至少一个区段最小支持度;使用以该时间区段定义以及该权重为参数的一关联系数计算公式,计算该关联对象的一区段关联系数;以及比较该关联系数是否大于该区间最小支持度,判断该关联对象的关联显著性。
16.如权利要求15所述的数据关联分析方法,还包括将具显著关联的该关联对象存储到一关联对象纪录的步骤。
17.如权利要求15所述的数据关联分析方法,在检索出该关联对象步骤中,还包括从该关联对象纪录,输入该关联对象。
18.如权利要求15所述的数据关联分析方法,在计算该区段最小支持度步骤中,该支持度计算公式为一区段交易纪录总笔数乘以该权重,再乘以该最小支持度。
19.如权利要求15所述的数据关联分析方法,在计算该区段最小支持度步骤中,该支持度计算公式为该区段交易纪录总笔数乘以该权重,再乘以该最小支持度,加上该区段最小支持度。
20.如权利要求15所述的数据关联分析方法,在计算该关联对象的该区段关联系数步骤中,该关联系数计算公式为一关联次数乘以该权重。
21.如权利要求15所述的数据关联分析方法,在计算该关联对象的该区段关联系数步骤中,该关联系数计算公式为该关联次数乘以该权重,加上该区段关联系数。
全文摘要
一种数据关联分析系统及方法以及计算机可读存储介质,其系统包括一数据库、一存储体与一关联分析单元,关联分析单元使用以时间区段定义、权重以及最小支持度为参数的支持度计算公式,计算出至少一个区段最小支持度,使用以时间区段定义以及权重为参数的关联系数计算公式,计算关联对象的区段关联系数,比较关联系数是否大于区间最小支持度,判断关联对象的关联显著性。
文档编号G06F17/00GK1542642SQ03123099
公开日2004年11月3日 申请日期2003年4月30日 优先权日2003年4月30日
发明者李昌鸿 申请人:明基电通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1