提取具有意义的频出项目集的系统、方法以及程序的制作方法

文档序号:6429748阅读:131来源:国知局
专利名称:提取具有意义的频出项目集的系统、方法以及程序的制作方法
技术领域
本发明涉及从存储分别包含具有一个或多个项目的项目集的多个记录的数据库提取具有意义的频出项目集,尤其涉及通过适当次数的频度计算且适当的存储器的使用量高效地提取这样的项目集的技术。
背景技术
以往,研究了从大量存储的数据中提取有用的指示的数据挖掘。其中,检测成为对象的多个记录(例如已发布的收据的履历)中频繁出现的项目(例如商品)组的技术称为频出模式挖掘,提出了多种方法。在频出模式挖掘中,将满足“项目集的频度>预定阈值 (称为“最小支持”),,的项目集定义为频出项目集,提取频出项目集的集合。但是,虽然项目集的出现频度高,但项目间不一定具有较深的关系。例如,在包含出现频度高的项目的项目集的情况下,项目间没有关系但其项目集频出的可能性高。在项目间具有较深关系的情况下,该频出项目集是没有意义的项目集。此外,最小支持的值由用户赋予,但一般而言,已知对实用的最小支持的值生成大量数量的频出项目集。于是,存在如下现有技术导入闭频出集合的概念进行定义,提取满足该定义的闭频出项目集(参照非专利文献1)。在此,所谓项目集Y闭频出,是指满足“Y频出且对任意的Yc Y ζ、γ#γ',γ的频度γ > γ'的频度”。此外,也存在如下现有技术扩大闭频出集合的上述定义,提取满足“Y频出且对任意的Y C Y ‘ ,Y^Y',(Y的频度χ δ) > Y'的频度”的项目集(参照非专利文献2)。如果提取闭频出的项目,则与项目集整体具有相同出现频度的项目集的部分集合不会作为频出项目集无用地提取。例如,假设在超市POS数据中出现500次项目集Y1 = {齿粉、面包},项目1= {齿粉、面包、啤酒}也出现了 500次。在此情况下,作为闭频出的项目集提取的仅是项目集Y 2。但是,对于闭频出的项目集,虽然项目间具有很深的关系,但即使具有闭频出的概念,也无法提取具有意义的频出项目集。于是,需要提取在项目间具有较深关系的项目集的技术。作为这样的现有技术,存在非专利文献3和非专利文献4。非专利文献3和非专利文献4通过基于相互信息量、平均信息量的方法,尝试在三个以上的项目之间提取具有关联的项目集。但是,提出非专利文献3和非专利文献4的方法以成对比较为基础。因此,对于通过这些手法提取的项目集可以保证的仅仅是在项目集内的任意两个项目之间具有较深关联。例如,假设对呼叫中心的通话记录适用上述手法,提取了项目集{操作系统Α、浏览器B、异常结束}。在此情况下,对{操作系统Α、浏览器B}、{浏览器B、异常结束}、{操作系统Α、异常结束}各自保证较高的相关性。但是,不保证“不是其他操作系统而在操作系统A上、不是其他应用程序而是使用浏览器B发生了异常结束”。如下所示的专利文献1 作为公开相关的规则提取手法的背景技术列举。专利文献1 日本特开平8187106号公报
1 :M. Boley et al. ,"EfficientDiscovery of Interesting Patterns Based on Strong Closedness,,,Statistical Analysis and Data Mining, Volume 2, Issue 5&ash ;6, Pages 346—360, December 2009非专利文献 2 :J.Cheng et al. , "Sigma-tolerance closed frequent itemsets,,,ICDM, Proceedings of the Sixth InternationalConference on Data Mining, pages 139&#8211 ;148,2006非专利文献 3 :Y. Ke et al. , "Mining q uantitativecorrelated patterns using an information-theoretic approach,,,Proceedings ofthe 12th ACM SIGKDD international conference on knowledge discoveryand data mining, pages 227&#8211 ;236, August 2006非专禾Ij 文献 4 :X. Zhang et al. ,"Mining Non-Redundant High Order Correlations inBinary Data,,, Proceedings of the VLDB Endowment, Volumel, Issue 1, pages 1178-1188,August 2008

发明内容
因此,本发明的目的在于提供能够仅提取具有意义的频出项目集的技术。为了实现该目的,需要定义在提取的项目集内的项目之间应该满足的关系,该定义需要详细信息而增加计算量。于是,本发明进一步的目的提供在根据这样的新定义提取具有意义的频出项目集时,不需要过多次数的频度计算和过量存储器而通过适当次数的频度计算且适当的存储器使用量能够高效地发现这样的项目集的计算方法。为了实现上述目的,本申请发明人新导入了内相关频出集合的概念并如下定义。 艮口,项目集Y为内相关频出是指“项目集Y频出且对项目集Y内的任意项目1,除去y剩下的子集Y-{y}与y相关”。如果根据上述定义提取内相关频出的项目集,则判定项目集Y内的各项目y是否与除去该y剩下的子集的出现协调出现,所以能够列举包括真正容易同步出现的项目的集合的项目集。因此,通过提取内相关频出的项目集,能够仅提取具有意义的频出项目集。而且,提取内相关频出集合的本发明通过如下的计算机处理,从存储分别包含具有一个或多个项目的项目集的多个记录的数据库中提取具有意义的频出项目集的方法来实现。数据库内的多个项目具有项目的顺序。该项目的顺序可以是任意顺序,作为一例, 在各项目通过正整数id识别的情况下,该顺序可以是通过项目的id确定的顺序,此外也可以是项目的出现频度的顺序。而且,这样的方法包括(a)决定步骤,所述计算机在与前一个被设为研究对象的项目集即旧项目集内顺序最晚的项目相比顺序靠后的项目存在一个以上的情况下,将所述一个以上的顺序靠后的项目按降序向所述旧项目集加上一个,决定新设为研究对象的项目集即新项目集,所述旧项目集的初始值中顺序为最初的空项目Φ ; (b)登记步骤,所述计算机以所述新项目集的出现频度为预定阈值以上为条件,将所述新项目集的所述出现频度登记于所述计算机的存储器上准备的表;(c)判定步骤,所述计算机对向所述表的登记进行应答,使用所述表内的值判定所述新项目集内的各项目与从所述新项目集除去该项目后剩下的项目的子集之间是否具有相关关系;(d)登记步骤,所述计算机对于所述新项目集内的所有项目的各个,以所述判定结果是肯定为条件,将所述新项目集登记于所述具有意义的频出项目集的集合;(e)重复步骤,所述计算机对向所述具有意义的频出项目的集合登记进行应答,将所述新项目集作为所述旧项目集基于原来的所述旧项目集决定新项目集之前,重复(a)的步骤。优选,上述方法还包括如下步骤在构成包含顺序为第二个的项目的所述新项目集的项目的顺序不连续的情况下,在步骤(C)之后,将关于从所述新项目集除去在不连续的项目中顺序最早的项目后的项目集以及从所述新项目集除去所述顺序为第二个的项目后的项目集的各自的出现频度从所述表删除。此外优选,上述步骤(C)中的相关的判定,在将所述记录数设为|τ|,将新项目集Y 的出现频度设为|τ(γ)|,将关于新项目集Y内的任意项目y的出现频度设为|T({y})|,将从新项目集Y除去该y后剩下的项目的子集的出现频度设为|T(Y_{y})|,将α设为比1大的预定的阈值的情况下,通过判定式T|X T(Y) I彡α X T(Y-{y}) I X |T({y}) |是否成立进行。此外还优选,所述表具有用于将构成项目集的项目的id的列表作为关键字检索该项目集的出现频度的映射构造。以上作为提取具有意义的频出项目集的方法说明了本发明。但是,本发明也可以是使计算机执行该提取方法的、用于提取具有意义的频出项目集的提取程序以及通过将该提取程序安装于计算机实现的、提取具有意义的频出项目集的系统。根据本发明,提取频出的项目集且对于项目集内的任意项目包括除去该项目后剩下的所有项目的子集具有相关关系的项目集。因此,仅提取包括真正容易同步出现的项目的集合对象项目集,能够提取具有意义的频出项目集。此外,在求出这样的项目集时,再利用关于项目数少一个的项目集求出的出现频度,所以不需要过多的频度计算、过多的存储器而能够高效地提取具有意义的频出项目集。关于本发明的其他效果可以从各实施方式的记载理解。


图1表示信息系统100的整体结构。图2的(a)表示数据库装置110的数据构造的概略。图2的(b)表示检索用表。图3表示解析系统120的功能结构。图4表示项目集的树的一例。图5的(a)表示对图4所示的树按深度优先且降序扫描时的扫描顺序。图5的 (b)表示对图4所示的树按宽度优先且降序扫描时的扫描顺序。图6表示解析系统120的整体处理的流程的一例。图7表示图6所示的步骤615的提取处理的流程的一例。图8表示进行内相关频出项目集提取处理的递归函数Mine的类似代码的一例。图9表示映射M325的不需要键的删除处理的流程的一例。图10表示作为解析系统120发挥功能的信息处理装置的硬件结构的一例。
具体实施例方式下面基于附图详细说明用于实施本发明的最优方式,下面的实施方式不限定权利要求涉及的发明,而且实施方式中说明的特征的所有组合不一定是发明解决手段所必须的。在实施方式说明的整体对相同要素附加相同编号。图1表示信息系统100的整体结构。信息系统100包括数据库装置110、解析系统 120、内相关频出集合存储装置130。数据库装置110存储分别包含具有一个或多个项目的项目集的多个记录。作为一例,记录可以是在数据库装置110等信息处理装置中表示响应从同一用户接收的要求进行的一系列处理的事务的履历信息。在此情况下,项目可以是事务处理的对象,例如商品,或者可以是要求事务的要求源的属性、表示事务处理内的内容的属性。数据库装置110将各项目与包含该项目的事务的识别符关联地存储。作为其他例子,记录可以是在呼叫中心记录的各通话的通话记录、在网页上收集的各用户的调查信息。在此情况下,项目可以是包含于通话记录或调查信息的商品名或服务名、表示商品或服务的状态的单词、表示对商品或服务的肯定或否定意见的单词。作为项目处理的单词可以预先使用匹配等公知技术从通话记录、调查信息提取。数据库装置110 仅将作为项目处理的单词与包含该单词的记录的识别符关联地存储。解析系统120从记录在数据库装置110的多个记录提取内相关频出的项目集的集合,在内相关频出集合存储装置130登记。如上所述,本申请发明者为了提取具有意义的频出项目集,新导入内相关集合的概念,如下定义。即,项目集Y是内相关频出是指“项目集Y频出且对于项目集Y内的任意项目1,除去y的剩下的子集Y-{y}与y相关”。使用如下计算式说明上述内相关频出的定义。首先,将存储在数据库装置110的
任意记录表述为ti;将记录数表述为n,将所有记录的集合表述为T= It1.....tn}。此外,
将出现在任意记录的任意项目表述为Xi,将项目的种类表述为m个,将所有项目的集合表述
为X= Ix1.....xjo而且,对包含于集合X的任意部分集合YCX,将包含集合Y的记录
的集合表示为T (Y)。即’T ( Y) ={t 6 T I y 6 t , Vy 6 Y}。这样,项目集Y频出是指关于项目集Y下式成立。式 1|t(y)|>s其中,s彡1在上式中,t(y) i表示集合t(y)的大小即要素数(下面同样)。此外s是频出判定中使用的阈值,取1以上的任意整数值。开发者和用户对s可以如所有记录数η的10% 等那样指定相对值。此外,项目集Y内相关。即,对于项目集Y内的任意项目y,除去y的剩下的子集 Y-{y}相关是指关于项目集Y下式成立。式2f(|t(y) i, |t({y}) i,t(y-{y}) ) ^ α其中,yeY,α >1,φ 乒Y在上式中,α是用于内相关判定的阈值,取比1大的数值。在希望仅提取相关强的项目集的情况下,对α可以设定例如4、5等较大值。此外,函数f是|T(Y) |、|T({y}) |、
T(Y-{y})的任意函数。作为一例,可以通过下式表示函数f。
权利要求
1.一种方法,通过计算机的计算处理,从存储分别包含具有一个或多个项目的项目集的多个记录的数据库中提取具有意义的频出项目集,所述数据库内的多个项目具有项目的顺序,所述方法包括(a)决定步骤,所述计算机在与前一个被设为研究对象的项目集即旧项目集内顺序最晚的项目相比顺序靠后的项目存在一个以上的情况下,将所述一个以上的顺序靠后的项目按降序向所述旧项目集加上一个,决定新设为研究对象的项目集即新项目集,所述旧项目集的初始值中顺序为最初的空项目Φ ;(b)登记步骤,所述计算机以所述新项目集的出现频度为预定阈值以上为条件,将所述新项目集的所述出现频度登记于所述计算机的存储器上准备的表;(c)判定步骤,所述计算机对向所述表的登记进行应答,使用所述表内的值判定所述新项目集内的各项目与从所述新项目集除去该项目后剩下的项目的子集之间是否具有相关关系;(d)登记步骤,所述计算机对于所述新项目集内的所有项目的各个,以所述判定结果是肯定为条件,将所述新项目集登记于所述具有意义的频出项目集的集合;以及(e)重复步骤,所述计算机对向所述具有意义的频出项目的集合的登记进行应答,将所述新项目集作为所述旧项目集基于原来的所述旧项目集决定新项目集之前,重复(a)的步骤。
2.根据权利要求1所述的方法,还包括如下步骤在构成包含顺序为第二个的项目的所述新项目集的项目的顺序不连续的情况下,在步骤(c)之后,所述计算机将关于从所述新项目集除去在不连续的项目中顺序最早的项目后的项目集以及从所述新项目集除去所述顺序为第二个的项目后的项目集的各自的出现频度从所述表删除。
3.根据权利要求2所述的方法,其中,步骤(c)中的相关的判定,在将所述记录数设为|τ|,将新项目集Y的出现频度设为|τ⑴I,将关于新项目集γ内的任意项目y的出现频度设为|T({y}) I,将从新项目集Y除去该y后剩下的项目的子集的出现频度设为|T(Y-{y})|,将α设为比1大的预定的阈值的情况下,通过判定式Tlx T(Y) I ≤ α X T(Y-W) I X T({y}) | 是否成立进行。
4.根据权利要求2所述的方法,其中,所述表具有用于将构成项目集的项目的id的列表作为关键字检索该项目集的出现频度的映射构造。
5.根据权利要求4所述的方法,其中,所述项目的顺序是从赋予各项目的1起开始的连续的正整数的id的顺序。
6.一种程序,通过计算机的处理,从存储分别包含具有一个或多个项目的项目集的多个记录的数据库中提取具有意义的频出项目集,所述数据库内的多个项目具有项目的顺序,所述程序使计算机执行如下步骤(a)决定步骤,在与前一个被设为研究对象的项目集即旧项目集内顺序最晚的项目相比顺序靠后的项目存在一个以上的情况下,将所述一个以上的顺序靠后的项目按降序向所述旧项目集加上一个,决定新设为研究对象的项目集即新项目集,所述旧项目集的初始值中顺序为最初的空项目Φ ;(b)登记步骤,以所述新项目集的出现频度为预定阈值以上为条件,将所述新项目集的所述出现频度登记于表;(c)判定步骤,对向所述表的登记进行应答,使用所述表内的值判定所述新项目集内的各项目与从所述新项目集除去该项目后剩下的项目的子集之间是否具有相关关系;(d)登记步骤,对于所述新项目集内的所有项目的各个,以所述判定结果是肯定为条件,将所述新项目集登记于所述具有意义的频出项目集的集合;以及(e)重复步骤,对向所述具有意义的频出项目的集合的登记进行应答,将所述新项目集作为所述旧项目集基于原来的所述旧项目集决定新项目集之前,重复(a)的步骤。
7.根据权利要求6所述的方法,还使计算机执行如下步骤在构成包含顺序为第二个的项目的所述新项目集的项目的顺序不连续的情况下,在步骤(c)之后,将关于从所述新项目集除去在不连续的项目中顺序最早的项目后的项目集以及从所述新项目集除去所述顺序为第二个的项目后的项目集的各自的出现频度从所述表删除。
8.根据权利要求7所述的方法,其中,步骤(c)中的相关的判定,在将所述记录数设为|τ|,将新项目集γ的出现频度设为|τ⑴I,将关于新项目集γ内的任意项目y的出现频度设为|T({y}) I,将从新项目集γ除去该y后剩下的项目的子集的出现频度设为|T(Y-{y})|,将α设为比1大的预定的阈值的情况下,通过判定式ITX T(Y) I 彡 α X T(Y-{y}) | X T({y}) | 是否成立进行。
9.一种系统,从存储分别包含具有一个或多个项目的项目集的多个记录的数据库中提取具有意义的频出项目集,所述数据库内的多个项目具有项目的顺序,所述系统具备存储器;决定部,在与前一个被设为研究对象的项目集即旧项目集内顺序最晚的项目相比顺序靠后的项目存在一个以上的情况下,将该一个以上的顺序靠后的项目按降序向所述旧项目集加上一个,决定新设为研究对象的项目集即新项目集,所述旧项目集的初始值中顺序为最初的空项目Φ ;频出判定部,判定所述新项目集的出现频度是否在预定的阈值以上,以所述新项目集的出现频度为预定阈值以上为条件,将所述新项目集的所述出现频度登记于所述存储器上准备的表;相关判定部,对向所述表的登记进行应答,使用所述表内的值判定所述新项目集内的各项目与从所述新项目集除去该项目后剩下的项目的子集之间是否具有相关关系;登记部,对于所述新项目集内的所有项目的各个,以所述判定结果是肯定为条件,将所述新项目集登记于所述具有意义的频出项目集的集合;所述决定部对向所述具有意义的频出项目的集合的登记进行应答,将所述新项目集作为所述旧项目集,关于该旧项目集先决定新项目集。
10.根据权利要求9所述的方法,其中,所述相关判定部,在构成包含顺序为第二个的项目的所述新项目集的项目的顺序不连续的情况下,将关于从所述新项目集除去在不连续的项目中顺序最早的项目后的项目集以及从所述新项目集除去所述顺序为第二个的项目后的项目集的各自的出现频度从所述表删除。
全文摘要
本发明提供能够高效地仅提取具有意义的频出项目集的技术。解析系统包括决定部,按等同于按深度优先且降序检索项目集的树的顺序,决定设为研究对象的新项目集;频出判定部,以新项目集的出现频度为预定阈值以上为条件,将该出现频度登记于表;相关判定部,对该登记进行应答,使用表内的值判定新项目集内的各项目与从新项目集除去该项目后剩下的项目的子集之间是否具有相关关系;登记部,对于新项目集内的所有项目的各个,以判定结果是肯定为条件,将新项目集登记到具有意义的频出项目集的集合。
文档编号G06F17/30GK102456068SQ20111021691
公开日2012年5月16日 申请日期2011年7月29日 优先权日2010年10月14日
发明者吉田一星 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1