一种基于2-类异质网络的关联模块识别方法

文档序号:6382583阅读:240来源:国知局
专利名称:一种基于2-类异质网络的关联模块识别方法
技术领域
本发明属于计算机数据处理领域,具体涉及复杂网络理论在数据挖掘上的应用和拓展,特别是其于2-类异质网络中识别主要关联模块的方法。
背景技术
随着大数据时代的到来,大量的非结构化数据充斥着各个研究领域。对这类数据进行信息提取或知识学习,首要面临的问题是如何建立描述数据结构的模型。其中,一种特殊的图——网络,可以在一定程度上表示大量的、具有相互关系的数据。在网络模型上发展起来的复杂网络理论被应用于多个领域,解决各类问题。复杂网络的提出和发展对大数据时代下的知识获取具有重要的作用。在实际应用问题中,经常被涉及的一类问题是对两类个体间交互关系的研究,如顾客-商品关系、化合物-基因关系、乘客所在地-往地关系等。当前解决这类问题主要有两类方法,均是基于二部图模型的。第一类是将二部图投影到某一类空间,然后在投影网络上进行拓扑分析或聚类分析,用来挖掘关键节点或核心模块。第二类是利用二部图的拓扑结构进行动态规划,挖掘关键交互节点对并预测新的交互关系。由于二部图模型的局限性和数据的不完整性,网络中不包含潜在的、具有交互作用的节点和其它的关联信息。因此,这两类方法对两类个体之间核心交互关系的挖掘和新的交互关系预测均存在一定的偏差。针对这种情况,需要提出新的数据网络模型和对应的数据挖掘技术,以用来发现数据网络中决定系统行为的主要交互模块。

发明内容
(一 )要解决的技术问题本发明所要解决的技术问题是克服由现有的二部图模型的局限性和数据不完整性导致的对两类个体之间核心交互关系的挖掘和新的交互关系预测均存在的偏差。( 二 )技术方案为解决上述技术问题,本发明是一种基于2-类异质网络的关联模块识别方法,所述2-类异质网络是指这样一种网络由节点和连接节点的边构成,节点代表自然事物的个体,边代表节点之间的关联关系,节点具有两种类别,分别代表性质不同的两类自然事物,所述模块是指在网络中具有相同属性或表现出相似性质的一组节点集合;关联模块是指包含两种不同类型节点的模块,本发明的方法包括如下步骤S1、根据两个类中的个体信息以及两个类中的个体之间的相互作用关系,构建2_类异质网络;S2、根据所述2-类异质网络的拓扑结构,构建节点拓扑向量;S3、采用基于边策略的层次聚类方法,利用特定评价函数将所述2-类异质网络进行划分,使网络划分为多个模块;S4、从最优网络划分中剔除无效的关联模块。
根据本发发明的上体实施方式,所述步骤S3包括S31、将所述2-类异质网络中的每条边分配到不同的模块;S32、计算所有相邻模块之间的相似度;S33、寻找相邻模块相似度的最大值,将所有对应最大值的相邻模块合并,计算当前网络划分的评价函数值;S34、重复步骤S32、S33,直到只有一个模块为止;S35、选择对应评价函数的值最大的网络划分作为最终的识别结果。(三)有益效果本发明的2-类异质网络是比较常见的网络模型,在多个领域的许多问题研究中都会涉及,因此应用范围广泛。 本发明综合考虑了真实的和潜在的网络交互节点与交互关系,能更有效地挖掘包含两类个体网络的核心交互模式,挖掘的结果准确可靠。本发明的方法的流程中有许多可以自定义的函数形式和指标,用户可以根据实际情况进行修改,因此可拓展空间较大。


图1是本发明的2-类异质网络在三个不同子空间的拓扑结构示例图;图2是本发明的2-类异质网络的相邻边和相邻模块的示例图;图3是本发明的方法的流程图;图4是本发明的网络层次聚类算法流程图;图5是本发明的实施例中的网络结构图;图6是本发明的实施例中主要关联模块揭示的通路图。
具体实施例方式本发明提出的方法一种是基于2-类异质网络模型的方法,以用于分析现实社会中有关联的两类自然事物之间的起主导作用的关联关系,以便于人们从整体上把握和研究这两类自然事物之间的关联关系。为了更好地表述和便于理解本发明,我们首先考虑这样一个问题如果甲顾客与乙顾客有相似的购物习惯并且乙顾客是某种商品的忠实消费者,那么,甲顾客极有可能也是这种商品的消费者或者甲顾客就是该商品的潜在消费者。这个问题可以看作是一个2_类问题,所谓2-类是指不同性质的两种自然事物,或者说是异质的自然事物,在此,2-类指的就是顾客和商品。进一步分析我们发现各个顾客之间本身具有一定的关联关系,例如从性别、年龄、职业、经济状况方面表现的相似性;商品之间也具有一定的关联关系,比如基于商品种类、数量、来源、质量、价格等的相似性;此外,顾客和商品之间也具有一定的关联,比如类似的顾客总是选择类似的商品。然而,顾客与商品之间的关联关系比较复杂,什么样的顾客与什么样的商品存在什么样的关联,这种关联中哪些是起主导作用的关联关系,这些问题是许多市场参与者需要经常考虑的问题。为了解决这类问题,本发明提出了采用2-类异质网络模型并利用计算机自动化手段来分析和识别2-类异质网络中的关联模块。所谓2-类异质网络是指这样一种网络由节点和连接节点的边构成,节点代表自然事物的个体,边代表节点之间的关联关系;节点具有两种类别,分别代表性质不同的两类自然事物。图1是本发明的2-类异质网络在三个不同子空间的拓扑结构示例图。如图1所示,假设两个类分别为A类和B类,则构建的2-类异质网络如下网络包括节点和连接节点的边,节点代表是类中的个体,边代表个体之间的关联关系。由于存在两个类,因此节点分为A类中的节点和B类中的节点,边分为三种连接A类中节点的边、连接B类中节点的边、连接A类中的节点与B类中的节点的边。更进一步,可以用边的权重表示节点之间的关系的强弱(或置信度的大小)。本发明的目的是从2-类异质网络中识别关联模块,这些关联模块反应了实际
2-类系统的核心交互机制,通常具有显著的现实意义。图3是本发明的方法的流程图。如图3所示,本方法在实际应用中,主要由以下几个步骤组成。S1、根据两个类中的个体信息以及两个类中的个体之间的相互作用关系,构建2_类异质网络。需要说明的是,根据实际情况,如果类的个体信息和两个类中的个体信息之间的相互作用关系不明,则在步骤Si之前需要包括预处理步骤S0,收集两个类中的个体信息以及两个类中的个体之间的相互作用关系。例如对于前面所述的顾客-商品构成的2-类系统,我们首先要收集顾客的信息,例如性别、年龄、职业、爱好、经济状况等等,也要收集商品的信息,例如种类、产地、生产商、数量、质量、价格等等,同时,我们也要收集每个顾客的消费情况,例如近I个月的消费记
-=^ AVrAVr
求?寺寺。在所有上述信息都收集完全之后,就可以进行本发明的方法来分析顾客和商品之间的主导关联关系。SI’、对所构建的2-类异质网络的边的权重进行归一化。步骤SI所构建的2-类异质网络中具有三种类型的边,对于边的权重未归一化的网络,为了进行下面的步骤,可用分别采用不同的方式对所述三种类型的边的权重进行归一化,例如使权重分布在(0,1]区间。对于已经归一化边的权重的网络,该步骤可以省略。S2、根据所述2-类异质网络的拓扑结构,构建节点拓扑向量。假设2-类异质网络有 N 个节点 In1, n2, . . . , np, np+1, . . . , np+q},且 p+q=N,其中前p个为A类节点,后q个为B类节点,则节点Iii (I彡i彡p+q)的拓扑向量表示为两部分A空间的投影= (Sn, si2, sip)T和B空间的投影1\\D = (Si(p+i),Si(p+2),,元素Sij是根据节点Iii和节点η」之间的网络距离估计的相似度(I彡j彡p+q)。S3、采用基于边策略的层次聚类方法,利用特定评价函数将所述2-类异质网络进行划分,使网络划分为多个模块,所述模块是指在网络中具有相同属性或表现出相似性质的一组节点集合。其中关联模块是指包含两种不同类型节点的模块。图4是本发明的网络层次聚类算法流程图,如图4所示,层次聚类过程由以下几个步骤组成。S31、将所述2-类异质网络中的每条边分配到不同的模块。假设网络有m条边,则初始的模块有m个,每个模块只包含网络的一条边。
S32、计算所有相邻模块之间的相似度。首先,需要定义相邻边和相邻模块若两条边包含一个共同节点,则这两条边相邻;若一个模块的某条边与另一个模块的某条边相邻,则这两个模块相邻。可见,相邻的模块至少有一个共同的节点,而不一定有公共边。图2是本发明的2-类异质网络的相邻边和相邻模块的示例图。如图2所示,左图表示相邻边,边ab和边be具有一个共同的节点b,因此边ab与边be为相邻边;右图表示相邻模块,模块C1和模块C2拥有共同节点b1;模块C1中包含节点匕的边与模块C2中包含Id1的边是相邻边,因此模块C1和C2相邻。其次,需要定义相邻边的相似度和相邻模块的相似度。在此相邻模块之间的相似度可以定义为相邻模块的所有相邻边的相似度的函数。不相邻的模块之间的相似度为零。根据本发明,相邻模块C1和C2之间的相似度S(C1; C2)可为S (C1, C2) = f(s(eik, eJk) eik e C1, eJk e C2)其中,eik是节点Iii和nk之间的边;s(eik,eJk)是两条相邻边之间的相似度。采用单连接方式时,f为最大值函数;全连接方式时,f为最小值函数;平均连接方式时,f为均值函数。两条相邻边的相似度需要综合考虑A空间和B空间的拓扑向量相似度。边eik和ejk之间的相似度为
权利要求
1.一种基于2-类异质网络的关联模块识别方法,所述2-类异质网络是指这样一种网络由节点和连接节点的边构成,节点代表自然事物的个体,边代表节点之间的关联关系, 节点具有两种类别,分别代表性质不同的两类自然事物,所述模块是指在网络中具有相同属性或表现出相似性质的一组节点集合;关联模块是指包含两种不同类型节点的模块,其特征在于,本发明的方法包括如下步骤S1、根据两个类中的个体信息以及两个类中的个体之间的相互作用关系,构建2-类异质网络;S2、根据所述2-类异质网络的拓扑结构,构建节点拓扑向量;S3、采用基于边策略的层次聚类方法,利用特定评价函数将所述2-类异质网络进行划分,使网络划分为多个模块;S4、从最优网络划分中剔除无效的关联模块。
2.如权利要求1所述的基于2-类异质网络的关联模块识别方法,其特征在于,在步骤 SI之间还包括步骤S0、收集两个类中的个体信息以及两个类中的个体之间的相互作用关系。
3.如权利要求1所述的基于2-类异质网络的关联模块识别方法,其特征在于,在步骤 SI之后还包括步骤SI’、对所构建的2-类异质网络的边的权重进行归一化。
4.如权利要求1所述的基于2-类异质网络的关联模块识别方法,其特征在于,所述步骤S2为假设2-类异质网络有N个节点Inpn2,. . . ,np,np+1,. . .,np+(1},且p+q = N,其中前p个为A类节点,后q个为B类节点,则节点Iii (I < i < p+q)的拓扑向量表示为两部分A空间的投影 q 4 = (Al,Si2l ...,Si 产和 B 空间的投影巧 |β = (.Si(p+1), S 办+2),…,9i(p+q))T, 元素Sij是根据节点IIi和节点IIj之间的网络距离估计的相似度(l<j< P+q)。
5.如权利要求1所述的基于2-类异质网络的关联模块识别方法,其特征在于,所述步骤S3包括S31、将所述2-类异质网络中的每条边分配到不同的模块;S32、计算所有相邻模块之间的相似度;S33、寻找相邻模块相似度的最大值,将所有对应最大值的相邻模块合并,计算当前网络划分的评价函数值;S34、重复步骤S32、S33,直到只有一个模块为止;S35、选择对应评价函数的值最大的网络划分作为最终的识别结果。
6.如权利要求5所述的基于2-类异质网络的关联模块识别方法,其特征在于,在步骤S32中,相邻模块C1和C2之间的相似度S(C1; C2)可为s (C1, C2) = f (s(eik, eJk) eik ∈ C1, eJk ∈ C2)其中,eik是节点Iii和nk之间的边;s(eik, eJk)是两条相邻边之间的相似度。采用单连接方式时,f为最大值函数;全连接方式时,f为最小值函数;平均连接方式时,f为均值函数。两条相邻边eik和之间的相似度为
7.如权利要求5所述的基于2-类异质网络的关联模块识别方法,其特征在于,在步骤S33中,所述评价函数是能够衡量边加权的、可重叠的模块的质量,是一个可加性函数。
8.如权利要求1所述的基于2-类异质网络的关联模块识别方法,其特征在于,在步骤 S4中,所述无效的关联模块包括只包含一种类型节点的模块和未合并过的模块。
全文摘要
本发明公开了一种基于2-类异质网络的关联模块识别方法。该方法包括如下步骤S1、根据两个类中的个体信息以及两个类中的个体之间的相互作用关系,构建2-类异质网络;S2、根据所述2-类异质网络的拓扑结构,构建节点拓扑向量;S3、采用基于边策略的层次聚类方法,利用特定评价函数将所述2-类异质网络进行划分,使网络划分为多个模块;S4、从最优网络划分中剔除无效的关联模块。本发明综合考虑了真实的和潜在的网络交互节点与交互关系,能更有效地挖掘包含两类个体网络的核心交互模式,挖掘的结果准确可靠。
文档编号G06F17/30GK103034687SQ201210497489
公开日2013年4月10日 申请日期2012年11月29日 优先权日2012年11月29日
发明者卢朋, 宋江龙, 高一波, 陈琳, 刘西, 代文, 陈迪 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1