基于路径关系的网络特征提取系统及方法与流程

文档序号:16537387发布日期:2019-01-08 20:01阅读:212来源:国知局
基于路径关系的网络特征提取系统及方法与流程
本发明涉及数据处理
技术领域
,特别涉及一种基于路径关系的网络特征提取系统及方法。
背景技术
:网络图形能够很好地展现出各对象之间关系,因此网络图形的应用非常广泛,例如常见的图关系结构包含社交网络、知识网络、企业投资关系网络等。然而网络图并不是结构化的数据,应用时需要将其进行转换,因此图结构数据的挖掘一直是大数据方向攻克的热门领域。近几年,学术界也对网络编码进行了较多的研究。例如,对于简单网络网络(网络中节点和边不需要区别对待),现阶段存在一些图编码的方法,如deepwalk、node2vec、struc2vec、line、sdne,grarep等。而对于复杂网络,也存在一些流行的编码方法,如transe、transh、transr等。然而这些方法存在一些缺点,例如不能将整个网络图拆分成小网络进行分别编码,即一个网络图必须一次性全部学习而不能分批次学习,灵活性差,且学习时间长;网络编码特征存在随机性,不同随机种子学习出来的编码不能进行横向比较。技术实现要素:本发明的目的在于改善现有技术中所存在的上述不足,提供一种基于路径关系的网络特征提取系统及方法,可以增强数据处理的灵活性,降低数据处理时间。为了实现上述发明目的,本发明实施例提供了以下技术方案:一种基于路径关系的网络特征提取系统,包括网络图输入模块、路径统计模块,其中,网络图输入模块用于输入关系网络图;所述路径统计模块的数据输入端与网络图输入模块的数据输出端相连接,路径统计模块用于确定目标节点及关联节点,并针对于每一个关联节点,统计出该关联节点与目标节点之间的所有路径。在进一步优化的方案中,上述系统中还包括路径长度确定模块、关系种类确定模块、路径种类计算模块和特征矩阵构建模块;所述路径长度确定模块的数据输入端与网络图输入模块的数据输出端相连接,路径长度确定模块用于确定出关系网络图中节点之间的路径长度;所述关系种类确定模块的数据输入端与网络图输入模块的数据输出端相连接,关系种类确定模块用于确定出关系网络图中节点之间的关联关系的种类;所述路径种类计算模块的数据输入端分别与路径长度确定模块的数据输出端、关系种类确定模块的数据输出端相连接,路径种类计算模块根据所述路径长度及关联关系的种类,计算出关系网络图中两节点之间路径的种类;所述特征矩阵构建模块的数据输入端分别与路径种类计算模块的数据输出端、路径统计模块的数据输出端相连接,特征矩阵构建模块基于所述路径的种类及各关联节点与目标节点之间的所有路径,构建并输出关系网络图的特征矩阵或特征表。另一方面,本发明实施例中还提供了一种基于路径关系的网络特征提取方法,包括以下步骤:输入关系网络图;确定目标节点及关联节点,针对于被选中的每一个关联节点,统计出该关联节点与目标节点之间的所有路径。在进一步优化的方案中,上述方法还包括步骤:确定出所述关系网络图中节点之间的路径长度,及节点之间的关联关系的种类;根据所述路径长度及关联关系的种类,计算出关系网络图中两节点之间路径的种类;基于所述路径的种类及各关联节点与目标节点之间的所有路径,构建关系网络图的特征矩阵或特征表,并输出。再一方面,本发明实施例同时提供了一种包括计算机可读指令的计算机可读存储介质,所述计算机可读指令在被执行时使处理器执行本发明实施例中所述方法中的操作。再一方面,本发明实施例同时提供了一种电子设备,包括:存储器,存储程序指令;处理器,与所述存储器相连接,执行存储器中的程序指令,实现本发明实施例中所述方法中的步骤。与现有技术相比,本发明具有以下有益效果:1)本发明所提供的上述系统及方法,基于网络图中节点之间的路径关系提取特征,和网络图有很好的对应关系;2)只统计关联节点与目标节点之间的所有路径,即可获取各关联节点与目标节点之间的路径长度、关联关系、路径数量等特征,实现网络局部分析,增强了灵活性,且数据计算量小,运算速度快。3)根据所需可以只选取网络中的部分关联节点进行分析,进一步提高了分析速度。4)可以根据需要选择部分或全部节点构建特征矩阵,而且只需要节点间的路径关系,相比于必须全局学习的编码方式,更具有灵活性,且可以极大地减少运算量,提高处理速度;5)特征矩阵只和网络结构有关,不受随机种子的影响,可靠性高。附图说明为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为实施例中所述的基于路径关系的网络特征提取系统的组成示意框图。图2为实施例中提供的一种示意性的投资关系网络图。图3为实施例中提供的基于路径关系的网络特征提取方法的流程图。图4为实施例中提供的一种电子设备的结构框图。具体实施方式下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。如图1所示,本实施例中,示意性地提供了一种基于路径关系的网络特征提取系统,该系统包括网络图输入模块、路径长度确定模块、关系种类确定模块、路径种类计算模块、路径统计模块和特征矩阵构建模块,其中,网络图输入模块的数据输出端分别与路径长度确定模块的数据输入端、关系种类确定模块的数据输入端、路径统计模块的数据输入端相连接,路径种类计算模块的数据输入端分别与路径长度确定模块的数据输出端、关系种类确定模块的数据输出端相连接,特征矩阵构建模块的数据输入端分别与路径种类计算模块的数据输出端、路径统计模块的数据输出端相连接。系统中,网络图输入模块用于输入关系网络图。示意性地,例如输入图2所示的投资关系网络图。关系网络图中展示了各节点之间的关联关系。系统中,路径长度确定模块用于确定出网络中节点之间的路径长度,此处的路径长度指的是所有简单路径中的最长路径的长度。以图2所示的网络图为例,节点1到节点3的路径有3条,分别是1-2-3,1-3,1-6-3,1-3则称为简单路径(可以理解为直接相连的路径),1-2-3和1-6-3则称为复杂路径,该网络中所有简单路径中的最长路径的长度为4,即1-3-4-7-8这条路径的长度。节点之间的路径长度也可以理解为所有简单路径中起点与终点之间的最大关联度数,1-3-4-7-8这条路径中,1-3为一度关联,1-4为二度关联,1-7为三度关联,1-8为四度关联。系统中,关系种类确定模块用于确定出关系网络图中节点之间的关联关系的种类。此处以投资关系网络图为例,在该网络图中,节点为自然人或者企业,本实施例中,将企业与企业间的关系都归为投资,人与企业之间的关系分为法人、股东,其它的职位关系比如经理、监事等均划归为高管。即节点之间的关联关系的种类包括投资、法人、股东、高管这四类。当然地,针对于不同的关系网络有不同的分类方式。系统中,路径种类计算模块根据路径长度确定模块输出的路径长度及关系种类确定模块输出的关联关系的种类,计算出关系网络图中任意两节点之间路径的种类。以路径长度为4、关联关系的种类为4为例,通过枚举的方式可计算得出关系网络图中任意两节点之间路径的种类有426种,可以依次对每个种类的路径进行编号。系统中,路径统计模块针先确定出目标节点和关联节点(关系网络图中的所有节点,选定其中一个节点作为目标节点,其余节点均为关联节点),再针对每一个关联节点,统计该关联节点与目标节点之间的所有路径。仍以图2所示的网络图为例,选定节点1作为目标节点,则节点2-9均为关联节点,若选择关联节点3和4,则统计出的路径有1-2-3,1-3,1-6-3,1-2-3-4,1-3-4,1-6-3-4;若选择关联节点9,则统计出的路径只有1-5-9。根据分析的需求,可以选择部分或全部关联节点进行分析。系统中,特征矩阵构建模块基于所述路径的种类及各关联节点与目标节点之间的所有路径,构建网络中节点之间的特征矩阵或特征表。本实施例中,仅作为举例,将节点之间的路径作为特征矩阵的列,将关联节点作为特征矩阵的行,即路径的种类数等于特征矩阵的列数,关联节点数等于特征矩阵的行数,特征矩阵中的每一个元素sij表示从目标节点到第i个关联节点的所有不同种类的路径中,属于第j种路径的条数。记任意的网络g(n,e),其中n代表网络中的节点,e代表网络中的边(相邻两节点之间的路径为一条边)。用|n|和|e|分别来表示节点和边类别个数(边类别个数即为路径的种类数),满足|n|>1或|e|>1中至少一个条件的网络称为复杂网络。假设网络中边的种类一共有m类,即|e|=m,记其中ei为一种类型的边。对于从网络中任意一个节点a(目标节点)出发的i(i为上述路径长度)度关联网络(其它节点到a的最短路径小于等于i),穷尽所有边的不同组合,记录所有组合构成的集合为p,则p最多有ml类,并记|p|=m≤ml。将这些类别按照固定顺序依次排序,并依次编号,则对任意的节点统计从a到ni所有路径的个数(路径不存在回路,并且路径长度限制在i步内),则可以构建以a为中心到ni的特征向量。分别穷尽网络中所有节点,假设有k个节点则可以得到基于路径的复杂网络的特征矩阵。特征矩阵用表格表示如下表所示:ap1p2p3...pm-1pmn1s11s12s13...s1(m-1)s1mn2s21s22s23...s2(m-1)s2m.....................nksk1sk2sk3...sk(m-1)skm每选择一个节点作为目标节点,即会相应产生一个特征矩阵。特征矩阵用矩阵表示如下:其中,sij表示从目标节点a到节点ni的所有不同种类的路径中,属于第j种路径的条数有sij个,sij为正整数,包括0。容易理解的,特征矩阵m的列和路径种类的编号顺序有关,会根据路径种类编号的排序不同而不同。特征矩阵m的行和网络中节点的排序有关,节点的行不同,排序也就不同。特征矩阵m的每一列和网络中路径的种类一一对应,具有很好的可解释性。计算特征矩阵m并不需要全部网络,只需要每一个节点的局部小网络。在进一步优化的方案中,上述系统还包括特征向量提取模块,所述特征向量提取模块的数据输入端与特征矩阵构建模块的数据输出端相连接,特征向量提取模块基于构建的特征矩阵,提取出特征向量。仅作为举例,所述特征向量可以包括特征矩阵中按照列进行求和得到的a向量、特征矩阵中按照列进行求均值得到的b向量、特征矩阵中按照列进行求最大值得到的c向量、特征矩阵中按照列进行求方差得到的d向量、特征矩阵中按照列进行熵得到的e向量中的任一项或多项。具体的,a=[a1,a2,...,am],其中aj=∑isi,j,b=[b1,b2,...,bm],其中c=[c1,c2,...,cm],其中cj=max{s1,j,s2,j,...,sk,j},d=[d1,d2,...,dm],其中e=[e_1,e_2,...,e_m],其中连接a,b,c,d,e即得到投资关系网络特征v=concat([a,b,c,d,e])。所述连接就是指直接将得到的向量进行拼接,比如a=[0,1,2],b=[3,5,6],那么a和b进行连接就得到[0,1,2,3,5,6]。a向量代表的就是每一类路径的总和,b向量代表均值,c向量代表每一类路径的最大值,d向量反映出一个波动情况,e向量用于反映每一类路径数据的分离和集中程度,这些特征向量都是直接基于构建的特征矩阵来说的,仅是作为一种举例,可以随意扩充,目的是说明基于构建的特征矩阵可以得出想要的特征向量,换言之,基于该特征矩阵可以有很多不同的应用。下面将以投资关系网络图为例,结合图2进行举例说明。企业的投资关系网络主要指企业与企业间投资与被投资关系,人与企业间的任职关系。由于投资关系存在方向,所以这是一个有向复杂网络,节点包括(人,公司),关系包括(投资,法人,股东,高管)。对于任意一公司,探寻由该公司引发出来的四度关联网络(l=4)。从目标公司到四度关联网络中任意一家公司,枚举出所有的组合,一共有426种。目标节点为1,图2中圆圈代表个人,方块代表公司,关联关系可表示为:fr:法人,gg:高管,gd:股东,tz:投资,i:表示箭头逆着路径,o:表示箭头顺着路径。通过使用上述网络特征提取系统,可以得到特征矩阵如下(仅为特征矩阵的一部分)。需要说明的是,上述特征矩阵中,sij仅为0或1,其原因是仅基于图2所示的网络图谱而构造得到,且仅显示了特征矩阵的一部分,针对于更复杂的网络图谱,及完整的特征矩阵,特征矩阵中的sij可能会是任意正整数(包含0)。其中每一行代表除目标企业以外的所有节点,而每一列代表一种路径。比如fr:i-gg:o对应的意思为目标企业<-法人-人-高管->企业,表示从目标企业出发,首先连接一个人并且这个人是目标企业的法人,因为法人到企业的方向是从法人出发指向目标企业,所以这里用i表示方向,表示箭头逆方向,而接下来有个gg:o,说明这个人同时又连接了另外一个企业,这个人担任了另外一个企业的高管,因为从人到另外一个企业是和箭头方向一致,所以是用o。以节点3为例,计算节点3对应的特征,也就是矩阵中3那一行。首先,从1出发,一共有3条路径到达3,分别是1-2-3,1-3,1-6-3。1-2-3:对应的编码为fr:i-gg:o;1-3:对应的编码为tz:o;1-6-3:因为每条边上有多种标签,所以对应的编码为多个总共为2*2=4个,分别为gg:i–fr:o,gg:i–gd:o,gd:i–gd:o,gd:i–fr:o。这种编码的和其它编码的方式的最大优点在于,编码是有意义的,矩阵的每一行和原始图的路径一一对应,图是什么样就决定了矩阵的样子。其次,特征矩阵在一定程度上保留了原始图的结构,能通过读矩阵,来推测出原始图中存在一条什么类型的边,比如节点2在矩阵中tz:o-gg:i的位置处不为0,从而说明从目标企业1出发,到节点2,存在这种类型的路径,首先目标企业投资了一个企业,而节点2是该企业的高管。需要说明的是,作为更为简单的分析方式,上述系统也可以仅包含网络图输入模块和路径统计模块,仅统计出关联节点与目标节点之间的所有路径。以节点3为例,计算节点3对应的特征有:1-2-3:对应的编码为fr:i-gg:o;1-3:对应的编码为tz:o;1-6-3:对应的编码为gg:i–fr:o,gg:i–gd:o,gd:i–gd:o,gd:i–fr:o。还需说明的是,上述系统中还可以包括一个选择模块,选择模块的数据输入端分别与路径长度确定模块的数据输出端、关系种类确定模块的数据输出端相连接,选择模块用于设置分析所需的路径长度和关联关系种类;此时,路径种类计算模块则根据所述选择模块的输出结果,计算出关系网络图中两节点之间路径的种类,而不是根据整个网络图中的所有关联关系种类及最大路径长度计算两节点之间路径的种类。例如图2所示的网络图中,可以设置l=3,且挑选关联关系仅为“投资”的局部网络进行特征提取,以此可以进一步降低计算量,提高计算速度。基于相同的发明构思,本实施例中同时给出了一种基于路径关系的网络特征提取方法。如图3所示,该方法包括以下步骤:步骤1,输入关系网络图;步骤2,确定出该关系网络图中节点之间的路径长度,及关系网络图中节点之间的关联关系的种类;步骤3,根据所述路径长度及关联关系的种类,计算出路径的种类;步骤4,确定目标节点及关联节点,针对于每一个关联节点,统计该关联节点与目标节点之间的所有路径;步骤5,基于所述路径的种类及各节点与目标节点之间的所有路径,构建网络中节点之间的特征矩阵或特征表。进一步地,上述方法中还包括步骤:基于构建的特征矩阵,提取出特征向量。所述特征向量例如可以包括特征矩阵中按照列进行求和得到的a向量、特征矩阵中按照列进行求均值得到的b向量、特征矩阵中按照列进行求最大值得到的c向量、特征矩阵中按照列进行求方差得到的d向量、特征矩阵中按照列进行熵得到的e向量中的任一项或多项。本方法实施例中未涉及之处可以参见前述系统实施例中的相应描述。如图4所示,本实施例同时提供了一种电子设备,该电子设备可以包括处理器51和存储器52,其中存储器52耦合至处理器51。值得注意的是,该图是示例性的,还可以使用其他类型的结构来补充或替代该结构,实现数据提取、图表重绘、通信或其他功能。如图4所示,该电子设备还可以包括:输入单元53、显示单元54和电源55。值得注意的是,该电子设备也并不是必须要包括图4中显示的所有部件。此外,电子设备还可以包括图4中没有示出的部件,可以参考现有技术。处理器51有时也称控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该处理器51接收输入并控制电子设备的各个部件的操作。其中,存储器52例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其他合适装置中的一种或多种,可存储上述处理器51的配置信息、处理器51执行的指令、记录的表格数据等信息。处理器51可以执行存储器52存储的程序,以实现信息存储或处理等。在一个实施例中,存储器52中还包括缓冲存储器,即缓冲器,以存储中间信息。输入单元53例如用于向处理器51提供关系网络图。显示单元54用于显示输出得到的特征矩阵或特征表,该显示单元例如可以为lcd显示器,但本发明并不限于此。电源55用于为电子设备提供电力。本发明实施例还提供一种计算机可读指令,其中当在电子设备中执行所述指令时,所述程序使得电子设备执行本发明方法所包含的操作步骤。本发明实施例还提供一种存储有计算机可读指令的存储介质,其中所述计算机可读指令使得电子设备执行本发明方法所包含的操作步骤。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。在本申请所提供的几个实施例中,应该理解到,所揭露的系统,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的或其它的形式连接。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本
技术领域
的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1