基于异质网络时态语义路径相似度的人物唯一性识别方法

文档序号:6526726阅读:210来源:国知局
基于异质网络时态语义路径相似度的人物唯一性识别方法
【专利摘要】本发明公开了一种基于异质网络时态语义路径相似度的人物唯一性识别方法,该方法首先建立异质社会关系网络,即从人物社会活动事务数据库中提取关系并建立具有时间属性的异质关系网络。根据网络结构对人物对象间的时态语义路径进行搜索,同时根据异质社会关系网络特征以及时态语义路径对网络中人物对象的路径相似度进行测算,然后按照相似度值对人物对象进行排序,再根据网络特征以及应用需求设定的相似度阈值进行过滤,从而识别具备唯一性特征的人物对象。该方法能在大规模和高复杂度社会关系网络中准确高效地测算出人物对象的相似性,有效地解决关系网络中人物唯一性识别问题,提高了关系网络分析与挖掘过程的有效性。
【专利说明】基于异质网络时态语义路径相似度的人物唯一性识别方法
【技术领域】
[0001]本发明属于计算机应用【技术领域】,涉及一种基于异质网络结构的时态语义路径相似度的人物唯一性识别方法。
技术背景
[0002]从海量的文本信息中抽出语义关系网络是社会关系网络建模与挖掘的重要研究课题。通常,从Web页面、电子文档库、事务数据库以及关系数据库中抽取大规模社会关系网络时,由于事务信息的时间差异、信息的不完整以及信息模式与结构的不同,导致网络中人物关系的混乱,这使得人物的唯一性难以确定,这个问题已经成为社会关系网络分析过程中亟待解决的关键问题。
[0003]传统的社会关系网络分析与挖掘建立在以文本数据或关系型数据库为基础的同质关系网络(Homogeneous Network)基础之上的,其基本特征是网络中的节点和关系的类型相同,例如,在“师生关系”网络中,节点类型只有“人”(老师或学生),关系类型只有“师从关系”。由于上述网络特征,即使是社会关系网络规模较大的情况下,同质关系网络很难提供多样性的社会关系信息,利用网络中同种类型的社会关系建立的相似度很难对网络中人物准确地识别。由于人的社会关系是蕴含在社会活动事务记录中,这些信息一般包含在求职简历、各类项目申请书、客户记录以及个人网页等各类形式、结构和来源不一的电子文档中,这使得能够代表人物的基本属性信息往往会出现矛盾或二义性现象,其唯一性难以确定。然而,由人的各类事务活动信息建立的社会关系具有多样性语义网络特征,是一个异质结构的关系网络。与同质关系网络不同,异质关系网络(Heterogeneous Network)中的节点类型和节点之间的关系类型并不唯一,多样化的节点类型决定了多样化的关系类型,在这种网络中的人物节点的唯一性完全可以由人物固有的社会关系来确定,所以,我们提出以异质关系网络为基础的人物唯一性识别方案。
[0004]异质关系网络具有多样化的节点类型和节点之间的关系类型,例如,学术关系网络就是一种典型的异质网络,学者关系除“师生关系”、“校友关系”外,还包括了“合著论文关系”、“项目合作关系”等多种关系,可以全面反映人物的学术关系信息。每种关系网络之下,节点的类型也有所不同,如“合著论文关系”中的节点就分为“人(论文作者)”和“文章(学术论文)”两种类型。在异质关系网络中,多样化的节点类型决定着多样化的关系类型,这些特征本质上可以从不同的侧面全面地描述人物在不同性质的社会活动中所形成的社会关系网络。然而,在实际的社会关系网络中,不同的人物对象可能具有完全相同的异质网络结构,但由于这些关系的时间属性不相同,使得具有相同网络结构的节点在时间上并不相同,例如,“张三”分别于1998年至2002年以及2003年至2005年在湖南大学和中南大学获得学士和硕士学位,“李四”分别于2000年至2004年以及2006年至2009年在湖南大学和中南大学获得学士与硕士学位,虽然“张三”和“李四”曾经都就读于湖南大学和中南大学,在“求学经历”关系上具有相同的网络结构,但由于就读的时间不同,所以上述关系并不是相同的关系。所以,仅利用网络结构无法完全对人物对象的唯一性进行准确的识别,因为关系的时间属性不同直接决定了关系的不同。为此,我们提出用时态语义路径计算相似度的方法,可以更加准确的识别相同的社会关系,从而保证了人物唯一性识别的准确性。

【发明内容】

[0005]本发明的目的是提出了一种基于异质网络时态语义路径相似度的人物唯一性识别方法。该方法从异质关系网络中提取人物对象和关系的基本属性,通过对时态语义路径上的时态权重的计算,求出人物对象之间的时态语义路径相似度,根据该相似度的值判断人物对象的唯一性。该方法能在较大数据规模和较高网络复杂度的社会关系网络中,准确且高效地识别出相同的人物对象,能有效地解决关系网络中人物唯一性识别问题。
[0006]本发明的技术解决方案如下:
一种基于异质网络时态语义路径相似度的人物唯一性识别方法,包括以下步骤:
步骤1:建立异质社会关系网络,该过程从人物社会活动事务数据库中提取关系并建立具有时间属性的异质关系网络;
步骤2:搜索时态语义路径:首先根据异质网络中的关系的不同语义对网络进行划分,然后分别在不同语义的关系网络中利用网络结构对人物对象之间的时态语义路径进行搜索;
步骤3:计算时态语义路径相似度SmPeraon:分别在不同语义的关系网络中,利用异质社会关系网络特征以及时态语义路径对网络中人物对象的相似度进行测算;
步骤4:识别人物对象的唯一性:首先对不同的语义网络中人物对象的相似度求算术平均值,然后按照该值对人物对象对进行排序,找出时态语义路径相似度取值大于设定阈值的人物对象。
[0007]步骤1的具体步骤为:
社会活动事务记录数据库通常从记录人物社会活动的网页或文档中抽取形成的,其数据库记录信息包括人物对象基本属性信息、社会活动事务记录以及关系活动发生的时间属性数据,将这些事务记录的关系信息导入基于网络拓扑结构的图数据库(GraphicDatabase)中。例如:事务记录“张三于2005年至2012年就职于微软(中国)有限公司”,节点为“张三”和“微软(中国)有限公司”,关系为“就职于”,节点类型为“职员”和“公司”的节点决定了关系网络中的关系类型为“雇主关系”。按照社会关系的不同类型对该社会关系网络进行划分,形成相对独立的异质关系网络,例如,“学习经历关系网络”、“工作经历关系网络”、“雇主关系网络”等。在图数据库中,所有的“人物”和“实体”作为网络图中的节点,并具有其基本属性,“关系”作为网络图中的边,并具有起始节点、终止节点、活动类型以及时间属性,按照社会活动的不同类型遍历图数据库形成了独立的异质关系网络。
[0008]步骤2的具体步骤为:
在具有时间属性的社会关系网络中,根据网络结构可以确定节点之间的时态语义路径。时态语义路径为关系网络中两个节点之间仅经过一个邻居节点的一条或多条路径,且该路径具有原始事物记录的明确语义和时间属性。
[0009]如图5所示,“Wang”和“Chen”分别代表社会关系网络中的两个人物对象,“CSU”表示 “Wang” 和 “Chen” 就读的高校,“(1999,2003) ”、“(2004,2008) ” 以及“(2005,2009) ”
表示“就读关系”的时间属性,即关系的开始时间与结束时间。上述网络结构中包含了两条时态语义路径,分别为:“ ‘Wang’于1999年至2003年就读于‘CSU’且‘Chen’于2005年至2009年就读于‘CSU’ ”;“ ‘Wang’于2004年至2008年就读于‘CSU’且‘Chen’于2005年至2009年就读于‘ CSU’ ”。我们弓|入
【权利要求】
1.一种基于异质网络时态语义路径相似度的人物唯一性识别方法,其特征在于,包括以下步骤:步骤1:建立异质社会关系网络:对社会活动事务数据库中的数据进行读取,建立基于异质性关系网络的图数据库,形成具有时间属性异质性关系网络;步骤2:搜索时态语义路径:首先根据异质网络中的关系的不同语义对网络进行划分,然后分别在不同语义的关系网络中利用网络结构对人物对象之间的时态语义路径进行搜索,从而得到各个人物对象与其邻居节点之间的时态语义路径,再根据各关系的时间属性计算时态语义路径的时态权重;步骤3: 计算时态语义路径相似度SimPerson:分别在不同语义的关系网络中,利用异质关系网络的结构特征以及时态语义路径的时态权重值对网络中人物对象的相似度进行测算,从而得到每一对人物对象的具有不同语义的时态语义路径相似度SmPersOn ;步骤4:识别人物对象的唯一性:首先对每一对人物对象的时态语义路径相似度BmPerson求算术平均值,然后按照该平均值对人物对象对进行排序,找出时态语义路径相似度取值小于设定阈值的人物对象对,这些人物对象节点为具有唯一性特征的人物对象。
2.根据权利要求1所述的基于异质网络时态语义路径相似度的人物唯一性识别方法,其特征在于,步骤1的具体步骤为:从记录人物社会活动的网页或文档中抽取的人物社会活动事务记录数据库,其记录信息包括人物基本属性信息、社会活动事务以及关系活动发生的时间属性,将这些社会活动记录中的关系信息导入图数据库中;其中所有的人物或实体作为网络图中的节点,并具有其基本属性,活动关系作为网络图中的边,并具有起始节点、终止节点、活动类型以及时间属性,按照社会活动的不同类型遍历图数据库形成了独立的异质关系网络。
3.根据权利要求1所述的基于异质网络时态语义路径相似度的人物唯一性识别方法,其特征在于,步骤2的具体步骤为:首先确定待搜索的人物对象及.^和典以及邻居节点之间的时态语义路径声 ^,然后根据关系
4.根据权利要求1所述的基于异质网络时态语义路径相似度的人物唯一性识别方法,其特征在于,步骤3的具体步骤为:首先,从图数据库中按照不同类型的关系读取数据;然后,对每一种类型的异质性关系网络分别进行遍历,依次在每一种类型的异质性关系网络中计算每一对人物对象对和的相似性测度,即沒mPersonz {px, py),
5.根据权利要求1所述的基于异质网络时态语义路径相似度的人物唯一性识别方法,其特征在于,步骤4的具体步骤为:对于每一对人物对象节点和Λ ,计算其在整个异质网络中的时态语义路径相似度
【文档编号】G06F17/27GK103678279SQ201310746652
【公开日】2014年3月26日 申请日期:2013年12月31日 优先权日:2013年12月31日
【发明者】黄芳, 朱磊 申请人:中南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1