一种人物关系图谱的生成方法及装置的制造方法

文档序号:10552937阅读:400来源:国知局
一种人物关系图谱的生成方法及装置的制造方法
【专利摘要】本发明公开了一种人物关系图谱的生成方法及装置。所述方法包括:获取搜索请求,所述搜索请求包括目标人物;确定文件集合,所述文件集合中包括至少一个用于搜索所述目标人物对应的关联人物的文件;利用从所述文件集合中提取出的所述关联人物、以及所述目标人物与所述关联人物之间的关系紧密度,生成所述目标人物的关系图谱。如此自动生成人物关系图谱的方案,有助于提高图谱生成过程中涉及的人物关系统计效率以及准确性。
【专利说明】
一种人物关系图谱的生成方法及装置
技术领域
[0001]本发明涉及数据处理领域,具体地,涉及一种人物关系图谱的生成方法及装置。
【背景技术】
[0002]随着互联网技术的不断发展,海量互联网数据的统计分析成为一项重要的技术发展方向。人群的划分、人物间的关系等是社会关系的必要因素,当针对人物A报道了事件A之后,人们可能还会关心人物A与哪些人物具有关联关系,或者事件A还涉及了哪些人物,等等,这就需要对人与人之间的关联关系进行归纳整理。
[0003]目前,大多通过人工方式获取人与人之间的关联关系。例如,人工浏览与人物A相关的报道,统计出与人物A相关的关联人物,如此人工操作的方式,操作过程繁琐,统计效率低下;且受人为因素的影响,准确率相对较低,统计覆盖的范围有限,关联人物的统计不全面。另外,某些互联网引擎可以提供了类似的人物关系统计功能,但是,这种统计方式主要依赖于人工标记实现,统计效率相对较低,维护成本较高,且受人工标记的影响,也可能会出现统计不全面的问题。

【发明内容】

[0004]本发明的目的是提供一种人物关系图谱的生成方法及装置,用以自动生成人物关系图谱,提高人物关系的统计效率以及准确性。
[0005]本发明实施例提供了一种人物关系图谱的生成方法,所述方法包括:获取搜索请求,所述搜索请求包括目标人物;确定文件集合,所述文件集合中包括至少一个用于搜索所述目标人物对应的关联人物的文件;利用从所述文件集合中提取出的所述关联人物、以及所述目标人物与所述关联人物之间的关系紧密度,生成所述目标人物的关系图谱。
[0006]可选地,所述搜索请求还包括目标事件,所述确定文件集合,包括:根据所述目标人物和所述目标事件,从能获取到的所有文件中确定所述文件集合。
[0007]可选地,从所述文件集合中提取所述关联人物的方式为:通过自然语言技术从所述文件集合中提取所述关联人物。
[0008]可选地,从所述文件集合中提取所述关系紧密度的方式为:利用第一紧密度和/或第二紧密度,确定所述关系紧密度;所述第一紧密度由从所述文件集合中提取出的所述目标人物与所述关联人物之间的关联关系确定;所述第二紧密度由从所述文件集合中提取出的所述目标人物与所述关联人物共同出现的频率确定。
[0009]可选地,如果利用所述第一紧密度确定所述关系紧密度,则所述关联关系为所述目标人物与所述关联人物在文件中分布的位置关系;或者,所述关联关系为所述目标人物与所述关联人物之间的人际关系。
[0010]可选地,所述方法还包括:获取基于所述目标人物的关系图谱发起的二次搜索请求,所述二次搜索请求包括所述目标人物的关系图谱中的至少一个关联人物;响应所述二次搜索请求,生成所述至少一个关联人物的关系图谱。
[0011]本发明实施例提供了一种人物关系图谱的生成装置,所述装置包括:请求获取单元,用于获取搜索请求,所述搜索请求包括目标人物;集合确定单元,用于确定文件集合,所述文件集合中包括至少一个用于搜索所述目标人物对应的关联人物的文件;图谱生成单元,用于利用从所述文件集合中提取出的所述关联人物、以及所述目标人物与所述关联人物之间的关系紧密度,生成所述目标人物的关系图谱。
[0012]可选地,所述搜索请求还包括目标事件,所述集合确定单元,用于根据所述目标人物和所述目标事件,从能获取到的所有文件中确定所述文件集合。
[0013]可选地,从所述文件集合中提取所述关联人物的方式为:通过自然语言技术从所述文件集合中提取所述关联人物。
[0014]可选地,所述装置还包括:关系紧密度确定单元,用于利用第一紧密度和/或第二紧密度,确定所述关系紧密度;所述第一紧密度由从所述文件集合中提取出的所述目标人物与所述关联人物之间的关联关系确定;所述第二紧密度由从所述文件集合中提取出的所述目标人物与所述关联人物共同出现的频率确定。
[0015]可选地,如果利用所述第一紧密度确定所述关系紧密度,则所述关联关系为所述目标人物与所述关联人物在文件中分布的位置关系;或者,所述关联关系为所述目标人物与所述关联人物之间的人际关系。
[0016]可选地,所述装置还包括:二次搜索请求获取单元,用于获取基于所述目标人物的关系图谱发起的二次搜索请求,所述二次搜索请求包括所述目标人物的关系图谱中的至少一个关联人物;二次搜索请求响应单元,用于响应所述二次搜索请求,生成所述至少一个关联人物的关系图谱。
[0017]本发明技术方案中,获得搜索请求之后,即可被触发自动地从搜索请求中提取目标人物;然后可以根据目标人物,自动地确定出用于搜索关联人物的文件集合;接着,可以基于文件集合包括的文件,获取到与目标人物有关联关系的关联人物、以及目标人物与关联人物之间的关系紧密度;最后,便可根据关联人物以及关系紧密度,生成目标人物的关系图谱。图谱生成过程不受人为因素的影响,有助于提高图谱生成过程中的人物关系统计效率以及准确性。
[0018]本发明的其他特征和优点将在随后的【具体实施方式】部分予以详细说明。
【附图说明】
[0019]附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的【具体实施方式】一起用于解释本发明,但并不构成对本发明的限制。在附图中:
[0020]图1是本发明人物关系图谱的生成方法实施例1的流程图;
[0021]图2是本发明中关系图谱的一种示意图;
[0022]图3是本发明人物关系图谱的生成方法实施例2的流程图;
[0023]图4是本发明人物关系图谱的生成装置的结构示意图。
【具体实施方式】
[0024]以下结合附图对本发明的【具体实施方式】进行详细说明。应当理解的是,此处所描述的【具体实施方式】仅用于说明和解释本发明,并不用于限制本发明。
[0025]参见图1,示出了本发明人物关系图谱的生成方法实施例1的流程图,可以包括:
[0026]SlOl,获取搜索请求,所述搜索请求包括目标人物。
[0027]本发明的图谱生成方法,可以在获得搜索请求之后,被触发从搜索请求中提取目标人物,进而自动地为建立目标人物的关系图谱,确定出匹配的文件集合,以及自动地从文件集合中提取出关联人物和关系紧密度,并据此生成目标人物的关系图谱。
[0028]作为一种示例,本发明的搜索请求可以由使用者输入,例如,搜索请求可以为“搜索人物A”,针对于此,可以通过自然语言技术从搜索请求中提取目标人物。具体地,可以利用分词器对搜索请求中的文字,进行词语分割以及词语识别,实现目标人物的自动提取。如上述示例中,可以提取出“人物A”作为目标人物。
[0029]作为一种示例,使用者可以通过文本方式输入搜索请求;或者,使用者还可以通过语音方式输入搜索请求,对应于此,可以将语音格式转换为文本格式后,再从中提取目标人物。本发明对此可不做具体限定。
[0030]需要说明的是,本发明所说目标人物指的是,目标人物的姓名信息。
[0031]S102,确定文件集合,所述文件集合中包括至少一个用于搜索所述目标人物对应的关联人物的文件。
[0032]为了准确全面的建立目标人物的关系图谱,在提取到目标人物之后,可以自动为该目标人物确定一个匹配的文件集合,以便从文件集合包括的文件中提取关联人物以及关系紧密度,为生成关系图谱做好技术准备。
[0033]作为一种示例,本发明至少可以通过以下三种方式确定文件集合。
[0034]方式一,可以根据目标人物,从能够获取到的所有文件中确定文件集合,也就是说,文件集合中的文件均与目标人物相关。
[0035]举例来说,能够获取到的所有文件为I万篇,其中,与人物A相关的文件为I千篇,则通过本方式确定出的文件集合包括I千篇文件。
[0036]方式二,如果搜索请求中还包括目标事件,例如,搜索请求为“搜索人物A的事件A”,则可以根据目标人物和目标事件,从能够获取到的所有文件中确定文件集合,也就是说,文件集合中的文件既与目标人物相关,又与目标事件相关。
[0037]举例来说,能够获取到的所有文件为I万篇,与人物A相关的文件为I千篇,其中,与事件A相关的文件为100篇,则通过本方式确定出的文件集合包括100篇文件。
[0038]方式三,可以根据目标人物、以及目标人物的分类特性,从能够获取到的所有文件中确定文件集合,也就是说,文件集合中的文件均与目标人物相关,且符合目标人物的分类特性。
[0039]举例来说,人物A为体育明星,可以将体育作为人物A的一个分类特性,并根据该分类特性为人物A确定出对应的文件集合。可以理解地,为了尽量全面的统计人物A的关联人物,可以结合人物A的所有分类特性,为人物A确定出匹配的文件集合。
[0040]需要说明的是,本发明所说能够获取到的所有文件指的是,所有能从本地客户端读取到的文件,以及所有能从互联网上爬取到的在线文件,具体可结合实际应用需求而定,本发明对此可不做限定。如此,便可扩大本发明方案统计覆盖的范围,有助于提高本发明关联人物统计的全面性。可以理解地,在实际应用过程中,还可以实时或者按照预定周期更新本发明中的能够获取到的所有文件,以便更为全面、准确的进行关联人物统计。
[0041]S103,利用从所述文件集合中提取出的所述关联人物、以及所述目标人物与所述关联人物之间的关系紧密度,生成所述目标人物的关系图谱。
[0042]作为一种示例,可以通过自然语言技术从文件中提取关联人物。具体地,可以利用分词器对文件中的文字,进行词语分割以及词语识别,实现关联人物的自动提取。例如,在一句话中“人物A和人物B—起到北京出差”,通过分词器可以提取出“人物A”和“人物B”两个姓名信息,其中,人物A为目标人物,人物B为与目标人物具有关联关系的关联人物。
[0043]需要说明的是,本发明中目标人物与关联人物之间的关联关系,至少可以体现为以下两种情况:
[0044]第一种情况:关联关系为目标人物与关联人物在文件中分布的位置关系。例如,二者可以如上文所举示例,出现在同一句话里;或者,二者可以出现在同一段话里;或者,二者可以出现在同一篇文件里。
[0045]第二种情况:关联关系为目标人物与关联人物之间的人际关系。例如,可以根据文件上下文表述的含义,或者文件中使用的人际关系词汇,确定目标人物与关联人物之间的关联关系,如“人物B作为人物A的同事,和人物A—起到北京出差”,据此便可确定出目标人物与关联人物之间为同事关系,此外,表示人际关系的词汇还可以有:上下属、亲人、朋友、兄妹、同学等等,此处不进行赘述。
[0046]作为一种示例,可以利用第一紧密度和/或第二紧密度,确定目标人物与关联人物之间的关系紧密度。也就是说,可以将第一紧密度作为目标人物与关联人物之间的关系紧密度;或者,也可以将第二紧密度作为目标人物与关联人物之间的关系紧密度;或者,还可以分别设置第一紧密度与第二紧密度的权重,并将二者的加权和作为目标人物与关联人物之间的关系紧密度。具体可结合实际应用需求而定,本发明对此可不做限定。
[0047]具体地,可以根据目标人物与关联人物之间的关联关系,获得第一紧密度。如果通过在文件中分布的位置关系确定关联关系,则可以预先设置各种位置关系对应的第一紧密度,如位置关系为同一句话的第一紧密度高于位置关系为同一段话的第一紧密度。如果通过人际关系确定关联关系,同样可以预先设置对应的第一紧密度,通常,通过人际关系确定的关联关系的第一紧密度最高。可以结合实际应用,设置关联关系对应的第一紧密度,本发明对此可不做具体限定。
[0048]具体地,可以根据目标人物与关联人物共同出现的频率,获得第二紧密度。可以对目标人物和关联人物做词频统计,二者出现在一起的次数越多,第二紧密度就越高。可以理解地,二者出现在一起可以为:出现在同一句话、出现在同一段话、出现在同一篇文件,本发明对此可不做具体限定。作为一种示例,词频统计可以基于TF(英文:term frequency,中文:词频)和IDF(英文:inverse document frequency,中文:逆向文件频率)两种算法的结合实现。
[0049]综上,便获得了目标人物、与目标人物具有关联关系的关联人物、目标人物与关联人物之间的关系紧密度,如此,便可生成目标人物的关系图谱。
[0050]需要说明的是,本发明的关联人物以及关系紧密度,可以在确定出文件集合后,实时从文件集合中提取;或者,为了提高本发明关系图谱的生成效率,还可以预先对能够获取到的所有文件进行预处理,从中提取出具有关联关系的人物、以及人物之间的关系紧密度,如此,便可在确定出文件集合后,直接读取文件集合对应的预处理结果,生成目标人物的关系图谱。本发明对提取关联人物以及关系紧密度的时机可不做具体限定。
[0051]在一种可能的实施方式中,可以根据关系紧密度对关联人物进行区别表示。例如,通过不同颜色表示不同关系紧密度;或者,通过距离目标人物的远近表示不同关系紧密度;或者,通过不同大小表示关系紧密度。参见图2所示人物A的关系图谱,关联人物所在圆圈越大,说明关系紧密度越高。
[0052]在一种可能的实施方式中,可以在目标人物与关联人物之间的关系线上,标注二者间的人际关系。参见图2所示人物A的关系图谱,人物A与人物B之间为同事关系,可以标注在二者之间的关系线上。对于无法确定人际关系的,则可不在关系线上进行标注,本发明对此不做具体限定。
[0053]在一种可能的实施方式中,按照图1所示方案获得目标人物的关系图谱后,还可以基于该关系图谱进行二次搜索,具体可参见下文图3处所作介绍。
[0054]参见图3,示出了本发明人物关系图谱的生成方法实施例2的流程图,可以包括:
[0055]S201,获取基于所述目标人物的关系图谱发起的二次搜索请求,所述二次搜索请求包括所述目标人物的关系图谱中的至少一个关联人物。
[0056]作为一种示例,可以将目标人物的关系图谱展示给使用者查看,若使用者对其中的某个关联人物,或者人物组合感兴趣,则可基于该目标人物的关系图谱进行二次搜索。可以理解地,人物组合可以是目标人物与至少一个关联人物之间的组合;或者,也可以是至少两个关联人物之间的组合,本发明对此可不做具体限定。
[0057]举例来说,至少可以通过以下三种方式获得二次搜索请求。
[0058]方式一,使用者可以直接以文本方式或者语音方式输入二次搜索请求。例如,二次搜索请求可以为“搜索人物B”。
[0059]方式二,使用者可以在目标人物的关系图谱中点选二次搜索的对象,以此输入二次搜索请求。例如,使用者可以选择将人物B作为二次搜索的对象,或者,使用者可以选择将人物B和人物C的组合作为二次搜索的对象。
[0060]方式三,使用者可以在目标人物的关系图谱中点选关系线,以此输入二次搜索请求。例如,使用者可以选择人物A与人物B之间的关系线,也就是说,使用者选择将人物A和人物B的组合作为二次搜索的对象。
[0061]S202,响应所述二次搜索请求,生成所述至少一个关联人物的关系图谱。
[0062]获得二次搜索请求后,便可按照图1所示方法,为二次搜索请求中包括的至少一个关联人物,生成对应的关系图谱。具体实现过程可参见上文所做介绍,此处不再赘述。
[0063]以人物B为二次搜索的对象为例,即二次搜索请求中包括的是人物B,按照本发明方案生成的是,以人物B作为目标人物的一副关系图谱。
[0064]以人物B和人物C的组合为二次搜索的对象为例,即二次搜索请求中包括的是人物B和人物C,按照本发明方案生成的是,以人物B和人物C的组合为目标人物的一副关系图谱。
[0065]与图1所示方法相对应,本发明实施例还提供一种人物关系图谱的生成装置300,参见图4所示示意图,所述装置可以包括:
[0066]请求获取单元301,用于获取搜索请求,所述搜索请求包括目标人物;
[0067]集合确定单元302,用于确定文件集合,所述文件集合中包括至少一个用于搜索所述目标人物对应的关联人物的文件;
[0068]图谱生成单元303,用于利用从所述文件集合中提取出的所述关联人物、以及所述目标人物与所述关联人物之间的关系紧密度,生成所述目标人物的关系图谱。
[0069]可选地,所述搜索请求还包括目标事件,所述集合确定单元,用于根据所述目标人物和所述目标事件,从能获取到的所有文件中确定所述文件集合。
[0070]可选地,所述装置还包括:关系紧密度确定单元,用于利用第一紧密度和/或第二紧密度,确定所述关系紧密度;所述第一紧密度由从所述文件集合中提取出的所述目标人物与所述关联人物之间的关联关系确定;所述第二紧密度由从所述文件集合中提取出的所述目标人物与所述关联人物共同出现的频率确定。
[0071 ]可选地,所述装置还包括:二次搜索请求获取单元,用于获取基于所述目标人物的关系图谱发起的二次搜索请求,所述二次搜索请求包括所述目标人物的关系图谱中的至少一个关联人物;二次搜索请求响应单元,用于响应所述二次搜索请求,生成所述至少一个关联人物的关系图谱。
[0072]以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
[0073]另外需要说明的是,在上述【具体实施方式】中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
[0074]此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。
【主权项】
1.一种人物关系图谱的生成方法,其特征在于,所述方法包括: 获取搜索请求,所述搜索请求包括目标人物; 确定文件集合,所述文件集合中包括至少一个用于搜索所述目标人物对应的关联人物的文件; 利用从所述文件集合中提取出的所述关联人物、以及所述目标人物与所述关联人物之间的关系紧密度,生成所述目标人物的关系图谱。2.根据权利要求1所述的方法,其特征在于,所述搜索请求还包括目标事件,所述确定文件集合,包括: 根据所述目标人物和所述目标事件,从能获取到的所有文件中确定所述文件集合。3.根据权利要求1所述的方法,其特征在于,从所述文件集合中提取所述关联人物的方式为: 通过自然语言技术从所述文件集合中提取所述关联人物。4.根据权利要求1所述的方法,其特征在于,从所述文件集合中提取所述关系紧密度的方式为: 利用第一紧密度和/或第二紧密度,确定所述关系紧密度; 所述第一紧密度由从所述文件集合中提取出的所述目标人物与所述关联人物之间的关联关系确定; 所述第二紧密度由从所述文件集合中提取出的所述目标人物与所述关联人物共同出现的频率确定。5.根据权利要求4所述的方法,其特征在于,如果利用所述第一紧密度确定所述关系紧密度,则 所述关联关系为所述目标人物与所述关联人物在文件中分布的位置关系;或者, 所述关联关系为所述目标人物与所述关联人物之间的人际关系。6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括: 获取基于所述目标人物的关系图谱发起的二次搜索请求,所述二次搜索请求包括所述目标人物的关系图谱中的至少一个关联人物; 响应所述二次搜索请求,生成所述至少一个关联人物的关系图谱。7.一种人物关系图谱的生成装置,其特征在于,所述装置包括: 请求获取单元,用于获取搜索请求,所述搜索请求包括目标人物; 集合确定单元,用于确定文件集合,所述文件集合中包括至少一个用于搜索所述目标人物对应的关联人物的文件; 图谱生成单元,用于利用从所述文件集合中提取出的所述关联人物、以及所述目标人物与所述关联人物之间的关系紧密度,生成所述目标人物的关系图谱。8.根据权利要求7所述的装置,其特征在于,所述搜索请求还包括目标事件, 所述集合确定单元,用于根据所述目标人物和所述目标事件,从能获取到的所有文件中确定所述文件集合。9.根据权利要求7所述的装置,其特征在于,所述装置还包括: 关系紧密度确定单元,用于利用第一紧密度和/或第二紧密度,确定所述关系紧密度; 所述第一紧密度由从所述文件集合中提取出的所述目标人物与所述关联人物之间的关联关系确定; 所述第二紧密度由从所述文件集合中提取出的所述目标人物与所述关联人物共同出现的频率确定。10.根据权利要求7至9任一项所述的装置,其特征在于,所述装置还包括: 二次搜索请求获取单元,用于获取基于所述目标人物的关系图谱发起的二次搜索请求,所述二次搜索请求包括所述目标人物的关系图谱中的至少一个关联人物; 二次搜索请求响应单元,用于响应所述二次搜索请求,生成所述至少一个关联人物的关系图谱。
【文档编号】G06F17/30GK105912579SQ201610201733
【公开日】2016年8月31日
【申请日】2016年4月1日
【发明人】麦涛, 张旭, 王磊, 朱志华, 张腾
【申请人】东软集团股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1