本发明涉及人物分类领域,具体而言,涉及一种同名人物的识别处理方法及处理装置。
背景技术:
知识图谱又称为科学知识图谱,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系,在各个领域得到了广泛的应用,尤其在同名人物识别领域,往往利用原有的知识图谱进行人物的相似度判断,但这种方法往往忽略了时间变迁导致的人物属性的表更对人物相似度的影响,进而在判断同名人物是够指代同一实体时,存在识别不准确的问题。
针对上述的问题,目前尚未提出有效的解决方案。
技术实现要素:
本发明实施例提供了一种同名人物的识别处理方法及处理装置,以至少解决由于人物属性及关系信息不充分造成的识别同名人物是否指代同一实体不准确的技术问题。
根据本发明实施例的一个方面,提供了一种同名人物的识别处理方法,包括:获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息;从描述信息中提取包含时间上下文的人物属性和事件信息;计算人物集合中任意两个人物的属性相似度和事件信息相似度;至少基于属性相似度和事件信息相似度确定人物集合中任意两个人物是否为同一人物。
可选地,获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息,包括:从知识图谱数据库中提取具有相同姓名的人物集合,以及每个任务集合中获取每一个人物的描述信息。
可选地,至少基于属性相似度和事件信息相似度确定人物集合中任意两个人物是否为同一人物,包括:获取目标人物所在的知识图谱中的目标关系相似度;基于属性相似度、事件信息相似度和目标关系相似度确定人物集合中任意两个人物是否为同一实体。
可选地,目标关系相似度通过以下方式确定:对任意两个人物的亲属关系相似度与社交关系相似度进行加权求和,得到目标关系相似度;其中,亲属关系相似度权重系数人物的社交关系相似度。
可选地,基于属性相似度、事件信息相似度和目标关系相似度确定人物集合中任意两个人物是否为同一实体,包括:对属性相似度、事件信息相似度和目标关系相似度进行加权求和,得到目标相似度;比较目标相似度与设定阈值,若目标相似度大于或等于设定阈值,则确定任意两个人物属于同一实体。
可选地,获取任意两个人物在目标人物所在的知识图谱中的目标关系相似度之前,还包括:获取现有的每个人物的关系列表
可选地,从描述信息中提取包含时间上下文的人物属性和事件信息,包括:对于人物pi,采用时间正则表达式提取描述信息中的时间序列
可选地,采用时间正则表达式提取描述信息中的时间序列
可选地,采用时间正则表达式提取描述信息中的时间序列
对分段文本
可选地,人物属性集合和人物事件序列通过以下方法获取:对人物pi所有分段文本wk进行提取,得到含时间上下文的人物属性集合
可选地,对指代相同实体的同名人物进行合并,输出新的列表,其中,每个新的列表中的同名人物指代同一实体。
根据本申请的另一方面,还提供了一种同名人物的识别处理方法,包括:获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息;从描述信息中提取包含时间上下文的人物属性和事件信息;计算目标人物与人物集合中指定人物的属性相似度和事件信息相似度,指定人物为人物集合中的任意一个人物;至少基于属性相似度和事件信息相似度确定指定人物与目标人物是否为同一人物。
根据本申请的另一方面,还提供了一种同名人物的识别处理装置,包括:获取模块,获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息;提取模块,从描述信息中提取包含时间上下文的人物属性和事件信息;计算模块,计算人物集合中任意两个人物的属性相似度和事件信息相似度;确定模块,至少基于属性相似度和事件信息相似度确定人物集合中任意两个人物是否为同一人物。
根据本申请的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行任一种的同名人物的识别处理方法。
根据本申请的另一方面,还提供了一种处理器,处理器用于运行存储介质所存储的程序,其中,程序运行时执行任一种同名人物的识别处理方法。
在本发明实施例中,采用构建和比较知识图谱的方式,通过构造随时间序列变化的人物属性值列表对人物属性是否相同进行判断,达到了对同名人物是否指代同一实体进行识别的目的,从而实现了更加准确判断同名人物是否指代同一实体的技术效果,进而解决了由于人物属性及关系信息不充分造成的识别同名人物是否指代同一实体不准确技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本申请实施例的一种同名人物的识别处理方法的流程示意图;
图2是根据本申请实施例的另一种同名人物的识别处理方法的流程示意图;
图3是根据本申请实施例的一种同名人物的识别处理装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的人物,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种同名人物的识别处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的同名人物的识别处理方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤s102,获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息;
步骤s104,从描述信息中提取包含时间上下文的人物属性和事件信息;
步骤s106,计算人物集合中任意两个人物的属性相似度和事件信息相似度;
步骤s108,至少基于属性相似度和事件信息相似度确定人物集合中任意两个人物是否为同一人物。
上述处理方法中,首先,获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息,然后从描述信息中提取包含时间上下文的人物属性和事件信息,其次,计算人物集合中任意两个人物的属性相似度和事件信息相似度,最后,至少基于属性相似度和事件信息相似度确定人物集合中任意两个人物是否为同一人物,从而实现了更加准确判断同名人物是否指代同一实体的技术效果,进而解决了由于人物属性及关系信息不充分造成的识别同名人物是否指代同一实体不准确技术问题。
需要说明的是,这里的实体指代的就是人物,即同一人物就是同一实体。
本申请的一些实施例中,上述步骤s102获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息,可以通过如下一种可选的实施方式来实现:
从知识图谱数据库中提取具有相同姓名的人物集合,以及每个任务集合中获取每一个人物的描述信息。
需要说明的是,知识图谱数据库中的数据可以来自于各种网页或社交网络等,如百度百科、360百科、互动百科等。
具体的步骤:
例如,在本申请的一种可选的实施例中,首先,在华谱系统中找人页面,输入唐代诗人“李白”这个姓名,然后,便可以获得若干个姓名同样为“李白”的实体,这些称之为同名人物的集合,这些实体集合中,可能有一部分是同一个实体“李白”,即这个同名人物的集合中,有部分所描述的指代的均是唐代诗人李白,而上述同名人物的集合中,有部分仅仅是同名,所指代不是上述的唐代诗人“李白”;其同名的可能是歌手李白、教师李白、工人李白等,以下通过具体的步骤,进行说明。
步骤1.1利用图数据库工具的系统查询语言,从人物知识图谱数据库中查询具有相同姓名的人物集合;p={pi,pj∈p|pi.name=pj.name,1≤i,j≤m}及每个人物的关系列表
本申请的一些实施例中,上述步骤s104从描述信息中提取包含时间上下文的人物属性和事件信息,可以通过如下一种可选的实施方式来实现:
具体的步骤:
步骤2.1对于人物pi,用人工构建的时间正则表达式提取pi描述信息中的时间序列
步骤2.2将pi的描述信息按时间序列ti分段,得分段文本序列w={w1,w2,…wn},其中每个分段文本包括文本bk和时间标签
步骤2.3用词法分析工具对分段文本wk进行分词及词性标注;
步骤2.4利用步骤2.3的分词结果,依据字典库和依存句法分析提取人物关系集合
步骤2.5利用步骤2.3的分词及词性标注进行句法分析,得到句法分析树,按一定规则提取事件的主体s、客体o以及谓语动词v,得事件集合
步骤2.6循环执行步骤2.3至2.5,对人物pi的所有分段文本进行人物关系、人物属性、人物事件的提取,得到人物pi的关系集合
步骤2.7利用提取的人物关系集合
步骤2.8循环执行步骤2.1至步骤2.7,对同名人物集合p中的所有人物pi,执行人物关系、人物随时间变化属性的属性值列表、人物事件序列的提取;
本申请的一些实施例中,上述步骤s106计算人物集合中任意两个人物的属性相似度和事件信息相似度;步骤s108至少基于属性相似度和事件信息相似度确定人物集合中任意两个人物是否为同一人物,包括:获取目标人物所在的知识图谱中的目标关系相似度,可以通过如下一种可选的实施方式实现。
具体的步骤:
步骤3.1对于同名人物pi、pj,根据人工构建的亲属关系字典库和社交关系字典库将对应的人物关系知识图谱进行关系分类,分别得到对应的亲属关系集合
步骤3.2计算亲属关系集合
步骤3.2.1计算同名人物pi、pj关系知识图谱中具有相同关系主体、关系名λkin的关系客体的相似度
步骤3.2.2利用公式(1)计算人物pi、pj关系知识图谱中亲属关系相似度
其中akin,bkin,λkin,表示不同的亲属关系名称;
步骤3.3计算社交关系集合
步骤3.3.1计算同名人物pi、pj关系知识图谱中具有相同关系主体、关系名λsoc的关系客体的相似度
步骤3.3.2利用公式(2)计算人物pi、pj关系知识图谱中社交关系相似度
其中asoc,bsoc,λsoc,表示不同的社交关系名称;
步骤3.4利用公式(3)对人物亲属关系相似度与社交关系相似度加权求和,得人物关系相似度,即目标关系相似度
其中α表示权重系数,需要说明的是,通常我们认为亲属关系比社交关系对人物是否指代相同实体更加重要,所以通常我们设置的α>0.5;
步骤3.5对同名人物pi、pj,的随时间变化的相同属性
步骤3.5.1初始化变量k=1,sc=0,其中变量sc用于计数属性值相同的个数;
步骤3.5.2初始化变量t=1;
步骤3.5.3分别取同名人物pi、pj的属性λ在某一时间分段的属性值
步骤3.5.4若相同,则k=k+1,t=t+1,sc=sc+1,执行步骤3.5.5;否则,t=t+1,执行步骤3.5.6;直至
步骤3.5.5若
步骤3.5.6若
步骤3.5.7计算属性λ的相似度
步骤3.5.8循环执行步骤3.5.1至3.5.7,对人物pi、pj所有相同属性的相似度进行计算,按公式(4)计算人物属性相似度
其中变量count为人物pi、pj的相同属性个数;
步骤3.6对于同名人物pi、pj,的事件序列进行相似度比较,得事件相似度
步骤3.7对人物关系目标关系相似度
其中α,β,γ为相应的权值,需要说明的是权值的大小由对应信息的丰富程度决定,例如获取到的亲属关系和社交关系信息较多时,则可以设定目标关系相似度的权值比较大,比如为0.5,且α+β+γ=1;具体取值方法如步骤3.8;
步骤3.8对于同名人物pi、pj,设可对齐的人物关系、属性、事件个数分别为rc,attrc,ec,则,α=rc/(rc+attrc+ec),β=rc/(rc+attrc+ec),γ=rc/(rc+attrc+ec)。
上述步骤s108至少基于属性相似度和事件信息相似度确定人物集合中任意两个人物是否为同一人物,包括:获取目标人物所在的知识图谱中的目标关系相似度;基于属性相似度、事件信息相似度和目标关系相似度确定人物集合中任意两个人物是否为同一实体,可以通过如下一种可选的实施方式来实现。
具体地:
步骤4.1初始化变量i=1,j=2;
步骤4.2执行步骤3计算同名人物pi、pj的相似度
步骤4.3若
步骤4.4若j>m,则i=i+1,j=i+1,执行步骤4.5;否则,则执行步骤4.2;
步骤4.5若i<m,则执行步骤4.2;否则执行步骤4.6;
步骤4.6对含有相同人物的列表list[i]和list[j]进行合并,输出列表list。
本申请实施例,还提供了一种同名人物的识别处理方法,图2是根据本申请实施例的同名人物的识别处理方法的流程示意图,如图2所示:
步骤s202,获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息;
步骤s204,从描述信息中提取包含时间上下文的人物属性和事件信息;
步骤s206,计算目标人物与人物集合中指定人物的属性相似度和事件信息相似度,指定人物为人物集合中的任意一个人物;
步骤s208,至少基于属性相似度和事件信息相似度确定指定人物与目标人物是否为同一人物。
上述同名人物的识别处理方法中,首先,获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息,然后,从描述信息中提取包含时间上下文的人物属性和事件信息,其次,计算目标人物与人物集合中指定人物的属性相似度和事件信息相似度,指定人物为人物集合中的任意一个人物,最后,至少基于属性相似度和事件信息相似度确定指定人物与目标人物是否为同一人物,从而实现了更加准确判断同名人物是否指代同一实体的技术效果,进而解决了由于人物属性及关系信息不充分造成的识别同名人物是否指代同一实体不准确技术问题。
需要说明的是,这里的实体指代的就是人物,即同一人物就是同一实体。
例如,在本申请的一种可选的实施例中,首先,在华谱系统中找人页面,输入唐代诗人“李白”这个姓名,然后,便可以获得若干个姓名同样为“李白”的实体,这些称之为同名人物的集合,这些实体集合中,可能有一部分是同一个实体“李白”,即这个同名人物的集合中,有部分所描述的指代的均是唐代诗人李白,而上述同名人物的集合中,有部分仅仅是同名,所指代不是上述的唐代诗人“李白”;其同名的可能是歌手李白、教师李白、工人李白等,然后对这些同名人物“李白”的描述信息中提取包含时间上下文的人物属性和事件信息,其次,计算目标人物诗人李白与人物集合中指定人物的属性相似度和事件信息相似度,指定人物为人物集合中的任意一个人物,这里假设指定人物为歌手李白,最后,至少基于属性相似度和事件信息相似度确定指定人物与目标人物是否为同一人物,即就是上述的诗人李白与上述歌手李白是否为一个人物。
本申请的一些实施例中,还提供了一种同名人物的识别处理装置,如图3所示,该同名人物的识别处理装置包括:
获取模块30,获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息;
提取模块32,从描述信息中提取包含时间上下文的人物属性和事件信息;
计算模块34,计算人物集合中任意两个人物的属性相似度和事件信息相似度;
确定模块36,至少基于属性相似度和事件信息相似度确定人物集合中任意两个人物是否为同一人物。
上述同名人物的识别处理装置,获取模块,用于获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息;提取模块,用于从描述信息中提取包含时间上下文的人物属性和事件信息;计算模块,用于计算人物集合中任意两个人物的属性相似度和事件信息相似度;确定模块,用于至少基于属性相似度和事件信息相似度确定人物集合中任意两个人物是否为同一人物。上述同名人物的识别处理装置实现了更加准确判断同名人物是否指代同一实体的技术效果,进而解决了由于人物属性及关系信息不充分造成的识别同名人物是否指代同一实体不准确技术问题。
需要说明的是,这里的实体指代的就是人物,即同一人物就是同一实体。
本申请实施例,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行任一种同名人物的识别处理方法。
具体地,上述存储介质用于存储执行以下功能的程序指令,实现以下功能:
获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息;从描述信息中提取包含时间上下文的人物属性和事件信息;计算人物集合中任意两个人物的属性相似度和事件信息相似度;至少基于属性相似度和事件信息相似度确定人物集合中任意两个人物是否为同一人物。
本申请实施例,还提供了一种处理器,处理器用于运行存储介质所存储的程序,其中,程序运行时执行任一种同名人物的识别处理方法。
具体地,上述处理器用于调用存储器中的程序指令,实现以下功能:
获取与目标人物具有相同姓名的人物集合以及每一个人物的描述信息;从描述信息中提取包含时间上下文的人物属性和事件信息;计算人物集合中任意两个人物的属性相似度和事件信息相似度;至少基于属性相似度和事件信息相似度确定人物集合中任意两个人物是否为同一人物。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。