针对作者消歧的信息处理装置、方法和介质与流程

文档序号:22878297发布日期:2020-11-10 17:32阅读:115来源:国知局
针对作者消歧的信息处理装置、方法和介质与流程

本公开涉及信息处理的技术领域,具体地涉及针对作者消歧的信息处理装置和方法。



背景技术:

这个部分提供了与本公开有关的背景信息,这不一定是现有技术。

对于基于文献计量数据以及研究评估目的的大部分研究,必须能够将特定的书目记录归于个体研究人员。一个实际的问题是在这个过程中存在一定程度的模糊性,这被称为作者消歧。该问题以两种方式表现出来:给定的个体可以被识别为两个或更多个作者,或者两个或更多个个体可以被识别为单个作者。考虑到在大多数学科中活跃的大量研究人员,作者姓名并不能明显区分开来是作者消歧问题产生的根本原因。



技术实现要素:

这个部分提供了本公开的一般概要,而不是其全部范围或其全部特征的全面披露。

本公开的目的在于提供一种采用知识图相似度进行作者消歧的技术方案。其中,使用从知识图提取的节点序列来计算相似度。本公开通过使用不同节点之间的关系提供了更有效的作者消歧的方法。

根据本公开的一方面,提供了一种针对作者消歧的信息处理装置,包括:图谱构建单元,其配置成基于从文献库中提取的实体及其属性来构建知识图谱,所述实体包括作者实体及其相关联的实体;遍历单元,其配置成遍历所构建的知识图谱,以获得有关作者的节点序列;对齐单元,其配置成针对所述节点序列,基于所述属性进行节点对齐;以及计算单元,其配置成计算对齐的节点序列之间的相似度,其中,根据所计算的相似度进行所述作者消歧。

根据本公开的另一方面,提供了一种针对作者消歧的信息处理方法,包括:基于从文献库中提取的实体及其属性来构建知识图谱,所述实体包括作者实体及其相关联的实体;遍历所构建的知识图谱,以获得有关作者的节点序列;针对所述节点序列,基于所述属性进行节点对齐;以及计算对齐的节点序列之间的相似度,其中,根据所计算的相似度进行所述作者消歧。

根据本公开的另一方面,提供了一种程序产品,该程序产品包括存储在其中的机器可读指令代码,其中,所述指令代码当由计算机读取和执行时,能够使所述计算机执行根据本公开的针对作者消歧的信息处理方法。

根据本公开的另一方面,提供了一种机器可读存储介质,其上携带有根据本公开的程序产品。

从在此提供的描述中,进一步的适用性区域将会变得明显。这个概要中的描述和特定例子只是为了示意的目的,而不旨在限制本公开的范围。

附图说明

在此描述的附图只是为了所选实施例的示意的目的而非全部可能的实施,并且不旨在限制本公开的范围。在附图中:

图1为根据本公开的一个实施例的针对作者消歧的信息处理装置100的框图;

图2示例性示出根据本公开的一个实施例的知识图谱的一部分;

图3为根据本公开的一个实施例的针对作者消歧的信息处理方法的流程图;以及

图4为其中可以实现根据本公开的实施例的针对作者消歧的信息处理装置和方法的通用个人计算机的示例性结构的框图。

虽然本公开容易经受各种修改和替换形式,但是其特定实施例已作为例子在附图中示出,并且在此详细描述。然而应当理解的是,在此对特定实施例的描述并不打算将本公开限制到公开的具体形式,而是相反地,本公开目的是要覆盖落在本公开的精神和范围之内的所有修改、等效和替换。要注意的是,贯穿几个附图,相应的标号指示相应的部件。

具体实施方式

现在参考附图来更加充分地描述本公开的例子。以下描述实质上只是示例性的,而不旨在限制本公开、应用或用途。

提供了示例实施例,以便本公开将会变得详尽,并且将会向本领域技术人员充分地传达其范围。阐述了众多的特定细节如特定部件、装置和方法的例子,以提供对本公开的实施例的详尽理解。对于本领域技术人员而言将会明显的是,不需要使用特定的细节,示例实施例可以用许多不同的形式来实施,它们都不应当被解释为限制本公开的范围。在某些示例实施例中,没有详细地描述众所周知的过程、众所周知的结构和众所周知的技术。

本公开的目的在于提供一种采用知识图相似度进行作者消歧的技术方案。其中,使用从知识图提取的节点序列来计算相似度。本公开通过使用不同节点之间的关系提供了更有效的作者消歧的方法。

根据本公开的一个实施例,提供了一种针对作者消歧的信息处理装置,包括:图谱构建单元,其配置成基于从文献库中提取的实体及其属性来构建知识图谱,所述实体包括作者实体及其相关联的实体;遍历单元,其配置成遍历所构建的知识图谱,以获得有关作者的节点序列;对齐单元,其配置成针对所述节点序列,基于所述属性进行节点对齐;以及计算单元,其配置成计算对齐的节点序列之间的相似度,其中,根据所计算的相似度进行所述作者消歧。

如图1所示,根据本公开的针对作者消歧的信息处理装置可以包括图谱构建单元101、遍历单元102、对齐单元103和计算单元104。

首先,图谱构建单元101可以配置成基于从文献库中提取的实体及其属性来构建知识图谱,所述实体包括作者实体及其相关联的实体。其中,所述文献库可以是现有技术中的任何一个文献库或多个文献库的组合。并且其中,所述实体可以是例如作者、文章、所属机构、共同作者、电邮、地址、文章标题、摘要或关键字等。这里,本领域技术人员应该清楚,上述实体仅是示例性的,本公开并不限于此。

根据本公开的一个实施例,图谱构建单元101可以配置成基于如作者实体、所属机构实体和文章实体来构建知识图谱。如图2所示,首先从文献库中提取了几个作者例如陈晓丽、所属机构例如山西医科大学和文章例如太原社区人群心房颤动影响因素分析的实体,然后这些实体通过其间的关系例如从属或文章连接在一起,进而构建了一个知识图谱。这里,本领域技术人员应该清楚,由于篇幅起见,图2仅示例性地示出知识图谱的一部分。本公开并不限于图2所示。

接下来,遍历单元102可以配置成遍历所构建的知识图谱,以获得有关作者的节点序列。例如,如图2所示,遍历单元102使用根据本公开的一个实施例的广度优先遍历方法来遍历所述知识图谱,从作者陈晓丽节点(左起第一个陈晓丽节点)出发,可以获得有关作者陈晓丽的以下节点序列:

[“陈晓丽”][“山西医科大学”][“太原社区人群心房颤动影响因素分析”][“王红宇”]。

从中间一个陈晓丽节点出发,可以获得有关作者陈晓丽的以下节点序列:

[“陈晓丽”][“山西医科大学第二医院心电信息科”][“太原社区人群心房颤动现况”][“王红宇”,“张红宇”,“肖传实”]。

从最右一个陈晓丽节点出发,可以获得有关作者陈晓丽的以下节点序列:

[“陈晓丽”][“江西省万安县中医院”][“生脉养心方治疗急性冠脉综合征”][“曾星华”]。

这里,本领域技术人员应该清楚,上述节点序列仅是示例性的,本公开并不限于此。此外,本领域技术人员应该清楚,上述广度优先遍历方法也仅是示例性的,本领域技术人员可以使用任何现有技术中的遍历方法。根据本公开的另一个实施例,遍历单元102可以使用深度优先遍历方法来遍历所述知识图谱。

然后,由于不同的节点可能具有不同的属性集,因此,需要对节点进行对齐处理。对齐单元103可以配置成针对所述节点序列,基于所述属性进行节点对齐。在某些情况下,在一类节点中可能存在多个子节点。例如,在文章这类中,不同的作者可能具有不同数目不同的文章。例如,如图2所示,左起第一个陈晓丽具有一篇文章“太原社区人群心房颤动影响因素分析”,而中间一个陈晓丽具有两篇文章“老年高血压患者与动脉弹性的关系”和“太原社区人群心房颤动现况”。因此,根据本公开的一个实施例,所述节点对齐可以包括对节点的子节点进行对齐。

根据本公开的一个实施例,对节点的子节点进行对齐可以包括对子节点的子属性基于相似度进行排序;以及按排序后的子属性对所述子节点进行对齐。例如,如图2所示,基于子节点的子属性之间的相似度(即左起第一个陈晓丽的文章“太原社区人群心房颤动影响因素分析”分别与中间一个陈晓丽的两篇文章“老年高血压患者与动脉弹性的关系”和“太原社区人群心房颤动现况”之间的相似度),可以得到(相对于左起第一个陈晓丽)中间一个陈晓丽的两个文章节点的排序如下:

“太原社区人群心房颤动现况”位于“老年高血压患者与动脉弹性的关系”之前。

这里,本领域技术人员应该清楚,上述节点或子节点的对齐方式仅是示例性的,本公开并不限于此。

接下来,计算单元104可以配置成计算对齐的节点序列之间的相似度,其中,根据所计算的相似度进行所述作者消歧。根据本公开的一个实施例,可以使用[0,1]的值来表示节点之间的相似度。例如,如图2所示,对于从属关系,“山西医科大学”和“山西医科大学第二医院心电信息科”之间的相似度应该高于“山西医科大学”和“江西省万安县中医院”之间的相似度。这里,本领域技术人员应该清楚,不同的节点属性可以应用不同的对齐方法,使用[0,1]的值来表示节点之间的相似度仅是示例性的,本公开并不限于此。

根据本公开的一个实施例,例如,针对共同作者姓名的属性,可以采用二值化判断方法,其中,0可以表示不同的作者姓名,而1可以表示相同的作者姓名。本领域技术人员应该清楚,这样的二值化判断方法也仅是示例性的,本公开并不限于此。

根据本公开的一个实施例,还可以基于语义分析来计算对齐的节点序列之间的相似度。例如,对于“关键字”和“摘要”,可以使用语义分析来计算节点之间的相似度。例如,关键字“机器学习”和“人工智能”虽然在字面上具有较低的相似度。但在高级语义中,这两个词具有较高的相似度。同样地,如上所述,不同的节点属性可以应用不同的对齐方法。上述基于语义的相似度的计算方式仅是示例性的,本公开并不限于此。本领域技术人员可以根据实际的需要采用现有技术中任何合适的对齐方法。

根据本公开的一个实施例,计算对齐的节点序列之间的相似度可以包括分别计算两个节点序列中对齐的节点之间的相似度,以获得所述节点序列中针对每个节点的相似度;以及基于所述节点序列中每个节点的权重使用每个节点的相似度来计算所述节点序列之间的相似度。

根据本公开的一个实施例,可以对获得的所述节点序列中针对每个节点的相似度进行归一化处理,其中,使用每个节点的归一化的相似度来计算所述节点序列之间的相似度。

根据本公开的一个实施例,可以基于以下公式进行归一化处理:

其中,simp表示属性p的相似度,wp表示权重。

这里,本领域技术人员应该清楚,本公开所采用的加权平均方式的归一化处理仅是示例性的,本公开并不限于此。本领域技术人员当然可以根据实际需要采用任何本领域公知的其他方法进行归一化处理。

最后,根据本公开的一个实施例,当所述节点序列之间的相似度大于预定阈值时,进行所述作者消歧。

根据本公开的针对作者消歧的信息处理装置,其通过采用知识图相似度进行了作者消歧。其中,使用从知识图提取的节点序列来计算相似度。本公开通过使用不同节点之间的关系更有效地提供了作者消歧的方案。

下面将结合图3来描述根据本公开的实施例的针对作者消歧的信息处理方法。如图3所示,根据本公开的实施例的针对作者消歧的信息处理方法开始于步骤s310。

在步骤s310中,基于从文献库中提取的实体及其属性来构建知识图谱,所述实体包括作者实体及其相关联的实体。

接下来,在步骤s320中,遍历所构建的知识图谱,以获得有关作者的节点序列。

接下来,在步骤s330中,针对所述节点序列,基于所述属性进行节点对齐。

最后,在步骤s340中,计算对齐的节点序列之间的相似度,其中,根据所计算的相似度进行所述作者消歧。

根据本公开的一个实施例的针对作者消歧的信息处理方法还可以包括分别计算两个节点序列中对齐的节点之间的相似度,以获得所述节点序列中针对每个节点的相似度以及基于所述节点序列中每个节点的权重使用每个节点的相似度来计算所述节点序列之间的相似度的步骤。

根据本公开的一个实施例的针对作者消歧的信息处理方法还可以包括对获得的所述节点序列中针对每个节点的相似度进行归一化处理的步骤,其中,使用每个节点的归一化的相似度来计算所述节点序列之间的相似度。

根据本公开的一个实施例的针对作者消歧的信息处理方法,其中,当所述节点序列之间的相似度大于预定阈值时进行所述作者消歧。

根据本公开的一个实施例的针对作者消歧的信息处理方法,其中,所述节点对齐包括对节点的子节点进行对齐。

根据本公开的一个实施例的针对作者消歧的信息处理方法,其中,对子节点进行对齐包括:对子节点的子属性基于相似度进行排序;以及按排序后的子属性对所述子节点进行对齐。

根据本公开的一个实施例的针对作者消歧的信息处理方法,其中,使用深度优先遍历方法来遍历所述知识图谱。

根据本公开的一个实施例的针对作者消歧的信息处理方法,其中,使用广度优先遍历方法来遍历所述知识图谱。

根据本公开的一个实施例的针对作者消歧的信息处理方法,其中,基于语义分析来计算对齐的节点序列之间的相似度。

根据本公开的实施例的针对作者消歧的信息处理方法的上述步骤的各种具体实施方式前面已经作过详细描述,在此不再重复说明。

显然,根据本公开的针对作者消歧的信息处理方法的各个操作过程可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

而且,本公开的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(cpu)读出并执行上述程序代码。此时,只要该系统或者设备具有执行程序的功能,则本公开的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。

上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其他适于存储信息的介质等。

另外,计算机通过连接到因特网上的相应网站,并且将依据本公开的计算机程序代码下载和安装到计算机中然后执行该程序,也可以实现本公开的技术方案。

图4为其中可以实现根据本公开的实施例的针对作者消歧的信息处理方法的通用个人计算机1300的示例性结构的框图。

如图4所示,cpu1301根据只读存储器(rom)1302中存储的程序或从存储部分1308加载到随机存取存储器(ram)1303的程序执行各种处理。在ram1303中,也根据需要存储当cpu1301执行各种处理等等时所需的数据。cpu1301、rom1302和ram1303经由总线1304彼此连接。输入/输出接口1305也连接到总线1304。

下述部件连接到输入/输出接口1305:输入部分1306(包括键盘、鼠标等等)、输出部分1307(包括显示器,比如阴极射线管(crt)、液晶显示器(lcd)等,以及扬声器等)、存储部分1308(包括硬盘等)、通信部分1309(包括网络接口卡比如lan卡、调制解调器等)。通信部分1309经由网络比如因特网执行通信处理。根据需要,驱动器1310也可连接到输入/输出接口1305。可拆卸介质1311比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1310上,使得从中读出的计算机程序根据需要被安装到存储部分1308中。

在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1311安装构成软件的程序。

本领域的技术人员应当理解,这种存储介质不局限于图4所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1311。可拆卸介质1311的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(cd-rom)和数字通用盘(dvd))、磁光盘(包含迷你盘(md)(注册商标))和半导体存储器。或者,存储介质可以是rom1302、存储部分1308中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。

在本公开的系统和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

以上虽然结合附图详细描述了本公开的实施例,但是应当明白,上面所描述的实施方式只是用于说明本公开,而并不构成对本公开的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本公开的实质和范围。因此,本公开的范围仅由所附的权利要求及其等效含义来限定。

关于包括以上实施例的实施方式,还公开下述的附记:

附记1.一种针对作者消歧的信息处理装置,包括:

图谱构建单元,其配置成基于从文献库中提取的实体及其属性来构建知识图谱,所述实体包括作者实体及其相关联的实体;

遍历单元,其配置成遍历所构建的知识图谱,以获得有关作者的节点序列;

对齐单元,其配置成针对所述节点序列,基于所述属性进行节点对齐;以及

计算单元,其配置成计算对齐的节点序列之间的相似度,其中,根据所计算的相似度进行所述作者消歧。

附记2.根据附记1所述的装置,其中,所述计算单元进一步配置成:

分别计算两个节点序列中对齐的节点之间的相似度,以获得所述节点序列中针对每个节点的相似度;以及

基于所述节点序列中每个节点的权重使用每个节点的相似度来计算所述节点序列之间的相似度。

附记3.根据附记2所述的装置,还包括归一化单元,其配置成对获得的所述节点序列中针对每个节点的相似度进行归一化处理,其中,使用每个节点的归一化的相似度来计算所述节点序列之间的相似度。

附记4.根据附记3所述的装置,其中,当所述节点序列之间的相似度大于预定阈值时,进行所述作者消歧。

附记5.根据附记1所述的装置,其中,所述对齐单元进一步配置成对节点的子节点进行对齐。

附记6.根据附记5所述的装置,其中,所述对齐单元进一步配置成:

对子节点的子属性基于相似度进行排序;以及

按排序后的子属性对所述子节点进行对齐。

附记7.根据附记1所述的装置,其中,所述遍历单元进一步配置成使用深度优先遍历方法来遍历所述知识图谱。

附记8.根据附记1所述的装置,其中,所述遍历单元进一步配置成使用广度优先遍历方法来遍历所述知识图谱。

附记9.根据附记1所述的装置,其中,所述计算单元进一步配置成基于语义分析来计算对齐的节点序列之间的相似度。

附记10.一种针对作者消歧的信息处理方法,包括:

基于从文献库中提取的实体及其属性来构建知识图谱,所述实体包括作者实体及其相关联的实体;

遍历所构建的知识图谱,以获得有关作者的节点序列;

针对所述节点序列,基于所述属性进行节点对齐;以及

计算对齐的节点序列之间的相似度,其中,根据所计算的相似度进行所述作者消歧。

附记11.根据附记10所述的方法,计算对齐的节点序列之间的相似度包括:

分别计算两个节点序列中对齐的节点之间的相似度,以获得所述节点序列中针对每个节点的相似度;以及

基于所述节点序列中每个节点的权重使用每个节点的相似度来计算所述节点序列之间的相似度。

附记12.根据附记11所述的方法,进一步包括对获得的所述节点序列中针对每个节点的相似度进行归一化处理,其中,使用每个节点的归一化的相似度来计算所述节点序列之间的相似度。

附记13.根据附记12所述的方法,其中,当所述节点序列之间的相似度大于预定阈值时进行所述作者消歧。

附记14.根据附记10所述的方法,其中,所述节点对齐包括对节点的子节点进行对齐。

附记15.根据附记14所述的方法,其中,对子节点进行对齐包括:

对子节点的子属性基于相似度进行排序;以及

按排序后的子属性对所述子节点进行对齐。

附记16.根据附记10所述的方法,其中,使用深度优先遍历方法来遍历所述知识图谱。

附记17.根据附记10所述的方法,其中,使用广度优先遍历方法来遍历所述知识图谱。

附记18.根据附记10所述的方法,其中,基于语义分析来计算对齐的节点序列之间的相似度。

附记19.一种程序产品,包括存储在其中的机器可读指令代码,其中,所述指令代码当由计算机读取和执行时,能够使所述计算机执行根据附记10-18中任何一项所述的方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1