用于实体标准化的方法及装置、电子设备、存储介质与流程

文档序号:30757768发布日期:2022-07-13 12:52阅读:76来源:国知局
用于实体标准化的方法及装置、电子设备、存储介质与流程

1.本技术涉及实体标准化技术领域,例如涉及一种用于实体标准化的方法及装置、电子设备、存储介质。


背景技术:

2.随着科技的发展,知识图谱在各行各业运用广泛。构建知识图谱的过程中需要确定待标准化实体对应的标准实体,以便于将知识图谱用于搜索、推荐和问答等。相关技术中,通常通过计算待标准化实体与预设标准实体之间的相似度,从而确定待标准化实体对应的标准实体。但是,在待标准实体不存在对应的预设标准实体的情况下,无法确定待标准实体对应的标准实体。


技术实现要素:

3.为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
4.本公开实施例提供了一种用于实体标准化的方法及装置、电子设备、存储介质,以在待标准实体不存在对应的预设标准实体的情况下,确定待标准实体对应的标准实体。
5.在一些实施例中,所述用于实体标准化的方法,包括:获取多个待标准化实体;确定待标准化实体两两之间的实体相似度;根据各所述实体相似度构建相似度无向图;根据所述相似度无向图确定待标准化实体的标准实体。
6.在一些实施例中,所述用于实体标准化的装置,包括:获取模块,被配置为获取多个待标准化实体;相似度确定模块,被配置为确定待标准化实体两两之间的实体相似度;相似度无向图确定模块,被配置为根据各所述实体相似度构建相似度无向图;命名模块,被配置为根据所述相似度无向图确定待标准化实体的标准实体。
7.在一些实施例中,电子设备,包括处理器和存储有程序指令的存储器,所述处理器被配置为在运行所述程序指令时,执行上述的用于实体标准化的方法。
8.在一些实施例中,存储介质,存储有程序指令,所述程序指令在运行时,执行如上述的用于实体标准化的方法。
9.本公开实施例提供的用于实体标准化的方法及装置、电子设备、存储介质,可以实现以下技术效果:通过获取多个待标准化实体;确定待标准化实体两两之间的实体相似度;根据各实体相似度构建相似度无向图;根据相似度无向图确定待标准化实体的标准实体。这样,通过构建待标准化实体的相似度无向图,由相似度无向图确定待标准化实体的标准实体,不需要用到待标准化实体对应的预设标准实体。能够在不存在待标准化实体对应的预设标准实体的情况下,为待标准化实体确定标准实体。
10.以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本技术。
附图说明
11.一个或多个实施例通过与之对应的附图进行示例性说明,这些示例性说明和附图并不构成对实施例的限定,附图中具有相同参考数字标号的元件示为类似的元件,附图不构成比例限制,并且其中:
12.图1是本公开实施例提供的一个用于实体标准化的方法的示意图;
13.图2是本公开实施例提供的一个相似度无向图的示意图;
14.图3是本公开实施例提供的另一个用于实体标准化的方法的示意图;
15.图4是本公开实施例提供的另一个用于实体标准化的方法的示意图;
16.图5是本公开实施例提供的一个用于实体标准化的装置的示意图;
17.图6是本公开实施例提供的一个电子设备的示意图。
18.附图标记:
19.1:第一待标准化实体;2:第二待标准化实体;3:第三待标准化实体;4:第四待标准化实体;5:第五待标准化实体;6:第六待标准化实体;7:第七待标准化实体;8:第八待标准化实体;9:第九待标准化实体;10:第十待标准化实体。
具体实施方式
20.为了能够更加详尽地了解本公开实施例的特点与技术内容,下面结合附图对本公开实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本公开实施例。在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的情况下,一个或多个实施例仍然可以实施。在其它情况下,为简化附图,熟知的结构和装置可以简化展示。
21.本公开实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开实施例的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
22.除非另有说明,术语“多个”表示两个或两个以上。
23.本公开实施例中,字符“/”表示前后对象是一种“或”的关系。例如,a/b表示:a或b。
24.术语“和/或”是一种描述对象的关联关系,表示可以存在三种关系。例如,a和/或b,表示:a或b,或,a和b这三种关系。
25.在通过网络进行检索、推荐和问答的过程中,通常会利用知识图谱来快速锁定相应的答案。但是由于用户表达习惯的不同,使得同一个物品可能存在多种名字或者同一含义存在多种表达。为了确定哪一些词组和/或词语代表的是同一物品或含义,因此需要确定词组和/或词语对应的标准化实体。然后根据词组和/或词语及其对应的标准化实体构建知识图谱,以便于网络检索、推荐和问答。
26.本技术应用于确定实体对应的标准实体的系统或软件。待标准化实体为词组和/或词语,例如:美白精华露、美白精华素、美白精华或局部美白精华等。
27.同时,本发明实施例中所涉及的电子设备可以包括但不限于手机、平板电脑、个人电脑、掌上电脑和服务器等。
28.结合图1所示,本公开实施例提供一种用于实体标准化的方法,包括:
29.步骤s101,获取多个待标准化实体;
30.步骤s102,确定待标准化实体两两之间的实体相似度;
31.步骤s103,根据各实体相似度构建相似度无向图;
32.步骤s104,根据相似度无向图确定待标准化实体的标准实体。
33.采用本公开实施例提供的用于实体标准化的方法,通过获取多个待标准化实体;确定待标准化实体两两之间的实体相似度;根据各实体相似度构建相似度无向图;根据相似度无向图确定待标准化实体的标准实体。这样,通过构建待标准化实体的相似度无向图,由相似度无向图确定待标准化实体的标准实体,不需要用到待标准化实体对应的预设标准实体。能够在不存在待标准化实体对应的预设标准实体的情况下,为待标准化实体确定标准实体。这样,通过构建相似度无向图,利用了知识图谱技术进行了图谱构建,能够更准确,直观的确定相近的两个待标准化实体。
34.可选地,确定待标准化实体两两之间的实体相似度,包括:确定各待标准化实体分别对应的词向量;确定词向量两两之间的向量相似度;将词向量两两之间的向量相似度确定为词向量对应的待标准化实体之间的实体相似度。
35.在一些实施例中,存在待标准化实体a、待标准化实体b和待标准化实体c。确定待标准化实体a对应的词向量a,确定待标准化实体b对应的词向量b,确定待标准化实体c对应的词向量c。将词向量a与词向量b之间的向量相似度,确定为待标准化实体a与待标准化实体b之间的实体相似度。将词向量a与词向量c之间的向量相似度,确定为待标准化实体a与待标准化实体c之间的实体相似度。将词向量b与词向量c之间的向量相似度,确定为待标准化实体b与待标准化实体c之间的实体相似度。
36.可选地,确定待标准化实体对应的词向量,包括:将待标准化实体输入预设模型,获得待标准化实体对应的词向量;预设模型为词典模型、tf-idf(term frequency

inverse document frequency,词频-逆文档频率)模型或word2vec词嵌入模型。
37.可选地,确定词向量两两之间的向量相似度,包括:通过余弦相似度算法、欧氏距离或马氏距离确定词向量两两之间的向量相似度。
38.可选地,根据各实体相似度构建相似度无向图,包括:通过无向边连接实体相似度大于预设阈值的两个待标准化实体,获得相似度无向图。
39.在一些实施例中,通过余弦相似度算法计算词向量两两之间的向量相似度,通过无向边连接实体相似度大于0.8的两个待标准化实体。例如:存在待标准化实体a和待标准化实体c。确定待标准化实体a对应的词向量a,确定待标准化实体c对应的词向量c。通过余弦相似度算法计算词向量a与词向量c之间的相似度为0.9,将待标准化实体a和待标准化实体c作为节点,通过无向边连接待标准化实体a和待标准化实体c。
40.可选地,根据相似度无向图确定待标准化实体的标准实体,包括:确定相似度无向图对应的最大连通子图;在最大连通子图中随机选取一个待标准化实体确定为最大连通子图中各待标准化实体的标准实体。
41.可选地,通过图遍历算法确定相似度无向图对应的最大连通子图。
42.在一些实施例中,相似度无向图对应的最大连通子图存在多个。
43.在一些实施例中,结合图2所示,图2为相似度无向图的示意图,如图所示,存在10个待标准化实体,例如:第一待标准化实体1、第二待标准化实体2、第三待标准化实体3、第
四待标准化实体4、第五待标准化实体5、第六待标准化实体6、第七待标准化实体7、第八待标准化实体8、第九待标准化实体9和第十待标准化实体10。第一待标准化实体1连接第二待标准化实体2和第四待标准化实体4,第二待标准化实体2连接第四待标准化实体4、第三待标准化实体3和第五待标准化实体5,第六待标准化实体6不与任何待标准化实体连接,第七待标准化实体7连接第八待标准化实体8、第九待标准化实体9和第十待标准化实体10,第十待标准化实体10连接第九待标准化实体9。其中,第一待标准化实体1、第二待标准化实体2、第三待标准化实体3、第四待标准化实体4和第五待标准化实体5构成一个最大连通子图。第七待标准化实体7、第八待标准化实体8、第九待标准化实体9和第十待标准化实体10构成一个最大连通子图。
44.可选地,结合图3所示,本公开实施例提供另一种用于实体标准化的方法,包括:
45.步骤s301,获取多个待标准化实体;
46.步骤s302,确定待标准化实体两两之间的实体相似度;
47.步骤s303,根据各实体相似度构建相似度无向图;
48.步骤s304,确定相似度无向图对应的最大连通子图;
49.步骤s305,在最大连通子图中随机选取一个待标准化实体确定为最大连通子图中各待标准化实体的标准实体。
50.采用本公开实施例提供的用于实体标准化的方法,通过获取多个待标准化实体;确定待标准化实体两两之间的实体相似度;根据各实体相似度构建相似度无向图;确定相似度无向图对应的最大连通子图;在最大连通子图中随机选取一个待标准化实体确定为最大连通子图中各待标准化实体的标准实体。这样,能够在待标准化实体没有对应的标准实体的情况下,通过最大连通子图自动确定各待标准化实体对应的标准实体,不需要人为参与,提高了确定待标准化实体对应的标准实体的效率。
51.可选地,根据相似度无向图确定待标准化实体的标准实体,包括:确定相似度无向图对应的最大连通子图;将最大连通子图发送给预设的命名审核系统,命名审核系统用于响应于用户的调整指令对最大连通子图进行调整,并响应于用户的命名指令确定调整后的最大连通子图中各待标准化实体的标准实体。
52.在一些实施例中,响应于用户的调整指令对最大连通子图进行调整,即,响应于用户的调整指令删除最大连通子图中待标准化实体与待标准化实体之间的无向边。
53.在一些实施例中,响应于用户的调整指令对最大连通子图进行调整,即,响应于用户的调整指令增加最大连通子图中待标准化实体与待标准化实体之间的无向边。
54.在一些实施例中,响应于用户的命名指令确定调整后的最大连通子图中各待标准化实体的标准实体,即,响应于用户的命名指令在最大连通子图中选取一个待标准化实体确定为该最大连通子图中各待标准化实体的标准实体。
55.在一些实施例中,响应于用户的命名指令确定调整后的最大连通子图中各待标准化实体的标准实体,即,响应于用户的命名指令,直接为最大连通子图中各待标准化实体标注对应的标准实体。
56.结合图4所示,本公开实施例提供一种用于实体标准化的方法,包括:
57.步骤s401,获取多个待标准化实体;
58.步骤s402,确定待标准化实体两两之间的实体相似度;
59.步骤s403,根据各实体相似度构建相似度无向图;
60.步骤s404,确定相似度无向图对应的最大连通子图;
61.步骤s405,将最大连通子图发送给预设的命名审核系统,命名审核系统用于响应于用户的调整指令对最大连通子图进行调整,并响应于用户的命名指令确定调整后的最大连通子图中各待标准化实体的标准实体。
62.采用本公开实施例提供的用于实体标准化的方法,通过构建相似度无向图,确定相似度无向图对应的最大连通子图,将最大连通子图发送给命名审核系统,由人工为最大连通子图中各待标准化实体赋予对应的标准实体,能够在待标准实体不存在对应的预设标准实体的情况下,准确的确定各待标准实体对应的标准实体。
63.结合图5所示,本公开实施例提供一种用于实体标准化的装置,包括:获取模块501、相似度确定模块502、相似度无向图确定模块503和命名模块504。获取模块501,被配置为获取多个待标准化实体;相似度确定模块502,被配置为确定待标准化实体两两之间的实体相似度;相似度无向图确定模块503,被配置为根据各实体相似度构建相似度无向图;命名模块504,被配置为根据相似度无向图确定待标准化实体的标准实体。
64.采用本公开实施例提供的用于实体标准化的装置,通过获取模块获取多个待标准化实体;相似度确定模块确定待标准化实体两两之间的实体相似度;相似度无向图确定模块根据各实体相似度构建相似度无向图;命名模块根据相似度无向图确定待标准化实体的标准实体。这样,通过构建待标准化实体的相似度无向图,由相似度无向图确定待标准化实体的标准实体,不需要用到待标准化实体对应的预设标准实体。能够在不存在待标准化实体对应的预设标准实体的情况下,为待标准化实体确定标准实体。
65.结合图6所示,本公开实施例提供一种电子设备,包括处理器(processor)600和存储器(memory)601。可选地,该装置还可以包括通信接口(communication interface)602和总线603。其中,处理器600、通信接口602、存储器601可以通过总线603完成相互间的通信。通信接口602可以用于信息传输。处理器600可以调用存储器601中的逻辑指令,以执行上述实施例的用于实体标准化的方法。
66.此外,上述的存储器601中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
67.存储器601作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令/模块。处理器600通过运行存储在存储器601中的程序指令/模块,从而执行功能应用以及数据处理,即实现上述实施例中用于实体标准化的方法。
68.存储器601可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器601可以包括高速随机存取存储器,还可以包括非易失性存储器。
69.采用本公开实施例的电子设备,通过获取多个待标准化实体;确定待标准化实体两两之间的实体相似度;根据各实体相似度构建相似度无向图;根据相似度无向图确定待标准化实体的标准实体。这样,通过构建待标准化实体的相似度无向图,由相似度无向图确定待标准化实体的标准实体,不需要用到待标准化实体对应的预设标准实体。能够在不存在待标准化实体对应的预设标准实体的情况下,为待标准化实体确定标准实体。
70.本公开实施例提供了一种存储介质,存储有程序指令,所述序指令在运行时,执行上述用于实体标准化的方法。
71.本公开实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述用于实体标准化的方法。
72.上述的计算机可读存储介质可以是暂态计算机可读存储介质,也可以是非暂态计算机可读存储介质。
73.本公开实施例的技术方案可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括一个或多个指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质,包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
74.以上描述和附图充分地示出了本公开的实施例,以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。而且,本技术中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的,除非上下文清楚地表明,否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地,如在本技术中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外,当用于本技术中时,术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素,和/或组件的存在,但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下,由语句“包括一个
…”
限定的要素,并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。本文中,每个实施例重点说明的可以是与其他实施例的不同之处,各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言,如果其与实施例公开的方法部分相对应,那么相关之处可以参见方法部分的描述。
75.本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,可以取决于技术方案的特定应用和设计约束条件。所述技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能,但是这种实现不应认为超出本公开实施例的范围。所述技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
76.本文所披露的实施例中,所揭露的方法、产品(包括但不限于装置、设备等),可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,可以仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示
或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例。另外,在本公开实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
77.附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。在附图中的流程图和框图所对应的描述中,不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发生,有时不同的操作或步骤之间不存在特定的顺序。例如,两个连续的操作或步骤实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1