一种图谱生成方法、装置、设备及介质与流程

文档序号:29805179发布日期:2022-04-23 21:28阅读:123来源:国知局
一种图谱生成方法、装置、设备及介质与流程

1.本发明涉及数据处理技术领域,尤其涉及一种图谱生成方法、装置、设备及介质。


背景技术:

2.随着科技的发展与时代的进步,越来越多的内容完成了信息化、数字化。随着数字化的程度越来越高,互联网上的数据越来越多,呈几何倍数增长。然而这些海量的数据大多为杂乱无章的数据,绝大部分数据因为无法转换成有效信息而浪费了它的价值。


技术实现要素:

3.本发明实施例提供了一种图谱生成方法、装置、设备及介质,用以生成杂乱无章的数据对应的知识图谱。
4.第一方面,本发明实施例提供了一种图谱生成方法,所述方法包括:
5.根据每个文本中包含的信息,生成图谱生成表格;
6.针对所述图谱生成表格中每条记录,获取该条记录中关键词所在的列对应的目标关键词,创建第一节点并将所述目标关键词记录到所述第一节点中;获取该条记录中各属性的目标属性值,创建与目标属性值数量对应的第二节点,并连接每个第二节点与所述第一节点,在每个第二节点中对应记录获取的目标属性值,生成该条记录对应的子知识图谱。
7.进一步地,所述方法还包括:
8.针对每个目标属性值,判断其他子知识图谱的第三节点中记录的属性值是否与该目标属性值相同,若相同,则将该子知识图谱中记录该目标属性值的第二节点与所述其他子知识图谱中记录该目标属性值的第三节点融合。
9.进一步地,所述方法还包括:
10.针对所述图谱生成表格中每个属性,将该属性的相同的属性值添加到融合表格;
11.针对每个目标属性值,若所述融合表格中包含该目标属性值,且已生成的其他子知识图谱中包含记录该目标属性值的第四节点,将该子知识图谱中记录该目标属性值的第二节点与所述第四节点融合。
12.进一步地,所述根据每个文本中包含的信息,生成图谱生成表格包括:
13.针对每个文本,根据预先保存的关键词,获取该文本中包含的目标关键词,在所述图谱生成表格中增加一条记录,将所述目标关键词记录到增加的该条记录中关键词对应列;根据预先保存的该目标关键词的每个属性,在该文本中获取该属性对应的目标属性值,并将该目标属性值记录到该条记录中对应属性所在的列。
14.第二方面,本发明实施例还提供了一种图谱生成装置,所述装置包括:
15.生成模块,用于根据每个文本中包含的信息,生成图谱生成表格;
16.处理模块,用于针对所述图谱生成表格中每条记录,获取该条记录中关键词所在的列对应的目标关键词,创建第一节点并将所述目标关键词记录到所述第一节点中;获取该条记录中各属性的目标属性值,创建与目标属性值数量对应的第二节点,并连接每个第
二节点与所述第一节点,在每个第二节点中对应记录获取的目标属性值,生成该条记录对应的子知识图谱。
17.进一步地,所述处理模块,还用于针对每个目标属性值,判断其他子知识图谱的第三节点中记录的属性值是否与该目标属性值相同,若相同,则将该子知识图谱中记录该目标属性值的第二节点与所述其他子知识图谱中记录该目标属性值的第三节点融合。
18.进一步地,所述处理模块,还用于针对所述图谱生成表格中每个属性,将该属性的相同的属性值添加到融合表格;针对每个目标属性值,若所述融合表格中包含该目标属性值,且已生成的其他子知识图谱中包含记录该目标属性值的第四节点,将该子知识图谱中记录该目标属性值的第二节点与所述第四节点融合。
19.进一步地,所述生成模块,具体用于针对每个文本,根据预先保存的关键词,获取该文本中包含的目标关键词,在所述图谱生成表格中增加一条记录,将所述目标关键词记录到增加的该条记录中关键词对应列;根据预先保存的该目标关键词的每个属性,在该文本中获取该属性对应的目标属性值,并将该目标属性值记录到该条记录中对应属性所在的列。
20.第三方面,本发明实施例还提供了一种电子设备,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时实现上述任一项所述的图谱生成的步骤。
21.第四方面,本发明实施例还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的图谱生成的步骤。
22.由于在本发明实施例中,电子设备根据每个文本中记录的信息,生成图谱生成表格,针对图谱生成表格中的每条记录,获取该条记录中的关键词所在的列的目标关键词,创建第一节点,将目标关键词记录在第一节点中,创建该条记录中各属性的目标属性值对应的第二节点,并连接第二节点与第一节点,从而生成该条记录对应的子知识图谱。因为在本发明实施例中,电子设备首先根据每个文本中记录的信息,生成图谱生成表格,根据该图谱生成表格中的每条记录生成对应的子知识图谱,每个子知识图谱的每个节点中记录有目标关键词或者属性值,从而生成了杂乱无章的数据对应的知识图谱。
附图说明
23.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
24.图1为本发明实施例提供的一种图谱生成方法过程示意图;
25.图2为本发明实施例提供的一种生成的知识图谱示意图;
26.图3为本发明实施例提供的一种图谱生成装置结构示意图;
27.图4为本发明提供的一种电子设备结构示意图。
具体实施方式
28.下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本
发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
29.为了生成杂乱无章的数据对应的知识图谱,本发明实施例提供了一种图谱生成方法、装置、设备及介质。
30.实施例1:
31.图1为本发明实施例提供的一种图谱生成方法过程示意图,该过程包括以下步骤:
32.s101:根据每个文本中保存的信息,生成图谱生成表格。
33.本发明实施例提供的图谱生成方法应用于电子设备,该电子设备可以为pc或服务器等智能设备。
34.在本发明实施例中,为了生成图谱,电子设备可以先生成图谱生成表格,后续根据该图谱生成表格生成对应的知识图谱。具体的,可以是电子设备针对接收到的文本,获取文本中包含的关键词及各属性的属性值,在图谱生成表格中新增加一条记录,将获取到的关键词及各属性的属性值对应记录在该新增加的记录中。
35.s102:针对所述图谱生成表格中每条记录,获取该条记录中关键词所在的列对应的目标关键词,创建第一节点并将所述目标关键词记录到所述第一节点中;获取该条记录中各属性的目标属性值,创建与目标属性值数量对应的第二节点,并连接每个第二节点与所述第一节点,在每个第二节点中对应记录获取的目标属性值,生成该条记录对应的子知识图谱。
36.电子设备在获取到图谱生成表格之后,针对表格中每条记录,生成该条记录对应的子知识图谱。其中,图谱生成表格中每一行中包含的每个数据为每条记录。
37.在本发明实施例中,图谱生成表格中包含行和列,具体的在该图谱生成表格中每一行对应一条记录,每个列有对应的列名称,并针对每个列名称,每一条记录有该列名称对应的各属性的属性值。
38.其中,若该图谱生成表格为企业信息相关的表格,则该关键词所在的列可以为“企业名称”所在的列,针对每条记录,记录的企业名称是不同的,每条记录中的其他数据与该条记录中的“企业名称”具有关联关系。例如,某条记录中关键词所在的列中的目标关键词为企业a,该目标关键词对应的某一属性为地址,该条记录中地址这一属性所在的列中的属性值为地址a,则说明该企业a与该地址a之间具有关联关系。
39.因此在本发明实施例中,电子设备针对图谱生成表格中的每条记录,可以先获取该条记录中关键词所在的列中的目标关键词。该目标关键词即为该条记录中与其他数据之间存在关联关系的数据,电子设备在获取到该条记录中的目标关键词后,可以先创建第一节点,并将该目标关键词记录在该创建完成的第一节点中。
40.具体的,在本发明实施例中,电子设备可以针对每条记录,获取该条记录中各属性的目标属性值,若该图谱生成表格为企业相关的表格,则该条记录中各属性可以为“法人证件号码”、“企业地址”等,该各属性的目标属性值即为目标关键词对应属性的具体属性值。电子设备可以获取该条记录中各属性的目标属性值的数量,创建该目标属性值的数量对应的第二节点,在每个第二节点中对应记录获取到的各属性的目标属性值。由于该各属性的目标属性值与目标关键词之间具有关联关系,因此电子设备可以建立每个第二节点与第一节点的之间的连接关系。电子设备即可生成该条记录对应的子知识图谱。
41.因为在本发明实施例中,电子设备首先根据每个文本中记录的信息,生成图谱生成表格,根据该图谱生成表格中的每条记录生成对应的子知识图谱,每个子知识图谱的每个节点中记录有目标关键词或者属性值,从而生成了杂乱无章的数据对应的知识图谱。
42.实施例2:
43.为了简化知识图谱,在上述实施例的基础上,在本发明实施例中,所述方法还包括:
44.针对每个目标属性值,判断其他子知识图谱的第三节点中记录的属性值是否与该目标属性值相同,若相同,则将该子知识图谱中记录该目标属性值的第二节点与所述其他子知识图谱中记录该目标属性值的第三节点融合。
45.由于采用上述方式创建每条记录对应的子知识图谱后,同一属性值可能不止和一个关键词有关,也就是说不同关键词对应的节点中记录的属性值可能相同。
46.为了简化知识图谱,并建立不同子知识图谱之间的联系,电子设备在建构了该子知识图谱后,可以针对该子知识图谱中的每个目标属性值,获取其他子知识图谱中的第三节点中记录的属性值,并判断获取到的每个属性值中是否存在与该目标属性值相同的属性值,若获取到的每个属性值中存在与该目标属性值相同的属性值,则说明该目标属性值不止和一种目标关键词有关,电子设备可以将记录该目标属性值的第二节点与其他子知识图谱中记录该目标属性值的第三节点融合,融合为同一个节点。
47.由于在融合节点的过程中,该子知识图谱中记录该目标属性值的节点与记录对应的目标关键词的节点之间的连接关系并不会消失,因此电子设备不需要修改节点之间的连接关系。其中,在将记录相同的属性值的节点融合为同一个节点时,可以采用共指消解技术。具体的,如何采用共指消解技术融合节点为现有技术,在此不再赘述。
48.为了简化知识图谱,在上述各实施例的基础上,在本发明实施例中,所述方法还包括:
49.针对所述图谱生成表格中每个属性,将该属性的相同的属性值添加到融合表格;
50.针对每个目标属性值,若所述融合表格中包含该目标属性值,且已生成的其他子知识图谱中包含记录该目标属性值的第四节点,将该子知识图谱中记录该目标属性值的第二节点与所述第四节点融合。
51.为了简化知识图谱,在本发明实施例中,电子设备可以在获取到图谱生成表格后,可以获取图谱生成表格中每个属性所在的列中相同的属性值,将相同的属性值添加到融合表格中。
52.电子设备在构建了该子知识图谱后,可以针对该子知识图谱中每个目标属性值,判断融合表格中是否包含该目标属性值,若融合表格中包含该目标属性值,则电子设备获取已经生成的其他子知识图谱中是否包含记录该目标属性值的第四节点,若已生成的其他子知识图谱中包含记录该目标属性值的第四节点,则电子设备将该子知识图谱中记录该目标属性值的第二节点与该其他子知识图谱中的第四节点融合。
53.另外,在本发明实施例中,为了提高杂乱的数据的价值,电子设备还可以针对每个图谱生成表格,确定该图谱生成表格中某一属性所在的列中相同的属性值占所有的属性值的比例。例如,电子设备可以确定企业相关的数据对应的图谱生成表格中,相同的法人证件号码、负责人证件号码或股东证件号码占对应的属性包含的总属性值的比例,从而确定出
一人对应多企业的比例,若法人证件号码对应的属性值中包含5个相同的属性值,共包含8个属性值,则该存在相同属性值的比例为5/8。另外,还可以确定企业相关的数据对应的图谱生成表格中,注册地址、证照地址或实际经营地址相同的比例,从而确定出一地对应多个企业的比例。
54.图2为本发明实施例提供的一种生成的知识图谱示意图。
55.由图2可知,电子设备生成的知识图谱的节点中记录的属性值或目标关键词可以包括:证件号码、人、企业、地址、电话、事件、组织、车等信息,因此在本发明实施例中电子设备可以建立起繁杂的数据之间的联系,另外,用户可以通过生成的知识图谱确定证件号码、人、企业、地址、电话、事件、组织、车等信息之间的联系。
56.其中,用户可以在图谱中根据某个事件,可以通过该事件关联的人、关联地点、关联物品以及关联组织等信息进一步了解该事件,从而可以提高数据的价值。
57.实施例3:
58.为了获取图谱生成表格,在上述各实施例的基础上,在本发明实施例中,所述根据每个文本中包含的信息,生成图谱生成表格包括:
59.针对每个文本,根据预先保存的关键词,获取该文本中包含的目标关键词,在所述图谱生成表格中增加一条记录,将所述目标关键词记录到增加的该条记录中关键词对应列;根据预先保存的该目标关键词的每个属性,在该文本中获取该属性对应的目标属性值,并将该目标属性值记录到该条记录中对应属性对应的属性值所在的列。
60.由于电子设备采集到的文本中的数据通常为不同关键词的相关数据,其中关键词可以为企业、人物、事件等。另外,不同关键词对应的属性不同,例如企业对应的属性可以包括企业的地址、企业的法人,事件对应的属性可以包括事件的发生时间、事件的关联物品。因此在本发明实施例中,在生成图谱生成表格时,电子设备针对获取到的每个文本,可以先获取该文本包含的目标关键词,根据该文本包含的目标关键词,进而确定该文本中包含的该关键词对应的属性的属性值。
61.具体的,电子设备针对每个文本,可以先获取该文本中包含的目标关键词,其中,电子设备中可以预先保存有不同关键词,电子设备判断该文本中是否包含有预先保存的任一关键词,若该文本中包含有预先保存的任一关键词,则确定该关键词为目标关键词。为了生成图谱生成表格,电子设备可以在该目标关键词对应的图谱生成表格中增加一条记录,将该目标关键词记录在增加的该条记录中关键词所在的列中,关键词所在的列可以为任意一列,例如可以为第一列。其中,该文本可以为用户在存储在数据库、对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库或异质数据库等数据库中获取到的文本,用户在获取到该文本后,将文本发送至电子设备,也可以为电子设备在上述数据库中按照预设的时间间隔获取到的。
62.另外,针对不同关键词对应要获取的属性各不相同,因此电子设备中还预先保存有每个关键词与对应的属性的对应关系,电子设备针对每个文本,在获取到该文本中包含的目标关键词后,可以根据保存的关键词与对应的属性的对应关系,获取该目标关键词对应的每个属性,并获取文本中该每个属性的属性值,将获取的每个属性值记录在该条记录中。
63.具体的,电子设备中可以预先保存有每个属性对应的属性值,电子设备可以针对
该目标关键词对应的每个属性,确定该文本中是否存在该属性对应的任一属性值,若存在该属性对应的任一属性值,则确定该属性值为该属性的目标属性值。图谱生成表格中包含该属性所在的列,电子设备将该目标属性值记录在该条记录的该属性所在的列中。
64.由于在本发明实施例中,电子设备可以将获取到的文本中包含的目标关键词,及目标关键词对应的各属性的属性值记录在对应的图谱生成表格中,并针对图谱生成表格,生成该条记录对应的子知识图谱,从而可以生成该文本对应的子知识图谱。可以充分利用繁杂的互联网信息,从中发现有价值的数据。
65.实施例4:
66.图3为本发明实施例提供的一种图谱生成装置结构示意图,所述装置包括:
67.生成模块301,用于根据每个文本中包含的信息,生成图谱生成表格;
68.处理模块302,用于针对所述图谱生成表格中每条记录,获取该条记录中关键词所在的列对应的目标关键词,创建第一节点并将所述目标关键词记录到所述第一节点中;获取该条记录中各属性的目标属性值,创建与目标属性值数量对应的第二节点,并连接每个第二节点与所述第一节点,在每个第二节点中对应记录获取的目标属性值,生成该条记录对应的子知识图谱。
69.在一种可能的实施方式中,所述处理模块302,还用于针对每个目标属性值,判断其他子知识图谱的第三节点中记录的属性值是否与该目标属性值相同,若相同,则将该子知识图谱中记录该目标属性值的第二节点与所述其他子知识图谱中记录该目标属性值的第三节点融合。
70.在一种可能的实施方式中,所述处理模块302,还用于针对所述图谱生成表格中每个属性,将该属性的相同的属性值添加到融合表格;针对每个目标属性值,若所述融合表格中包含该目标属性值,且已生成的其他子知识图谱中包含记录该目标属性值的第四节点,将该子知识图谱中记录该目标属性值的第二节点与所述第四节点融合。
71.在一种可能的实施方式中,所述生成模块301,具体用于针对每个文本,根据预先保存的关键词,获取该文本中包含的目标关键词,在所述图谱生成表格中增加一条记录,将所述目标关键词记录到增加的该条记录中关键词对应列;根据预先保存的该目标关键词的每个属性,在该文本中获取该属性对应的目标属性值,并将该目标属性值记录到该条记录中对应属性所在的列。
72.实施例5:
73.图4为本发明提供的一种电子设备结构示意图,在上述各实施例的基础上,本发明实施例还提供了一种电子设备,如图4所示,包括:处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信;
74.所述存储器403中存储有计算机程序,当所述程序被所述处理器401执行时,使得所述处理器401执行如下步骤:
75.根据每个文本中包含的信息,生成图谱生成表格;
76.针对所述图谱生成表格中每条记录,获取该条记录中关键词所在的列对应的目标关键词,创建第一节点并将所述目标关键词记录到所述第一节点中;获取该条记录中各属性的目标属性值,创建与目标属性值数量对应的第二节点,并连接每个第二节点与所述第
一节点,在每个第二节点中对应记录获取的目标属性值,生成该条记录对应的子知识图谱。
77.在一种可能的实施方式中,所述方法还包括:
78.针对每个目标属性值,判断其他子知识图谱的第三节点中记录的属性值是否与该目标属性值相同,若相同,则将该子知识图谱中记录该目标属性值的第二节点与所述其他子知识图谱中记录该目标属性值的第三节点融合。
79.在一种可能的实施方式中,所述方法还包括:
80.针对所述图谱生成表格中每个属性,将该属性的相同的属性值添加到融合表格;
81.针对每个目标属性值,若所述融合表格中包含该目标属性值,且已生成的其他子知识图谱中包含记录该目标属性值的第四节点,将该子知识图谱中记录该目标属性值的第二节点与所述第四节点融合。
82.在一种可能的实施方式中,所述根据每个文本中包含的信息,生成图谱生成表格包括:
83.针对每个文本,根据预先保存的关键词,获取该文本中包含的目标关键词,在所述图谱生成表格中增加一条记录,将所述目标关键词记录到增加的该条记录中关键词对应列;根据预先保存的该目标关键词的每个属性,在该文本中获取该属性对应的目标属性值,并将该目标属性值记录到该条记录中对应属性所在的列。
84.上述服务器提到的通信总线可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
85.通信接口用于上述电子设备与其他设备之间的通信。
86.存储器可以包括随机存取存储器(random access memory,ram),也可以包括非易失性存储器(non-volatile memory,nvm),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
87.上述处理器可以是通用处理器,包括中央处理器、网络处理器(network processor,np)等;还可以是数字指令处理器(digital signal processing,dsp)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
88.实施例6:
89.在上述各实施例的基础上,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行时实现如下步骤:
90.所述存储器中存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行如下步骤:
91.根据每个文本中包含的信息,生成图谱生成表格;
92.针对所述图谱生成表格中每条记录,获取该条记录中关键词所在的列对应的目标关键词,创建第一节点并将所述目标关键词记录到所述第一节点中;获取该条记录中各属性的目标属性值,创建与目标属性值数量对应的第二节点,并连接每个第二节点与所述第一节点,在每个第二节点中对应记录获取的目标属性值,生成该条记录对应的子知识图谱。
93.在一种可能的实施方式中,所述方法还包括:
94.针对每个目标属性值,判断其他子知识图谱的第三节点中记录的属性值是否与该目标属性值相同,若相同,则将该子知识图谱中记录该目标属性值的第二节点与所述其他子知识图谱中记录该目标属性值的第三节点融合。
95.在一种可能的实施方式中,所述方法还包括:
96.针对所述图谱生成表格中每个属性,将该属性的相同的属性值添加到融合表格;
97.针对每个目标属性值,若所述融合表格中包含该目标属性值,且已生成的其他子知识图谱中包含记录该目标属性值的第四节点,将该子知识图谱中记录该目标属性值的第二节点与所述第四节点融合。
98.在一种可能的实施方式中,所述根据每个文本中包含的信息,生成图谱生成表格包括:
99.针对每个文本,根据预先保存的关键词,获取该文本中包含的目标关键词,在所述图谱生成表格中增加一条记录,将所述目标关键词记录到增加的该条记录中关键词对应列;根据预先保存的该目标关键词的每个属性,在该文本中获取该属性对应的目标属性值,并将该目标属性值记录到该条记录中对应属性所在的列。
100.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
101.本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
102.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
103.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
104.显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1