一种基于有向图数据融合的电力知识图谱构建方法和装置与流程

文档序号:31862892发布日期:2022-10-19 06:33阅读:103来源:国知局
一种基于有向图数据融合的电力知识图谱构建方法和装置与流程

1.本发明涉及电力知识图谱数据融合技术领域,尤其涉及一种基于有向图数据融合的电力知识图谱构建方法和装置。


背景技术:

2.电网作为人工构建的最大的互联网络,本身与图数据结构有着天然相似性,电网运行所涉及的电气物理定律、规则手册、数据变化规律、设备台账、系统告警日志等都是保障电网安全稳定的知识,而目前这些资料相对零散孤立,不能有效的融合连接在一起,不能便捷的使用基于图的算法开展智能分析应用的开发。利用知识图谱技术可以完整体现电网中海量数据挖掘、展示、映射、整合过程,使得电力系统中的“信息孤岛”得到解决。
3.国家电网公司拥有的数据资产具有体量大、类型多、渠道广等性质,虽然国家电网公司正在积极开展大数据研究的应用开发,启动了多项应用研究项目,但总体数据应用有限,且各专业多局限在本专业范畴,跨专业、跨业务的各类数据融合明显不足,大量数据的潜在价值未被充分挖掘。
4.虽然知识图谱在电力领域的知识获取和展示的功能上发挥着巨大的作用,但是电力领域知识图谱的构建需要从不同的数据源中录入专业数据,这时就会面临可能出现的数据冗余或冲突的问题,而又必须将不同数据融合后才能构成一个完整的知识图谱。


技术实现要素:

5.本发明提供一种基于有向图数据融合的电力知识图谱构建方法和装置,将电力领域中不同业务流程间相似节点进行融合,实现电力公司复杂业务体系下的全业务流程融合,形成一张精简且高质量的电力领域知识图谱。技术方案如下:
6.第一方面,本发明实施例提供一种基于有向图数据融合的电力知识图谱构建方法,包括:
7.分别从电力领域的多源数据中获取得到实体、关系和属性信息;
8.根据所获取到的实体、关系和属性信息,构建电力领域的知识图谱g;
9.确定所述知识图谱g中出度值最大的节点v
max
,并计算所述节点v
max
的疑似节点集合v
sim

10.从所述疑似节点集合v
sim
中,确定出与所述节点v
max
连接结构相似的备选节点;
11.判断所述备选节点与所述节点v
max
是否属于同一实体,并依据判断结果进行数据融合。
12.可选地,所述确定所述知识图谱g中出度值最大的节点v
max
,并计算所述节点v
max
的疑似节点集合v
sim
,包括:
13.统计所述知识图谱g中每个节点vi的边ei和e-i
的集合,并分别计算每个节点vi的出度值|ei|和入度值|e-i
|;其中,每个节点v具有指出和指入两种不同类型的边,分别表示为:
14.ei={e
i-j
,e
i-m
,...,e
i-n
}
15.e-i
={e
j-i
,e
m-i
,...,e
n-i
}
16.其中,ei表示从节点vi为起点向外指出的所有邻边的集合,e-i
表示指入节点vi的所有邻边的集合;
17.在被首次选取的节点中,确定出度值最大的节点为所述节点v
max

18.以所述节点v
max
为起点,确定所述节点v
max
所有的邻接节点v
next
;其中v
next
={v
next1
,v
next2
,v
next3
,...,v
nextn
},邻接节点v
next
与所述节点v
max
构成的关系表示为e
max
={e
max-next1
,e
max-next2
,...,e
max-nextn
};
19.依次选取所述邻接节点v
next
中的各个节点,将满足关系e
max
的所有节点存入疑似节点集合v
sim
中,得到所述疑似节点集合v
sim

20.可选地,所述方法还包括:
21.记录所述疑似节点集合v
sim
中,每个节点的出现次数,得到所述疑似节点集合v
sim
中各节点的次数集合s
simn

22.其中:s
sim
={s
sim1
,s
sim2
,s
sim3
,...,s
simn
},s
simn
表示疑似节点v
simn
出现的次数。
23.可选地,从所述疑似节点集合v
sim
中,确定出与所述节点v
max
连接结构相似的备选节点,包括:
24.根据公式依次计算所述疑似节点集合v
sim
中的各个节点与所述节点v
max
的重合度εn;其中εn表示第n个疑似节点与所述节点v
max
的重合度;
25.将重合度εn大于第一阈值的疑似节点,确定为候选疑似节点集合v
sim

26.利用公式依次计算所述候选疑似节点集合v
sim
中的各个节点与所述节点v
max
的连接结构的余弦相似度cossim;其中和是两个节点后继邻接的向量表示,和是两个节点前继邻接的向量表示;
27.在所述余弦相似度cossim值大于第二阈值的节点中,选取其中值最大的第一数量的节点作为备选节点。
28.可选地,和的获取方法包括:将与所述节点v
max
的后继邻接节点集合以及与所述候选疑似节点集合v
simn
中的节点v
simn
的后继邻接节点集合取并集;对于并集后的节点,如果与所述节点v
max
相连,取值为1,否则取值为0,如果与节点v
simn
相连,取值为1,否则取值为0;
29.和的获取方法包括:将与所述节点v
max
的前继邻接节点集合以及与所述候选疑似节点集合v
simn
中的节点v
simn
的前继邻接节点集合取并集;对于并集后的节点,如果与所述节点v
max
相连,取值为1,否则取值为0,如果与节点v
simn
相连,取值为1,否则取值为0。
30.可选地,所述第一阈值为0.6,所述第二阈值为0.7,ω1取值为0.65,ω2取值为0.35。
31.可选地,判断所述备选节点与所述节点v
max
是否属于同一实体,并依据判断结果进行数据融合,包括:
32.如果所述备选节点与所述节点v
max
属于同一实体,则将所述备选节点的属性与所
述节点v
max
的属性进行融合,然后将所述备选节点与所述节点v
max
的非重复部分融入所述节点v
max
中,并删除所述备选节点;
33.如果所述备选节点与所述节点v
max
不属于同一实体,则将所述备选节点与所述节点v
max
的重复部分融合为一个新的节点,所述新的节点同时保留所述备选节点与所述节点v
max
的属性部分,同时所述备选节点和所述节点v
max
仅保留非重合部分的连接结构。
34.可选地,所述知识图谱g表示为g(v,e,r),其中:
35.v={v1,v2,v3,...,vn}
36.e={e
1-2
,e
1-3
,e
2-3
,...,e
i-j
}
37.r={r1,r2,r3,...,rn}
38.v,e,r分别表示所述知识图谱g中的节点、边和属性,vn表示所述知识图谱g中的第n个节点,e
i-j
表示第i个节点指向第j个节点的边,rn表示第n个节点的属性信息,i,j,n均为正整数。
39.第二方面,本发明实施例提供一种基于有向图数据融合的电力知识图谱构建装置,包括:
40.信息获取模块,用于分别从电力领域的多源数据中获取得到实体、关系和属性信息;
41.知识图谱构建模块,用于根据所获取到的实体、关系和属性信息,构建电力领域的知识图谱g;
42.第一确定模块,用于确定所述知识图谱g中出度值最大的节点v
max
,并计算所述节点v
max
的疑似节点集合v
sim

43.第二确定模块,用于从所述疑似节点集合v
sim
中,确定出与所述节点v
max
连接结构相似的备选节点;
44.数据融合模块,用于判断所述备选节点与所述节点v
max
是否属于同一实体,并依据判断结果进行数据融合。
45.第三方面,本发明实施例提供一种基于有向图数据融合的电力知识图谱构建装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面公开的一种基于有向图数据融合的知识图谱构建方法的步骤。
46.本发明的上述技术方案的有益效果是:
47.本发明实施例提供一种基于有向图数据融合的电力知识图谱构建方法和装置,包括:分别从电力领域的多源数据中获取得到实体、关系和属性信息;根据所获取到的实体、关系和属性信息,构建电力领域的知识图谱g;确定所述知识图谱g中出度值最大的节点v
max
,并计算所述节点v
max
的疑似节点集合v
sim
;从所述疑似节点集合v
sim
中,确定出与所述节点v
max
连接结构相似的备选节点;判断所述备选节点与所述节点v
max
是否属于同一实体,并依据判断结果进行数据融合。本发明实施例在构建电力数据的知识图谱后,利用图数据的相似节点识别技术,将电力领域中不同业务流程间相似节点进行融合,为跨专业业务流程优化、深入挖掘和利用数据资产提供支撑,实现业务数据的跨业务贯通,实现电力公司复杂业务体系下的全业务流程融合,形成一张精简且高质量的电力领域知识图谱,提高电力数据的知识图谱的检索效率。
附图说明
48.图1为本发明实施例提供的一种基于有向图数据融合的电力知识图谱构建方法的流程图;
49.图2~图8分别为本发明实施例中的部分实体关系示意图;
50.图9为本发明实施例提供的一种基于有向图数据融合的电力知识图谱构建装置的结构示意图。
具体实施方式
51.为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。在下面的描述中,提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此,本领域技术人员应该清楚,可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外,为了清楚和简洁,省略了对已知功能和构造的描述。
52.应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
53.在本发明的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
54.本发明实施例提供一种基于有向图数据融合的电力知识图谱构建方法,将电力领域中不同业务流程间相似节点进行融合,实现电力公司复杂业务体系下的全业务流程融合,形成一张精简且高质量的电力领域知识图谱。如图1所示,方法包括:
55.步骤101,分别从电力领域的多源数据中获取得到实体、关系和属性信息。
56.本发明实施例中,多源数据可以包括互联网公开的电力领域数据资源、电网公司各类系统产生的数据、相关监测装置采集监测到的数据等等,这些数据展现形式不一,主要有文本、数字、图表等。
57.本发明实施例中,每个实体就是一个节点,每个节点都有边,边即为关系,每个节点也可能会有属性。在实际应用中,通过程序自动抽取设备的名称、变电站的名称等可以作为实体,实体表示具体的事物,实体的内部特征用属性来表示。例如从互联网中爬取到以下文本数据:“江苏电网公司下辖13个市供电分公司,主要包括:国网南京供电公司、国网徐州供电公司、国网无锡供电公司、国网常州供电公司、国网泰州供电公司等”。从该段文本信息中可以抽取出实体有:江苏电网公司、国网南京供电公司、国网徐州供电公司、国网无锡供电公司、国网常州供电公司、国网泰州供电公司,这些实体间的关系是包含关系,可以组成一张图,如图2所示。
58.需要说明的是,本发明实施例中关于如何抽取获得这些实体、关系、属性信息的方法都是成熟的现有技术,本发明实施例对此不在赘述。
59.步骤102,根据所获取到的实体、关系和属性信息,构建电力领域的知识图谱g。
60.本发明实施例中,知识图谱g可以表示为g(v,e,r),其中:
61.v={v1,v2,v3,...,vn}
62.e={e
1-2
,e
1-3
,e
2-3
,...,e
i-j
}
63.r={r1,r2,r3,...,rn}
64.v,e,r分别表示所述知识图谱g中的节点(实体)、边(关系)和属性,vn表示所述知识图谱g中的第n个节点(实体),e
i-j
表示第i个节点指向第j个节点的边,rn表示第n个节点的属性信息,i,j,n均为正整数。
65.步骤103,确定所述知识图谱g中出度值最大的节点v
max
,并计算所述节点v
max
的疑似节点集合v
sim

66.本发明实施例中,步骤103可以具体包括:
67.步骤1031,统计所述知识图谱g中每个节点vi的边ei和e-i
的集合,并分别计算每个节点vi的出度值|ei|和入度值|e-i
|。
68.本发明实施例中,每个节点v具有指出和指入两种不同类型的边,可以分别表示为:
69.ei={e
i-j
,e
i-m
,...,e
i-n
}
70.e-i
={e
j-i
,e
m-i
,...,e
n-i
}
71.其中,ei表示从节点vi为起点向外指出的所有邻边的集合,e-i
表示指入节点vi的所有邻边的集合,节点vi的出度值可以表示为“|ei|”,节点vi的入度值可以表示为“|e-i
|”。
72.以图3所示为例,e
1-2
表示节点v1指向节点v2,r1表示节点v1的属性信息,e1和e-1
可以分别表示为:
73.e1={e
1-2
,e
1-6
,e
1-7
}
74.e-1
={e
4-1
}
75.即,节点v1的出度值为:|e1|=3,节点v1的入度值为:|e-1
|=1。
76.步骤1032,在被首次选取的节点中,确定出度值最大的节点为所述节点v
max

77.本发明实施例在计算得到每个节点vi的出度值和入度值后,选出所有节点中出度值最大的节点,如果该节点不是首次被选取,那么按照出度值大小依次向后查找首次被选取的节点,并这些节点标记为v
max

78.步骤1033,以所述节点v
max
为起点,确定所述节点v
max
所有的邻接节点v
next
;其中v
next
={v
next1
,v
next2
,v
next3
,...,v
nextn
},邻接节点v
next
与所述节点v
max
构成的关系可以表示为e
max
={e
max-next1
,e
max-next2
,...,e
max-nextn
}。
79.继续以图3所示为例,以节点v5为例,它的所有后继邻接节点集合为:
[0080]vnext
={v3,v8}
[0081]
步骤1034,依次选取所述邻接节点v
next
中的各个节点,将满足关系e
max
的所有节点存入疑似节点集合v
sim
中,得到所述疑似节点集合v
sim

[0082]
在依次选取邻接节点v
next
中的节点时,可以首先选取v
next1
节点并向上游走一步,寻找所有满足关系e
max-n
ext1
的节点,并将这些节点存入一个集合中,表示为:v
sim
={v
sim1
,v
sim2
,v
sim3
,...,v
simn
}。然后以同样的方法选取v
next2
直至v
nextn
,得到与节点v
max
疑似的所有疑似节点集合v
sim

[0083]
进一步优选地,在步骤1034后,还可以包括步骤1035,记录所述疑似节点集合v
sim
中,每个节点的出现次数,得到所述疑似节点集合v
sim
中各节点的次数集合s
simn

[0084]
本发明实施例中,在疑似节点集合v
sim
中,如果某个节点首次出现,则该节点的出现次数记为1,否则在之前的次数上加1。然后以同样的方法得到其他节点对应的次数集合。本发明实施例中疑似节点集合v
sim
中各节点的次数集合可以表示为:s
sim
={s
sim1
,s
sim2
,s
sim3
,...,s
simn
},其中s
simn
表示疑似节点v
simn
出现的次数。
[0085]
步骤104,从所述疑似节点集合v
sim
中,确定出与所述节点v
max
连接结构相似的备选节点。
[0086]
本发明实施例中,步骤104具体包括:
[0087]
步骤1041,依次计算所述疑似节点集合v
sim
中的各个节点与所述节点v
max
的重合度εn;利用的公式如下:
[0088][0089]
其中εn表示第n个疑似节点与所述节点v
max
的重合度,εn值越大,说明疑似节点与节点v
max
的重合度越高。
[0090]
步骤1042,将重合度εn大于第一阈值的疑似节点,确定为候选疑似节点集合v
sim

[0091]
其中第一阈值例如为0.6,本发明对此不作限定。本发明实施例选出εn大于0.6的疑似节点,将这些节点重新表示为候选疑似节点集合v
sim

[0092]
步骤1043,依次计算所述候选疑似节点集合v
sim
中的各个节点与所述节点v
max
的连接结构的余弦相似度cossim,利用到的公式如下:
[0093][0094]
其中,cossim表示这些节点与节点v
max
的余弦相似度,cossim值越大,说明两者之间的连接结构越相似。
[0095]
本发明实施例中,和是两个节点后继邻接的向量表示,其获取方法可以包括:首先,将与v
max
节点的后继邻接节点集合以及与v
simn
节点的后继邻接节点集合取并集;对于并集后的节点,如果与v
max
节点相连,取值为1,否则取值为0,最终得到一个一维向量;然后用同样的方法来表示向量。
[0096]
举例来讲,假设节点v
max
的后继邻接节点有











节点(











表示编号),而节点v
simn
的后继邻接节点有









节点,那么节点v
max
与节点v
simn
的并集可以表示为:















节点;如果编号节点与节点v
max
相连,取值为1,否则取值为0,如果编号节点与节点v
simn
相连,取值为1,否则取值为0。参考如下表1,两个向量的表示分别为:
[0097][0098]
此时,
[0099]
继续参考下表2所示为例,和是节点v
13
与节点v5的后继邻接的向量表示。
[0100]
表2
[0101][0102]
和是两个节点前继邻接的向量表示,其获取方法可以包括:首先,将与v
max
节点的前继邻接节点集合以及与v
simn
节点的前继邻接节点集合取并集;对于并集后的节点,如果与v
max
节点相连,取值为1,否则取值为0,最终得到一个一维向量;然后用同样的方法来表示向量。参考下表3所示为例,和是节点v
13
与节点v5的前继邻接的向量表示。
[0103]
表3
[0104][0105]
本发明实施例对于ω1和ω2取值不作限定,可以根据实际需求灵活设定。示例性的,ω1取值可以为0.65,ω2取值可以为0.35。
[0106]
步骤1044,在所述余弦相似度cossim值大于第二阈值的节点中,选取其中值最大的第一数量的节点作为备选节点。
[0107]
其中第二阈值例如为0.7,第一数量例如为3,本发明对此不作限定。
[0108]
本发明实施例中,在依次计算得到候选疑似节点集合v
sim
中的各个节点与节点v
max
的连接结构的余弦相似度cossim后,选取cossim值大于0.7的节点,并选取其中值最大的3个节点作为备选节点。
[0109]
步骤105,判断所述备选节点与所述节点v
max
是否属于同一实体,并依据判断结果进行数据融合。
[0110]
本发明实施例判断备选节点与节点v
max
是否属于同一实体,然后根据不同的判断结果进行不同的数据融合操作。在完成数据融合后继续返回执行步骤101,直到得到一张精简且高质量的电力领域知识图谱。
[0111]
本发明实施例中,判断备选节点与节点v
max
是否属于同一实体的方法可以包括:比较两节点的文本相似性,或者利用实体消歧,或者利用共指消解来判断两个节点是否属于同一实体。
[0112]
本发明实施例中,不同的判断结果对应不同的数据融合操作,具体包括:
[0113]
如果备选节点与节点v
max
属于同一实体,则将备选节点的属性与节点v
max
的属性进行融合,然后将备选节点与节点v
max
的非重复部分融入节点v
max
中,并删除备选节点;
[0114]
如果备选节点与节点v
max
不属于同一实体,则将备选节点与节点v
max
的重复部分融合为一个新的节点,所述新的节点同时保留备选节点与节点v
max
的属性部分,同时备选节点和节点v
max
仅保留非重合部分的连接结构。
[0115]
结合图4所示,将节点v5与节点v
13
融合后,电力领域知识图谱g中部分实体关系图相较于原来未融合(图3所示)的部分实体关系图更加简洁。
[0116]
为了便于对本发明实施例的进一步理解,申请人进一步举例说明。
[0117]
示例一:
[0118]
如果实体1“江苏电网公司”的其中一个属性为“成立时间:1988年”;实体2“国网江
苏省电力有限公司”的其中一个属性为“成立时间:1988年12月25日”。那么两个实体融合后,属性则用更全的,变成“成立时间:1988年12月25日”。
[0119]
示例二:
[0120]
如果实体1“江苏电网公司”的其中一个属性为“成立时间:1988年”;实体2“国网江苏省电力有限公司”的其中一个属性为“成立日期:12月25日”。那么两个实体融合后,属性则都保留,同时具有两个属性,变成“成立时间:1988年;成立日期:12月25日”。
[0121]
示例三:
[0122]
参考图5所示,备选节点“江苏电网公司”和v
max
节点“国网江苏公司”属于同一实体,可以进行合并,它们相同的部分只保留v
max
节点的,而备选节点有但v
max
节点没有的(图中节点“国网无锡供电公司”),则直接融入v
max
节点中,如图6所示。
[0123]
示例四:节点融合示例
[0124]
参考图7所示,节点“断路器保护ta断线”是v
max
节点“断路器保护tv断线”的备选节点,而它们不属于同一实体,所以融合后如图8所示。
[0125]
将备选节点与v
max
节点出度部分中重合的部分进行融合,同时由于新节点与这两个节点同级且相关,所以它们之间有层关系“或”。
[0126]
示例五:属性融合示例
[0127]
节点“断路器保护tv断线”包含属性“故障等级:危急;故障类型:异常”,而节点“断路器保护ta断线”包含属性“故障等级:危急”;
[0128]
则两个节点融合后的节点为“断路器保护tv断线/断路器保护ta断线”,该节点包含属性“故障等级:危急/危急;故障类型:异常/无”;属性值的顺序与节点名称的顺序一一对应,如果被融合的节点不具备该属性,则用“无”进行填补。
[0129]
本发明实施例提供的基于有向图数据融合的电力知识图谱构建方法,首先构建电力数据的知识图谱,然后利用图数据的相似节点识别技术,将电力领域中不同业务流程间相似节点进行融合,为跨专业业务流程优化、深入挖掘和利用数据资产提供支撑,实现业务数据的跨业务贯通,实现电力公司复杂业务体系下的全业务流程融合,形成一张精简且高质量的电力领域知识图谱,提高电力数据的知识图谱的检索效率。
[0130]
本发明实施例将知识图谱引入互联网电力领域政策信息分析场景,提出了一种基于有向图数据融合的电力知识图谱构建方法,对来自不同数据源的信息进行相似节点识别,将识别出来的相似节点进行融合,从而构建一张更精简的电力领域知识图谱。
[0131]
本发明实施例通过基于有向图数据融合的电力知识图谱构建方法,相比于传统的知识图谱构建方式,整个图谱的结构更加精简,节点数量更加少,节点之间的关联关系更加简化,进而降低了电力领域知识图谱的存储空间,同时提高了检索效率。
[0132]
基于前文本发明实施例提供的一种基于有向图数据融合的电力知识图谱构建方法,本发明实施例还提供一种基于有向图数据融合的电力知识图谱构建装置,如图9所示,装置包括:
[0133]
信息获取模块100,用于分别从电力领域的多源数据中获取得到实体、关系和属性信息;
[0134]
知识图谱构建模块200,用于根据所获取到的实体、关系和属性信息,构建电力领域的知识图谱g;
[0135]
第一确定模块300,用于确定所述知识图谱g中出度值最大的节点v
max
,并计算所述节点v
max
的疑似节点集合v
sim

[0136]
第二确定模块400,用于从所述疑似节点集合v
sim
中,确定出与所述节点v
max
连接结构相似的备选节点;
[0137]
数据融合模块500,用于判断所述备选节点与所述节点v
max
是否属于同一实体,并依据判断结果进行数据融合。
[0138]
本发明实施例中,知识图谱g可以表示为g(v,e,r),其中:
[0139]
v={v1,v2,v3,...,vn}
[0140]
e={e
1-2
,e
1-3
,e
2-3


,e
i-j
}
[0141]
r={r1,r2,r3,...,rn}
[0142]
v,e,r分别表示所述知识图谱g中的节点、边和属性,vn表示所述知识图谱g中的第n个节点,e
i-j
表示第i个节点指向第j个节点的边,rn表示第n个节点的属性信息,i,j,n均为正整数。
[0143]
本发明实施例中的第一确定模块300还可以进一步包括:
[0144]
统计子模块,用于统计所述知识图谱g中每个节点vi的边ei和e-i
的集合,并分别计算每个节点vi的出度值|ei|和入度值|e-i
|;其中,每个节点v具有指出和指入两种不同类型的边,分别表示为:
[0145]ei
={e
i-j
,e
i-m
,...,e
i-n
}
[0146]
e-i
={e
j-i
,e
m-i
,...,e
n-i
}
[0147]
其中,ei表示从节点vi为起点向外指出的所有邻边的集合,e-i
表示指入节点vi的所有邻边的集合;
[0148]
第一确定子模块,用于在被首次选取的节点中,确定出度值最大的节点为所述节点v
max

[0149]
第二确定子模块,用于以所述节点v
max
为起点,确定所述节点v
max
所有的邻接节点v
next
;其中v
next
={v
next1
,v
next2
,v
next3
,...,v
nextn
},邻接节点v
next
与所述节点v
max
构成的关系表示为e
max
={e
max-next1
,e
max-next2
,...,e
max-nextn
};
[0150]
第三确定子模块,用于依次选取所述邻接节点v
next
中的各个节点,将满足关系e
max
的所有节点存入疑似节点集合v
sim
中,得到所述疑似节点集合v
sim

[0151]
以及进一步优选地,第一确定模块300还可以包括:
[0152]
记录子模块,用于记录所述疑似节点集合v
sim
中,每个节点的出现次数,得到所述疑似节点集合v
sim
中各节点的次数集合s
simn

[0153]
其中:s
sim
={s
sim1
,s
sim2
,s
sim3
,...,s
simn
},s
simn
表示疑似节点v
simn
出现的次数。
[0154]
本发明实施例中的第二确定模块400还可以进一步包括:
[0155]
第一计算子模块,用于根据公式依次计算所述疑似节点集合v
sim
中的各个节点与所述节点v
max
的重合度εn;其中εn表示第n个疑似节点与所述节点v
max
的重合度;
[0156]
第四确定子模块,用于将重合度εn大于第一阈值的疑似节点,确定为候选疑似节点集合v
sim

[0157]
第二计算子模块,用于利用公式第二计算子模块,用于利用公式
依次计算所述候选疑似节点集合v
sim
中的各个节点与所述节点v
max
的连接结构的余弦相似度cossim;其中和是两个节点后继邻接的向量表示,和是两个节点前继邻接的向量表示;
[0158]
第五确定子模块,用于在所述余弦相似度cossim值大于第二阈值的节点中,选取其中值最大的第一数量的节点作为备选节点。
[0159]
本发明实施例中,和的获取方法可以包括:将与所述节点v
max
的后继邻接节点集合以及与节点v
simn
的后继邻接节点集合取并集;并集后的节点表示向量;如果与所述节点v
max
相连,取值为1,否则取值为0,得到一个一维向量;然后用同样的方法来表示向量;
[0160]
和的获取方法可以包括:将与所述节点v
max
的前继邻接节点集合以及与节点v
simn
的前继邻接节点集合取并集;并集后的节点表示向量;如果与所述节点v
max
相连,取值为1,否则取值为0,得到一个一维向量;然后用同样的方法来表示向量。
[0161]
其中第一阈值可以为0.6,第二阈值可以为0.7,ω1取值为0.65,ω2取值为0.35。
[0162]
本发明实施例中的数据融合模块500具体用于:
[0163]
如果判断所述备选节点与所述节点v
max
属于同一实体,则将所述备选节点的属性与所述节点v
max
的属性进行融合,然后将所述备选节点与所述节点v
max
的非重复部分融入所述节点v
max
中,并删除所述备选节点;
[0164]
如果判断所述备选节点与所述节点v
max
不属于同一实体,则将所述备选节点与所述节点v
max
的重复部分融合为一个新的节点,所述新的节点同时保留所述备选节点与所述节点v
max
的属性部分,同时所述备选节点和所述节点v
max
仅保留非重合部分的连接结构。
[0165]
进一步地,本发明实施例还提供一种基于有向图数据融合的电力知识图谱构建装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如前文所述的基于有向图数据融合的电力知识图谱构建方法的步骤。
[0166]
需要说明的是,该基于有向图数据融合的电力知识图谱构建控制装置是与前述实施例中的基于有向图数据融合的电力知识图谱构建方法对应的装置,上述方法实施例中的所有实现手段均适用于该基于有向图数据融合的电力知识图谱构建装置的实施例中,也能达到相同的技术效果。
[0167]
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1