本发明涉及一种知识领域的知识图谱构建方法,属于知识图谱构建。
背景技术:
1、知识图谱最初是用于存储网页信息中抽取的实体及实体间的关系信息。每个实体具有自身的属性,它涵盖范围包括诸如人物、事件、地点等。两个实体间的关系作为实体间的桥梁,将两个实体联系在一起,两个实体和它们之间的关系就组成了知识信息,这样的知识信息被称为三元组。从结构上看,知识图谱是一个有向图,也就是一种拥有多对多关系的数据结构,在这种数据结构中实体可以看作是图的顶点,关系可以看作是图的边。许多实体和它们之间的关系可以存储在一个知识图谱中,这些实体和它们之间的关系又组成了新的三元组知识,而且这种三元组结构赋予了两个实体清晰的逻辑关系,能够更好地进行知识融合、知识推理与上层应用构建,因此知识图谱多用于人类现有已知的知识领域(如初等数学知识领域、初等物理知识领域等)中,通过知识图谱将某一知识领域中繁杂的知识内容可视化、结构化和逻辑化,降低学习该知识体系中内容的难度,同时也方便查找该知识体系中的内容。现有技术通过多个三元组将某一知识体系中所有名词和名词之间的简单关系串联起来形成知识图谱。整个知识图谱以名词作为节点,节点过多,导致整个知识图谱过于臃肿且有很多无效的内容,同时过于臃肿的知识图谱在进行组合搜索时的效率差。
技术实现思路
1、本发明要解决的技术问题是:如何在某一知识领域中构建一个简洁且高效的知识图谱。
2、本发明所提出的技术方案是:一种知识领域的知识图谱构建方法,包括以下步骤:
3、步骤1:确定需要构建知识图谱的知识领域,并通过中文命名的实体识别方法将所述知识领域内的全部知识实体提取出来形成知识实体集合a,如下式(1)所示,
4、a={a1、a2、...、an} (1),
5、式(1)中,a1是所述知识领域所提取的第一个知识实体,a2是所述知识领域所提取的第二个知识实体,an所述知识领域所提取的最后一个知识实体;
6、将所述知识实体集合a中的所有实体按照提取顺序采用不同的素数p进行素数索引,形成素数索引知识实体集合ap,如下式(2)所示,
7、
8、式(2)中,是经过素数p1进行索引的所述知识领域所提取的第一个知识实体,是经过素数p2进行索引的所述知识领域所提取的第二个知识实体,是经过素数pn进行索引的所述知识领域所提取的最后一个知识实体;
9、步骤2:将所述知识领域内公认的定理、推论、性质、公理、法则或公式全部提取出来作为关系知识形成关系知识集合b,如下式(3)所示,
10、b={b1、b2、...、bm} (3),
11、式(3)中,b1是所述知识领域所提取的第一个关系知识,b2是所述知识领域所提取的第二个关系,bm所述知识领域所提取的最后一个关系知识;
12、通过jieba分词器对所述关系知识集合b中的第一个关系知识进行实体划分并将划分后的结果收集起来形成第一个关系知识实体集合如下式(4)所示,
13、
14、式(4)中,a1、a2、...、aq均是大于等于1同时小于等于n的自然数,且a1≠a2≠...≠aq;
15、然后将所述关系知识集合b中剩余的所有关系知识依次进行实体划分并将划分后的结果依次收集起来形成对应的关系知识实体集合,将所有的关系知识实体集合收集起来形成关系知识实体集合矩阵ba,如下式(5)所示,
16、
17、式(5)中,b1、b2、...、bq均是大于等于1同时小于等于n的自然数,且b1≠b2≠...≠bq;n1、n2、...、nq均是大于等于1同时小于等于n的自然数,且n1≠n2≠...≠nq;
18、步骤3:将关系知识集合b中的第一关系知识b1和所述第一关系知识实体集合中的所有关系知识实体提取出来形成构建所述知识领域知识图谱的第一关系节点c1,然后按照第一关系节点c1的构建方法依次将所述将关系知识集合b中剩余的关系知识所对应的关系节点构建出来,并将所有的关系节点收集起来形成关系节点矩阵c,如下式(6)所示,
19、
20、式(6)中,c2是所述第二关系知识b2和所述第二关系知识实体集合中的所有关系知识实体提取出来形成构建所述知识领域知识图谱的第二关系节点;cn是所述最后一个关系知识bn和所述最后关系知识实体集合中的所有关系知识实体提取出来形成构建所述知识领域知识图谱的最后一个关系节点;
21、依次将所有的所述关系节点所包含的所有关系知识实体上的素数索引相乘形成所述关系节点的标记,并将标记后的所有标记关系节点收集起来形成标记关系节点矩阵cq,如下式(6)所示,
22、
23、式(6)中,是带有标记的第一标记关系节点;q1是所述c1的标记且是所述c1中所有关系知识实体的素数索引相乘的结果;是带有标记的第二标记关系节点;q2是所述c2的标记且是所述c2中所有关系知识实体的素数索引相乘的结果;是带有标记的最后一个标记关系节点;qn是所述cn的标记且是所述cn中所有关系知识实体的素数索引相乘的结果;
24、步骤4:将所述关系节点矩阵cq中所有标记关系节点依次两两进行连接判断,看进行判断的两个标记关系节点各自所包含的关系知识实体集合之间是否有交集,若有交集,则将两个标记关系节点连接起来;若无交集,则说明两个标记节点之间并无联系不用连接;当所述关系节点矩阵cq中所有标记关系节点均依次两两进行连接判断后,所述知识领域的知识图谱构建完成。
25、进一步,所述步骤4中的连接判断过程还可以按照以下过程进行:看进行判断的两个标记关系节点各自的标记之间是否有除了1以外的公约数,若有,则将两个标记关系节点连接起来;若无,则说明两个标记节点之间并无联系不用连接。
26、本发明的有益效果:由于本发明在对某一知识领域进行知识图谱的构建过程中采用了关系节点作为知识图谱的一个个节点,用关系节点和关系节点之间是否有相同的知识实体作为两个关系节点是否连接的判断,使得整个知识图谱的节点大大缩小,同时由于一个知识领域内公认的定理、推论、性质、公理、法则或公式都是有限的,因此我们构建的知识图谱也是简洁,不会过于臃肿。同时对节点所包含的实体用其素数索引乘积来表示,可以多组合多实体查询节点可以快速完成,只需要计算相应的目标实体索引乘积和节点包含的实体素数索引乘积存在非1公约数即可进行组合搜索。
1.一种知识领域的知识图谱构建方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的知识领域的知识图谱构建方法,其特征在于:所述步骤4中的连接判断过程还可以按照以下过程进行:看进行判断的两个标记关系节点各自的标记之间是否有除了1以外的公约数,若有,则将两个标记关系节点连接起来;若无,则说明两个标记节点之间并无联系不用连接。