佛学知识图谱构建方法、装置、设备及存储介质与流程

文档序号:26841711发布日期:2021-10-08 23:03阅读:214来源:国知局
佛学知识图谱构建方法、装置、设备及存储介质与流程

1.本发明涉及大数据领域,尤其涉及一种佛学知识图谱构建方法、装置、设 备及存储介质。


背景技术:

2.知识图谱是一种图结构的知识库,属于知识工程的范畴,同时也是目前实 现人工智能的重要基础措施。知识图谱在应用,扩展了原科学知识图谱的内涵, 使其应用场景得到延伸。
3.但是在现有技术中,构建佛学知识图谱主要是通过从文本中获取实体的属 性名和属性值的结构化数据,将其映射成对应的关系,再将其保存到知识图谱 存储数据库中,这种构建方法没有完整的知识图谱概念,连最重要的知识体系 都没有形成,造成知识图谱冗余,知识表达能力差,完全无法做知识推理。


技术实现要素:

4.本发明的主要目的在于解决现有的佛学知识图谱构建方式造成冗余的技术 问题。
5.本发明第一方面提供了一种佛学知识图谱构建方法,包括:
6.利用网页爬虫工具从预设的数据源中爬取佛学知识图谱构建知识;
7.根据所述佛学知识图谱构建知识的数据来源确定对应的知识提取方式;
8.根据所述知识提取方式对所述佛学知识图谱构建知识进行知识提取,得到 佛学知识数据;
9.提取所述佛学知识数据中的实体、所述实体的属性信息以及各所述实体之 间的关系信息;
10.调用预置融合算法对各所述实体、各所述实体的属性信息以及各所述实体 之间的关系信息进行融合,得到图谱数据;
11.根据所述图谱数据构建佛学知识图谱。
12.可选的,在本发明第一方面的第一种实现方式中,所述佛学知识图谱构建 知识包括结构化数据和非结构化数据,所述根据所述知识提取方式对所述佛学 知识图谱构建知识进行知识提取,得到佛学知识数据包括:
13.若所述佛学知识图谱构建知识为结构化数据,则通过构建正则表达式对所 述佛学知识图谱构建知识进行知识抽取,并将抽取到的知识特征构建三元组数 据,将所述三元组数据作为佛学知识数据;
14.若所述佛学知识图谱构建知识为非结构化数据,则采用大数据技术从所述 佛学知识图谱构建知识中筛选佛学数据,利用基于语义标注的关联模型算法对 所述佛学数据进行知识抽取,并将抽取到的知识特征构建三元组数据,将所述 三元组数据作为佛学知识数据。
15.可选的,在本发明第一方面的第二种实现方式中,所述提取所述佛学知识 数据中的实体、所述实体的属性信息以及各所述实体之间的关系信息包括:
16.提取所述佛学知识数据中的实体、所述实体的属性信息和关系信息;
17.对所述关系信息进行聚类,得到关系层级结构矩阵;
18.根据所述关系层级结构矩阵,采用预置实体关系对齐算法,确定各所述实 体之间的关系信息。
19.可选的,在本发明第一方面的第三种实现方式中,所述对所述关系信息进 行聚类,得到关系层级结构矩阵包括:
20.通过预置向量转换模型对所述三元组数据进行关系向量转换,得到关系向 量;
21.通过预置聚类算法分别对所有关系向量、每个关系的所有关系向量进行聚 类,对应得到关系聚类向量以及每个关系的关系子向量;
22.基于关系向量以及对应的关系聚类向量、关系子向量,构建关系层级结构 矩阵;其中,所述关系层级结构矩阵由顶层关系聚类层、中间层关系层以及底 层关系子类层构成,其中,所述关系聚类层由所有关系聚类向量构成,所述关 系层由所有关系向量构成,所述关系子类层由每个关系的所有关系子向量构成。
23.可选的,在本发明第一方面的第四种实现方式中,所述调用预置融合算法 对各所述实体、各所述实体的属性信息以及各所述实体之间的关系信息进行融 合,得到图谱数据包括:
24.将抽取到的各所述实体进行分组,得到多个实体组;
25.通过动态规划算法分别计算各实体组中实体之间的相似度;
26.根据所述相似度对同组中的实体进行合并去重,得到图谱数据。
27.可选的,在本发明第一方面的第五种实现方式中,所述调用预置融合算法 对各所述实体、各所述实体的属性信息以及各所述实体之间的关系信息进行融 合,得到图谱数据材包括:
28.通过概念抽象技术对各所述实体进行本体抽象,得到对应的实体本体;
29.采用基于图神经网络构建的融合模型对各所述实体本体进行融合处理,得 到初步融合结果;
30.计算所述初步融合结果的融合程度值,并与预设融合度进行比较;
31.若大于预设融合度,则输出图谱数据;
32.若不大于预设融合度,则重新执行融合步骤,直到大于预设融合度后输出 图谱数据。
33.可选的,在本发明第一方面的第六种实现方式中,其特征在于,在所述提 取所述佛学知识数据中的实体、所述实体的属性信息以及各所述实体之间的关 系信息包括:
34.统计所述实体之间的各关系信息的频率;
35.当所述频率低于预设阈值时,则将对应的关系信息进行删除。
36.本发明第二方面提供了一种佛学知识图谱构建装置,包括:
37.数据爬取模块,用于利用网页爬虫工具从预设的数据源中爬取佛学知识图 谱构建知识;
38.匹配模块,用于根据所述佛学知识图谱构建知识的数据来源确定对应的知 识提
取方式;
39.知识提取模块,用于根据所述知识提取方式对所述佛学知识图谱构建知识 进行知识提取,得到佛学知识数据;
40.实体提取模块,用于提取所述佛学知识数据中的实体、所述实体的属性信 息以及各所述实体之间的关系信息;
41.融合模块,用于调用预置融合算法对各所述实体、各所述实体的属性信息 以及各所述实体之间的关系信息进行融合,得到图谱数据;
42.构建模块,用于根据所述图谱数据构建佛学知识图谱。
43.可选的,在本发明第二方面的第一种实现方式中,所述佛学知识包括结构 化数据和非结构化数据,所述知识提取模块具体用于:
44.当所述佛学知识为结构化数据时,通过构建正则表达式对所述佛学知识进 行知识抽取,并将抽取到的知识特征构建三元组数据,将所述三元组数据作为 佛学知识数据;
45.当所述佛学知识为非结构化数据时,采用大数据技术从所述佛学知识中筛 选佛学数据,利用基于语义标注的关联模型算法对所述佛学数据进行知识抽取, 并将抽取到的知识特征构建三元组数据,将所述三元组数据作为佛学知识数据。
46.可选的,在本发明第二方面的第二种实现方式中,所述实体提取模块包括:
47.提取单元,用于提取所述佛学知识数据中的实体、所述实体的属性信息和 关系信息;
48.聚类单元,用于对所述关系信息进行聚类,得到关系层级结构矩阵;
49.关系对齐单元,用于根据所述关系层级结构矩阵,采用预置实体关系对齐 算法,确定各所述实体之间的关系信息。
50.可选的,在本发明第二方面的第三种实现方式中,所述聚类单元具体用于:
51.通过预置向量转换模型对所述三元组数据进行关系向量转换,得到关系向 量;
52.通过预置聚类算法分别对所有关系向量、每个关系的所有关系向量进行聚 类,对应得到关系聚类向量以及每个关系的关系子向量;
53.基于关系向量以及对应的关系聚类向量、关系子向量,构建关系层级结构 矩阵;其中,所述关系层级结构矩阵由顶层关系聚类层、中间层关系层以及底 层关系子类层构成,其中,所述关系聚类层由所有关系聚类向量构成,所述关 系层由所有关系向量构成,所述关系子类层由每个关系的所有关系子向量构成。
54.可选的,在本发明第二方面的第四种实现方式中,所述融合模块具体用于:
55.将抽取到的各所述实体进行分组,得到多个实体组;
56.通过动态规划算法分别计算各实体组中实体之间的相似度;
57.根据所述相似度对同组中的实体进行合并去重,得到图谱数据。
58.可选的,在本发明第二方面的第五种实现方式中,所述融合模块具体还用 于:
59.通过概念抽象技术对各所述实体进行本体抽象,得到对应的实体本体;
60.采用基于图神经网络构建的融合模型对各所述实体本体进行融合处理,得 到初步融合结果;
61.计算所述初步融合结果的融合程度值,并与预设融合度进行比较;
62.若大于预设融合度,则输出图谱数据;
63.若不大于预设融合度,则重新执行融合步骤,直到大于预设融合度后输出 图谱数据。
64.可选的,在本发明第二方面的第六种实现方式中,所述佛学知识图谱构建 装置还包括删除模块,所述删除模块具体用于:
65.统计所述实体之间的各关系信息的频率;
66.当所述频率低于预设阈值时,则将对应的关系信息进行删除。
67.本发明第三方面提供了一种佛学知识图谱构建设备,包括:存储器和至少 一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通 过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述 佛学知识图谱构建设备执行上述的佛学知识图谱构建方法。
68.本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储 介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的佛学知识 图谱构建方法。
69.本发明的技术方案中,利用网页爬虫工具从预设的数据源中爬取佛学知识 图谱构建知识;根据所述佛学知识图谱构建知识的数据来源确定对应的知识提 取方式;根据所述知识提取方式对所述佛学知识图谱构建知识进行知识提取, 得到佛学知识数据;提取所述佛学知识数据中的实体、所述实体的属性信息以 及各所述实体之间的关系信息;调用预置融合算法对各所述实体、各所述实体 的属性信息以及各所述实体之间的关系信息进行融合,得到图谱数据;根据所 述图谱数据构建佛学知识图谱。本提案基于采集数据源确定知识特征提取方式 来针对性的解析佛学知识数据,从而获取精准的实体命名,并且还利用融合算 法对实体命名不同但是本体相同的实体进行融合,统一实体,最后基于融合后 的实体进行知识图谱的构建。
附图说明
70.图1为本发明实施例中佛学知识图谱构建方法的第一个实施例示意图;
71.图2为本发明实施例中佛学知识图谱构建方法的第二个实施例示意图;
72.图3为本发明实施例中佛学知识图谱构建方法的第三个实施例示意图;
73.图4为本发明实施例中佛学知识图谱构建方法的第四个实施例示意图;
74.图5为本发明实施例中佛学知识图谱构建装置的一个实施例示意图;
75.图6为本发明实施例中佛学知识图谱构建装置的另一个实施例示意图;
76.图7为本发明实施例中佛学知识图谱构建设备的一个实施例示意图。
具体实施方式
77.本发明的技术方案中,通过利用网页爬虫工具从预设的数据源中爬取佛学 知识图谱构建知识;根据所述佛学知识图谱构建知识的数据来源确定对应的知 识提取方式;根据所述知识提取方式对所述佛学知识图谱构建知识进行知识提 取,得到佛学知识数据;提取所述佛学知识数据中的实体、所述实体的属性信 息以及各所述实体之间的关系信息;调用预置融合算法对各所述实体、各所述 实体的属性信息以及各所述实体之间的关系信息进行融合,得到图谱数据;根 据所述图谱数据构建佛学知识图谱。本提案基于采集数据源确定知识特征提取 方式来针对性的解析佛学知识数据,从而获取精准的实体命名,并且还
利用融 合算法对实体命名不同但是本体相同的实体进行融合,统一实体,最后基于融 合后的实体进行知识图谱的构建。
78.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、
ꢀ“
第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或 先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的 实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括
”ꢀ
或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步 骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或 单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有 的其它步骤或单元。
79.为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本 发明实施例中佛学知识图谱构建方法的第一个实施例包括:
80.101、利用网页爬虫工具从预设的数据源中爬取佛学知识图谱构建知识;
81.可以理解的是,本发明的执行主体可以为佛学知识图谱构建装置,还可以 是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为 例进行说明。
82.需要强调的是,为保证数据的私密和安全性,上述爬取的佛学知识图谱构 建知识可以存储于一区块链的节点中。
83.在本实施例中,上述多个数据源至少包括网络数据源和佛学专业书籍数据 源,对应的数据如佛学教科书、文献、专著以及线上问诊数据等,在实际应用 中,对于不同的数据源除了统一采用上述的网页爬虫工具获取之外,还可以根 据不同的数据源选择不同的工具采集。具体地,对于网络数据源,其可以使用 网络爬虫(又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动抓 取万维网信息的程序或者脚本程序)抓取目标网站的网页,然后通过分析网页 的源码来获取网页中与佛学相关的知识。对于佛学专业书籍数据源,其可以从 网页图书馆或者是论文网站的数据库中读取电子文本,然后对电子文件进行知 识提取,得到佛学知识;进一步的,对于非电子格式的书籍,则需要通过扫描 或者是拍照识别的方式将其转换为电子格式的文本,然后再提取。
84.102、根据佛学知识图谱构建知识的数据来源确定对应的知识提取方式;
85.在本实施例中,首先是基于佛学知识图谱构建知识的数据来源确定所述佛 学知识图谱构建知识的数据类型,基于数据类型与知识特征提取方式的对应关 系,查询出与当前确定类型的佛学数据对应的知识特征提取方式,其中数据类 型至少包括结构化的佛学专业书籍、非结构化的网络佛学数据。
86.在本实施例中,所述结构化数据指由二维表结构来逻辑表达和实现的数据, 严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。也 称作行数据,一般特点是:数据以行为单位,一行数据表示一个实体的信息, 每一行数据的属性是相同的。非结构化数据,是数据结构不规则或不完整,没 有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格 式的办公文档、文本、图片、html、各类报表、图像和音频/视频信息等等。
87.103、根据知识提取方式对佛学知识图谱构建知识进行知识提取,得到佛学 知识数据;
88.在本实施例中,所述佛学知识数据包括至少两种数据类型的数据,从不同 数据源
中获取到的数据格式都会不同,也即是数据类型会不相同,其数据格式 的类型至少包括结构化类型和非结构化类型两种。
89.在本实施例中,对于具有固定结构模式的数据,在实现知识提取时,具体 可以根据文本数据中的行和列的标注信息来进行提取,将提取到的项目字段对 应的数据按照三元组的划分原理分开构建三元组知识数据,从而得到佛学知识 数据。对于不具备固定结构模式的数据,首先将抓取到的数据转换为文本数据 后,基于文本数据进行句子的提取,得到句子集合,然后调用预置知识抽取模 板对句子集合中有关佛学的特征词以及特征词之间的关系进行提抽取,最后将 抽取到的数据按照三元组数据划分原理进行划分,得到佛学知识数据。最后将 具有固定结构模式的数据和不具有固定结构模式的数据进行合并,得到最终的 佛学知识数据。
90.104、提取佛学知识数据中的实体、实体的属性信息以及各实体之间的关系 信息;
91.在该步骤中,具体可以包括在佛学知识数据中提取实体、实体的属性信息 以及各实体之间的关系信息,并将提取出的各实体、各实体的属性信息以及各 实体之间的关系信息以二维表的形式存储,而实体的提取,可以通过实体命名 识别模型来实现,该模型是基于具有实体标注的佛学文本数据进行训练得到的。 在实际应用中,其实体和属性之间的关系的提取还可以通过依存句法对佛学知 识数据进行分析得到,依存句法主要是通过分析语言单位内成分之前的依存关 系解释其句法结构,主张句子中核心动词是支配其他成分的中心成分,基于分 析得到核心词语进行前后依赖关系的分析,从而得到实体以及实体的属性和关 系信息。
92.105、调用预置融合算法对各实体、各实体的属性信息以及各实体之间的关 系信息进行融合,得到图谱数据;
93.在本实施例中,在实际应用中,由于佛学数据库中知识的来源会不同,存 在多种不同格式或者结构的情况,不同来源的数据其实体的命名会存在差异, 而导致知识质量参差不齐、意思重复等问题。对此,该步骤通过知识融合对实 体进行整合、消歧、加工,增强知识库内部的逻辑性和表达能力,并为佛学知 识图谱更新旧知识或补充新知识。
94.在本实施例中,融合实现具体可以采用图神经网络的融合模型和人工校验 相结合来实现,当然也可以是直接选择融合模型单独实现的,但是需要对融合 模型进行训练测试,在达到上线要求后,才能使用模型对实体进行融合;进一 步的,在使用融合模型之前还包括:对所述实体进行本体的抽象处理,抽象出 实体的本体盖面,将本体概念输入至融合模型中,融合模型计算本体之间的相 似度以及编辑距离、语义等参数,基于计算得到的参数将相同的实体合并,以 减少实体命名的多样性,保证了实体的统一。
95.106、根据图谱数据构建佛学知识图谱。
96.在本实施例中,根据所述图谱数据构建佛学知识图谱时,可以通过将图谱 数据输入到预置的图谱树中,构建佛学知识图谱。这里的图谱树指的是包含多 个父节点和子节点的树型结构图,具体的,在佛学知识体系中包含多个指定概 念,作为一个示例,该多个指定概念至少包括:流派分类、佛教神佛谱系、佛 教术语、石窟和造像艺术在本发明实施例中,可以针对各个指定概念,以指定 概念为根结点,以指定概念的下位概念为中间节点,以实体为叶子节点构建图 谱树。
97.以“流派分类”这棵图谱树举例来说,“大乘佛教”是“流派分类”概念的 子概念,其
属于中间节点,进一步,“汉传佛教”是“大乘佛教”概念的子概念, 其属于中间节点,“禅宗”则是一个具体的实体,其在“流派分类”这棵图谱树 中则属于叶子节点。为了描述方便,“流派分类”这棵图谱树的实例则可以表示 为“流派分类

大乘佛教

汉传佛教

禅宗”。
98.在本实施例中,通过利用网页爬虫工具从预设的数据源中爬取佛学知识图 谱构建知识;根据所述佛学知识图谱构建知识的数据来源确定对应的知识提取 方式;根据所述知识提取方式对所述佛学知识图谱构建知识进行知识提取,得 到佛学知识数据;提取所述佛学知识数据中的实体、所述实体的属性信息以及 各所述实体之间的关系信息;调用预置融合算法对各所述实体、各所述实体的 属性信息以及各所述实体之间的关系信息进行融合,得到图谱数据;根据所述 图谱数据构建佛学知识图谱。本提案基于采集数据源确定知识特征提取方式来 针对性的解析佛学知识数据,从而获取精准的实体命名,并且还利用融合算法 对实体命名不同但是本体相同的实体进行融合,统一实体,最后基于融合后的 实体进行知识图谱的构建。此外,本发明还涉及区块链技术,所述佛学知识图 谱构建知识可存储于区块链中。
99.请参阅图2,本发明实施例中佛学知识图谱构建方法的第二个实施例包括:
100.201、利用网页爬虫工具从预设的数据源中爬取佛学知识图谱构建知识;
101.本实施例中的步骤201与第一实施例中的步骤101相似,此处不再赘述。
102.202、若佛学知识图谱构建知识为结构化数据,则通过构建正则表达式对佛 学知识图谱构建知识进行知识抽取,并将抽取到的知识特征构建三元组数据, 将三元组数据作为佛学知识数据;
103.在该步骤中,其知识特征提取方式具体是通过对应关系表来查询得到,其 中,对应关系表中预先根据不同的数据类型设置有唯一特征提取方式,而在确 定了数据来源后,基于数据来源和接口的对应关系,确定接口id,基于接口id 查询对应关系中的相同id的字段,并提取该字段对应的行内容,从而得到对 应的数据类型信息,基于数据类型信息再确定知识特征提取方式。
104.在本实施例中,在实际应用中,对于结构化数据,所述构建正则表达式进 行知识抽取是指:先从采集的结构化数据中提取有用信息,再将这些信息转换 成xml文件,然后根据佛学知识图谱模型、通过递归算法将xml文件转换成 rdf文件。
105.203、若佛学知识图谱构建知识为非结构化数据,则采用大数据技术从佛学 知识图谱构建知识中筛选佛学数据,利用基于语义标注的关联模型算法对佛学 数据进行知识抽取,并将抽取到的知识特征构建三元组数据,将三元组数据作 为佛学知识数据;
106.对于非结构化数据,利用基于语义标注的pos

cbow关联模型算法抽取 其知识实体、关系和属性依次包括以下步骤:结合(佛学领域)知识和模式设定 非结构化短语的模式以对非结构化数据进行分词;采用pos

cbow关联模型 算法对分割的词汇进行去除冗余,以获取相应的实体、关系和属性。
107.204、提取佛学知识数据中的实体、实体的属性信息以及各实体之间的关系 信息;
108.205、调用预置融合算法对各实体、各实体的属性信息以及各实体之间的关 系信息进行融合,得到图谱数据;
109.206、根据图谱数据构建佛学知识图谱。
110.本实施例在上一实施例的基础上,基于采集数据源来确定知识特征提取方 式来
针对性的解析佛学数据,从而获取精准的实体命名,并且还利用融合算法 对实体命名不同但是本体相同的实体进行融合,统一实体,最后基于融合后的 实体进行知识图谱的构建,从而解决了由于佛学知识实体不统一而导致知识图 谱精度低的问题。
111.请参阅图3,本发明实施例中佛学知识图谱构建方法的第三个实施例包括:
112.301、利用网页爬虫工具从预设的数据源中爬取佛学知识图谱构建知识;
113.302、根据佛学知识图谱构建知识的数据来源确定对应的知识提取方式;
114.303、根据知识提取方式对佛学知识图谱构建知识进行知识提取,得到佛学 知识数据;
115.304、提取佛学知识数据中的实体、实体的属性信息和关系信息;
116.305、通过预置向量转换模型对三元组数据进行关系向量转换,得到关系向 量;
117.在实际应用中,知识图谱的数据基本结构主要为实体关系三元组,在一个 三元组(h,r,t)中,h为主体、t为客体、r为关系,例如三元组(南京清凉寺,属 于,法眼宗),纽约为南京清凉寺,美国为法眼宗,属于为关系。三元组是一种 直观的数据结构,主体和客体统称为实体,关系有不可逆的属性,在一个三元 组中,主体和客体不能互换。
118.通过预置的向量转换模型对三元组数据进行转换,得到关系向量。预置的 向量转换模型可以将字符型的三元组数据转换成向量型的三元组数据,也即将 字符型的关系数据转换成关系向量将字符型的主体数据转换成主体向量将 字符型的客体数据转换成客体向量需要说明的是,预置的向量转换模型为转换 嵌入(translating embedding,transe)模型,该模型可以将三元组数据转换成向量 形式。
119.306、通过预置聚类算法分别对所有关系向量、每个关系的所有关系向量进 行聚类,对应得到关系聚类向量以及每个关系的关系子向量;
120.在本实施例中,在知识图谱中,不同关系的含义可能会相同,例如,“所属 派别”和“所属流派”具有相同的含义,因此需要将表示相同含义的不同关系 分为一类,并设置同一类关系的关系聚类向量。在同类的关系中,每个关系的 关系向量与该类的关系聚类向量之间的欧式距离最小。
121.307、基于关系向量以及对应的关系聚类向量、关系子向量,构建关系层级 结构矩阵;
122.在本实施例中,关系层级结构矩阵由顶层关系聚类层、中间层关系层以及 底层关系子类层构成,其中,所述关系聚类层由所有关系聚类向量构成,所述 关系层由所有关系向量构成,所述关系子类层由每个关系的所有关系子向量构 成。
123.308、根据关系层级结构矩阵,采用预置实体关系对齐算法,确定各实体之 间的关系信息;
124.309、调用预置融合算法对各实体、各实体的属性信息以及各实体之间的关 系信息进行融合,得到图谱数据;
125.310、根据图谱数据构建佛学知识图谱。
126.本实施例在前实施例的基础上,详细描述了提取佛学知识数据中的实体、 实体的属性信息以及各实体之间的关系信息的过程,通过提取佛学知识数据中 的实体、实体的属性信息和关系信息;对关系信息进行聚类,得到关系层级结 构矩阵;根据关系层级结构矩
阵,采用预置实体关系对齐算法,确定各实体之 间的关系信息。同时详细的描述了其中的对关系信息进行聚类,得到关系层级 结构矩阵的过程,通过预置向量转换模型对三元组数据进行关系向量转换,得 到关系向量;通过预置聚类算法分别对所有关系向量、每个关系的所有关系向 量进行聚类,对应得到关系聚类向量以及每个关系的关系子向量;基于关系向 量以及对应的关系聚类向量、关系子向量,构建关系层级结构矩阵,通过本方 法论,进行关系信息得准确获取,避免造成冗余。
127.请参阅图4,本发明实施例中佛学知识图谱构建方法的第四个实施例包括:
128.401、利用网页爬虫工具从预设的数据源中爬取佛学知识图谱构建知识;
129.402、根据佛学知识图谱构建知识的数据来源确定对应的知识提取方式;
130.403、根据知识提取方式对佛学知识图谱构建知识进行知识提取,得到佛学 知识数据;
131.404、提取佛学知识数据中的实体、实体的属性信息以及各实体之间的关系 信息;
132.405、统计实体之间的各关系信息的频率;
133.406、当频率低于预设阈值时,则将对应的关系信息进行删除;
134.在实际应用中,实体之间的关系信息存在关系错位问题,这是因为结构化 的信息也是人编辑的难免出现错位,为了解决关系错位的问题,使得图谱更加 符合定义,符合认知,可以通过统计结构化三元组对应的关系信息得频率,比 如一种结构化三元组对应的关系信息出现了20次,另一种结构化三元组对应的 关系信息出现了1次,则认为后面一种关系错误,将后面的一种关系信息进行 删除,或者将后面一种关系信息从地区关系改为民族关系。
135.407、通过概念抽象技术对各实体进行本体抽象,得到对应的实体本体;
136.408、采用基于图神经网络构建的融合模型对各实体本体进行融合处理,得 到初步融合结果;
137.在本实施例中,通过融合模型对实体本体进行融合处理的具体过程包括: 选择部分实体本体作为融合对象,确定该融合对象的属性,在通过动态规划算 法计算该融合对象中两两之间的属性的编辑距离,以获取属性相似度。
138.409、计算初步融合结果的融合程度值,并与预设融合度进行比较;
139.410、若大于预设融合度,则输出图谱数据;
140.411、若不大于预设融合度,则重新执行融合步骤,直到大于预设融合度后 输出图谱数据;
141.412、根据图谱数据构建佛学知识图谱。
142.本实施例在前实施例的基础上,详细描述了调用预置融合算法对各所述实 体、各所述实体的属性信息以及各所述实体之间的关系信息进行融合,得到图 谱数据的过程,通过概念抽象技术对各所述实体进行本体抽象,得到对应的实 体本体;采用基于图神经网络构建的融合模型对各所述实体本体进行融合处理, 得到初步融合结果;计算所述初步融合结果的融合程度值,并与预设融合度进 行比较;若大于预设融合度,则输出图谱数据;若不大于预设融合度,则重新 执行融合步骤,直到大于预设融合度后输出图谱数据,通过本方法,能够解决 的有关佛学知识实体不统一问题,同时增加了统计所述实体之间的各关系信息 的频率,通过将频率低于预设阈值的关系信息进行删除,避免实体间的关系错 位。
143.上面对本发明实施例中佛学知识图谱构建方法进行了描述,下面对本发明 实施例中佛学知识图谱构建装置进行描述,请参阅图5,本发明实施例中佛学 知识图谱构建装置一个实施例包括:
144.数据爬取模块501,用于利用网页爬虫工具从预设的数据源中爬取佛学知 识图谱构建知识;
145.匹配模块502,用于根据所述佛学知识图谱构建知识的数据来源确定对应 的知识提取方式;
146.知识提取模块503,用于根据所述知识提取方式对所述佛学知识图谱构建 知识进行知识提取,得到佛学知识数据;
147.实体提取模块504,用于提取所述佛学知识数据中的实体、所述实体的属 性信息以及各所述实体之间的关系信息;
148.融合模块505,用于调用预置融合算法对各所述实体、各所述实体的属性 信息以及各所述实体之间的关系信息进行融合,得到图谱数据;
149.构建模块506,用于根据所述图谱数据构建佛学知识图谱。
150.需要强调的是,为保证数据的私密和安全性,上述爬取的佛学知识图谱构 建知识可以存储于一区块链的节点中。
151.本发明实施例中,所述佛学知识图谱构建装置运行上述佛学知识图谱构建 方法,所述佛学知识图谱构建方法包括:通过利用网页爬虫工具从预设的数据 源中爬取佛学知识图谱构建知识;根据所述佛学知识图谱构建知识的数据来源 确定对应的知识提取方式;根据所述知识提取方式对所述佛学知识图谱构建知 识进行知识提取,得到佛学知识数据;提取所述佛学知识数据中的实体、所述 实体的属性信息以及各所述实体之间的关系信息;调用预置融合算法对各所述 实体、各所述实体的属性信息以及各所述实体之间的关系信息进行融合,得到 图谱数据;根据所述图谱数据构建佛学知识图谱。本提案基于采集数据源确定 知识特征提取方式来针对性的解析佛学知识数据,从而获取精准的实体命名, 并且还利用融合算法对实体命名不同但是本体相同的实体进行融合,统一实体, 最后基于融合后的实体进行知识图谱的构建。此外,本发明还涉及区块链技术, 所述佛学知识图谱构建知识可存储于区块链中。
152.请参阅图6,本发明实施例中佛学知识图谱构建装置的第二个实施例包括:
153.数据爬取模块501,用于利用网页爬虫工具从预设的数据源中爬取佛学知 识图谱构建知识;
154.匹配模块502,用于根据所述佛学知识图谱构建知识的数据来源确定对应 的知识提取方式;
155.知识提取模块503,用于根据所述知识提取方式对所述佛学知识图谱构建 知识进行知识提取,得到佛学知识数据;
156.实体提取模块504,用于提取所述佛学知识数据中的实体、所述实体的属 性信息以及各所述实体之间的关系信息;
157.融合模块505,用于调用预置融合算法对各所述实体、各所述实体的属性 信息以及各所述实体之间的关系信息进行融合,得到图谱数据;
158.构建模块506,用于根据所述图谱数据构建佛学知识图谱。
159.可选的,所述佛学知识包括结构化数据和非结构化数据,所述知识提取模 块503具体用于:
160.当所述佛学知识为结构化数据时,通过构建正则表达式对所述佛学知识进 行知识抽取,并将抽取到的知识特征构建三元组数据,将所述三元组数据作为 佛学知识数据;
161.当所述佛学知识为非结构化数据时,采用大数据技术从所述佛学知识中筛 选佛学数据,利用基于语义标注的关联模型算法对所述佛学数据进行知识抽取, 并将抽取到的知识特征构建三元组数据,将所述三元组数据作为佛学知识数据。
162.其中,所述实体提取模块504包括:
163.提取单元5041,用于提取所述佛学知识数据中的实体、所述实体的属性信 息和关系信息;
164.聚类单元5042,用于对所述关系信息进行聚类,得到关系层级结构矩阵;
165.关系对齐单元5043,用于根据所述关系层级结构矩阵,采用预置实体关系 对齐算法,确定各所述实体之间的关系信息。
166.可选的,所述聚类单元5042具体用于:
167.通过预置向量转换模型对所述三元组数据进行关系向量转换,得到关系向 量;
168.通过预置聚类算法分别对所有关系向量、每个关系的所有关系向量进行聚 类,对应得到关系聚类向量以及每个关系的关系子向量;
169.基于关系向量以及对应的关系聚类向量、关系子向量,构建关系层级结构 矩阵;其中,所述关系层级结构矩阵由顶层关系聚类层、中间层关系层以及底 层关系子类层构成,其中,所述关系聚类层由所有关系聚类向量构成,所述关 系层由所有关系向量构成,所述关系子类层由每个关系的所有关系子向量构成。
170.可选的,所述融合模块505具体用于:
171.将抽取到的各所述实体进行分组,得到多个实体组;
172.通过动态规划算法分别计算各实体组中实体之间的相似度;
173.根据所述相似度对同组中的实体进行合并去重,得到图谱数据。
174.可选的,所述融合模块505具体还用于:
175.通过概念抽象技术对各所述实体进行本体抽象,得到对应的实体本体;
176.采用基于图神经网络构建的融合模型对各所述实体本体进行融合处理,得 到初步融合结果;
177.计算所述初步融合结果的融合程度值,并与预设融合度进行比较;
178.若大于预设融合度,则输出图谱数据;
179.若不大于预设融合度,则重新执行融合步骤,直到大于预设融合度后输出 图谱数据。
180.其中,所述佛学知识图谱构建装置还包括删除模块506,所述删除模块506 具体用于:
181.统计所述实体之间的各关系信息的频率;
182.当所述频率低于预设阈值时,则将对应的关系信息进行删除。
183.本实施例在上一实施例的基础上,详细描述了各个模块的具体功能以及部 分模块的单元构成,通过本装置,解决了关系错位和关系错位的问题,使得图 谱更加符合定义,
符合人类的认知,同时,丰富的知识体系使得基于图谱的推 荐变得现实,使得图谱的应该场景变得更加的宽广。
184.上面图5和图6从模块化功能实体的角度对本发明实施例中的中佛学知识 图谱构建装置进行详细描述,下面从硬件处理的角度对本发明实施例中佛学知 识图谱构建设备进行详细描述。
185.图7是本发明实施例提供的一种佛学知识图谱构建设备的结构示意图,该 佛学知识图谱构建设备700可因配置或性能不同而产生比较大的差异,可以包 括一个或一个以上处理器(central processing units,cpu)710(例如,一个或 一个以上处理器)和存储器720,一个或一个以上存储应用程序733或数据732 的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器720和存 储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括 一个或一个以上模块(图示没标出),每个模块可以包括对佛学知识图谱构建设 备700中的一系列指令操作。更进一步地,处理器710可以设置为与存储介质 730通信,在佛学知识图谱构建设备700上执行存储介质730中的一系列指令 操作,以实现上述佛学知识图谱构建方法的步骤。
186.佛学知识图谱构建设备700还可以包括一个或一个以上电源740,一个或 一个以上有线或无线网络接口750,一个或一个以上输入输出接口760,和/或, 一个或一个以上操作系统731,例如windows serve,mac os x,unix,linux, freebsd等等。本领域技术人员可以理解,图7示出的佛学知识图谱构建设备 结构并不构成对本技术提供的佛学知识图谱构建设备的限定,可以包括比图示 更多或更少的部件,或者组合某些部件,或者不同的部件布置。
187.本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法 等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化 的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含 了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区 块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
188.本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非 易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可 读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上 运行时,使得计算机执行所述佛学知识图谱构建方法的步骤。
189.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述 的系统或装置、单元的具体工作过程,可以参考前述方法实施例中的对应过程, 在此不再赘述。
190.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或 使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明 的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或 部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质 中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或 者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的 存储介质包括:u盘、移动硬盘、只读存储器(read

only memory,rom)、 随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存 储程序代码的介质。
191.以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽 管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理 解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分 技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱 离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1