一种知识图谱自动嵌入的方法及系统与流程

文档序号:26949828发布日期:2021-10-16 00:47阅读:103来源:国知局
一种知识图谱自动嵌入的方法及系统与流程

1.本发明属于知识图谱领域,涉及抽象建模技术,具体是一种知识图谱自动嵌入的方法及系统。


背景技术:

2.知识图谱(knowledge graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
3.现阶段的用户难以通过知识图谱获取企业产业属性相关的图谱信息与统计信息,且在获取时难以获取得到企业上下游及产业链信息更不能直观的展现出来。
4.为此提出一种知识图谱自动嵌入的方法及系统。


技术实现要素:

5.本发明提供了一种知识图谱自动嵌入的方法及系统,解决了现阶段用户获取企业产业属性相关的图谱信息与统计信息,可以快速高效的让用户获取和了解企业上下游及产业链信息。通过机器学习将外部数据源与企业数据库中的企业信息相关联匹配,生成所需的企业属性与企业实体,并将企业产品产业链关系图谱更直观的展示出来。可以让用户更好的更快的获取企业关联信息。
6.本发明的目的可以通过以下技术方案实现:
7.一种知识图谱自动嵌入系统,包括企业数据库、数据采集端、数据处理模块、知识建模模块、可视化模块、图谱服务模块以及信息查询模块;
8.所述企业数据库用于存储企业信息以及企业对应的产品信息;
9.所述知识建模模块用于根据企业数据库内存储的企业信息以及产品信息进行建立知识图谱;
10.所述数据采集端用于实现企业信息以及产品信息的提取;
11.所述数据处理模块用于对数据采集端提取的信息进行处理;
12.所述图谱服务模块用于辅助完成知识图谱的建立;
13.所述可视化模块用于用户通过信息查询模块进行信息查询时进行可视化显示。
14.进一步地,所述企业信息包括企业所属行业、节点属性和企业标签。
15.进一步地,知识建模模块进行知识图谱的建立过程包括:
16.数据采集端从企业数据库内提取企业数据,并将企业数据发送至数据处理模块进行处理;
17.知识建模模块确定节点属性或标签;
18.确定关联关系;
19.通过节点链接技术,实现围绕节点的多种类型数据的关联存储;
20.采用平移距离模型、语义匹配模型等向量嵌入方法和评分函数,实现图谱的自动嵌入。
21.进一步地,节点确定的过程包括:
22.多源数据融合:根据企业数据库内的数据,确定企业行业的分组,并根据行业分组对属性计算编辑距离和jaccard相似性;
23.对文档通过tf

idf找出关键词,再通过余弦相似度计算文档的相似程度;
24.根据jaccard相似性和文档的相似程度,结合逻辑回归或k

means聚类算法实现节点确定。
25.进一步地,知识建模模块利用节点与节点的关系或者自定义节点与节点的关系来描述知识图谱内各个节点数据之间的关系;所述关系包括生产关系、上下游关系和包含关系。
26.进一步地,图谱服务模块基于企业数据库,通过企业数据清洗与治理,获取企业产业属性,结合产业链关系模板,生成企业实体或产品实体,并结合外部数据企业属性匹配形成的新产品实体,辅助完成企业产品产业链关系图谱的建立。
27.进一步地,用户通过输入与企业相关的关键词至信息查询模块,信息查询模块将用户输入的关键词进行确定属性或者标签;
28.信息查询模块将确定的属性或者标签输入知识图谱,获取属性或者标签对应的节点进而链接企业数据库;
29.知识图谱将企业数据库内与输入的关键词有联系的信息通过可视化模块进行展示。
30.一种知识图谱自动嵌入的方法,包括以下步骤:
31.步骤一:知识建模模块发送信息提取信号至数据采集端,数据采集端从企业数据库提取企业数据;并将企业数据发送至数据处理模块进行处理;
32.步骤二:预处理的过程包括节点的确定以及确定节点属性或标签;
33.步骤三:确定关联关系;
34.步骤四:通过节点链接技术,实现围绕节点的多种类型数据的关联存储;
35.步骤五:采用平移距离模型、语义匹配模型等向量嵌入方法和评分函数,实现图谱的自动嵌入;
36.步骤六:用户通过输入与企业相关的关键词至信息查询模块,信息查询模块将用户输入的关键词进行确定属性或者标签;
37.信息查询模块将确定的属性或者标签输入知识图谱,获取属性或者标签对应的节点进而链接企业数据库;
38.步骤七:知识图谱将企业数据库内与输入的关键词有联系的信息通过可视化模块进行展示。
39.进一步地,知识建模模块利用节点与节点的关系或者自定义节点与节点的关系来描述知识图谱内各个节点数据之间的关系;所述关系包括生产关系、上下游关系和包含关系。
40.进一步地,节点确定的过程包括:
41.多源数据融合:根据企业数据库内的数据,确定企业行业的分组,并根据行业分组对属性计算编辑距离和jaccard相似性;
42.对文档通过tf

idf找出关键词,再通过余弦相似度计算文档的相似程度;
43.根据jaccard相似性和文档的相似程度,结合逻辑回归或k

means聚类算法实现节点确定。
44.与现有技术相比,本发明的有益效果是:
45.1、用户输入与企业相关的关键词,通过添加补充限制条件,可以展现图谱信息和统计信息,进一步展现用户最关心的企业和产品信息,减少素材收集与检索了解时间。
46.2、本发明提供了一种企业产品产业链图谱服务模块,基于企业数据库,通过企业数据清洗与治理,获取企业产业属性,结合产业链关系模板,生成企业实体或产品实体,并结合外部数据企业属性匹配形成的新产品实体,完成企业产品产业链关系图谱的建立。
47.3、本发明的用户操作流程,最初用户的输入条件限制简单,其返回的满足条件的结果也非常多,这时用户可能增加条件,查询的最终结果是高度符合用户需求的数据。
48.4、解决了现阶段用户获取企业产业属性相关的图谱信息与统计信息,可以快速高效的让用户获取和了解企业上下游及产业链信息。通过机器学习将外部数据源与企业数据库中的企业信息相关联匹配,生成所需的企业属性与企业实体,并将企业产品产业链关系图谱更直观的展示出来。可以让用户更好的更快的获取企业关联信息。
附图说明
49.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
50.图1为本发明一种知识图谱自动嵌入系统的结构图。
51.图2为本发明一种知识图谱自动嵌入的方法的流程图。
具体实施方式
52.下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
53.如图1所示,一种知识图谱自动嵌入系统,包括企业数据库、数据采集端、数据处理模块、知识建模模块、可视化模块、图谱服务模块以及信息查询模块;
54.所述企业数据库包含企业所属行业、节点属性和企业标签;
55.所述知识建模模块用于根据企业数据库存储的信息进行建立知识图谱,具体的,知识建模模块进行知识图谱的建立过程包括以下步骤:
56.步骤一:知识建模模块发送信息提取信号至数据采集端,数据采集端从企业数据库提取企业数据;并将企业数据发送至数据处理模块进行处理;
57.步骤二:预处理的过程包括节点的确定;
58.需要进行说明的是,节点确定的过程包括:
59.多源数据融合:根据企业数据库内的数据,确定企业行业的分组,并根据行业分组对属性计算编辑距离和jaccard相似性;
60.对文档通过tf

idf找出关键词,再通过余弦相似度计算文档的相似程度;
61.根据jaccard相似性和文档的相似程度,结合逻辑回归或k

means聚类算法实现节点确定;
62.步骤三:知识建模模块确定节点属性或标签;
63.需要说明的是,所述节点的描述包含多种,可能为唯一id、节点名称或者其他相关属性,本技术文件中确定节点属性或者标签的方式就为利用属性来表示不同数据源中针对节点的描述,形成对节点的全方位描述;
64.步骤四:确定关联关系;
65.需要进行补充说明的是,知识建模模块利用节点与节点的关系或者自定义节点与节点的关系来描述知识图谱内各个节点数据之间的关系;所述关系包括生产关系、上下游关系和包含关系;
66.步骤五:通过节点链接技术,实现围绕节点的多种类型数据的关联存储;
67.需要进行说明的是,对于<企业,生产,产品>关系的链接,根据企业介绍和经营范围字段抽取的产品,由于涉及产品实体集中出现且书写风格较为固定,利用词典和模板匹配实现,可以实现较好的效果;对于<产品1,包含,产品2>关系的链接,主要是对重点关注的产业通过人工整理梳理关系,获取更加细化节点信息和特殊需要知识的开放图谱;对于<产品1,下游,产品2>关系的链接,通过人工梳理重点产业链,而对于其他产业,在产业链分析文章中,通过bilstm+crf实现实体识别,再通过上下游分类模型建立对产品的分类,最后实现上下游关系的建立;
68.步骤六:采用平移距离模型、语义匹配模型等向量嵌入方法和评分函数,实现图谱的自动嵌入。此种方式的好处为可实现图谱的计算,尤其在新数据的匹配及补全图谱。
69.以上通过知识建模模块,从实体识别和实体链接技术出发,充分根据业务需求和充分利用传统和先进的图谱技术。如根据企业相关产品介绍的短文本,利用字典和模板技术;对于产品的上下游供应关系,在产业链分析类文档,通过表现效果较好的bilstm+crf的实体识别算法实现产品的识别。再通过新增加上下游产品分类模型,确认所属上下游类别后建立供应关系,这也是本发明提出的新方法。
70.所述图谱服务模块用于辅助完成知识图谱的建立,具体的辅助过程包括以下步骤:
71.图谱服务模块基于企业数据库,通过企业数据清洗与治理,获取企业产业属性,结合产业链关系模板,生成企业实体或产品实体,并结合外部数据企业属性匹配形成的新产品实体,完成企业产品产业链关系图谱的建立。
72.所述信息查询模块用于用户对企业和产品进行查询,具体的用户对于企业和产品查询的方式如下:
73.用户通过输入与企业相关的关键词至信息查询模块,信息查询模块将用户输入的关键词进行确定属性或者标签;
74.信息查询模块将确定的属性或者标签输入知识图谱,获取属性或者标签对应的节点进而链接企业数据库;
75.知识图谱将企业数据库内与输入的关键词有联系的信息通过可视化模块进行展示。
76.需要进行说明的是,如若因为用户输入的关键词限制太简单导致可视化模块返回的满足的条件也非常多,此时,用户可二次输入关键词,使得可视化模块展示的结果是符合用户需求的数据。
77.如图2所示,一种知识图谱自动嵌入的方法,包括以下步骤:
78.步骤一:知识建模模块发送信息提取信号至数据采集端,数据采集端从企业数据库提取企业数据;并将企业数据发送至数据处理模块进行处理;
79.步骤二:预处理的过程包括节点的确定以及确定节点属性或标签;
80.步骤三:确定关联关系;
81.步骤四:通过节点链接技术,实现围绕节点的多种类型数据的关联存储;
82.步骤五:采用平移距离模型、语义匹配模型等向量嵌入方法和评分函数,实现图谱的自动嵌入;
83.步骤六:用户通过输入与企业相关的关键词至信息查询模块,信息查询模块将用户输入的关键词进行确定属性或者标签;
84.信息查询模块将确定的属性或者标签输入知识图谱,获取属性或者标签对应的节点进而链接企业数据库;
85.步骤七:知识图谱将企业数据库内与输入的关键词有联系的信息通过可视化模块进行展示。
86.其中,知识建模模块利用节点与节点的关系或者自定义节点与节点的关系来描述知识图谱内各个节点数据之间的关系;所述关系包括生产关系、上下游关系和包含关系。
87.其中,节点确定的过程包括:
88.多源数据融合:根据企业数据库内的数据,确定企业行业的分组,并根据行业分组对属性计算编辑距离和jaccard相似性;
89.对文档通过tf

idf找出关键词,再通过余弦相似度计算文档的相似程度;
90.根据jaccard相似性和文档的相似程度,结合逻辑回归或k

means聚类算法实现节点确定。
91.在本发明所提供的实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方法的目的。
92.另对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
93.因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的
含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
94.此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
95.最后应说明的是,以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1