知识节点结构化方法及系统与流程

文档序号:32211137发布日期:2022-11-16 06:05阅读:59来源:国知局
知识节点结构化方法及系统与流程

1.本发明涉及知识图谱技术领域,特别涉及一种知识节点结构化方法及系统。


背景技术:

2.知识图谱(knowledge graph,kg)是知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系,把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,随着人工智能技术发展,目前在高维度知识管理领域具有广泛的应用前景。
3.us20220198285a1公开了一种知识管理系统,包括:知识条目管理,被配置为在记录或管理知识时管理至少一个知识条目;知识条目属性描述管理,被配置为记录和管理关于所述至少一个知识条目的属性描述。在属性描述中使用的术语是另一个知识条目或该另一个知识条目的属性描述,并且到该另一个知识条目或该另一个知识条目的属性描述的引用链接是可用的,以及参考术语使用文档创建,被配置为创建其中知识条目被用作术语并且保持到知识条目的参考链接的文档。
4.通常采用人工输入、使用频率对知识节点结构进行构建,不仅效率低,并且难以形成客观合理的知识节点之间的关系,且不能很好地进行知识图谱构建,从而影响知识图谱在行业内的应用。


技术实现要素:

5.经过长期实践发现,传统人工输入或基于知识使用频率进行知识节点结构构建虽然能够进行一定程度的知识管理,但是随着企业知识点数据量的不断增加,数据维度复杂化以及更新速度的加快,传统的知识管理模式难以进行高效地知识结构化和逻辑化。
6.有鉴于此,本发明旨在提出一种知识节点结构化方法,所述知识节点结构化方法包括,
7.步骤s1,从原始数据进行数据预处理后获取知识点,提取知识点属性,其中,原始数据至少包括文本、图形、视频和语音数据类型;
8.步骤s2,将知识点属性进行分类和特征提取,形成标准格式数据知识点n
j+1

9.步骤s3,建立知识点n
j+1
与已有j个知识点之间关联映射关系,其中,关联映射关系至少包括从属关系、并列关系、时间序列关系;
10.步骤s4,根据知识点n
j+1
的关联映射关系生成关联规则集,且由关联规则集生成j+1个知识节点的结构化知识图谱;
11.步骤s5,根据j+1个知识节点的结构化知识图谱中关联规则集,更新知识点n
j+1
标准格式数据。
12.优选地,识别原始数据类型,并将原始数据属性进行聚类,形成n组不同类型属性向量[a1,a2,

,an],其中,ai为第i组属性向量。
[0013]
优选地,n组不同类型属性向量至少包括基本属性向量、专业性属性向量、规则属性向量、扩展属性向量,其中,所述基本属性向量用于对数据基本属性的描述和限定,所述专业性属性向量用于对数据特殊的专业属性进行描述和限定;规则属性向量用于对数据关联规则进行描述和限定;扩展属性向量用于对数据辅助冗余属性进行描述和限定。
[0014]
优选地,将知识点属性进行分类和特征提取后,形成的知识点的标准格式至少包括xml格式。
[0015]
优选地,根据知识点的关联映射关系生成关联规则集后,由关联规则集数据写入知识点n
j+1
标准格式数据,同时更新j+1个知识节点的结构化知识图谱。
[0016]
本发明还公开了一种用于执行上述知识节点结构化方法的系统,所述系统包括,
[0017]
获取单元,用于从原始数据进行数据预处理后获取知识点,提取知识点属性,其中,原始数据至少包括文本、图形、视频和语音数据;
[0018]
分类单元,用于将知识点属性进行分类和特征提取,形成标准格式数据知识点n
j+1

[0019]
映射单元,用于建立知识点n
j+1
与已有j个知识点之间关联映射关系,其中,关联映射关系至少包括从属关系、并列关系、时间序列关系;
[0020]
生成单元,用于根据知识点n
j+1
的关联映射关系生成关联规则集,且由关联规则集生成j+1个知识节点的结构化知识图谱;
[0021]
规则单元,用于根据j+1个知识节点的结构化知识图谱中关联规则集,更新知识点n
j+1
标准格式数据。
[0022]
优选地,所述获取单元还包括聚类模块,用于识别原始数据类型后,将原始数据属性进行聚类,形成n组不同类型属性向量[a1,a2,

,an],其中,ai为第i组属性向量。
[0023]
优选地,所述规则单元包括更新模块,用于根据知识点的关联映射关系生成关联规则集后,由关联规则集数据写入知识点n
j+1
标准格式数据,同时更新j+1个知识节点的结构化知识图谱。
[0024]
本发明公开了一种电子设备,包括存储器和处理器:所述存储器,用于存储计算机程序;所述处理器,用于当执行计算机程序时,实现上述的知识节点结构化方法。
[0025]
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明提供的方法。
[0026]
相对于现有技术,本发明通过从原始数据进行数据预处理后获取知识点,提取知识点属性,将知识点属性进行分类和特征提取,形成标准格式数据知识点n
j+1
;建立知识点n
j+1
与已有j个知识点之间关联映射关系,根据知识点的关联映射关系生成关联规则集,且由关联规则集生成j+1个知识节点的结构化知识图谱;根据j+1个知识节点的结构化知识图谱中关联规则集,更新知识点n
j+1
标准格式数据。本发明公开的方法和系统,能够在企业知识点数据量的不断增加、数据维度复杂化以及更新速度的加快的情况下,由该方法和系统自动生成知识点,并且能够形成高效结构化和逻辑化的知识图谱,提高知识组织管理的水平,并能够使得企业数据转化为有用的知识点,高效地应用于企业产品的研发、生产及服务过程中。
[0027]
本发明的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
[0028]
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施方式及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0029]
图1为本发明的知识节点结构化方法的流程图;
[0030]
图2为本发明的知识节点结构化方法的逻辑图。
具体实施方式
[0031]
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
[0032]
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0033]
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0034]
为了解决背景技术部分所指出传统人工输入或基于知识使用频率进行知识节点结构构建虽然能够进行一定程度的知识管理,但是随着企业知识点数据量的不断增加,数据维度复杂化以及更新速度的加快,传统的知识管理模式难以进行高效地知识结构化和逻辑化等问题。本发明提供一种知识节点结构化方法,如图1-图2所示,所述知识节点结构化方法包括,
[0035]
步骤s1,从原始数据进行数据预处理后获取知识点,提取知识点属性,其中,原始数据至少包括文本、图形、视频和语音数据;
[0036]
步骤s2,将知识点属性进行分类和特征提取,形成标准格式数据知识点n
j+1

[0037]
步骤s3,建立知识点n
j+1
与已有j个知识点之间关联映射关系,其中,关联映射关系至少包括从属关系、并列关系、时间序列关系;
[0038]
步骤s4,根据知识点n
j+1
的关联映射关系生成关联规则集,且由关联规则集生成j+1个知识节点的结构化知识图谱;
[0039]
步骤s5,根据j+1个知识节点的结构化知识图谱中关联规则集,更新知识点n
j+1
标准格式数据。
[0040]
通过从原始数据进行数据预处理后获取知识点,提取知识点属性,将知识点属性进行分类和特征提取,形成标准格式数据知识点n
j+1
;建立知识点n
j+1
与已有j个知识点之间关联映射关系,根据知识点的关联映射关系生成关联规则集,且由关联规则集生成j+1个知识节点的结构化知识图谱;根据j+1个知识节点的结构化知识图谱中关联规则集,更新知识点n
j+1
标准格式数据。本发明公开的方法,能够在企业知识点数据量的不断增加、数据维度
复杂化以及更新速度的加快的情况下,由该方法自动生成知识点,并且能够形成高效结构化和逻辑化的知识图谱,提高知识组织管理的水平,并能够使得企业数据转化为有用的知识点,高效地应用于企业产品的研发、生产及服务过程中。
[0041]
由于能够高效地从原始数据库中获得所需要的知识点,其中原始数据库包括企业资料数据、行业资料数据、互联网资料数据,在本发明更为优选的情况下,从原始数据进行数据预处理后获取知识点,提取知识点属性,例如,根据由企业资料数据建立的企业知识数据库中查询检索统计量超过了一定的阈值,可以根据互联网中行业资料数据建立的行业知识数据库中查询检索统计量,例如,汽车电驱动系统电磁兼容方法知识点查询检索超过20次检索,其查询结果中相关的文本、图形、视频和语音数据均具有参考价值,则本发明提供的s1-s5步骤将其进行数据预处理后获取知识点。数据的预处理包括数据属性值进行约简,包括样例约简、属性约简,完成数据完善,冗余噪声去除操作。
[0042]
为了更好地从原始数据中对原始数据属性进行识别聚类,能够自动完成知识点的识别和属性提取,在本发明优选的情况下,识别原始数据类型,并将原始数据属性进行聚类,形成n组不同类型属性向量[a1,a2,

,an],其中,ai为第i组属性向量。例如,对原始数据属性进行识别聚类采用k-means均值算法进行聚类。
[0043]
为了将知识点属性向量进行全面覆盖以及并让知识图谱中其它节点进行有效进行关联,在发明优选的情况下,n组不同类型属性向量至少包括基本属性向量、专业性属性向量、规则属性向量、扩展属性向量,其中,所述基本属性向量用于对数据基本属性的描述和限定,所述专业性属性向量用于对数据特殊的专业属性进行描述和限定;规则属性向量用于对数据关联规则进行描述和限定;扩展属性向量用于对数据辅助冗余属性进行描述和限定。若知识点仅含有基本属性向量a1、专业性属性向量a2、规则属性向量a3、扩展属性向量a4,那么知识点属性向量为[a1,a2,a3,a4],例如,汽车电驱动系统电磁兼容方法知识点,其中,基本属性向量a1至少包括三个元素,数据类型为text、数据生成时间为2021.08.01、知识点大小为2.72mb。专业性属性向量a2至少包括两个元素,技术领域为纯电动汽车驱动系统设计过程、集成电驱调试,指标参数为符合gb/t 36282-2018电动汽车用驱动电机系统电磁兼容性要求和试验方法。规则属性向量a3包括用于知识点与知识图谱中其它知识点的关联规则,例如,汽车电驱动系统电磁兼容方法知识点与汽车电驱动系统电磁性能调试知识点存在从属关联规则。扩展属性向量a4则用于其它属性表示,例如,知识点访问ip地址,评价参数等。
[0044]
为了更好地描述和限定、交换、显示知识点各类属性值,在本发明优选的情况下,将知识点属性进行分类和特征提取后,形成的知识点的标准格式至少包括xml格式,即可扩展标记语言建立的结构化数据格式。
[0045]
为了使得新加入的知识点能够与知识图谱中其它知识点形成结构化和逻辑化的网络结构,在本发明优选的情况下,根据知识点的关联映射关系生成关联规则集后,由关联规则集数据写入知识点n
j+1
标准格式数据,同时更新j+1个知识节点的结构化知识图谱。其中,在本发明更为优选的情况下,采用关联规则学习,通过遍历寻找最能够解释数据变量之间关系的规则,来找出多元数据集中有用的关联规则,包括apriori算法和eclat算法等。
[0046]
为了更好地实施上述方法,本发明还公开了一种用于执行上述知识节点结构化方法的系统,所述系统包括,
[0047]
获取单元,用于从原始数据进行数据预处理后获取知识点,提取知识点属性,其中,原始数据至少包括文本、图形、视频和语音数据;
[0048]
分类单元,用于将知识点属性进行分类和特征提取,形成标准格式数据知识点n
j+1

[0049]
映射单元,用于建立知识点n
j+1
与已有j个知识点之间关联映射关系,其中,关联映射关系至少包括从属关系、并列关系、时间序列关系;
[0050]
生成单元,用于根据知识点n
j+1
的关联映射关系生成关联规则集,且由关联规则集生成j+1个知识节点的结构化知识图谱;
[0051]
规则单元,用于根据j+1个知识节点的结构化知识图谱中关联规则集,更新知识点n
j+1
标准格式数据。
[0052]
该系统通过从获取单元对原始数据进行数据预处理后获取知识点,提取知识点属性;在分类单元中将知识点属性进行分类和特征提取,形成标准格式数据知识点n
j+1
;映射单元中建立知识点n
j+1
与已有j个知识点之间关联映射关系;在生成单元中根据知识点的关联映射关系生成关联规则集,且由关联规则集生成j+1个知识节点的结构化知识图谱;规则单元中根据j+1个知识节点的结构化知识图谱中关联规则集,更新知识点n
j+1
标准格式数据。本发明公开的系统,能够在企业知识点数据量的不断增加、数据维度复杂化以及更新速度的加快的情况下,由该系统自动生成知识点,并且能够形成高效结构化和逻辑化的知识图谱,提高知识组织管理的水平,并能够使得企业数据转化为有用的知识点,高效地应用于企业产品的研发、生产及服务过程中。
[0053]
为了更好地从原始数据中对原始数据属性进行识别聚类,能够自动完成知识点的识别和属性提取,在本发明更为优选的情况下,所述获取单元还包括聚类模块,用于识别原始数据类型后,将原始数据属性进行聚类,形成n组不同类型属性向量[a1,a2,

,an],其中,ai为第i组属性向量。
[0054]
为了使得新加入的知识点能够与知识图谱中其它知识点形成结构化和逻辑化的网络结构,在本发明更为优选的情况下,所述规则单元包括更新模块,用于根据知识点的关联映射关系生成关联规则集后,由关联规则集数据写入知识点n
j+1
标准格式数据,同时更新j+1个知识节点的结构化知识图谱。
[0055]
本发明还公开了一种电子设备,包括存储器和处理器:所述存储器,用于存储计算机程序;所述处理器,用于当执行计算机程序时,实现上述的知识节点结构化方法。
[0056]
进一步地,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明提供的方法。
[0057]
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
[0058]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0059]
在本发明所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式
实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
[0060]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0061]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0062]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、移动终端、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0063]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1