一种基于多源知识采集技术的知识库系统及其构建方法

文档序号:24715552发布日期:2021-04-16 14:18阅读:101来源:国知局
一种基于多源知识采集技术的知识库系统及其构建方法

1.本发明涉及系统管理技术领域,尤其涉及一种基于多源知识采集技术的知识库系统及其构建方法。


背景技术:

2.在使用人工智能解决问题时,仅用过程性的方法是不够的,有时还必须使用说明性的方法以及过去积累的经验知识。同时解决问题时单纯的寻找高效率的搜索求解方法,而不考虑由于组合数无限增加而导致搜索量的增加也是不切实际的。因此,与高效的搜索方法相比,知识展现了其独特的重要性,知识型的人工智能是从知识系统开始的,知识系统是基于知识对实际问题进行求解的系统,相对于简单的检索与排序,知识系统会根据知识进行自动总结归纳,因此知识系统的核心就是知识库。基于以上背景,针对目标知识建立一套知识库系统就有了必要。
3.现有目标知识库的运营方式大多基于厂商或爱好者自行运营的方式,通过人工审核方式对贡献者提交的知识审核、验证。存在社区运营过度自主化,缺乏第三方审核、验证,审核验证效率过低,不严谨等安全隐患。同时目标知识属于高度专业化领域,很多经验性知识分散在各个目标专家中。
4.这些目标知识在获取时产生的知识文件类型不统一,内容格式不统一、知识类型不统一、配置复杂、数据也较为繁杂。另外,知识数据异构性较强,不同的数据来源含有不同的知识表示形式,例如文本、表格等,对于知识的归集,需要一种统一的规范约束。
5.当前成熟的目标知识库并不多,主要原因是在目标知识的来源单一、目标知识审核验证效率不高、目标知识库闭塞,导致目标知识无法广泛共享。


技术实现要素:

6.(一)要解决的技术问题
7.针对于现有的技术问题,本发明提供一种基于多源知识采集技术的知识库系统及其构建方法、电子设备、存储介质,用于至少部分解决以上技术问题。
8.(二)技术方案
9.本发明提供一种基于多源知识采集技术的知识库系统构建方法,包括:利用分布式爬虫技术从第一数据源爬取开源知识;通过结构化调查问卷从第二数据源获取专家知识;统一开源知识和专家知识中的术语与概念,并统一数据格式,得到标准化知识;将标准化知识按级分类,并根据标准化知识的专业领域和/或重要术语来创建实例,构建知识库系统的领域本体,根据领域本体构建参数模板,得到知识库系统。
10.可选地,采用基于分布式云架构的分布式爬虫技术获取开源知识,其中,分布式云架构的底层架构采用docker容器云集群进行构建。
11.可选地,使用主从分布式爬虫模型提供url分发服务来获取开源知识,实现基于多模态的网页结构化数据提取。
12.可选地,通过头脑写照法或者电子头脑风暴法辅助专家进行集体研讨,从第二数据源中收集第二数据;通过德尔菲法或者名义群体法整理第二数据,得到专家知识。
13.可选地,使用prot
é
g
é
本体构建工具来构建领域本体。
14.可选地,方法还包括:对知识库系统进行维护,包括参数信息说明和/或新增参数和/或修改参数和/或隐藏参数和/或调整参数顺序和/或应用参数模板,以及分类的创建和/或编辑和/或删除和/或层级管理。
15.可选地,第一数据源包括网页和/或数据库,第二数据源包括目标知识专家的经验总结。
16.本发明还提供一种基于多源知识采集技术的知识库系统,包括:开源知识采集模块,用于利用分布式爬虫技术从第一数据源爬取开源知识;专家知识采集模块,用于通过结构化调查问卷从第二数据源获取专家知识;知识标准化模块,用于统一开源知识和专家知识中的术语与概念,并统一数据格式,得到标准化知识;知识库构建与维护模块,用于将标准化知识按级分类,并根据标准化知识的专业领域和/或重要术语来创建实例,构建知识库系统的领域本体,根据领域本体构建参数模板,得到知识库系统,并对知识库系统进行维护。
17.本发明还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述根据本发明实施例的基于多源知识采集技术的知识库系统构建方法。
18.本发明还提供一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现上述根据本发明实施例的基于多源知识采集技术的知识库系统构建方法。
19.(三)有益效果
20.本发明提供一种基于多源知识采集技术的知识库系统及其构建方法,分别利用分布式爬虫技术和结构化调查问卷获取开源知识和专家知识;统一开源知识和专家知识中的术语与概念,并统一数据格式,得到标准化知识;将标准化知识按级分类,并根据标准化知识的专业领域和/或重要术语来创建实例,构建知识库系统的领域本体,根据领域本体构建参数模板,构建了一种知识库系统。
21.基于知识的标准化处理,和领域本体的构建以及对参数模板的构建和维护,本发明提供的知识库系统实现了对知识的自动归纳总结,通过对多源目标知识,包括开源知识和专家知识,进行统一收集,统一管理,统一验证和标准化建设,便于知识的第三方输出,有利于知识的交流,大大提升了知识的可利用性。
附图说明
22.图1示意性示出了本发明实施例的基于多源知识采集技术的知识库系统构建方法流程图;
23.图2示意性示出了本发明实施例的云爬虫架构整体结构图;
24.图3示意性示出了本发明实施例的任务分发策略结构图;
25.图4示意性示出了本发明实施例的基于多源知识采集技术的知识库系统的框图;
26.图5示意性示出了根据本发明实施例的电子设备的框图。
具体实施方式
27.为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
28.需要说明的是,在附图或说明书描述中,相似或相同的部分都使用相同的图号。说明书中示例的各个实施例中的技术特征在无冲突的前提下可以进行自由组合形成新的方案,另外每个权利要求可以单独作为一个实施例或者各个权利要求中的技术特征可以进行组合作为新的实施例,且在附图中,实施例的形状或是厚度可扩大,并以简化或是方便标示。再者,附图中未绘示或描述的元件或实现方式,为所属技术领域中普通技术人员所知的形式。另外,虽然本文可提供包含特定值的参数的示范,但应了解,参数无需确切等于相应的值,而是可在可接受的误差容限或设计约束内近似于相应的值。
29.除非存在技术障碍或矛盾,本发明的上述各种实施方式可以自由组合以形成另外的实施例,这些另外的实施例均在本发明的保护范围中。
30.虽然结合附图对本发明进行了说明,但是附图中公开的实施例旨在对本发明优选实施方式进行示例性说明,而不能理解为对本发明的一种限制。附图中的尺寸比例仅仅是示意性的,并不能理解为对本发明的限制。
31.虽然本发明总体构思的一些实施例已被显示和说明,本领域普通技术人员将理解,在不背离本总体发明构思的原则和精神的情况下,可对这些实施例做出改变,本发明的范围以权利要求和它们的等同物限定。
32.图1示意性示出了本发明实施例的基于多源知识采集技术的知识库系统构建方法流程图,如图1所示,方法包括:
33.s101,利用分布式爬虫技术从第一数据源爬取开源知识,通过结构化调查问卷从第二数据源获取专家知识。
34.根据本发明的实施例,目标知识主要包含两部分,例如分别是网络开源数据,例如包括军事论坛,军事武器数据库和由专家,例如军事爱好者、研究人员自发组织的相关社区,通过经验总结的知识。然后,例如可以采用基于分布式云架构的分布式爬虫技术获取开源知识,其中,分布式云架构的底层架构采用docker容器云集群代替虚拟机进行构建,容器云技术能够实现爬虫服务的快速部署、运维及弹性扩容。例如还可以使用主从分布式爬虫模型提供url分发服务来获取开源知识,实现基于多模态的网页结构化数据提取,通过将构建过程分配到从属slave结点上从而减轻master节点的压力,实现负载均衡。
35.根据本发明的实施例,首先采用分布式云架构的开源目标知识采集技术,对大型数据采集分析系统,应用自动分布式部署和运行,具备可视化简单操作,计算、存储等资源可弹性扩展的特点。分布式任务分发采用主从(mater

slave)分布式爬虫模型提供url的分发服务。如图2所示,为了保证抓取服务节点间的负载均衡,提出一种一致性散列的方法来分配任务,抓取服务负责散列环的一个片段url下载,当某一个服务节点发生异常时,它负责将地址片段上的任务分配到由沿顺时针方向寻找到的下一个服务节点。一致性散列算法满足了分布式系统中的平衡性、单调性、分散性和负载均衡性。如图3所示,本爬虫网络采用md5去重树做url索引,因此在做url服务分发的时候可以直接将去重的软件厂商提供的md5去伪值构建一致性散列值,从而将去重和分发结合起来。
36.根据本发明的实施例,面向专家对例如军事知识进行采集,需要结构化表格的支
撑。调查问卷遵循一定的合理性原则,实现对例如军事专家知识的收集和部分整理。在解决专家知识收集的问题中我们采用头脑写照法、电子头脑风暴法。头脑写照法是将主意写在卡片等纸质介质上并在成员之间传阅,共享观点和想法,典型的有默写式智力激励法和卡片式智力激励法;电子头脑风暴法则是利用网络进行交流,群体成员在网络环境下既可以及时察看其它成员的意见,也可以不受干扰地发表自己的意见。对于专家知识的整理采用德尔菲法和名义群体法。德尔菲法是一种专家问卷咨询方法,匿名与多轮循环反馈是其主要特点。德尔菲法实施的关键在于以不能引起歧义,征询的问题一次不宜太多的方法来指定问卷,以及对收集的意见的相似性整理,统计出各种相似意见的数量。名义群体法是指在决策过程中对群体成员的讨论或人际沟通加以限制,以保证群体成员产生独立思考的决策。
37.根据本发明的实施例,例如航空目标知识库系统的构建,首先是知识采集,知识采集分为公共知识获取和专家知识获取两个获取方式,公共知识获取例如主要通过从一些航空网站上爬取如飞机型号、飞机结构特点、飞机搭载人数等开源知识。通过结构化调查问卷获取专家知识,问卷的提问内容如飞机性能指标、飞机优点与缺点等专业知识。
38.s102,统一开源知识和专家知识中的术语与概念,并统一数据格式,得到标准化知识。
39.根据本发明的实施例,例如在航空目标中,将目标的属性概念分为公共属性和目标特有属性,公共属性是所有航空目标共有的属性主要来自于开源知识获取,目标特有属性如:飞机航程、飞机性能指标等包含开源知识和专家知识,通过目标特有属性将开源知识和专家知识结合到一起,并统一格式。
40.根据本发明的实施例,对获取的目标相关知识进行知识数据清理,将采集的数据统一格式,删除错别字等。
41.s103,将标准化知识按级分类,并根据标准化知识的专业领域和/或重要术语来创建实例,构建知识库系统的领域本体,根据领域本体构建参数模板,得到知识库系统。
42.根据本发明的实施例,基于prot
é
g
é
(斯坦福大学医学院生物信息研究中心基于java语言开发的本体编辑和知识获取软件)本体构建工具的一种领域本体构建方法。一共包括7个步骤,因此被称为七步法,下面以航空目标为例介绍七步法:
43.确定航空目标知识本体的专业领域和范畴,如民用航空目标领域等;
44.考查复用现有航空知识本体的可能性,可减小获取知识的工作量;
45.列出本体中的重要术语,如起飞重量、最大航程等;
46.定义个体(指的是在域(domain)中我们感兴趣的对象),如空客a320等航空目标个体;
47.定义类(class)(由个体组成的集合),如螺旋桨飞机类、喷气式飞机类;
48.定义类的属性(指的是连接不同类的二元关系)如螺旋桨飞机与2叶螺旋桨飞机的属性为包含关系;
49.创建实例。
50.根据本发明的实施例,在构建领域本体之后,需要进一步构建知识库系统的参数模板,例如包括参数分组、参数名称、参数类型和参数备注。参数分组:用于分组参数;参数名称:标识参数,同一模板中不应出现相同的参数名称。参数类型:定义参数类型。参数类型
包括“富文本”、“图片”、“文档”、“三维模型”、“普通文件”和“字段模板”等。领域本体和参数模板共同构成知识库系统框架,再输入按级分类后的标准化知识,即可得到知识库系统。
51.根据本发明的实施例,在航空目标知识库系统的构建实施例中,以航空目标为顶级的概念类,以螺旋桨飞机、喷气式飞机、活塞式飞机等作为二级类,以2叶螺旋桨飞机、3叶螺旋桨飞机,涡轮喷气发动机喷气式飞机、涡轮扇发动机喷气式飞机,轻型活塞式飞机、超轻型活塞式飞机等作为三级分类逐级向下细分。
52.根据本发明的实施例,在构建了知识库系统后,还需要对知识库系统进行维护,包括参数信息说明和/或新增参数和/或修改参数和/或隐藏参数和/或调整参数顺序和/或应用参数模板,以及分类的创建和/或编辑和/或删除和/或层级管理,例如包括对专家知识分类维护、数据组织与管理、知识管理和知识服务。
53.根据本发明的实施例,分类维护技术提供对文件类知识信息的分类管理的功能,支持分类的创建、编辑、删除和层级管理。添加分类分为添加根分类和添加子分类,添加子分类前需要选择其上级分类。按需求编辑分类名称,指定所需参数模板,完成分类添加与录入。当分类已经录入数据,将不允许修改分类的属性模板。对于无用的和低版本的分类模板,需要手动删除。
54.综上所述,本发明实施例提出一种基于多源知识采集技术的知识库系统构建方法。通过分别利用分布式爬虫技术和结构化调查问卷获取开源知识和专家知识;统一开源知识和专家知识中的术语与概念,并统一数据格式,得到标准化知识;将标准化知识按级分类,并根据标准化知识的专业领域和/或重要术语来创建实例,构建知识库系统的领域本体,根据领域本体构建参数模板,构建了一种基于多源知识采集技术的知识库系统。通过这种方法,能够实现对知识的自动归纳总结,对多源目标知识,包括开源知识和专家知识,进行统一收集,统一管理,统一验证和标准化建设,便于知识的第三方输出,有利于知识的交流,大大提升了知识的可利用性。
55.图4示意性示出本发明实施例的基于多源知识采集技术的知识库系统的框图,如图4所示,知识库系统400,包括:开源知识采集模块410,专家知识采集模块420,知识标准化模块430和知识库构建与维护模块440。该知识库系统可以执行上面参考方法实施例部分描述的方法,在此不再赘述。
56.具体地,开源知识采集模块410,用于利用分布式爬虫技术从第一数据源爬取开源知识。
57.专家知识采集模块420,用于通过结构化调查问卷从第二数据源获取专家知识。
58.知识标准化模块430,用于统一开源知识和专家知识中的术语与概念,并统一数据格式,得到标准化知识。
59.知识库构建与维护模块440,用于将标准化知识按级分类,并根据标准化知识的专业领域和/或重要术语来创建实例,构建知识库系统的领域本体,根据领域本体构建参数模板,得到知识库系统,并对知识库系统进行维护。
60.需要说明的是,装置部分的实施例方式与方法部分的实施例方式对应类似,并且所达到的技术效果也对应类似,在此不再赘述。
61.根据本公开的实施例的模块中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块中的任意一个或多个可以被拆分成多个模块
来实现。根据本公开实施例的模块中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
62.例如,开源知识采集模块410,专家知识采集模块420,知识标准化模块430和知识库构建与维护模块440中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块开源知识采集模块410,专家知识采集模块420,知识标准化模块430和知识库构建与维护模块440中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,开源知识采集模块410,专家知识采集模块420,知识标准化模块430和知识库构建与维护模块440中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
63.图5示意性示出了根据本发明实施例的电子设备的框图。图5示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
64.如图5所示,电子设备500包括处理器510、计算机可读存储介质520。该电子设备500可以执行根据本公开实施例的方法。
65.具体地,处理器510例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(asic)),等等。处理器510还可以包括用于缓存用途的板载存储器。处理器510可以是用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
66.计算机可读存储介质520,例如可以是非易失性的计算机可读存储介质,具体示例包括但不限于:磁存储装置,如磁带或硬盘(hdd);光存储装置,如光盘(cd

rom);存储器,如随机存取存储器(ram)或闪存;等等。
67.计算机可读存储介质520可以包括计算机程序521,该计算机程序521可以包括代码/计算机可执行指令,其在由处理器510执行时使得处理器510执行根据本公开实施例的方法或其任何变形。
68.计算机程序521可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序521中的代码可以包括一个或多个程序模块,例如包括521a、模块521b、
……
。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器510执行时,使得处理器510可以执行根据本公开实施例的方法或其任何变形。
69.根据本公开的实施例,开源知识采集模块410,专家知识采集模块420,知识标准化模块430和知识库构建与维护模块440中的至少一个可以实现为参考图5描述的计算机程序模块,其在被处理器510执行时,可以实现上面描述的相应操作。
70.本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
71.附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
72.以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1