一种基于wikidata的知识体系自动构建方法与系统与流程

文档序号:20776328发布日期:2020-05-19 20:48阅读:673来源:国知局
一种基于wikidata的知识体系自动构建方法与系统与流程

本发明涉及知识体系构建领域,尤其是涉及一种基于wikidata的知识体系自动构建方法和系统。



背景技术:

在大数据时代背景下,面对浩如烟海的信息/知识和快速更新的现状,通过传统的知识体系积累方式,大量人工将花费在数据搜集和整理上,对于科研和情报人员的研究价值更是一种极大的浪费。采取机器智能手段挖掘已有的公共开放知识库,自动汇聚特定主题/知识主体的知识,形成一套基础的知识体系,从而让科研和情报人员能够快速了解掌握其框架轮廓,并结合自身认知进行进一步的修正完善,演变成特定的知识体系。

wikidata是一个世界范围的免费开放、多语言、任何人或机器都可以编辑修改的大规模链接知识库,采用众包协作机制支持以三元组为基础的知识条目的自由编辑。wikidata中的每个实体存在多个不同语言的标签,别名,描述,以及声明(statement),目前支持超过350种语言,拥有超过6600万个数据项及8亿的声明,是一个超大型知识库。

概念介绍

知识条目,是指包含了一定知识内容的陈述,由人总结提炼出来的事实、描述或者方法理论,具有明确的主谓宾结构,可以是一条简单的陈述句,也可以多条信息的复合句。

知识实体,是指能够从任意描述中分离出来的主语对象,包含世间万物,大到国家宇宙,小到概念。如“‘她’是指称女性的代词”中的‘她’,“牛顿第一运动定律:任何物体都要保持匀速直线运动或静止状态,直到外力迫使它改变运动状态为止。”的“牛顿第一定律”。

属性/关系,是指定性或者定量刻画知识实体的某个方面的一个度量,其中属性是知识实体的绝对度量,关系是知识实体的相对度量,它们的区别在于是否依赖于另一个实体的定义,如“性别”、“身高”、“体重”是属性,“首都”、“朋友”、“父母”是关系。

知识模型,也称知识类别,是指一类实体的统称,并具有统一的属性、关系定义。比如人员、机构。

知识模型层级,即知识实体的类别体系,具有树状层级关系。

辐射,是指一个主题/知识实体往外延伸,根据关系关联的知识实体一层层往外扩张。

wikidata作为一个开放知识库,是面向通用领域、所有用户的使用需求,不能定制化呈现特定主题/知识实体的知识体系。



技术实现要素:

本发明的目的在于克服上述技术缺陷,提出了一种基于wikidata的知识体系自动构建方法与系统。

为实现上述目的,本发明提出了一种基于wikidata的知识体系自动构建方法,所述方法包括:

步骤1)获取种子数据和辐射层级;

步骤2)抽取与种子数据相关的wikidata知识条目;

步骤3)对wikidata知识条目清洗解析,以主-谓-宾三元组的形式存储,并拆分、解析生成知识结构数据,同时根据解析出的关联实体形成辐射实体,生成新的种子数据;若迭代次数未达到辐射层级,进入步骤2),否则,进入步骤4);

步骤4)将知识结构数据进行封装,确定知识模型层级、属性关系和知识实体,将wikidata知识条目对应到知识实体下,形成知识体系。

作为上述方法的一种改进,所述步骤2)具体包括:

根据种子数据从本地化数据中采集wikidata知识条目;

对于本地化数据中缺失的信息,采用面向特定需求的数据查询接口,从wikidata知识库在线采集wikidata知识条目。

作为上述方法的一种改进,所述对wikidata知识条目清洗解析,以主-谓-宾三元组的形式存储,并拆分、解析生成知识结构数据,同时根据解析出的关联实体形成辐射实体,生成新的种子数据;具体包括:

清洗解析wikidata知识条目,以主-谓-宾三元组的形式存储;

拆分wikidata知识条目,主语字段对应知识实体,谓语字段对应为属性关系,宾语字段对应属性值或关联知识实体;

解析出属性和关系,生成知识结构数据;

汇总关联知识实体形成辐射实体,生成新的种子数据。

作为上述方法的一种改进,所述步骤4),具体包括:

从主-谓-宾三元组中获取知识实体的p31字段值和p279字段值,结合本地化数据和wikidata知识库,进行有限次递归查询,形成针对特定知识实体的类别层级,获得实体类别信息及层级从属信息,确定知识模型层级;

根据确定的知识模型层级,对每个知识模型下所有知识实体从主-谓-宾三元组数据中获取谓语集合,根据解析的结果,将其按属性关系定义到相应知识模型下;

根据获取的辐射层级,将最后一次辐射获得的知识实体转化为该实体指代的名称,从而将知识链接截断形成闭环;

结合知识模型层级、属性关系和知识实体,将主-谓-宾三元组数据对应到相应知识实体下,形成知识体系。

作为上述方法的一种改进,所述步骤4)还包括:结合可选的体系专家修正信息输入,对构建的知识体系进行优化。

一种基于wikidata的知识体系自动构建系统,所述系统包括用户层、系统层和展示层;

所述用户层,用于采集种子数据、辐射层级和体系专家修正信息;

所述系统层,用于抽取与种子数据相关的wikidata知识条目,清洗解析以主-谓-宾三元组形式存储,并拆分、解析生成知识结构数据,同时根据解析出的关联实体形成辐射实体,生成进入下一轮数据采集的种子数据,迭代进行直至达到辐射层级;将知识结构数据进行封装,确定知识模型层级、属性关系和知识实体,将wikidata知识条目对应到知识实体下,形成知识体系;结合用户层的体系专家修正信息,调整构建知识体系,并存储数据;

所述展示层,用于可视化展示知识体系和数据。

作为上述系统的一种改进,所述系统层包括数据获取模块、数据组织模块、体系构建模块和知识存储模块;

所述数据获取模块,用于抽取与种子数据相关的wikidata知识条目,清洗解析,以主-谓-宾三元组形式存储;

所述数据组织模块,用于对主-谓-宾三元组进行封装,确定知识模型、属性关系和知识实体,将知识条目对应到知识实体下,生成知识结构数据,根据解析出的关联实体形成辐射实体,生成新的种子数据;

多次调用所述数据获取模块和数据组织模块直至达到辐射层级;

所述体系构建模块,用于将知识结构数据进行封装,确定知识模型层级、属性关系和知识实体,将wikidata知识条目对应到知识实体下,结合用户层的体系专家修正数据,调整构建知识体系;

所述知识存储模块,用于存储主-谓-宾三元组数据、知识结构数据、知识数据和体系专家修正数据。

作为上述系统的一种改进,所述数据获取模块包括数据采集单元和数据解析单元;

所述数据采集单元,用于根据种子数据和辐射层级,抽取与种子数据相关的wikidata知识条目;

所述数据解析单元,用于清洗解析wikidata知识条目,以主-谓-宾三元组形式存储。

作为上述系统的一种改进,所述数据组织模块包括辐射实体搜集单元、实体分类单元和属性关系汇聚单元;

所述辐射实体搜集单元,用于从主-谓-宾三元组中汇总出该主题或知识实体本轮辐射过中形成的延伸知识实体,并自动生成进入下一轮辐射的种子数据;

所述实体分类单元,用于从主-谓-宾三元组中获取知识实体的p31字段值,确定该实体所属类别

所述属性关系汇聚单元,用于根据是否依赖于其他知识实体,将主-谓-宾三元组数据中的谓语自动分为属性和关系,并与实体类别对应,确定属性关系,生成知识结构数据。

作为上述系统的一种改进,所述体系构建模块包括知识模型构建单元、属性关系重组单元和体系层级修正单元;

所述知识模型构建单元,用于根据知识结构数据,调用数据获取模块的数据采集单元,对知识结构中的实体类别根据p279字段值进行有限次的递归查询,获取知识模型层级信息,生成知识模型层级;

所述属性关系重组单元,用于根据知识模型的层级调整情况,重新组织知识模型下的属性关系定义;

所述体系层级修正单元,用于结合所述用户层的体系专家修正信息,调整知识模型的层级关系。

与现有技术相比,本发明的优势在于:

1、本发明使得用户能够根据需求指定特定主题/知识实体,通过知识体系自动构建系统获取该主题/知识实体的知识体系,为快速掌握、后续深入优化完善知识体系及深入研究该主题/知识实体奠定了基础;

2、可以通过设定辐射层级控制输出的知识体系的规模体量。

附图说明

图1是本发明的一种基于wikidata的知识体系自动构建方法示意图;

图2是本发明的一种基于wikidata的知识体系自动构建系统示意图。

具体实施方式

下面结合附图和实施例对本发明的技术方案进行详细的说明。

实施例1

基于wikidata的知识体系自动构建方法可以接受用户(科研和情报人员)指定的特定主题或知识实体及辐射层级设置,最终重塑该主题/知识实体所对应的知识体系,包括知识模型、属性、关系、知识实体及知识数据。主要包含智能采集、定向解析和自动封装三个步骤,如图1所示。

1、智能采集

wikidata具有开放的全量数据下载和在线query查询的api,通过开发特定的数据采集程序,可以实现针对主题/知识实体等种子数据的数据智能获取。采集途径可包括两种,一是将全量数据本地化存入elasticsearch等存储检索引擎,再开发数据查询接口实现数据采集;二是针对在线query查询的api接口,自行封装面向特定需求的数据查询接口实现数据采集。

其中,方式一受限于数据本地化时采用的数据版本,可能造成知识体系中要素的缺失;方式二则依赖于网络支持和接口的查询方式不够灵活,可能造成知识体系构建效率不高;因此本方法采用方式一和方式二综合的方法,在数据获取过程中,大部分数据采用方式一进行获取,缺失数据则采用方式二补充。

2、定向解析

由步骤1采集来的是wikidata中特定主题/知识实体所覆盖的所有知识条目,构建知识体系主要基于知识图谱这种图模型来描述知识和建模世界万物之间的关联关系的技术方法,因此定向解析是将知识条目以spo(subject-predicate-object)的三元组形式存储,并自动汇聚其中的predicate项,将其整理为相应的属性和关系。

具体方法为将知识条目以spo方式组织,同时拆分为知识实体、属性/关系、属性值/另一个知识实体,其中属性包括具有三元组中最后一项为另一个知识实体的,将其第二项归为关系,其他情况都归为属性。此外,自动汇总属性和关系的wikidataitemid,调用(1)的智能采集模块,解析出属性和关系的基本信息,包括命名、定义和描述等。

3、自动封装

自动封装是将(1)和(2)获取的数据,自动封装成知识体系的各要素,即知识模型、属性、关系、知识实体和知识数据。具体方法如下:

知识模型的确定,wikidata的属性中有两个特殊的字段,p31(instanceof)和p279(subclassof),其中p31表征该知识实体是某个类的实例,p279表征本知识实体所属类是另一个类的子类。根据这两个字段的值进行有限递归查询,可以确定该知识实体所属的类的层级信息。从spo中获取知识实体的p31值(获取该实体的知识类别),再根据p279值从spo中或者调用(1)的智能采集模块递归查询还原知识模型层级;

属性/关系的确定,根据确定的知识模型,对每个知识模型下所有实体从spo数据中获取相应的predicate集合,并将其根据(2)定向解析的结果,将其按属性/关系定义到相应知识模型下;

知识实体的确定,根据辐射层级的设定,将最后一次辐射获得的知识实体转化为数据信息,即不将其列为知识实体,将知识链接内容截断形成闭环,以获取限定范围内的知识体系;

知识数据的确定,结合知识模型、属性/关系、知识实体的确定,将spo数据对应到相应实体下,形成完备的知识体系框架。

实施例2

基于wikidata的知识体系自动构建系统包括用户层、系统层和展示层。如图2所示。

1、用户层

用户层包括种子数据、辐射层级以及体系专家修正三部分。

种子数据,是用户输入的wikidata数据项编号,主要指科研和情报人员想要构建的知识体系的对象(特定主题或者特定知识实体)在wikidata中保存的唯一编号;它可以只包含一个知识实体,如人工神经网络(q192776);也可以是某个特定主题下的一些知识实体,如人工智能主题,人工智能(q11660)、机器学习(q6723676)、alphago(q22329209)等。

辐射层级,是一个用户输入的系统参数,指自动构建知识体系时种子数据往外关联延伸的辐射层数,通常结合用户预期获得的知识体系规模体量和知识体系构建时间来给定;

体系专家修正,是可选的用户输入项,一份以列表形式存在的知识结构修正数据,表征了科研和情报人员对于该主题或者知识实体已有的体系认知,也可结合自动构建过程中反馈的知识体系给出。

2、系统层

系统层包括数据获取、数据组织、体系构建和知识存储四个模块。

1)数据获取,包括数据采集单元和数据解析单元。其中,数据采集单元由上一节方法的智能采集部分提到的两种采集方式对应的采集程序和一个采集调度机制组成,负责抽取与种子数据相关的wikidata知识条目;数据解析单元则是对知识条目数据进行清洗解析,以简洁的三元组格式存储spo数据。

2)数据组织,包括辐射实体搜集单元、实体分类单元、属性/关系汇聚单元。其中,辐射实体搜集单元负责从spo数据中汇总出该主题/知识实体本轮辐射过程中形成的延伸知识实体,并自动生成进入下一轮辐射的种子数据;实体分类单元负责从1)得到的spo数据中根据p31和p279两个关联关系,通过调用1)定向采集和解析来自动获得实体分类信息;属性/关系汇聚单元,负责根据是否依赖于(关联)其他实体,将spo数据中的谓语自动分为属性和关系,并与实体类别对应。数据组织模块生成知识结构数据,包括实体类别信息、属性/关系信息。

3)体系构建,包括知识模型构建单元、属性关系重组单元、体系层级修正单元。其中,知识模型构建单元,负责根据2)得到的知识结构数据确定并生成完整的知识模型,即定义确定知识模型并定义其所属属性和关系;属性关系重组单元,则负责根据知识模型的层级调整情况,相应调整属性/关系与知识模型的对应从属,即重新组织知识模型下的属性/关系定义;体系层级修正单元,结合用户输入的知识结构修正数据调整知识体系中知识模型的层级关系。

4)知识存储,包括知识数据存储器、知识结构存储器、缓存数据存储器。系统处理过程存在spo数据、知识结构数据、知识数据以及与用户层交互输入的知识结构修正数据等,知识数据存储器主要负责存储来自于数据获取模块生成的spo数据,并为数据组织模块提供汇总的spo数据;知识结构存储器主要负责存储来自数据组织模块和体系构建模块生成的知识结构数据,并与体系构建模块和展示层的数据展示模块进行数据交互;缓存数据存储系统处理过程及用户交互过程生成配置数据、知识结构修正数据以及其他系统数据。

3、展示层

展示层,主要包括数据展示部分,即将系统自动生成的知识数据和知识结构数据以合理的组织方式进行可视化呈现,包括但不限于知识模型结构层级展示,属性关系列表展示,实体及实体信息的关联可视化等,为科研和情报人员进行了解掌握、深入研究以及修正完善提供便捷途径。

最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1