一种基于垂直领域的知识图谱的构建方法

文档序号：10594152阅读：1141来源：国知局

一种基于垂直领域的知识图谱的构建方法
【专利摘要】一种基于垂直领域的知识图谱的构建方法，包括以下步骤：（1）抽取在线百科的类的词汇实现和类之间的上下位关系；（2）将领域知识的信息进行归并，定义领域的数据属性和关系属性，并且进一步规约属性的定义域和值域；（3）实体层的学习，即抽取实体和填充实体的属性值；结构化和半结构化的数据，利用D2R或数据采集工具批量处理；对于非结构化的文本数据，定义上层本体的类和属性及其之间的关系，根据类和属性的关系识别实例；本发明的优点是：通过该方法，使的垂直领域知识图谱的构建知识分类清晰，且实现了知识图谱的自学习和自动扩展，对垂直领域的信息检索和语义分析起到关键作用。
【专利说明】
一种基于垂直领域的知识图谱的构建方法
技术领域
[0001]本发明涉及一种基于垂直领域的知识图谱的构建方法，主要用于垂直领域的问答系统和信息搜索的语义分析，并提高检索准确率。本发明通过定义知识图谱中类的约束并根据类的约束识别实体，自动学习和扩展领域知识图谱，依赖于自然语言处理相关技术和计算机技术。
【背景技术】
[0002]2012年5月，谷歌在本体的基础上提出“知识图谱”的概念，扩展了本体的实体及其之间的关系。使得用户的搜索信息对应客观世界的实体，而不仅仅是一个字符串。谷歌利用知识图谱实现了问答系统的功能，返回给用户一个准确的答案，而不仅仅是一系列链接。2012年11月，搜狗推出国内最早的知识图谱一搜狗知立方。2013年2月，百度推出知识图谱百度知;L.、。
[0003]知识图谱的构建方法尚处于研究阶段，现有知识图谱的构建方法基本上是基于本体的构建方法，知识图谱强调实体层次的扩展，通用性低，但携带的信息更加具体，实体之间的关系复杂，形成一个网状图。构建知识图谱时，基本采用格式化的数据表，而对于非结构化的文本信息的利用很少。按照本体的通用程度，知识图谱分为通用知识图谱和行业知识图谱。对于知识图谱的构建方法主要有自顶向下的构建方法和自底向上的构建方法。自顶向下的方法是指首先为知识图谱定义数据模式，包括类的上下位关系和类的约束，然后逐步细化构建实体；自底向上的方法则首先构建实体，然后逐步往上抽象形成类。无论自顶而下还是自底而上的方法都需要解决以下三个问题:
1.数据模式的定义:
数据模式的定义包括类的定义及类的约束。由于类之间存在上下位关系，而类的约束依赖于属性的定义，因此数据模式的定义依赖于关系的抽取。
[0004]2.关系的抽取:
关系分为分类关系和非分类关系，分类关系即概念的上下位关系，非分类关系即除了分类关系以外其他的关系，通常对应本体中的属性，主要是自然语言中的动词和描述性的词语。
[0005]分类关系的抽取。通常采用的方法有:基于词法模式的方法，基于共现分析的方法，基于语言学的方法和基于开发链接数据和在线百科的方法。
[0006]非分类关系的抽取。通常采用的方法有:基于关联规则分析的方法和基于开发链接数据和在线百科的方法。
[0007]当前的知识图谱构建技术中，主要从结构化和半结构化的数据中抽取实体和关系，且在抽取到分类关系或非分类关系后，没有利用关系对类进行约束，从而不能利用类的约束从非结构化的文本中抽取实例。
[0008]3.实体层的学习:
实体是知识图谱中的主要组成部分，实体层的学习包括实体的词汇实现和实体的数据填充。实体的词汇实现是指表述实体的词汇，通常对应文章页面的标题。实体的数据填充主要为实体添加属性及属性值，或者通过属性建立实体与其他实体之间的关系。

【发明内容】

[0009]本发明旨在提供一种基于垂直领域的知识图谱的构建方法，以解决现有垂直领域存在的信息检索和自动问答系统的语义分析，以及信息检索和自动问答系统的召回率、准确率较低的问题。
[0010]本发明的技术方案是:
一种基于垂直领域的知识图谱的构建方法，其特征在于，包括以下步骤:
(1)类的词汇实现和类的上下位关系:从在线百科的分类系统和领域的产品分类目录中抽取类的词汇实现和类之间的上下位关系；
(2)定义属性和类的约束:
将领域知识的信息进行归并，定义领域的数据属性和关系属性，并且进一步规约属性的定义域和值域；
(3)实体层的学习，即抽取实体和填充实体的属性值:
实体层的学习根据被填充数据的来源主要分为两部分:一部分为结构化和半结构化的数据，另一部分为非结构化的文本信息；
对于属性及其属性值的格式定义良好的结构化和半结构化的数据，利用D2R或数据采集工具进行批量处理；
对于非结构化的文本信息，则利用自然语言处理技术，对文本进行分词、句法依赖分析，识别类的约束，对满足约束的词汇构建为相应类的实体，并补充数据值。
[0011]2、根据权利要求1所述的基于垂直领域的知识图谱的构建方法，其特征在于，所述的步骤(3)中，对于非结构化的文本信息的处理方法包括以下步骤:
(I)文本预处理:利用计算机终端登录互联网，启动客户端，输入客服与用户的聊天记录等文本信息，借助自然语言处理相关技术，对文本分词、词语标准化、去停用词；
(2 )识别文本中的领域知识图谱的类、属性、实体和属性值:
将定义的知识图谱中的类、属性、实体和属性值加入到自定义词典中，
并设置相应的词性，分词时根据词性将词语对应到领域知识图谱中；
(3)对文本中的句子进行语法依赖分析:
利用斯坦福自然语言工具包对文本中的词语进行语法依赖分析，根据词语之间的依赖关系将文本中的词语与知识图谱中类的约束进行映射；
(4)根据已定义的类的约束文本中的实体的属性及属性值:
若词语满足某个类的所有约束，则将该词汇构建为相应类的实体，并将该实体的属性及其属性关系填充到知识图谱中；并在计算机终端的显示器上输出领域知识图谱的实体和实体的属性值。
[0012]本发明的优点是:通过该方法，使的垂直领域知识图谱的构建知识分类清晰，且实现了知识图谱的自学习和自动扩展，对垂直领域的信息检索和语义分析起到关键作用。
【附图说明】
[0013]图1是本发明的垂直领域的知识图谱的构建方法总流程图；
图2是本发明中非结构化的文本数据源实体的识别与实体的数据扩充流程图；
图3是本发明领域知识图谱的类的词汇实现和类的上下位关系示意图；
图4是本发明领域知识图谱的属性和类的约束示意图。
【具体实施方式】
[0014]参见图1，本发明一种基于垂直领域的知识图谱的构建方法，包括以下步骤:
1.抽取在线百科的类的词汇实现:利用计算机终端登录互联网，从在线百科的分类系统和领域的产品分类目录中抽取类的词汇实现和类之间的上下位关系，如图3所示，将母婴领域的知识进行分类，“婴儿用品”分为“奶粉” “纸尿裤” “辅食”等，相应的“母婴用品品牌”分为“奶粉品牌” “纸尿裤品牌” “辅食品牌”等。
[0015]输入:在线百科如互动百科(链接:http://fenle1.baike.com/)的分类系统。
[0016]输出:领域知识图谱的类的词汇实现和类的上下位关系(参见图3)。
[0017]2.定义属性和类的约束:
如图4所示，将领域知识的信息进行归并，定义领域的数据属性和关系属性，并且进一步规约属性的定义域和值域。这种规约定义为一条条的规则描述。如类“奶粉”的属性“品牌”值域是奶粉品牌的实体[安满惠氏奶粉荷兰牛栏……]，这样在检索到某个概念的品牌为在[安满惠氏奶粉荷兰牛栏……]范围内，则视该概念满足“奶粉”的一个约束。
[0018]输入:领域知识丰富的电子商务平台；
输出:领域知识图谱的属性和类的约束(参见图4)。
[0019]3.实体层的学习，即抽取实体和填充实体的属性值:
实体层的学习根据被填充数据的来源主要分为两部分:一部分为结构化和半结构化的数据，另一部分为非结构化的文本信息。本步骤仅确定数据源，对不同的数据源采取不同的策略。
[0020]4.结构化和半结构化的数据，对于属性及其属性值的格式定义良好，利用D2R或数据采集工具批量处理。
[0021]输入:数据库，领域电子商务平台的产品信息:
输出:领域知识图谱的实体和实体的属性值。
[0022]5.对于非结构化的文本数据，根据已定义的类的约束识别文本中的实体的属性及属性值。具体实现流程如图2所示:
对于非结构化的文本数据的填充方法包括以下步骤:
(I)文本预处理:利用计算机终端登录互联网，启动客户端，输入客服与用户的聊天记录等文本信息，借助自然语言处理相关技术，对文本分词、词语标准化、去停用词(常规技术)。
[0023](2)识别文本中的领域知识图谱的类、属性、实体和属性值:
将步骤2定义的类的类、属性、实体和属性值加入到自定义词典中，并设置相应的词性，分词时根据词性将词语对应到领域知识图谱中。
[0024](3)对文本中的句子进行语法依赖分析:
利用斯坦福自然语言工具包对文本中的词语进行语法依赖分析(现有技术)，根据词语之间的依赖关系将文本中的词语与知识图谱中类的约束进行映射。
[0025](4)根据已定义的类的约束文本中的实体的属性及属性值:
若词语满足某个类的所有约束，则将该词汇构建为相应类的实体，并将该实体的属性及其属性关系填充到知识图谱中。并在计算机终端的显示器上输出领域知识图谱的实体和实体的属性值。
【主权项】
1.一种基于垂直领域的知识图谱的构建方法，其特征在于，包括以下步骤: (1)类的词汇实现和类的上下位关系:从在线百科的分类系统和领域的产品分类目录中抽取类的词汇实现和类之间的上下位关系； (2)定义属性和类的约束: 将领域知识的信息进行归并，定义领域的数据属性和关系属性，并且进一步规约属性的定义域和值域； (3)实体层的学习，即抽取实体和填充实体的属性值: 实体层的学习根据被填充数据的来源主要分为两部分:一部分为结构化和半结构化的数据，另一部分为非结构化的文本信息；对于属性及其属性值的格式定义良好的结构化和半结构化的数据，利用D2R或数据采集工具进行批量处理；对于非结构化的文本信息，则利用自然语言处理技术，对文本进行分词、句法依赖分析，识别类的约束，对满足约束的词汇构建为相应类的实体，并补充数据值。2.根据权利要求1所述的基于垂直领域的知识图谱的构建方法，其特征在于，所述的步骤(3)中，对于非结构化的文本信息的处理方法包括以下步骤: (I)文本预处理:利用计算机终端登录互联网，启动客户端，输入客服与用户的聊天记录等文本信息，借助自然语言处理相关技术，对文本分词、词语标准化、去停用词；识别文本中的领域知识图谱的类、属性、实体和属性值: 将定义的知识图谱中的类、属性、实体和属性值加入到自定义词典中，并设置相应的词性，分词时根据词性将词语对应到领域知识图谱中；对文本中的句子进行语法依赖分析: 利用斯坦福自然语言工具包对文本中的词语进行语法依赖分析(现有技术)，根据词语之间的依赖关系将文本中的词语与知识图谱中类的约束进行映射；根据已定义的类的约束文本中的实体的属性及属性值: 若词语满足某个类的所有约束，则将该词汇构建为相应类的实体，并将该实体的属性及其属性关系填充到知识图谱中；并在计算机终端的显示器上输出领域知识图谱的实体和实体的属性值。
【文档编号】G06F17/30GK105956052SQ201610267606
【公开日】2016年9月21日
【申请日】2016年4月27日
【发明人】刘晓强, 张振峰, 王凌杰, 于忠清
【申请人】青岛海尔软件有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘晓强;张振峰;王凌杰;于忠清;
技术所有人：青岛海尔软件有限公司;
我是此专利的发明人

上一篇：一种基于网络信息的搜索方法及装置的制造方法
上一篇：信息查找的方法、装置及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。