一种面向图书的阅读领域知识图谱构建方法

文档序号:6511637阅读:1951来源:国知局
一种面向图书的阅读领域知识图谱构建方法
【专利摘要】本发明属于中文知识库应用【技术领域】,具体为一种面向图书的阅读领域知识图谱构建方法。该方法分为三个部分:通用知识图谱构建、领域知识图谱构建和智能阅读推荐。即:获取互联网上的知识,集成通用知识图谱;结合通用知识图谱利用迭代的方式扩展书籍相关的概念和实体,结合实体Infobox表和传统关系抽取实体关系;按照实体由长到短标注电子书籍中的核心实体,并建立实体与书籍知识图谱的链接,以实现智能知识推荐。本发明通过建立面向书籍的阅读领域知识图谱,对书籍中的实体进行解释或知识推荐,增加了知识的深度,实现了电子阅读的便捷化、智能化和人性化,具有更好的用户体验。
【专利说明】一种面向图书的阅读领域知识图谱构建方法
【技术领域】
[0001]本发明属于中文知识库应用【技术领域】,具体涉及一种面向图书的阅读领域知识图谱的构建方法。
【背景技术】
[0002]随着计算机技术的发展和移动设备的普及,人们的阅读方式发生了深刻的变革,电子阅读逐渐代替传统的纸质阅读成为主流阅读模式之一。相比传统阅读,电子阅读避免了纸张的浪费更加绿色环保,电子阅读可以方便读者实现便捷的阅读。电子阅读已然成为知识获取的一种重要途径之一,更有引领知识获取的趋势。
[0003]但是,当前电子阅读的知识获取都限制于书籍本身,读者遇到陌生的词汇、知识点时需要查阅辅助工具,如词典、百科全书等,来对陌生的知识进行解释。这给阅读带来额外的负担,如何将书籍中知识的解释直观的展示给读者成为当前电子阅读的瓶颈,解决该问题将使得电子阅读更加便捷、智能和人性化。
[0004]当前的电子阅读器尝试对书籍中的知识进行解释。Kindle阅读器将电子书籍中的词语链接到维基百科中进行搜索,以产生词语的解释。有道阅读将词语链接到中文互动百科进行解释。这些改进一定程度上提高了电子书籍的可理解性与知识的深度。虽然这些改进扩展了书籍之外的知识和内容,但是仍然没有进行智能的知识整理和推荐,读者仍然需要从词语的搜索结果中整理、选择需要的知识,甚至这些百科页面不存在读者想要的知识。所以,现存电子阅读仍然不够智能,不能自动的筛选知识和知识推荐。
[0005]知识图谱(knowledge graph)是指以实体、概念作为节点,以语义关系作为边的语义网络。知识图谱使得知识获取更直接,因此知识图谱能够为电子阅读提供语义关联的知识,从而实现阅读的便捷化、智能化和人性化。但是,当前中文知识图谱仍属于构建阶段,而且是通用的知识图谱。因此,我们需要针对每一本书籍构建一个阅读领域知识图谱。

【发明内容】

[0006]本发明针对当前电子阅读存在知识层次浅、知识推荐不够智能等问题,提出一种结合通用知识图谱,构造面向图书的领域知识图谱的方法,为电子书籍构造知识网络,从而实现对书籍词语的解释和智能的知识推荐。
[0007]本发明提出的面向图书的阅读领域知识图谱构建方法,结合已有的通用知识图谱,对书籍中的核心实体和概念进行识别和标注,挖掘实体、概念之间的语义关系,从而构造书籍的领域知识图谱。当读者选择标注的核心实体进行知识查询时,阅读器将从领域知识图谱中查询语义相关的知识进行智能的知识推荐。本发明方法包括三个部分(即三个模块):通用知识图谱构建、领域知识图谱构建和智能阅读应用,方法架构图见附图1所示。
[0008]一、通用知识图谱构建
知识图谱是指由海量的实体、概念以及它们之间的语义关系组成的语义网络。知识图谱能够提供实体最全面、关联的知识和解释,因此我们借助通用知识图谱为一本图书构建领域知识图谱,从而为书籍中的词语、知识点作出合理解释。
[0009]当前存在的中文知识图谱包括谷歌中文知识图谱、百度知识图谱和搜狗知立方。我们利用已有的知识源作为实现书籍领域知识图谱构建的知识源,通过获取百度百科、互动百科和中文维基百科的实体、概念和关系,并加以集成与清洗得到高质量的中文通用知识图谱。
[0010]二、领域知识图谱构建
该模块结合通用知识图谱采用迭代方法不断的扩充核心概念和核心实体,然后挖掘实体之间的语义关系,从而构建领域知识图谱。该模块通过步骤概念、实体识别和关系抽取和实现。
[0011]概念、实体识别
概念识别的目标是识别出与书籍紧密相关的所有概念,本发明借助通用知识图谱中实体的开放分类信息实现。
[0012]图书关键字定义
首先,为了识别图书相关的概念,需要人工定义少量书籍紧密相关的关键字,关键字可以选择图书名称,也可以选择图书名称中的关键字。该步骤可以得到关键字集合KEYWORD(定义:关键字集合即为由图书名称相关的关键字组成的集合)。
[0013]种子概念识别
种子概念是知识图谱中直接包含关键字串的概念,将知识图谱中包含关键字字串的概念加入分类种子概念集合SEEDCONCEPT(定义:分类种子概念集合即为由知识图谱中包含集合KEYWORD中的关键字子串的概念所组成的集合)。
[0014]概念、实体迭代扩展
概念、实体迭代扩展是根据种子概念,从通用知识图谱中扩展出所有与图书相关的概念和实体。实施方法如下,扩展流程图见附图2:
首先,从种子概念集合SEEDCONCEPT可以得到对应的实体,加入核心实体集合COREENTITY (定义:核心实体集合即为由种子概念下的实体所组成的集合)。
[0015]其次,扫描COREENTITY中的核心实体,可以产生不在SEEDCONCEPT中的概念,称作候选概念,加入候选概念集合CANDIDATECONCEPT(定义:候选概念集合即为由核心实体所属并且未出现在核心概念集合中的概念所组成的集合)。
[0016]然后,计算CANDIDATECONCEPT中候选概念与核心概念集合CORECONCEPT(定义:核心概念集合即由图书密切相关的概念所组成的集合,由种子概念和与其相似性较大的概念组成)之间的语义相关性。将大于给定阈值I (定义:语义相关性阈值。如果概念与集合的语义相关性大于该值则认为语义相关)的候选概念作为相关概念,加入核心概念集合CORECONCEPT中。其中,候选概念c (表示任意候选概念)与核心概念集合之间CS (表示核心概念集合CORECONCEPT)的语义相关性定义为:Rel Ce, Cs)。
【权利要求】
1.一种面向图书的阅读领域知识图谱构建方法,其特征在于具体步骤分为:通用知识图谱构建、领域知识图谱构建和智能阅读应用; 一、通用知识图谱构建 知识图谱是指由海量的实体、概念以及它们之间的语义关系组成的语义网络;借助通用知识图谱为一本图书构建领域知识图谱,从而为书籍中的词语、知识点作出合理解释;通用知识图谱以当前存在的中文知识图谱包括谷歌中文知识图谱、百度知识图谱和搜狗知立方作为已有的知识源构建; 二、领域知识图谱构建 结合通用知识图谱采用迭代方法不断的扩充核心概念和核心实体,然后挖掘实体之间的语义关系,从而构建领域知识图谱;包括概念、实体识别和关系抽取: -2.1概念、实体识别 概念识别的目标是识别出与书籍紧密相关的所有概念,概念识别借助通用知识图谱中实体的开放分类信息实现; -2.1.1图书关键字定义 首先,为了识别图书相关的概念,由人工定义少量书籍紧密相关的关键字,关键字选择图书名称,或者选择图书名称中的关键字;通过本步骤得到关键字集合KEYWORD ; -2.1.2种子概念识别 种子概念是知识图谱中直接包含关键字串的概念,将知识图谱中包含关键字字串的概念加入分类种子概念集合SEEDCONCEPT,分类种子概念集合为由知识图谱中包含集合KEYWORD中的关键字字串的概念所组成的集合; -2.1.3概念、实体迭代扩展 概念、实体迭代扩展是根据种子概念,从通用知识图谱中扩展出所有与图书相关的概念和实体;具体方法如下: 首先,从种子概念集合SEEDCONCEPT得到对应的实体,加入核心实体集合COREENTITY,核心实体集合为由种子概念下的实体所组成的集合; 其次,扫描COREENTITY中的核心实体,产生不在SEEDCONCEPT中的概念,称作候选概念,加入候选概念集合CANDIDATECONCEPT,候选概念集合为由核心实体所属并且未出现在核心概念集合中的概念所组成的集合; 然后,计算CANDIDATECONCEPT中候选概念与核心概念集合C0REC0NCEPT之间的语义相关性,所述核心概念集合是由图书密切相关的概念所组成的集合,由种子概念和与其相似性较大的概念组成;将大于给定阈值r的候选概念作为相关概念,加入核心概念集合C0REC0NCEPT中;其中,候选概念c与核心概念集合之间CS的语义相关性定义为:Re (c,cs);

2.根据权利要求1所述的面向图书的阅读领域知识图谱构建方法,其特征在于在概念、实体迭代扩展步骤中,实体和概念可能存在一些比较通用但是和主题相关性不强的实体和概念,因此,需要进行清洗;清洗过程通过计算实体或概念的IDF值来实现,即把IDF值较低的实体或者概念作为噪声,如下式所示:

3.根据权利要求1所述的面向图书的阅读领域知识图谱构建方法,其特征在于在基于模式的关系抽取中,针对图书中人物关系的抽取,采用表1中的抽取模式,语料文本是实体的名片介绍,这里r代表人物关系集合; 表1.人物关系抽取模式
【文档编号】G06F17/30GK103488724SQ201310420375
【公开日】2014年1月1日 申请日期:2013年9月16日 优先权日:2013年9月16日
【发明者】肖仰华, 张可尊, 汪卫 申请人:复旦大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1