一种领域百科图谱的构建方法及系统与流程

文档序号:28714017发布日期:2022-01-29 14:22阅读:163来源:国知局
一种领域百科图谱的构建方法及系统与流程

1.本技术属于计算机技术领域,具体涉及一种领域百科图谱的构建方法及系统。


背景技术:

2.百科是一种价值密度较高的知识资源,相比于资讯信息,百科词条能够更加全面和完整的描述概念信息。当前,以维基百科、百度百科、互动百科、搜搜百科等为代表的开放百科已经成为互联网上最有价值的知识资源之一,几乎各行各业的名词概念都可以在这些开放百科中找到相关的词条,在一定程度上为用户获取数据知识提供了便利。
3.领域百科是只包含一个或若干个存在一定内在联系的学科(门类)知识的百科词条集合。相比于通用百科,领域百科具有知识聚焦和体系完备的特点,能够方便特定领域的用户快速定位和全面了解领域内知识。领域百科主要服务于特定领域的用户,相比于维基百科、百度百科、互动百科、搜搜百科等通用百科多采用的众包建设模式,领域百科的建设往往需要领域内的机构和人员组织开展,多以人工建设为主,费时费力,且难以适应数据爆炸式增长的时代特点。
4.因此,领域百科的建设应该解决以下几个问题:一是百科词条能够及时更新,二是通过对词条有效拓展支撑用户对相关概念的全面了解。一个良好的领域百科构建方法一般应具备以下三个特征:一是信息聚焦,领域百科的词条范围要尽量服务于领域需要,尽量少地提供领域无关词条,以提升数据价值密度,降低无关数据的干扰;二是构建迅速,领域百科的构建过程除必要的专家知识确认过程,应尽量提供自动化能力,以实现词条的快速扩充和完善;三是推荐有效,为提高用户的知识获取效率,构建的领域百科应具备词条的推荐能力,根据领域用户的使用习惯,词条的推荐应该围绕引用推荐和分类主题推荐展开。
5.以维基百科、百度百科、互动百科、搜搜百科等为代表的开放百科具有海量的百科词条,几乎涵盖了各行各业的名词概念。但是,对于特定领域的用户而言,使用开放百科获取数据知识仍然存在一些不足。一方面,海量的信息资源伴随着知识的不聚焦,无形中增加了特定领域用户获取数据知识的成本;另一方面,各个开放百科在特定领域的知识积累存在互补性,依靠单一的百科信源并不能很好的解决特定领域百科知识的获取需求。而采用人工从头构建领域百科的方式存在建设代价过高,不能快速大量构建的缺点。
6.申请内容
7.本技术实施例的目的是提供一种领域百科图谱的构建方法及系统,以解决现有技术中的开放百科数据零散不聚焦,人工构建成本高的问题。
8.为了解决上述技术问题,本技术是这样实现的:
9.第一方面,提供了一种领域百科图谱的构建方法,包括以下步骤:
10.从多个开放百科数据源中采集领域相关词条,得到领域词条集;
11.对所述领域词条集中的词条分别进行引用标注和标签标注,形成不同词条间的引用关系网络和分类树;
12.基于所述引用关系网和所述分类树,构建领域百科图谱。
13.第二方面,提供了一种领域百科图谱的构建系统,包括:
14.采集模块,用于从多个开放百科数据源中采集领域相关词条,得到领域词条集;
15.标注模块,用于对所述领域词条集中的词条分别进行引用标注和标签标注,形成不同词条间的引用关系网络和分类树;
16.构建模块,用于基于所述引用关系网和所述分类树,构建领域百科图谱。
17.本技术实施例通过构建的开放百科数据采集模型,采集开放百科中的领域相关词条,对采集的词条集进行引用标注和标签标注,并依据标注的信息,按照领域百科关系模型构建领域百科图谱,能够以开放百科为素材实现快速、低人工参与地构建领域百科,并实现了相关词条之间的推荐能力。
附图说明
18.图1是本技术实施例提供的一种领域百科图谱的构建方法流程图;
19.图2是本技术实施例提供的领域百科关系模型的示意图;
20.图3是本技术实施例提供的一种领域百科图谱的构建系统的结构示意图。
具体实施方式
21.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
22.本发明面向特定领域的百科知识构建场景,聚焦领域百科的基本特征,提出一种基于开放百科的领域百科图谱的构建方法及系统。
23.下面结合附图,通过具体的实施例及其应用场景对本技术实施例提供的领域百科图谱的构建方法进行详细地说明。
24.如图1所示,为本技术实施例提供的一种领域百科图谱的构建方法流程图,包括以下步骤:
25.步骤101,从多个开放百科数据源中采集领域相关词条,得到领域词条集。
26.具体地,可以从多个开放百科数据源中分别采集领域相关词条,得到多个词条集合;对所述多个词条集合进行去重,得到领域词条集。
27.本实施例中,可以构建开放百科数据采集模型,基于该模型采集领域词条集。具体地,从多个开放百科数据源中分别采集领域相关词条,得到多个词条集合,具体包括:
28.对每个开发百科数据源执行以下操作:
29.步骤a:将领域内的重点概念作为种子词条,并以所述种子词条为线索,爬取所述种子词条在所述开放百科数据源中所引用的关联词条;
30.步骤b:判断爬取到的关联词条中是否存在与领域知识密切相关的核心词条,如果不存在,则将所有爬取到的关联词条作为拓展词条存入领域词条集;如果存在,则将爬取到的关联词条中的核心词条作为新的种子词条,将爬取到的关联词条中除核心词条之外的其他词条作为拓展词条存入领域词条集,并执行步骤c;
31.步骤c:判断是否达到终止条件,如果是,则执行步骤e;否则,执行步骤d;
32.步骤d:爬取所述新的种子词条在所述开放百科数据源中所引用的关联词条,并执行步骤b;
33.步骤e:将所有的种子词条作为核心词条存入领域词条集。
34.其中,判断是否达到终止条件,具体包括:判断爬取到的关联词条中的核心词条是否均为已存在的种子词条,如果是,则确定达到终止条件;否则,确定未达到终止条件;
35.或者
36.判断是否达到预设的采集深度,如果是,则确定达到终止条件;否则,确定未达到终止条件。
37.步骤102,对所述领域词条集中的词条分别进行引用标注和标签标注,形成不同词条间的引用关系网络和分类树。
38.具体地,可以分析所述领域词条集中的不同词条之间的引用关系,形成不同词条间的引用关系网络;分析所述领域词条集中的不同词条之间的包含关系和归属关系,形成不同词条间的分类树。
39.步骤103,基于所述引用关系网和所述分类树,构建领域百科图谱。
40.其中,领域百科图谱包含词条、主题和分类三种概念,以及词条引用关系、主题包含关系和分类归属关系三种关系;
41.相应地,可以基于所述分类树,从所述领域词条集中选择至少一个词条作为主题,作为主题的词条与所述领域词条集中的至少一个其他词条之间具有包含关系;基于所述分类树,从所述领域词条集中选择至少一个词条作为分类,作为分类的词条与所述领域词条集中的至少一个其他词条之间具有归属关系;基于所述引用关系网和所述分类树,构建领域百科图谱中的不同词条之间的词条引用关系,主题与词条之间的主题包含关系,分类与词条之间的分类归属关系。
42.本技术实施例通过构建的开放百科数据采集模型,采集开放百科中的领域相关词条,对采集的词条集进行引用标注和标签标注,并依据标注的信息,按照领域百科关系模型构建领域百科图谱,能够以开放百科为素材实现快速、低人工参与地构建领域百科,并实现了相关词条之间的推荐能力。
43.领域百科的构建首先需要解决的是词条筛选问题,本技术实施例以开放百科为词条构建来源,通过构建开放百科对应的采集模型实现词条的采集,然后对多个开放百科采集的词条集合进行去重处理,形成最终的领域词条集。
44.领域百科词条筛选的关键是开放百科采集模型的设计,由于开放百科一般会涵盖各个领域的海量词条信息,如何精确筛选领域相关的词条,从而在尽可能完整覆盖领域词条的基础上降低采集工作量成为开放百科采集模型设计的关键问题。首先,由领域专家指定若干领域内的重点概念作为种子词条,开放百科采集模型以种子词条为线索爬取开放百科中种子词条及种子词条引用的关联词条,再由领域专家参与半自动化的筛选关联词条中的与领域知识密切相关的核心词条,将核心词条作为新的种子词条进行新一轮的关联词条获取操作,将非核心词条作为拓展词条存入开放百科采集词条集。如此往复,直至达到终止条件,如种子词条集不再增加或者达到约定的采集深度,则将所有的种子词条作为核心词条存入开放百科采集词条集。
45.词条标注是构建领域百科词条关系图谱的基础,本技术实施例根据领域用户的使
用习惯提供引用标注和标签标注两种方式。其中,引用标注主要是自动化的分析词条之间的引用关系,形成词条引用关系网络。标签标注主要用于分析和构建词条的分类树,由于领域百科的专业性本发明采用人在回路的词条分类树构建方式,首先由系统自动化的为词条标定分类标签,随后由领域专家对分类进行审核和上下位结构组织,实现词条的专业分类标注。
46.领域百科构建的最后一步是建立领域百科图谱,以支撑词条间的阅读推荐。本技术实施例根据领域用户的使用习惯,围绕词条间的引用关系和分类主题关系,设计了领域百科关系模型,并以词条标注的结果,依据该模型实现领域百科图谱的构建。其中,领域百科关系模型如图2所示。
47.本技术实施例通过以领域专家提供的种子词条为输入,对开放百科词条的引用关系的层层采集,实现快速的、低人工参与的信息聚焦的领域百科词条集的获取。此外,本技术实施例设计了包含词条、主题和分类三种概念以及包含词条引用关系、主题包含关系和分类归属关系在内的三种关系的领域百科关系模型,依据该模型构建的领域百科图谱在实际的系统构建使用中,能够面向领域用户的词条阅读习惯,很好地支撑词条的阅读推荐能力实现。
48.如图3所示,为本技术实施例提供的一种领域百科图谱的构建系统的结构示意图,包括:
49.采集模块310,用于从多个开放百科数据源中采集领域相关词条,得到领域词条集;
50.具体地,采集模块310,包括:
51.采集子模块,用于从多个开放百科数据源中分别采集领域相关词条,得到多个词条集合;
52.去重模块,用于对所述多个词条集合进行去重,得到领域词条集。
53.具体地,上述采集子模块,具体用于对每个开发百科数据源执行以下操作:
54.步骤a:将领域内的重点概念作为种子词条,并以所述种子词条为线索,爬取所述种子词条在所述开放百科数据源中所引用的关联词条二
55.步骤b:判断爬取到的关联词条中是否存在与领域知识密切相关的核心词条,如果不存在,则将所有爬取到的关联词条作为拓展词条存入领域词条集二如果存在,则将爬取到的关联词条中的核心词条作为新的种子词条,将爬取到的关联词条中除核心词条之外的其他词条作为拓展词条存入领域词条集,并执行步骤c;
56.步骤c:判断是否达到终止条件,如果是,则执行步骤e;否则,执行步骤d;
57.步骤d:爬取所述新的种子词条在所述开放百科数据源中所引用的关联词条,并执行步骤b;
58.步骤e:将所有的种子词条作为核心词条存入领域词条集。
59.本实施例中,上述采集子模块判断是否达到终止条件,具体包括:
60.所述采集子模块判断爬取到的关联词条中的核心词条是否均为已存在的种子词条,如果是,则确定达到终止条件;否则,确定未达到终止条件;
61.或者
62.所述采集子模块判断是否达到预设的采集深度,如果是,则确定达到终止条件;否
则,确定未达到终止条件。
63.标注模块320,用于对所述领域词条集中的词条分别进行引用标注和标签标注,形成不同词条间的引用关系网络和分类树;
64.具体地,标注模块320,具体用于分析所述领域词条集中的不同词条之间的引用关系,形成不同词条间的引用关系网络;分析所述领域词条集中的不同词条之间的包含关系和归属关系,形成不同词条间的分类树。
65.构建模块330,用于基于所述引用关系网和所述分类树,构建领域百科图谱。
66.其中,领域百科图谱包含词条、主题和分类三种概念,以及词条引用关系、主题包含关系和分类归属关系三种关系。
67.具体地,构建模块330,具体用于基于所述分类树,从所述领域词条集中选择至少一个词条作为主题,作为主题的词条与所述领域词条集中的至少一个其他词条之间具有包含关系;基于所述分类树,从所述领域词条集中选择至少一个词条作为分类,作为分类的词条与所述领域词条集中的至少一个其他词条之间具有归属关系;基于所述引用关系网和所述分类树,构建领域百科图谱中的不同词条之间的词条引用关系,主题与词条之间的主题包含关系,分类与词条之间的分类归属关系。
68.本技术实施例通过构建的开放百科数据采集模型,采集开放百科中的领域相关词条,对采集的词条集进行引用标注和标签标注,并依据标注的信息,按照领域百科关系模型构建领域百科图谱,能够以开放百科为素材实现快速、低人工参与地构建领域百科,并实现了相关词条之间的推荐能力。
69.需要说明的是,在本文中,术语

包括



包含

或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句

包括一个......

限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
70.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本技术各个实施例所述的方法。
71.上面结合附图对本技术的实施例进行了描述,但是本技术并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本技术的启示下,在不脱离本技术宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本技术的保护之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1