知识图谱生成方法、装置、计算机设备以及存储介质与流程

文档序号:20030192发布日期:2020-02-28 10:17阅读:179来源:国知局
知识图谱生成方法、装置、计算机设备以及存储介质与流程

本申请涉及人工智能技术领域,尤其涉及一种知识图谱生成方法、装置、计算机设备以及存储介质。



背景技术:

随着信息技术的不断发展,互联网信息日益丰富。知识图谱的应用使得人工智能得到更好的发展,使人们通过搜索能够找到最想要的信息。知识图谱本质上是语义网络,是一种基于图的数据结构,描述的是真是世界汇总存在的实体以及实体之间的关系。随着知识图谱的应用日益广泛,知识图谱的构建也及其重要。

相关技术中,对知识图谱的构建还处于人工阶段,对于特定领域的构建还需要该领域的专家做大量的人工标注工作,因此,构建成本高,时间也较长。此外,目前的机器学习和自然语言处理技术在语义识别方面也存在较大的难度,不能准确的根据语义包含关系,呈现结构化的知识图谱。



技术实现要素:

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此,本申请提出一种知识图谱生成方法,通过用户在搜索会话中输入的各搜索词,根据各搜索词之间的文本重合情况或各搜索词的句法结构,确定各搜索词之间的语义包含关系,据此构建语义包含关系的知识图谱,以解决相关技术中通过人工的方式构建知识图谱,导致构建成本高,时间长的技术问题。

本申请提出一种知识图谱生成装置。

本申请提出一种计算机设备。

本申请提出一种非临时性计算机可读存储介质。

本申请提出一种计算机程序产品。

本申请一方面实施例提出了一种知识图谱生成方法,包括:

对包含多次搜索的搜索会话,获取在所述搜索会话中用户输入的各搜索词;

根据各搜索词之间的文本重合情况或各搜索词的句法结构,确定各搜索词之间的语义包含关系;

将各搜索词作为知识图谱节点,根据各搜索词之间的语义包含关系,确定各节点之间的父子关系;

根据所述父子关系,生成所述知识图谱。

本申请实施例的知识图谱生成方法,通过对包含多次搜索的搜索会话,获取在搜索会话中用户输入的各搜索词;根据各搜索词之间的文本重合情况或各搜索词的句法结构,确定各搜索词之间的语义包含关系;将各搜索词作为知识图谱节点,根据各搜索词之间的语义包含关系,确定各节点之间的父子关系;根据父子关系,生成知识图谱。该方法通过用户搜索会话中输入的各搜索词,根据各搜索词之间的文本重合情况或各搜索词的句法结构,确定各搜索词之间的语义包含关系,进而生成知识图谱,解决了现有技术中不能准确识别语义包含关系以及通过人工的方式构建知识图谱,导致构建成本高,时间长的技术问题。

本申请又一方面实施例提出了一种知识图谱生成装置,包括:

获取模块,用于对包含多次搜索的搜索会话,获取在所述搜索会话中用户输入的各搜索词;

确定模块,用于根据各搜索词之间的文本重合情况或各搜索词的句法结构,确定各搜索词之间的语义包含关系;

生成模块,用于将各搜索词作为知识图谱节点,根据各搜索词之间的语义包含关系,确定各节点之间的父子关系;根据所述父子关系,生成所述知识图谱。

本申请实施例的知识图谱生成装置,通过对包含多次搜索的搜索会话,获取在搜索会话中用户输入的各搜索词;根据各搜索词之间的文本重合情况或各搜索词的句法结构,确定各搜索词之间的语义包含关系;将各搜索词作为知识图谱节点,根据各搜索词之间的语义包含关系,确定各节点之间的父子关系;根据父子关系,生成知识图谱。该方法通过用户搜索会话中输入的各搜索词,根据各搜索词之间的文本重合情况或各搜索词的句法结构,确定各搜索词之间的语义包含关系,进而生成知识图谱,解决了现有技术中不能准确识别语义包含关系以及通过人工的方式构建知识图谱,导致构建成本高,时间长的技术问题。

本申请又一方面实施例提出了一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现前述实施例所述的知识图谱生成方法。

本申请又一方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如前述实施例所述的知识图谱生成方法。

本申请又一方面实施例提出了一种计算机程序产品,其特征在于,当所述计算机程序产品中的指令由处理器执行时,执行如前述实施例所述的知识图谱生成方法。

本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为本申请实施例所提供的一种知识图谱生成方法的流程示意图;

图2为本申请实施例所提供的一种确定各搜索词之间的语义包含关系的流程示意图;

图3为本申请实施例所提供的另一种确定各搜索词之间的语义包含关系的流程示意图;

图4为本申请实施例所提供的一种依存结构表示图;

图5本申请实施例所提供的一种确定子节点与父节点之间父子关系的置信度的流程示意图;

图6本申请实施例所提供的另一种确定子节点与父节点之间父子关系的置信度的流程示意图;

图7为本申请实施例所提供的用户的一次搜索行为示意图;

图8为本申请实施例提供的一种知识图谱生成装置的结构示意图;

图9示出了适于用来实现本申请实施方式的示例性计算机设备的框图;

图10为本申请实施例所提供的另一种知识图谱生成方法的流程示意图;

图11为本申请实施例所提供的知识树与关联文档的结构图。

具体实施方式

下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的知识图谱生成方法和装置。

图1为本申请实施例所提供的一种知识图谱生成方法的流程示意图。

如图1所示,该知识图谱生成方法包括以下步骤:

需要说明的是,知识图谱,是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相关关系,其组成单位是“实体-关系-实体”三元组,以及“实体-相关属性-值”对,实体之间通过关系相互联结,构成网状的知识结构。

步骤101,对包含多次搜索的搜索会话,获取在搜索会话中用户输入的各搜索词。

本申请实施例中,用户通过输入搜索词来查询需要的信息,但是,输入一次搜索词可能无法查询到需要的信息,因此,用户的搜索会话可能会包含多次搜索,用户需要输入更丰富的搜索词,通过多次搜索才能够准确查询到所需的信息,并且每次输入的搜索词之间存在递进关系。

由于用户输入的各搜索词的语义不容易被识别,本实施例中,将用户的搜索会话作为标注数据,来识别各搜索词之间的语义包含关系,因此需要获取用户的搜索会话。

首先要根据本实施例中将要生成的知识图谱涉及的知识点,查询与该知识点匹配的搜索会话。例如,生成的知识图谱涉及的知识点为心理学领域,则需要查询与心理学匹配的搜索会话。其中,本实施例中知识点的获取有多种方式。

作为一种可能的实现方式,根据术语或者词汇获取知识点。人们必须通过学习才能掌握的知识点,包含专业术语、专业词汇等,如,一元二次方程,等边三角形、生物的多样性等等。

作为另一种可能的实现方式,通过搜集百科类站点以及各种垂直站点的结构化数据来获取大部分常识性知识点。由于百科知识包含了某一领域内的多数知识点,因此可根据百科数据,获取某领域的知识点,例如,当某一领域为心理学领域时,通过查询百科数据,可获得的知识点可能为:心理学、心理活动、心理过程、心理维度、内部活动、实验心理学、心身关系心理能动性、先天理论、目的论、活动理论、认知、认知结构、认知失调、认知技能等。

作为另一种可能的实现方式,通过机器挖掘获取知识点。具体地,可以通过识别技术识别文档中的人名、地名等知识点。

具体地,要想准确的了解某一领域,可能会输入多个搜索词,例如,对于知识点为心理学领域时,搜索词可能为心理学、心理活动、心理成长、内心活动等等。因此,对包含多次搜索的搜索会话,进一步的获取在搜索会话中用户输入的各搜索词。

进一步地,在用户的多次搜索会话中,并不是每一次输入的搜索词都与知识点匹配,可能出现输入的搜索词语与知识点不匹配的情况。本实施例中,根据搜索会话匹配的知识点,从用户输入的各搜索词中筛选保留与知识点匹配的搜索词。

步骤102,根据各搜索词之间的文本重合情况或各搜索词的句法结构,确定各搜索词之间的语义包含关系。

本实施例中,用户输入的各搜索词之间会有文本重合情况,例如心理学、心理活动、心理维度等搜索词之间存在文本重合的情况。

作为另一种可能的实现方式,各搜索词之间也可能存在句法结构,可能存在的句法结构有定中关系、数量关系、并列关系、同位关系、附加关系、动宾关系、介宾关系、主谓关系、比拟关系、时间关系、处所关系、“的”字结构等等。

进一步地,根据各搜索词之间的文本重合情况或各搜索词之间的句法结构,确定各搜索词之间的语义包含关系。

步骤103,将各搜索词作为知识图谱节点,根据各搜索词之间的语义包含关系,确定各节点之间的父子关系。

具体地,将用户输入的各搜索词作为知识图谱的节点,每个节点表示现实世界中存在的实体,根据各搜索词之间的语义包含关系,进而可以确定各节点之间的父子关系。

作为一种示例,用户输入的搜索词为心理学、心理活动时,根据各搜索词之间的语义包含关系,可以确定知识图谱各节点之间的父子关系,即父节点为心理学,子节点为心理活动。

步骤104,根据父子关系,生成知识图谱。

本实施例中,将各搜索词作为知识图谱节点,根据确定的各节点之间的父子关系,进而生成对应的知识图谱。

作为一种可能的实现方式,在步骤102中,根据各搜索词之间的文本重合情况,确定各搜索词之间的语义包含关系,可以通过确定各搜索词的文本字符中的最大子串,进而确定与相应文本字符对应的搜索词之间的语义包含关系。参见图2,图2为根据各搜索词之间的文本重合情况确定各搜索词之间的语义包含关系的流程示意图,因此,步骤102也包括如下子步骤:

子步骤201,在获取到的各搜索词的文本字符中,搜索各文本字符的最大子串。

具体地,根据用户输入的搜索词,获取各搜索词的文本字符,进一步的,在获取到的各搜索词的文本字符中,搜索各文本字符的最大子串。

子步骤202,确定各文本字符的最大子串对应的搜索词,与相应文本字符对应的搜索词之间具有语义包含关系。

具体地,根据各文本字符的最大子串,确定各文本字符的最大子串对应的搜索词,进而确定根据最大子串对应的搜索词与相应文本字符对应的搜索词之间的语义包含关系。

作为另一种可能的实现方式,在步骤102中也可以根据各搜索词之间的句法结构,确定各搜索词之间的语义包含关系。具体步骤参见图3,图3为根据各搜索词之间的句法结构,确定各搜索词之间的语义包含关系的流程示意图,因此,步骤102也包括如下子步骤:

步骤301,根据各搜索词之间的句法结构,判断是否具有定语中心语结构关系的搜索词、具有并列关系的搜索词或者具有修饰关系的搜索词。

其中,各搜索词之间的句法结构可能包含定语中心语结构关系、数量关系、并列关系、同位关系、附加关系、动宾关系、介宾关系、主谓关系、比拟关系、时间关系、处所关系、“的”字结构等等。

需要说明的是,句法结构分析的基本任务是,确定句子的句法结构或者句子中词汇之间的依存关系。依存分析中将词与词之间的句法关系视作依存关系,并用带标签的有向弧表示,句子的句法结构就是以虚拟节点root为根的树状结构,树中的每个节点都是句子中的一个词。

作为一种示例,参见图4,图4为依存分析的依存结构表示图。图中的有向弧被称为依存弧,依存弧的方向为由从属词指向支配词,当然反过来也是可以的,按个人习惯统一表示即可。图中有向弧上的标签hed、sbv、vob、de分别表示核心关系、主谓关系、动宾关系以及“的”字结构。

本实施例中,从各搜索词中,确定具有定语中心语结构关系的搜索词、具有并列关系的搜索词以及具有修饰关系的搜索词中的至少一个。

步骤302,若具有定语中心语结构关系的搜索词,确定作为中心语的搜索词在语义上包含作为定语的搜索词。

其中,定语是用来修饰、限定、说明名词或代词的品质与特征的。主要有形容词,此外还有名词、代词、数词、介词短语、动词不定式(短语)、分词、定语从句或相当于形容词的词、短语或句子都可以作定语。定语和中心语之间是修饰和被修饰、限制和被限制的关系。

本实施例中,对具有定语中心语结构关系的搜索词,确定作为中心语的搜索词在语义上包含作为定语的搜索词。

步骤303,若具有修饰结构关系的搜索词,确定作为中心语的搜索词在语义上包含作为修饰语的搜索词。

其中,修饰语是修饰句中其他成分的词、片语或子句。名词、形容词、形容词子句、分词等都可以作名词或代名词的修饰语。

本实施例中,从用户输入的搜索词中,确定具有修饰结构关系的搜索词,进而对具有修饰结构关系的搜索词,确定作为中心语的搜索词在语义上包含作为修饰语的搜索词。

步骤304,若具有并列关系的搜索词之间具有语义包含关系。

具体地,判断确定的各中心语的搜索词是否具有并列关系,并确定具有并列关系的搜索词之间具有语义包含关系。

需要说明的是,上述步骤302至步骤304的执行过程只是一种示例,本实施例中不限定步骤302至步骤304的执行顺序,可以为任意的执行顺序。

本申请实施例的知识图谱生成方法,通过对包含多次搜索的搜索会话,获取在搜索会话中用户输入的各搜索词;根据各搜索词之间的文本重合情况或各搜索词的句法结构,确定各搜索词之间的语义包含关系;将各搜索词作为知识图谱节点,根据各搜索词之间的语义包含关系,确定各节点之间的父子关系;根据父子关系,生成知识图谱。由此,通过用户搜索会话中输入的各搜索词,根据各搜索词之间的文本重合情况或各搜索词的句法结构,确定各搜索词之间的语义包含关系,进而生成知识图谱,解决了现有技术中不能准确识别语义包含关系以及通过人工的方式构建知识图谱,导致构建成本高,时间长的技术问题。

作为一种可能的实现方式,根据各搜索词之间的语义包含关系,确定各节点之间的父子关系之后,还需要根据子节点对应搜索词的信息熵与父节点对应搜索词的信息熵之间的差异程度,确定子节点与父节点之间父子关系的置信度。下面结合图5,对上述过程进行详细介绍。

如图5所示,在步骤103之后,该知识图谱生成方法还可以包括以下步骤:

步骤401,根据子节点对应搜索词中各单词的重要度,确定子节点对应搜索词的信息熵;其中,重要度用于指示单词对于搜索词所表达意图的重要程度。

本实施例中,根据子节点对应搜索词中各单词对于搜索词所表达意图的重要程度,通过自然语言处理平台(naturallanguageprocessingcloud,nlpc)计算子节点对应搜索词的信息熵。其中,信息熵是一个数学上颇为抽象的概念,可以理解为子节点对应搜索词出现的频率。例如,可通过如下公式(1)计算各子节点对应搜索词的信息熵。

其中,公式(1)中的ck表示子节点对应的搜索词;wordrank(ck)表示子节点对应搜索词中各单词的重要度;n为正整数;等号左边term(q1)表示子节点对应搜索词的信息熵。

步骤402,根据父节点对应搜索词中各单词的重要度,确定父节点对应搜索词的信息熵。

同样的,根据父节点对应搜索词中各单词的重要度,通过nlpc计算父节点对应搜索词的信息熵,例如,可通过如下公式(2)计算父节点对应搜索词的信息熵。

其中,公式(2)中的ck表示父节点对应的搜索词;wordrank(ck)表示父节点对应搜索词中各单词的重要度;n为正整数;等号左边term(q2)表示父节点对应搜索词的信息熵。

步骤403,根据子节点对应搜索词的信息熵与父节点对应搜索词的信息熵之间的差异程度,确定子节点与父节点之间父子关系的置信度。

具体地,由于子节点相对于父节点具有额外的信息熵,因此,根据步骤401中确定子节点对应搜索词的信息熵以及步骤402确定的父节点对应搜索词的信息熵,通过计算子节点对应搜索词的信息熵与父节点对应搜索词的信息熵之间的差异程度,即可确定子节点与父节点之间父子关系的置信度。例如,可通过如下公式(3)计算信息熵的差异程度。

其中,公式(3)中的im(q1,q2)子节点对应搜索词的信息熵与父节点对应搜索词的信息熵之间的差异程度。

作为另一种可能的实现方式,根据各搜索词之间的语义包含关系,确定各节点之间的父子关系之后,还可以根据共现频率与父节点对应搜索词出现的频率之比,以及根据父节点对应搜索词出现的频率与多个搜索会话的个数之比,确定子节点与父节点之间父子关系的置信度。下面结合图6,对上述过程进行详细介绍。

步骤501,根据多个搜索会话中用户输入的各搜索词,确定父节点对应搜索词出现的频率,以及确定父节点对应搜索词和子节点对应搜索词在同一个搜索会话中出现的共现频率。

具体地,用户的多次搜索会话会输入不同的搜索词,每个搜索词出现的频率也不相同,可以根据多个搜索会话中用户输入的各搜索词,确定父节点对应搜索词出现的频率。

进一步地,用户在同一搜索会话中,输入的搜索词可能同时包含父节点对应的搜索词和子节点对应的搜索词,因此,可以确定父节点对应搜索词和子节点对应搜索词在同一个搜索会话中共同出现的频率,即共现频率。

步骤502,根据共现频率与父节点对应搜索词出现的频率之比,以及根据父节点对应搜索词出现的频率与多个搜索会话的个数之比,确定子节点与父节点之间父子关系的置信度。

本实施例中,根据父节点对应搜索词和子节点对应搜索词在同一个搜索会话中出现的共现频率,与确定的对应的父节点对应搜索词出现的频率之比,同时将父节点对应搜索词出现的频率与多个搜索会话的个数做比值,即可确定子节点与父节点之间父子关系的置信度。例如,可通过如下公式(4)计算子节点与父节点之间父子关系的置信度。

其中,公式(4)中,等号左边re(q1,q2)表示子节点与父节点之间父子关系的置信度;w1表示父节点对应搜索词出现的频率;w2表示父节点对应搜索词和子节点对应搜索词在同一个搜索会话中出现的共现频率;q表示多个搜索会话中搜索词的总数。

作为一种示例,参见图7,图7为用户的一次搜索行为,该搜索行为可能包含多次搜索会话,涉及的知识点为生物栖息地。通过查询获取到与该知识点匹配的搜索会话,确定各搜索词为生物栖息地、生物栖息地消失、保护生物栖息地措施。

进一步地,将各搜索词作为知识图谱节点,根据各搜索词之间的语义包含关系,确定各节点之间的父子关系。本示例中知识图谱的父节点为生物栖息地,子节点为生物栖息地消失和保护生物栖息地措施。通过上述实施例中计算子节点与父节点之间父子关系的置信度的方法,即可确定如图7中示出的各子节点与父节点之间父子关系的置信度,分别为0.95和0.98。,例如,可通过如下公式(5)子节点与父节点之间父子关系的置信度。

q(q1,q2)=im(q1,q2)*re(q1,q2);(5)

其中,公式(5)中,等号左边q(q1,q2)表示子节点与父节点之间父子关系的置信度;im(q1,q2)为根据上述公式(1)、公式(2)、公式(3),计算得到的子节点对应搜索词的信息熵与父节点对应搜索词的信息熵之间的差异程度;re(q1,q2)为根据上述公式(4)计算得到的父节点与子节点之间的热度。其中,热度是用于衡量图7中连接父节点与子节点的边的热度。

本申请实施例的知识图谱生成方法,根据各搜索词之间的语义包含关系,确定各节点之间的父子关系之后,根据子节点对应搜索词的信息熵与父节点对应搜索词的信息熵之间的差异程度;或者根据共现频率与父节点对应搜索词出现的频率之比,以及根据父节点对应搜索词出现的频率与多个搜索会话的个数之比;或者根据子节点对应搜索词的信息熵与父节点对应搜索词的信息熵之间的差异程度与子节点与父节点之间的热度相乘,进一步地确定子节点与父节点之间父子关系的置信度。该方法通过确定语义包含关系的置信度,使得对语义包含关系的识别更加准确。

为了实现上述实施例,本申请还提出一种知识图谱生成装置。

图8为本申请实施例提供的一种知识图谱生成装置的结构示意图。

如图8所示,该知识图谱生成装置100包括:获取模块110、确定模块120以及生成模块130。

获取模块110,用于对包含多次搜索的搜索会话,获取在搜索会话中用户输入的各搜索词。

确定模块120,用于根据各搜索词之间的文本重合情况或各搜索词的句法结构,确定各搜索词之间的语义包含关系。

生成模块130,用于将各搜索词作为知识图谱节点,根据各搜索词之间的语义包含关系,确定各节点之间的父子关系;根据父子关系,生成知识图谱。

作为一种可能的实现方式,确定模块120,包括:

第一确定单元,用于在获取到的各搜索词的文本字符中,搜索各文本字符的最大子串;确定各文本字符的最大子串对应的搜索词,与相应文本字符对应的搜索词之间具有语义包含关系。

第二确定单元,用于根据各搜索词之间的句法结构,从各搜索词中,确定具有定语中心语结构关系的搜索词、具有并列关系的搜索词以及具有修饰关系的搜索词中的至少一个;

对具有定语中心语结构关系的搜索词,确定作为中心语的搜索词在语义上包含作为定语的搜索词;

对具有修饰结构关系的搜索词,确定作为中心语的搜索词在语义上包含作为修饰语的搜索词;

确定具有并列关系的搜索词之间具有语义包含关系。

作为一种可能的实现方式,该知识图谱生成装置100,还包括:

第一确定模块,用于根据子节点对应搜索词中各单词的重要度,确定子节点对应搜索词的信息熵;其中,重要度用于指示单词对于所述搜索词所表达意图的重要程度;

根据父节点对应搜索词中各单词的重要度,确定父节点对应搜索词的信息熵;

根据子节点对应搜索词的信息熵与父节点对应搜索词的信息熵之间的差异程度,确定子节点与父节点之间父子关系的置信度。

作为一种可能的实现方式,该知识图谱生成装置,还包括:

第二确定模块,用于根据多个搜索会话中用户输入的各搜索词,确定父节点对应搜索词出现的频率,以及确定父节点对应搜索词和子节点对应搜索词在同一个搜索会话中出现的共现频率;

根据共现频率与父节点对应搜索词出现的频率之比,以及根据父节点对应搜索词出现的频率与多个搜索会话的个数之比,确定子节点与父节点之间父子关系的置信度。

作为一种可能的实现方式,该知识图谱生成装置,还包括:

查询模块,用于根据知识图谱中涉及的知识点,查询与知识点匹配的搜索会话。

作为一种可能的实现方式,该知识图谱生成装置,还包括:

筛选模块,用于根据搜索会话匹配的知识点,从用户输入的各搜索词中筛选保留与知识点匹配的搜索词。

本申请实施例的知识图谱生成装置,通过对包含多次搜索的搜索会话,获取在搜索会话中用户输入的各搜索词;根据各搜索词之间的文本重合情况或各搜索词的句法结构,确定各搜索词之间的语义包含关系;将各搜索词作为知识图谱节点,根据各搜索词之间的语义包含关系,确定各节点之间的父子关系;根据父子关系,生成知识图谱。由此,通过用户搜索会话中输入的各搜索词,根据各搜索词之间的文本重合情况或各搜索词的句法结构,确定各搜索词之间的语义包含关系,进而生成知识图谱,解决了现有技术中不能准确识别语义包含关系以及通过人工的方式构建知识图谱,导致构建成本高,时间长的技术问题。

需要说明的是,前述对知识图谱生成方法实施例的解释说明也适用于该实施例的知识图谱生成装置,此处不再赘述。

为了实现上述实施例,本申请还提出一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如上述实施例所述的知识图谱生成方法。

图9示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图11显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(industrystandardarchitecture;以下简称:isa)总线,微通道体系结构(microchannelarchitecture;以下简称:mac)总线,增强型isa总线、视频电子标准协会(videoelectronicsstandardsassociation;以下简称:vesa)局域总线以及外围组件互连(peripheralcomponentinterconnection;以下简称:pci)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(randomaccessmemory;以下简称:ram)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图9未显示,通常称为“硬盘驱动器”)。尽管图9中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(compactdiscreadonlymemory;以下简称:cd-rom)、数字多功能只读光盘(digitalvideodiscreadonlymemory;以下简称:dvd-rom)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(localareanetwork;以下简称:lan),广域网(wideareanetwork;以下简称:wan)和/或公共网络,例如因特网)通信。如图11所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的知识图谱生成方法。

为了实现上述实施例,本申请还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上述实施例所述的知识图谱生成方法。

为了实现上述实施例,本申请还提出一种计算机程序产品,其特征在于,当所述计算机程序产品中的指令由处理器执行时,执行如上述实施例所述的知识图谱生成方法。

作为一种示例,参见图10,该计算机程序产品包括基础数据层210、关系构建层220以及整合层230。

具体地,基础数据层210,用于获取知识图谱的知识点以及保留与知识点匹配的搜索词。

关系构建层220,用于根据各搜索词之间的文本重合情况或各搜索词的句法结构,确定各搜索词之间的语义包含关系。

整合层230,用于对搜索词清洗、过滤疑问句、文档资源覆盖率评估、统计知识点分布以及知识树去重和合并策略。

其中,知识树是将各搜索词作为知识图谱节点,根据各搜索词之间的语义包含关系,确定各节点之间的父子关系后构建的。

由于用户输入的搜索词是多样化的,可能包含有含黄反词、政治敏感词、空格、断词有误的词、疑问词等等,因此需要对搜索词进行清洗。

文档资源覆盖率评估是将知识树与文档资源标题做主题进行关联计算,评估知识树包含的资源量,进而去除资源量覆盖量为0的资源。例如,知识树与关联文档的结构图如图11所示。

进一步地,知识树中可能包含有相同的知识点,因此,需要对相同的知识点进行去重或者合并,以构建知识图谱。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1