一种基于迭代模型的中文百科知识图谱分类体系构建方法与流程

文档序号：17454708发布日期：2019-04-20 03:08阅读：来源：国知局

技术特征：

1.一种基于迭代模型的中文百科知识图谱分类体系构建方法，其特征在于包括如下步骤：

1)对中文百科知识图谱中的实体进行结构化表达；

2)利用中文百科信息中已有的类目与实体之间的关联，通过对实体特征求并集的方法，对知识图谱中的类目进行结构化表达；

3)利用类目的结构化特征，训练支持向量机模型判断两个类目之间是否存在上下位关系Subclass-of；

所述的步骤3)包括：

3.1)寻找类目h可能存在的父类，共有三种搜寻策略：a)基于类目共现频次查找，首先寻找与类目h共现次数最高的类目k，假设类目h与k的共现次数为N，则把与类目h共现次数超过0.8*N的类目放入到类目h的备选父类集合当中；b)基于类目标题词干匹配查找，如果某个类目k的标题是类目h的标题词干，并且两者之间符合有向性条件，则把类目k放入到类目h的备选父类集合当中；c)基于中文百科类目树查找；

3.2)支持向量机模型接受的特征包括语言特征和结构化特征两类，语言特征有词干匹配和修饰词匹配，结构化特征包含内链相似度、属性相似度、目录相似度以及相关词相似度，结构化特征计算公式如下：

其中hi和he代表两个节点，L代表所有维度结构化特征的并集，L(hi)和L(he)代表相应维度的结构化特征；

4)利用实体和类目的结构化特征，以及类目之间的Subclass-of关系约束，在满足Instance-of关系传递性的前提下，用非线性整数规划方法判断实体和类目之间的Instance-of关系；

所述的步骤4)包括：

4.1)寻找实体h可能从属的类目，共有三种搜寻策略：a)基于实体的标签查找，类目是通过实体的标签属性进行抽取的，所以实体的标签集合成为了备选从属类目的主要部分；b)基于实体标题词干匹配查找，根据实体的标题词干选取类目；c)基于实体中文百科页面摘要查找，中文百科页面中的摘要字段，是对词条的简要描述，而摘要中的第一句话是对词条的性质陈述，从实体对应的中文百科页面中抽取出摘要字段，并把摘要字段的第一句话用自然语言处理工具进行分析，选取其中出现的首个类目名词加入到备选类目当中；

4.2)综合3.2)中的多种特征，采用coh(a，h)函数来表示实体a和类目h之间的相关度，计算公式如下：

其中的li表示词干匹配和修饰词匹配，dj表示内链相似度、属性相似度、目录相似度以及相关词相似度；wi和wj都代表特征的权重，而μ代表语言特征的权重系数；

4.3)引入非线性整数规划方法判断实体的从属类目，在构建整个分类体系中，必须要协调好Subclass-of关系和Instance-of关系，使它们满足传递性规则，在非线性整数规划中存在一个Subset约束，目标方程如下：

Subset＝{<hi，hj>|hiissubclass-of hj}

其中Ha代表需要判断是否和实体a有Instance-of关系的类集合，coh(a，hj)代表实体a和类目hj之间的相关度，coh(hk，hj)代表类目hk和类目hj之间的相关度，yj为1代表实体a和类目hj之间存在Instance-of关系，yj为0则表示不存在，最后λ为调和模型准确率和召回率的参数；

5)判断步骤4)中获得的Instance-of关系是否有变化，若没有则结束，若有变化则执行步骤6)；

6)利用步骤4)中得到的Instance-of关系，重新计算类目的结构化特征，然后跳至步骤3)。

2.根据权利要求1中所述的基于迭代模型的中文百科知识图谱分类体系构建方法，其特征在于所述的步骤6)包括：

6.1)用Instance-of关系计算类目特征，随着迭代的进行，步骤4)中得到了实体与类目之间的Instance-of关系，利用Instance-of关系可以抽取出新的类目特征；

6.2)每次得到新的类目特征后，采用指数衰减的方式更新类目之间的相关度coh(hi，hj)以及类目和实体之间的相关度coh(a，hi)，计算公式如下：

coh^t+1(a，hi)＝β·coh^t(a，hi)+(1-β)·coh(a，hi)

coh⁰(a，hi)＝coh(a，hi)

其中参数β控制着迭代的指数衰减的速度，函数coh^t(a，hi)代表t轮迭代中的相关度结果，coh(a，hi)代表在t轮迭代完成后计算出的相关度结果，而最后用coh^t+1(a，hi)来代表t+1轮迭代中的相关度结果。

完整全部详细技术资料下载

当前第2页1 2 3