一种叙词表自动构建的方法、系统、设备以及计算机存储介质

文档序号:26139840发布日期:2021-08-03 14:23阅读:120来源:国知局
一种叙词表自动构建的方法、系统、设备以及计算机存储介质

本申请涉及人工智能领域,具体而言,涉及一种叙词表自动构建的方法、系统、设备以及计算机存储介质。



背景技术:

网络的飞速发展,带来了信息资源的爆炸性增长,为人们提供方便的同时也使人们逐渐意识到被“淹没”在信息的海洋中,如何准确、高效的从海量信息中获取所需的信息成为亟待解决的问题。目前的网络信息检索工具(如搜索引擎等)大多采用基于关键词字面匹配的全文检索方式,这种方法简单可行,查找方便,具有较高的检全率,但检索返回的信息过多,其中只有很少一部分符合检索者的要求,检准率低,同时,也存在漏检和误检现象。利用规范化控制的叙词表,将其应用到标引和检索过程中能有效提高检准率。然而传统叙词表在词表编制和维护,以及在网络信息检索环境中的应用都面临着一定的困难,因而研究如何自动构造自然语言叙词表具有十分重要的意义。

当前,如何利用计算机技术自动识别叙词间的等同、等级及相关等语义关系是能否实现叙词表自动构建的一个关键环节,也是一个难点。



技术实现要素:

为了解决上述叙词表在词表编制困难的技术,本申请提供了一种叙词表自动构建的方法、系统、设备以及计算机存储介质。

本申请的第一方面提供了一种叙词表自动构建的方法,其特征在于,所述的方法,包括:

s1、词汇收集,输入构建叙词表所需的原始数据文件;

s2、根据所述的原始数据文件抽取各个词,形成一个叙词集合;

s3、将叙词集合内的词根据各词自身在文件中的频率、各词之间的同现频率以及调整因子来计算各词之间的同现权重,从而得到各个词间的关联度;

s4、根据关联度构造每个词与其他词的特征向量,其中,其他词选择为最相关的k个词;

s5、对叙词集合的词的层次聚类,根据特征向量,计算各词之间的语义相似度;设定阈值,将语义相似度值小于阈值的词合并形成簇;

s6、将簇内的词根据等级系数划到各等级中,并识别其上下位关系;

s7、最后,根据叙词集合的词间相关关系以及上下位关系来构造叙词表。

优选地,所述的各词之间的同现权重,其计算公式为:

其中,w(ti,tj)表示词ti和tj的同现权重,tf(titj)表示词ti和tj在语料中的同现频率,tf(ti)表示词ti在语料中的频率,weightingfactor(ti,tj)为调整因子;

优选地,所述的调整因子,其计算公式为:

min(length(di))表示词ti和tj同现语料中的最小长度,表示同现语料的平均长度,k为同现语料篇数。

优选地,所述的特征向量,其计算公式为:

v(t)=(<t1,w1>,<t2,w2>,…,<tk,wk>)

其中,t1,t2,…,tk表示与词t相关的词,w1,w2,…,wk分别为词t与t1,t2,…,tk的同现权重。

优选地,所述的语义相似度,其计算公式为:

其中,sim(t1,t2)表示词t1和t2的语义相似度,w1i表示词t1的特征向量第i维的值,w2i表示词t2的特征向量第i维的值,k表示特征向量的维数,n表示特征向量中相同词的个数。

优选地,所述的等级系数,其计算公式为:

h(ti)是词ti的等级系数,tf(ti)表示词ti的词频,len(ti)表示词长。

优选地,所述的层次聚类算法,包括:单连通、全连通以及平均连通。

优选地,所述的层次聚类算法优选为平均连通。

优选地,所述的阈值为0.1。

优选地,所述的识别簇内的词上下位关系,其算法流程为:

s501、确定等级数,将簇内的词按等级系数归入到各词级中;等级系数高的词位于高词级中,最高词级为l0,其余依次为l1,l2,…,li;

s502、在相邻词级间产生上下位关系。取词级li中的一个词t,计算词t与词级li-1中的每个词的相似度,取相似度最大的词作为词t的上位词;继续从词级li中取词,直至为li中所有的词建立上下位关系;检查词级li-1中的词,将没有下位词的词移至词级li;

s503、判断是否到达底层,是则结束,否则继续执行s502的操作。

本申请第二方面提供一种叙词表自动构建的系统,其特征在于,所述系统,包括:原始文件获取模块,划分词语模块,叙词抽取模块,叙词表构建模块,其中:

原始文件获取模块,用于获取原始文件数据;

划分词语模块,用于获取原始文件内的各个词;

叙词抽取模块,实现如前所述的方法的计算方式,从而确定词间的相关关系以及上下位关系;

叙词表构建模块,根据词间的相关关系以及上下位关系构建叙词表。

本申请第三方面提供一种叙词表自动构建的设备,其特征在于,所述设备包括:

存储有可执行程序代码的存储器;

与所述存储器耦合的处理器;

所述处理器调用所述存储器中存储的所述可执行程序代码,执行如前所述的方法。

本申请的第四方面提供了一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如前所述的方法。

本发明的有益效果在于:

与现有的叙词表构建相比,通过同现分析计算词间的相关度,可以识别出无字面相似特征的词间的相似性;在此基础上,运用等级识别方法,基本上可以将表达不同主题范畴的词区分开来,生成的词簇分布较均匀,簇内词间相似度较高;采用的等级识别算法,基本上可以将簇内的词归入到不同的等级中;从而,根据词间的相关关系和上下位关系自动构建叙词表。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1是本申请实施例公开的一种叙词表自动构建的方法的流程示意图。

图2是本申请实施例公开的一种叙词表自动构建的方法中识别簇内的词上下位关系的算法流程示意图。

图3是本申请实施例公开的一种叙词表自动构建的系统的结构示意图。

图4是本申请实施例公开的一种叙词表自动构建的设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。

此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

需要说明的是,在不冲突的情况下,本申请的实施例中的特征可以相互结合。

实施例1

请参阅图1,图1是本申请实施例公开的一种叙词表自动构建的方法的流程示意图。如图1所示,本申请的第一方面提供了一种叙词表自动构建的方法,所述方法包括:

s1、词汇收集,输入构建叙词表所需的原始数据文件;

s2、根据所述的原始数据文件抽取各个词,形成一个叙词集合;

s3、将叙词集合内的词根据各词自身在文件中的频率、各词之间的同现频率以及调整因子来计算各词之间的同现权重,从而得到各个词间的关联度;

s4、根据关联度构造每个词与其他词的特征向量,其中,其他词选择为最相关的k个词;

s5、对叙词集合的词的层次聚类,根据特征向量,计算各词之间的语义相似度;设定阈值,将语义相似度值小于阈值的词合并形成簇;

s6、将簇内的词根据等级系数划到各等级中,并识别其上下位关系;

s7、最后,根据叙词集合的词间相关关系以及上下位关系来构造叙词表。

在本实施例中,获取各词之间的同现权重的计算公式为:

其中,w(ti,tj)表示词ti和tj的同现权重,tf(titj)表示词ti和tj在语料中的同现频率,tf(ti)表示词ti在语料中的频率,weightingfactor(ti,tj)为调整因子;

在本实施例中调整因子的计算公式为:

min(length(di))表示词ti和tj同现语料中的最小长度,表示同现语料的平均长度,k为同现语料篇数,通过计算词间的同现关联度,可以构造出“关联概念空间”:以词为点,以同现权重为边上权值的无向图。

在本实施例中,构造特征向量的计算公式为:

v(t)=(<t1,w1>,<t2,w2>,…,<tk,wk>)

其中,t1,t2,…,tk表示与词t相关的词,w1,w2,…,wk分别为词t与t1,t2,…,tk的同现权重。

在本实施例中,获取词间的语义相似度的计算公式为:

其中,sim(t1,t2)表示词t1和t2的语义相似度,w1i表示词t1的特征向量第i维的值,w2i表示词t2的特征向量第i维的值,k表示特征向量的维数,n表示特征向量中相同词的个数。

在本实施例中,获取词间的等级系数的计算公式为:

h(ti)是词ti的等级系数,tf(ti)表示词ti的词频,len(ti)表示词长。

在本实施例中,层次聚类算法,包括:单连通、全连通以及平均连通。

其中,采用平均连通算法的层次聚类,在阈值为0.1时效果较好。

在本实施例中,识别簇内的词上下位关系,其算法流程为:

s501、确定等级数,将簇内的词按等级系数归入到各词级中;等级系数高的词位于高词级中,最高词级为l0,其余依次为l1,l2,…,li;

s502、在相邻词级间产生上下位关系。取词级li中的一个词t,计算词t与词级li-1中的每个词的相似度,取相似度最大的词作为词t的上位词;继续从词级li中取词,直至为li中所有的词建立上下位关系;检查词级li-1中的词,将没有下位词的词移至词级li;

s503、判断是否到达底层,是则结束,否则继续执行s502的操作。

实施例2

请参阅图3,图3是本申请实施例公开的一种叙词表自动构建的系统的结构示意图。如图3所示,本申请第二方面提供一种叙词表自动构建的系统,其特征在于,所述系统,包括:包括:原始文件获取模块,划分词语模块,叙词抽取模块,叙词表构建模块,其中:

原始文件获取模块,用于获取原始文件数据;

划分词语模块,用于获取原始文件内的各个词;

叙词抽取模块,实现如前所述的方法的计算方式,从而确定词间的相关关系以及上下位关系;

叙词表构建模块,根据词间的相关关系以及上下位关系构建叙词表。

实施例3

请参阅图4,图4是本申请实施例公开的一种叙词表自动构建的设备的结构示意图。如图4所示,本申请第三方面提供一种叙词表自动构建的设备,其特征在于,所述设备包括:

存储有可执行程序代码的存储器;

与所述存储器耦合的处理器;

所述处理器调用所述存储器中存储的所述可执行程序代码,执行实施例1中叙词表自动构建的方法。

实施例4

本实施例提供了一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行实施例1中叙词表自动构建的方法。

以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1