文章领域相关度评估方法、装置、计算机设备和存储介质与流程

文档序号:32655346发布日期:2022-12-23 21:22阅读:26来源:国知局
文章领域相关度评估方法、装置、计算机设备和存储介质与流程

1.本发明属于自然语言处理技术领域,尤其涉及一种文章领域相关度评估方法、装置、计算机设备和存储介质。


背景技术:

2.文章领域相关度评估是指评估出一篇文章所表达的内容与某个目标领域的相关程度的过程。传统有两种方法对文章领域相关度进行评估,一是基于字词的统计模型,其主要利用统计学语言模型生成特征后通过相似度确定文章的领域相关度。二是基于神经网络的方法,其主要采用基于神经网络的语言模型对文章进行向量表征后,利用回归模型或者二分类模型进行相关度判断。
3.然而,基于字词统计学的模型文章字词的语言能力有限,难以挖掘字词的深层语义信息,而基于神经网络的方式虽然能够捕获深层语义信息的,但是神经网络模型因计算复杂且参数量大等问题常常对文章的长度有限制,不宜直接处理长文章,从而降低了评估的准确性。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种能够提高评估准确性的文章领域相关度评估方法、装置、计算机设备和存储介质。
5.本发明提供一种文章领域相关度评估方法,包括:
6.获取待评估文章的字词序列,分别对所述字词序列中的各个字词进行标签标记,得到所述字词序列的标签序列;
7.根据预设转换规则将所述标签序列转换为权重数值序列,若存在两个及以上的标签序列,则将各所述权重数值序列归约为一个最终的权重数值序列;
8.对预设区间等量划分后,分别计算所述权重数值序列在每等份内的权重分布概率,得到权重分布概率序列;
9.基于预设权重对所述权重分布概率序列进行权重抑制后计算对应的熵值,得到所述待评估文章的特征值;
10.根据所述特征值确定所述待评估文章与领域的相关度。
11.在其中一个实施例中,所述分别对所述字词序列中的字词进行标签标记,得到所述字词序列的标签序列,包括以下任一种或多种:
12.第一种:分别对所述字词序列中的字词进行实体识别,得到各所述字词的实体标签,根据各所述字词的实体标签得到所述字词序列的实体标签序列;
13.第二种:分别对所述字词序列中的字词进行属性关系抽取,得到各所述字词的属性关系标签,根据各所述字词的属性关系标签得到属性关系标签序列;
14.第三种:基于预设关键词及标签类型,分别对所述字词序列中的字词进行映射转换,确定各所述字词的自定义标签;根据各所述自定义标签得到所述字词序列的自定义标
签序列。
15.在其中一个实施例中,所述将各所述权重数值序列归约为一个最终的权重数值序列,包括:
16.利用聚合函数将各所述权重数值序列中相同位置的权重数值分别进行聚合,确定各个位置对应的聚合权重;
17.根据所述聚合权重构建得到最终的权重数值序列。
18.在其中一个实施例中,所述对预设区间等量划分后,分别计算所述权重数值序列在每等份内的权重分布概率,得到权重分布概率序列,包括:
19.根据所述权重数值序列的长度确定预设区间并进行区间的等量划分;
20.从每等份内确定一个点作为自变量取值代入至所述权重数值序列中各权重数值对应的概率分布函数,计算得到各权重数值的分布概率;
21.将所述分布概率与对应的权重数值相乘后,对属于同一点的分布概率进行聚合,得到所述权重数值序列在每等份内的权重分布概率;
22.根据每等份内的权重分布概率得到权重分布概率序列。
23.在其中一个实施例中,所述基于预设权重对所述权重分布概率序列进行权重抑制后计算对应的熵值,得到所述待评估文章的特征值,包括:
24.获取预设权重阈值和预设权重替换值,将所述权重分布概率序列中的元素值分别与所述预设权重阈值进行比较;
25.若所述元素值小于所述预设权重阈值,则将所述元素值替换为所述预设权重替换值,得到权重抑制序列;
26.计算所述权重抑制序列的熵值作为所述待评估文章的特征值。
27.在其中一个实施例中,所述权重抑制序列的熵值的计算公式如下:
[0028][0029]
其中,s为熵值,r为所述权重抑制序列的长度,r=1,2,
……
,r,ur为权重抑制序列中位置为r的元素值,log为对数函数。
[0030]
在其中一个实施例中,所述根据所述特征值确定所述待评估文章与领域的相关度,包括:
[0031]
将所述特征值代入类对数函数计算,输出所述待评估文章与领域的相关度;所述类对数函数是在所述特征值的取值区间内,一阶导数为正数二阶导数为负数的函数。
[0032]
一种文章领域相关度评估装置,包括:
[0033]
序列标签定义模块,用于获取待评估文章的字词序列,分别对所述字词序列中的各个字词进行标签标记,得到所述字词序列的标签序列;
[0034]
权重转换模块,用于根据预设转换规则将所述标签序列转换为权重数值序列,若存在两个及以上的标签序列,则将各所述权重数值序列归约为一个最终的权重数值序列;
[0035]
权重分布计算模块,用于对预设区间等量划分后,分别计算所述权重数值序列在每等份内的权重分布概率,得到权重分布概率序列;
[0036]
特征计算模块,用于基于预设权重对所述权重分布概率序列进行权重抑制后计算
对应的熵值,得到所述待评估文章的特征值;
[0037]
确定模块,用于根据所述特征值确定所述待评估文章与领域的相关度。
[0038]
本发明还提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储由计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的文章领域相关度评估方法的步骤。
[0039]
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述文章领域相关度评估方法步骤。
[0040]
上述文章领域相关度评估方法、装置、计算机设备和存储介质,首先获取待评估文章的字词序列分别对该字词序列中的各个字词进行标签标记,得到标签序列;然后根据预设转换规则将标签序列转换为权重数值序列,对预设区间等量划分后,分别计算该权重数值序列在每等份内的权重分布概率,从而得到权重分布概率序列;最后基于预设权重对权重分布概率序列进行权重抑制后计算对应的熵值,得到待评估文章的特征值,以该特征值确定待评估文章与领域的相关度。该方法通过标签权重转换、基于概率分布模型的权重分布计算以及熵计算等方式来构建文章的特征实现文章领域相关度的评估,能够规避神经网络评估对文章长度的限制,即使是长文章也能够提高评估其领域相关度的准确性。
附图说明
[0041]
图1为一个实施例中文章领域相关度评估方法的应用环境图。
[0042]
图2为一个实施例中文章领域相关度评估方法的流程示意图。
[0043]
图3为一个实施例中文章领域相关度评估装置的结构框图。
具体实施方式
[0044]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0045]
本技术提供的文章领域相关度评估方法,可以应用于如图1所示的应用环境中,该应用环境涉及终端102和服务器104。其中,终端102通过网络与服务器104进行通信。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和携带式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0046]
当终端102接收到文章领域评估指令时,可以由终端102单独实现上述文章领域相关度评估方法。也可以由终端102将文章领域评估指令发送给通信的服务器104,由服务器104实现上述文章领域相关度评估方法。以服务器104为例,具体的,服务器104获取待评估文章的字词序列,分别对字词序列中的各个字词进行标签标记,得到字词序列的标签序列;服务器104根据预设转换规则将标签序列转换为权重数值序列,若存在两个及以上的标签序列,则将各权重数值序列归约为一个最终的权重数值序列;服务器104对预设区间等量划分后,分别计算权重数值序列在每等份内的权重分布概率,得到权重分布概率序列;服务器104基于预设权重对权重分布概率序列进行权重抑制后计算对应的熵值,得到待评估文章的特征值;服务器104根据特征值确定待评估文章与领域的相关度。
[0047]
在一个实施例中,如图2所示,提供一种文章领域相关度评估方法,以该方法应用
于服务器为例进行说明,包括以下步骤:
[0048]
步骤s201,获取待评估文章的字词序列,分别对字词序列中的各个字词进行标签标记,得到字词序列的标签序列。
[0049]
其中,标签标记是基于标签体系相应的标记方式,对文章中的字词进行标签标记和输出的过程,每一种方式标记出来的标签称为来自一个标签体系,标签序列则是指字词序列中各字词对应标签所组成的序列。
[0050]
具体的,本实施例对文章领域进行相关度评估时,首先将文章建模为字词的序列,即一篇文章可表示为一个字词序列w=[w1,w2,w3
……
wt],字词序列w中的字词元素wi为一个字词或一个项,一篇文章有t个字词元素或项元素,则称为该文章的长度为t。然后,利用标签体系对应的标记方式标记出字词序列w中各字词元素wi的标签,从而得到标签序列。
[0051]
在一个实施例中,标签体系包括实体标签体系、属性关系标签体系或自定义标签体系,分别对应的标签标记方式为实体识别方式、属性关系方式及自定义标签方式。标签体系可以采用上述三种中任意一种或多种,也可以根据实际需求定义更多种。
[0052]
步骤s202,根据预设转换规则将标签序列转换为权重数值序列,若存在两个及以上的标签序列,则将各权重数值序列归约为一个最终的权重数值序列。
[0053]
具体的,预设转换规则是预先配置用于将标签序列中标签转换为相应权重数值的规则,从而能够得到标签序列对应的权重数值序列。本实施例预设的转换规则为预先配置好各个标签对应的权重数值,后续基于对应关系直接进行转换。比如,预设转换规则中设置“空白标签的权重为0,属性关系非空白标签为1,关键词非空白标签为2”等。因此,服务器基于该转换规则将标签序列转换为元素值为0、1或2的权重数值序列。以属性关系方式的标签序列[“宠物”、“属性核心词”、“属性值”、“空白标签”、“关系核心词”、“空白标签”、“宠物”]为例,其可以转换为权重数值序列[1,1,1,0,1,0,1],或者以自定义方式则标签序列[“空白标签”、“空白标签”、“空白标签”、“空白标签”“空白标签”、“空白标签”、“关键词”]为例,可以转换得到权重数值序列[0,0,0,0,0,0,2]。
[0054]
另外,由于当存在多个标签体系时,会有多个不同标签体系对应的标签序列,进而则有各个标签体系对应的权重数值序列。因此为了便于后续处理,进一步将各个标签体系对应的权重数值序列归约为一个最终的权重数值序列,比如可以采用聚合的方式将多个权重数值序列转换为一个最终的权重数值序列。
[0055]
在一个实施例中,将各权重数值序列归约为一个最终的权重数值序列,包括:利用聚合函数将各权重数值序列中相同位置的权重数值分别进行聚合,确定各个位置对应的聚合权重;根据聚合权重构建得到最终的权重数值序列。
[0056]
具体的,聚合函数是指将多个值归为一个值的函数,比如聚合函数可以是极大值提取、也可以是求和等。以极大值提取为例,其是对于来自于多个权重数值序列的相同位置(比如都是在序列第一位)的元素,提取其中的最大值的方式实现多个序列聚合为一个序列。比如两个权重数值序列[1,1,1,0,1,0,1]、[0,0,0,0,0,0,2],经过极大值提取聚合的方式得到的最终的权重数值序列为[1,1,1,0,1,0,2]。而若以求和进行聚合,所得到的最终的权重数值序列则为[1,1,1,0,1,0,3]。
[0057]
步骤s203,对预设区间等量划分后,分别计算权重数值序列在每等份内的权重分布概率,得到权重分布概率序列。
[0058]
具体的,服务器选取一个取值的区间,将该区间等量划分多份之后,利用概率分布函数计算该权重数值序列在每等份内的权重分布概率,从而得到与权重数值序列长度相等的权重分布概率序列。其中,本实施所用的概率分布函数可以从概率分布函数族中选取,概率分布函数族是指形状相似的概率分布函数集合,比如正态分布函数族,其包括正态分布函数、以及与正态分布函数相似的其他分布函数等。
[0059]
在一个实施例中,步骤s203,包括:根据权重数值序列的长度确定预设区间并进行区间的等量划分;从每等份内确定一个点作为自变量取值代入至权重数值序列中各权重数值对应的概率分布函数,计算得到各权重数值的分布概率;将分布概率与对应的权重数值相乘后,对属于同一点的分布概率进行聚合,得到权重数值序列在每等份内的权重分布概率;根据每等份内的权重分布概率得到权重分布概率序列。
[0060]
具体的,首先服务器根据预设参数a、b、r,其满足a≤1,b≥序列长度t,将区间[a,b]等量切分为r等份。然后服务器在每个等份区小区间中选出一个点,对于位置为r的等份小区间中选出的点记为xr,将该点xr作为自变量取值分别代入到在序列中位置为t的权重数值所对应的概率分布函数中,从而计算出位置为t的权重数值的分布概率,再将该权重数值的分布概率与该权重数值本身相乘进行缩放,从而得到缩放后的分布概率。即,一个点xr对每个位置t=1,2,
……
,t都有一个对应的缩放后的分布概率,因此进一步选择一个聚合函数,比如极大值提取或者求和等将属于同一个点xr的分布概率聚合为一个值,作为该权重分布序列在位置r等份小区间内的权重分布概率。采用该相同的方式得到权重分布序列在每个等份小区间内的权重分布概率,从而组成得到权重分布概率序列,记为向量v。
[0061]
步骤s204,基于预设权重对权重分布概率序列进行权重抑制后计算对应的熵值,得到待评估文章的特征值。
[0062]
具体的,权重抑制是指将序列中的权重元素进行替换或者去除等处理,本实施例中的权重抑制主要是指抑制权重分布概率序列v中的低值权重,抑制的方式可以是所确定的低值权重替换为其他权重。而在完成对序列的权重抑制之后,进一步计算该序列的熵值,将该熵值作为待评估文章的特征值。
[0063]
在一个实施例中,步骤s204,包括:获取预设权重阈值和预设权重替换值,将权重分布概率序列中的元素值分别与预设权重阈值进行比较;若元素值小于预设权重阈值,则将元素值替换为预设权重替换值,得到权重抑制序列;计算权重抑制序列的熵值作为待评估文章的特征值。
[0064]
具体的,在服务器得到权重分布概率序列v之后,通过检查比对权重分布概率序列v中的每个元素值的大小来进行低权重抑制处理。其中,若序列v中的某个元素值小于预设权重阈值α,则将其转换为预设权重替换值β,对于元素值大于或等于预设权重阈值α的情况下保持该元素不变,该抑制过程最终输出的序列记为权重抑制序列u。本实施例中的预设权重α和β可以根据实际情况进行配置,本实施例优选α=0.01,β=0。然后,将u视为一个随机变量的所有取值情况,计算其熵值s,该熵值s能够表征文章的特征,因此将熵值s作为文章的特征值。熵值s的计算公式如下:
[0065]
[0066]
其中,s为熵值,r为权重抑制序列v的长度,r=1,2,
……
,r,ur为权重抑制序列u中位置为r的元素值,log为对数函数。
[0067]
步骤s205,根据特征值确定待评估文章与领域的相关度。
[0068]
具体的,服务器得到待评估文章的特征值之后,基于所能表征文章特征的特征值计算出待评估文章与领域的相关度。
[0069]
在一个实施例中,步骤s205,包括:将特征值代入类对数函数计算,输出待评估文章与领域的相关度。
[0070]
具体的,从“类对数函数”中选择一个函数,并根据预设参数,将s作为输入计算出相关度。其中,所称“类对数函数”是在特征值s的取值区间内,函数的一阶导数为正数,二阶导数为负数的函数。本实施例优选自然对数函数lnx为所选类对数函数,其中函数的相关参数可以根据经验进行设定或者从标注数据中学习得到。
[0071]
上述文章领域相关度评估方法,首先获取待评估文章的字词序列分别对该字词序列中的各个字词进行标签标记,得到标签序列;然后根据预设转换规则将标签序列转换为权重数值序列,对预设区间等量划分后,分别计算该权重数值序列在每等份内的权重分布概率,从而得到权重分布概率序列;最后基于预设权重对权重分布概率序列进行权重抑制后计算对应的熵值,得到待评估文章的特征值,以该特征值确定待评估文章与领域的相关度。该方法通过标签权重转换、基于概率分布模型的权重分布计算以及熵计算等方式来构建文章的特征实现文章领域相关度的评估,能够规避神经网络评估对文章长度的限制,即使是长文章也能够提高评估其领域相关度的准确性。
[0072]
在一个实施例中,步骤s201分别对字词序列中的字词进行标签标记,得到字词序列的标签序列,包括:分别对字词序列中的字词进行实体识别,得到各字词的实体标签,根据各字词的实体标签得到字词序列的实体标签序列。
[0073]
具体的,当所配置的标签体系包括实体标签体系时,服务器则采用实体识别方式标记出实体标签序列。实体识别方式可以采用现有任意一种实体识别技术,本实施优选采用实体识别模型标记出文章中的实体字词,从而能够通过神经网络模型来捕获文章的深层语义信息,提高评估的准确性。比如,假设文章的字词序列为[“张三”、“养了”、“边牧”],经过实体识别模型对各个字词进行实体识别,所识别标记出的标签序列为[“人”、“空白标签”、“宠物”]。即,实体识别模型识别出“张三”的实体标签为“人”,“边牧”的实体标签是“宠物”,而“养了”不属于实体,所以其标签由“空白标签”替代,具体的标签名称可以根据实际情况进行配置。
[0074]
在一个实施例中,步骤s201分别对字词序列中的字词进行标签标记,得到字词序列的标签序列,包括:分别对字词序列中的字词进行属性关系抽取,得到各字词的属性关系标签,根据各字词的属性关系标签得到属性关系标签序列。
[0075]
具体的,当所配置的标签体系包括属性关系标签体系时,服务器则采用属性关系抽取方式标记出属性关系标签序列。属性关系方式可以采用现有任意一种属性关系抽取技术,本实施优选采用属性关系抽取模型标记确定出文章中表达属性和关系的核心字词以及表达属性值的字词,同样能够通过神经网络模型来捕获文章的深层语义信息,提高评估的准确性。比如,假设文章的字词序列为[“边牧”、“年龄”、“2岁”、“,”“好兄弟”、“是”、“橘猫”],经过属性关系抽取模型抽取标记出的标签序列为[“宠物”、“属性核心词”、“属性值”、“空白标签”、“关系核心词”、“空白标签”、“宠物”]。即,属性关系抽取模型抽取确定“边牧”和“橘猫”是实体“宠物”,“年龄”是属性核心词,“好兄弟”是关系核心词,“2岁”是实际的属性值,而“,”和“是”不与属性和关系有关且不是实体,则其标签由“空白标签”替代。
[0076]
在另一个实施例中,步骤s201分别对字词序列中的字词进行标签标记,得到字词序列的标签序列,包括:基于预设关键词及标签类型,分别对字词序列中的字词进行映射转换,确定各字词的自定义标签;根据各自定义标签得到字词序列的自定义标签序列。
[0077]
具体的,自定义标签是根据实际需求自定义设置的标签体系,具体可以根据实际情况来配置。在本实施例中,自定义标签方式则是通过预设的领域关键词及对应的标签,直接对文章进行映射转换实现。比如,将“橘猫”作为关键词,其对应的标签类型为“关键词”,则对于字词序列[“边牧”、“年龄”、“2岁”、“,”“好兄弟”、“是”、“橘猫”]来说,其标记出来的标签序列为[“空白标签”、“空白标签”、“空白标签”、“空白标签”“空白标签”、“空白标签”、“关键词”]。
[0078]
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0079]
在一个实施例中,如图3所示,提供一种文章领域相关度评估装置,包括:
[0080]
序列标签定义模块301,用于获取待评估文章的字词序列,分别对字词序列中的各个字词进行标签标记,得到字词序列的标签序列;
[0081]
权重转换模块302,用于根据预设转换规则将标签序列转换为权重数值序列,若存在两个及以上的标签序列,则将各权重数值序列归约为一个最终的权重数值序列;
[0082]
权重分布计算模块303,用于对预设区间等量划分后,分别计算权重数值序列在每等份内的权重分布概率,得到权重分布概率序列;
[0083]
特征计算模块304,用于基于预设权重对权重分布概率序列进行权重抑制后计算对应的熵值,得到待评估文章的特征值;
[0084]
确定模块305,用于根据特征值确定待评估文章与领域的相关度。
[0085]
在一个实施例中,序列标签定义模块301还用于分别对字词序列中的字词进行实体识别,得到各字词的实体标签,根据各字词的实体标签得到所述字词序列的实体标签序列。
[0086]
在一个实施例中,序列标签定义模块301还用于分别对字词序列中的字词进行属性关系抽取,得到各字词的属性关系标签,根据各字词的属性关系标签得到属性关系标签序列。
[0087]
在一个实施例中,序列标签定义模块301还用于基于预设关键词及标签类型,分别对字词序列中的字词进行映射转换,确定各字词的自定义标签;根据各自定义标签得到字词序列的自定义标签序列。
[0088]
在一个实施例中,权重转换模块302还用于利用聚合函数将各权重数值序列中相同位置的权重数值分别进行聚合,确定各个位置对应的聚合权重;根据聚合权重构建得到
最终的权重数值序列。
[0089]
在一个实施例中,权重分布计算模块303还用于根据权重数值序列的长度确定预设区间并进行区间的等量划分;从每等份内确定一个点作为自变量取值代入至权重数值序列中各权重数值对应的概率分布函数,计算得到各权重数值的分布概率;将分布概率与对应的权重数值相乘后,对属于同一点的分布概率进行聚合,得到权重数值序列在每等份内的权重分布概率;根据每等份内的权重分布概率得到权重分布概率序列。
[0090]
在一个实施例中,特征计算模块304还用于获取预设权重阈值和预设权重替换值,将权重分布概率序列中的元素值分别与预设权重阈值进行比较;若元素值小于预设权重阈值,则将元素值替换为预设权重替换值,得到权重抑制序列;计算权重抑制序列的熵值作为待评估文章的特征值。
[0091]
在一个实施例中,确定模块305还用于将特征值代入类对数函数计算,输出待评估文章与领域的相关度;类对数函数是在特征值的取值区间内,一阶导数为正数二阶导数为负数的函数。
[0092]
关于文章领域相关度评估装置的具体限定可以参见上文中对于文章领域相关度评估方法的限定,在此不再赘述。上述文章领域相关度评估装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个文章领域相关度评估方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。
[0093]
在一个实施例中,提供一种计算机设备,该计算机设备可以是服务器,包括处理器,存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文章领域相关度评估方法。示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机装置中的执行过程。
[0094]
所称处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
[0095]
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行
存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0096]
本领域技术人员可以理解,本实施例中所示出的计算机设备结构,仅仅是与本发明方案相关的部分结构,并不构成对本发明所应用于其上的计算机设备的限定,具体的计算机设备可以包括更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0097]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
[0098]
获取待评估文章的字词序列,分别对字词序列中的各个字词进行标签标记,得到字词序列的标签序列;
[0099]
根据预设转换规则将标签序列转换为权重数值序列,若存在两个及以上的标签序列,则将各权重数值序列归约为一个最终的权重数值序列;
[0100]
对预设区间等量划分后,分别计算权重数值序列在每等份内的权重分布概率,得到权重分布概率序列;
[0101]
基于预设权重对权重分布概率序列进行权重抑制后计算对应的熵值,得到待评估文章的特征值;
[0102]
根据特征值确定待评估文章与领域的相关度。
[0103]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:分别对字词序列中的字词进行实体识别,得到各字词的实体标签,根据各字词的实体标签得到所述字词序列的实体标签序列。
[0104]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:分别对字词序列中的字词进行属性关系抽取,得到各字词的属性关系标签,根据各字词的属性关系标签得到属性关系标签序列。
[0105]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:基于预设关键词及标签类型,分别对字词序列中的字词进行映射转换,确定各字词的自定义标签;根据各自定义标签得到字词序列的自定义标签序列。
[0106]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:利用聚合函数将各权重数值序列中相同位置的权重数值分别进行聚合,确定各个位置对应的聚合权重;根据聚合权重构建得到最终的权重数值序列。
[0107]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据权重数值序列的长度确定预设区间并进行区间的等量划分;从每等份内确定一个点作为自变量取值代入至权重数值序列中各权重数值对应的概率分布函数,计算得到各权重数值的分布概率;将分布概率与对应的权重数值相乘后,对属于同一点的分布概率进行聚合,得到权重数值序列在每等份内的权重分布概率;根据每等份内的权重分布概率得到权重分布概率序列。
[0108]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取预设权重阈值
和预设权重替换值,将权重分布概率序列中的元素值分别与预设权重阈值进行比较;若元素值小于预设权重阈值,则将元素值替换为预设权重替换值,得到权重抑制序列;计算权重抑制序列的熵值作为待评估文章的特征值。
[0109]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将特征值代入类对数函数计算,输出待评估文章与领域的相关度;类对数函数是在特征值的取值区间内,一阶导数为正数二阶导数为负数的函数。
[0110]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
[0111]
获取待评估文章的字词序列,分别对字词序列中的各个字词进行标签标记,得到字词序列的标签序列;
[0112]
根据预设转换规则将标签序列转换为权重数值序列,若存在两个及以上的标签序列,则将各权重数值序列归约为一个最终的权重数值序列;
[0113]
对预设区间等量划分后,分别计算权重数值序列在每等份内的权重分布概率,得到权重分布概率序列;
[0114]
基于预设权重对权重分布概率序列进行权重抑制后计算对应的熵值,得到待评估文章的特征值;
[0115]
根据特征值确定待评估文章与领域的相关度。
[0116]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:分别对字词序列中的字词进行实体识别,得到各字词的实体标签,根据各字词的实体标签得到所述字词序列的实体标签序列。
[0117]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:分别对字词序列中的字词进行属性关系抽取,得到各字词的属性关系标签,根据各字词的属性关系标签得到属性关系标签序列。
[0118]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:基于预设关键词及标签类型,分别对字词序列中的字词进行映射转换,确定各字词的自定义标签;根据各自定义标签得到字词序列的自定义标签序列。
[0119]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:利用聚合函数将各权重数值序列中相同位置的权重数值分别进行聚合,确定各个位置对应的聚合权重;根据聚合权重构建得到最终的权重数值序列。
[0120]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据权重数值序列的长度确定预设区间并进行区间的等量划分;从每等份内确定一个点作为自变量取值代入至权重数值序列中各权重数值对应的概率分布函数,计算得到各权重数值的分布概率;将分布概率与对应的权重数值相乘后,对属于同一点的分布概率进行聚合,得到权重数值序列在每等份内的权重分布概率;根据每等份内的权重分布概率得到权重分布概率序列。
[0121]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取预设权重阈值和预设权重替换值,将权重分布概率序列中的元素值分别与预设权重阈值进行比较;若元素值小于预设权重阈值,则将元素值替换为预设权重替换值,得到权重抑制序列;计算权重抑制序列的熵值作为待评估文章的特征值。
[0122]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将特征值代入类
对数函数计算,输出待评估文章与领域的相关度;类对数函数是在特征值的取值区间内,一阶导数为正数二阶导数为负数的函数。
[0123]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
[0124]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0125]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1