一种关键词获取方法、装置及计算机可读存储介质与流程

文档序号:18739815发布日期:2019-09-21 01:38阅读:104来源:国知局
一种关键词获取方法、装置及计算机可读存储介质与流程

本发明属于计算机技术领域,特别是涉及一种关键词获取方法、装置及计算机可读存储介质。



背景技术:

为了便于用户能够快速获取文本所要传达的主要信息,经常需要从文本中提取关键词,然后将该关键词作为该文本的标签,以方便用户便捷高效的获取文本所要传达的主要信息。例如,可以从视频的标题文本中提取该标题文本的关键词,然后以该关键词作为该标题文本的标签,进而使得用户能够快速的确定该视频的主要内容。

因此,亟需一种方法来获取文本中的关键词。



技术实现要素:

本发明提供一种关键词获取方法、装置及计算机可读存储介质,以便解决意图识别存在偏差,导致的人机交互效果较差的问题。

依据本发明的第一方面,提供了一种关键词获取方法,该方法包括:

根据待处理文本中包含的词语,确定所述待处理文本对应的目标词语;

基于每个所述目标词语的词向量,确定每个所述目标词语相对于所述待处理文本的注意力权重;所述注意力权重与所述目标词语对所述待处理文本的语义影响程度呈正相关;

基于每个所述目标词语的词向量及注意力权重,获取所述待处理文本的文本向量;

基于每个所述目标词语的词向量及所述文本向量,获取所述待处理文本的关键词。

可选的,所述根据待处理文本中包含的词语,确定所述待处理文本对应的目标词语,包括:

对所述待处理文本进行分词处理,得到所述待处理文本包含的多个词语;

获取每个所述词语关联的联想词语和/或关联的固定词语,得到每个所述词语的辅助词语,将每个所述词语以及每个所述词语的辅助词语,作为所述待处理文本对应的目标词语。

可选的,所述基于每个所述目标词语的词向量,确定每个所述目标词语相对于所述待处理文本对应的注意力权重,包括:

获取每个所述目标词语的初始词向量,以及,获取每个所述目标词语的上下文词向量;

对于每个所述目标词语,基于所述目标词语的初始词向量及所述目标词语的上下文词向量,获取所述目标词语的词向量;

根据每个所述目标词语的词向量,并利用预设的注意力机制算法生成每个所述目标词语对应的注意力权重。

可选的,所述根据每个所述目标词语的词向量,并利用预设的注意力机制算法生成每个所述目标词语对应的注意力权重,包括:

将每个所述目标词语分别作为待处理词语,并基于每个所述目标词语的词向量,分别计算每个所述目标词语相对于所述待处理词语的权重因子,得到每个所述目标词语对应的多个权重因子;

对于每个所述目标词语,计算所述目标词语对应的多个权重因子的累加和;

对于每个所述目标词语的累加和,对所述累加和进行归一化,得到所述目标词语对应的注意力权重。

可选的,所述获取每个所述目标词语的上下文词向量,包括:

在所述待处理文本的首部及尾部分别增加n个补充词语,得到参照文本;

将属于所述待处理文本的目标词语作为第一词语,并获取所述参照文本中与所述第一词语邻接的前n个词语的初始词向量以及后n个词语的初始词向量,得到所述第一词语的上下文词向量;

将属于辅助词语的目标词语作为第二词语,并将与所述第二词语关联的第一词语的上下文词向量,作为所述第二词语的上下文词向量。

可选的,所述基于每个所述目标词语的词向量及注意力权重,获取所述待处理文本的文本向量,包括:

对于每个所述目标词语,计算所述目标词语的词向量与注意力权重之积,得到第一向量;

计算所有第一向量之和,得到所述待处理文本的文本向量。

可选的,所述基于每个所述目标词语的词向量及所述文本向量,获取所述待处理文本的关键词,包括:

将每个所述目标词语的词向量及所述文本向量输入预设的神经网络模型,并利用所述神经网络模型生成每个所述目标词语对应的分值;

将对应的分值大于或者等于预设分值阈值的目标词语作为关键词。

可选的,所述预设的神经网络模型包括向量拼接层以及全连接层;

所述利用所述神经网络模型生成每个所述目标词语对应的分值,包括:

对于每个所述目标词语的词向量,利用所述向量拼接层将所述目标词语的词向量与所述文本向量拼接,并输出所述目标词语的最终向量;

利用所述全连接层将所述目标词语的最终向量与所述全连接层的预设权重矩阵相乘,得到所述目标词语对应的分值;所述全连接层中包括一个神经元,所述预设权重矩阵定义在所述神经元中。

依据本发明的第二方面,提供了一种关键词获取装置,该装置包括:

第一确定模块,用于根据待处理文本中包含的词语,确定所述待处理文本对应的目标词语;

第二确定模块,用于基于每个所述目标词语的词向量,确定每个所述目标词语相对于所述待处理文本的注意力权重;所述注意力权重与所述目标词语对所述待处理文本的语义影响程度呈正相关;

第一获取模块,用于基于每个所述目标词语的词向量及注意力权重,获取所述待处理文本的文本向量;

第二获取模块,用于基于每个所述目标词语的词向量及所述文本向量,获取所述待处理文本的关键词。

可选的,所述第一确定模块,用于:

对所述待处理文本进行分词处理,得到所述待处理文本包含的多个词语;

获取每个所述词语关联的联想词语和/或关联的固定词语,得到每个所述词语的辅助词语,将每个所述词语以及每个所述词语的辅助词语,作为所述待处理文本对应的目标词语。

可选的,所述第二确定模块,包括:

第一获取子模块,用于获取每个所述目标词语的初始词向量,以及,获取每个所述目标词语的上下文词向量;

第二获取子模块,用于对于每个所述目标词语,基于所述目标词语的初始词向量及所述目标词语的上下文词向量,获取所述目标词语的词向量;

第一生成子模块,用于根据每个所述目标词语的词向量,并利用预设的注意力机制算法生成每个所述目标词语对应的注意力权重。

可选的,所述第一生成子模块,用于:

将每个所述目标词语分别作为待处理词语,并基于每个所述目标词语的词向量,分别计算每个所述目标词语相对于所述待处理词语的权重因子,得到每个所述目标词语对应的多个权重因子;

对于每个所述目标词语,计算所述目标词语对应的多个权重因子的累加和;

对于每个所述目标词语的累加和,对所述累加和进行归一化,得到所述目标词语对应的注意力权重。

可选的,所述第一获取子模块,用于:

在所述待处理文本的首部及尾部分别增加n个补充词语,得到参照文本;

将属于所述待处理文本的目标词语作为第一词语,并获取所述参照文本中与所述第一词语邻接的前n个词语的初始词向量以及后n个词语的初始词向量,得到所述第一词语的上下文词向量;

将属于辅助词语的目标词语作为第二词语,并将与所述第二词语关联的第一词语的上下文词向量,作为所述第二词语的上下文词向量。

可选的,所述第一获取模块,用于:

对于每个所述目标词语,计算所述目标词语的词向量与注意力权重之积,得到第一向量;

计算所有第一向量之和,得到所述待处理文本的文本向量。

可选的,所述第二获取模块,包括:

第二生成子模块,用于将每个所述目标词语的词向量及所述文本向量输入预设的神经网络模型,并利用所述神经网络模型生成每个所述目标词语对应的分值;

确定子模块,用于将对应的分值大于或者等于预设分值阈值的目标词语作为关键词。

可选的,所述预设的神经网络模型包括向量拼接层以及全连接层;

所述第二生成子模块,用于:

对于每个所述目标词语的词向量,利用所述向量拼接层将所述目标词语的词向量与所述文本向量拼接,并输出所述目标词语的最终向量;

利用所述全连接层将所述目标词语的最终向量与所述全连接层的预设权重矩阵相乘,得到所述目标词语对应的分值;

其中,所述全连接层中包括一个神经元,所述预设权重矩阵定义在所述神经元中。

第三方面,本发明实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的关键词获取方法的步骤。

针对在先技术,本发明具备如下优点:

可以根据待处理文本中包含的词语,确定待处理文本对应的目标词语,然后,基于每个目标词语的词向量,确定每个目标词语相对于待处理文本的注意力权重,其中,该注意力权重与目标词语对待处理文本的语义影响程度呈正相关,接着,基于每个目标词语的词向量及注意力权重,获取所述待处理文本的文本向量,最后,基于每个目标词语的词向量及所述文本向量,获取待处理文本的关键词。本发明实施例中,由于为目标词语确定的注意力权重与该目标词语对待处理文本的语义影响程度呈正相关,因此,可以使得对待处理文本的语义影响程度较大的目标词语对应较高的注意力权重,对待处理文本的语义影响程度较小的目标词语对应较低的注意力权重,再结合目标词语的注意力权重及词向量,来计算文本向量,使得文本向量能够更加聚焦于对待处理文本的语义影响程度较大的目标词语,进而使得该文本向量表示的语义能够更加贴近有较高概率是关键词的词语,进而一定程度上提高基于该文本向量提取到的关键词的准确率。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1是本发明实施例提供的一种关键词获取方法的步骤流程图;

图2-1是本发明实施例提供的另一种关键词获取方法的步骤流程图;

图2-2是本发明实施例提供的一种关键词获取过程示意图;

图3是本发明实施例提供的一种关键词获取装置的框图;

图4是本发明实施例提供的另一种关键词获取装置的框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。

图1是本发明实施例提供的一种关键词获取方法的步骤流程图,如图1所示,该方法可以包括:

步骤101、根据待处理文本中包含的词语,确定所述待处理文本对应的目标词语。

本发明实施例中,该待处理文本可以是需要提取关键词的文本,示例的,该待处理文本可以是视频的内容简介文本,可以是文章的摘要文本,也可以是商品的描述文本,等等。进一步地,该待处理文本对应的目标词语可以是与该待处理文本存在一定关联的词语,示例的,待处理文本对应的目标词语可以是该待处理文本中包含的词语,也可以是该待处理文本中包含的词语以及与包含的这些词语具有较强关联的词语,本发明实施例对此不作限定。

步骤102、基于每个所述目标词语的词向量,确定每个所述目标词语相对于所述待处理文本的注意力权重;所述注意力权重与所述目标词语对所述待处理文本的语义影响程度呈正相关。

本发明实施例中,目标词语的词向量是基于该目标词语的含义对该目标词语进行的向量化表示,具体的,词向量可以是基于该目标词语直接获取到的,也可以是基于该词向量以及该目标词语的上下文词向量确定的。进一步地,本步骤中,可以基于每个目标词语的词向量及目标词语对该待处理文本的语义影响程度,确定每个目标词语相对于该待处理文本的注意力权重,其中,目标词语对待处理文本的语义影响程度较大时,可以为该目标词语设置较高的注意力权重,目标词语对待处理文本的语义影响程度较小时,可以为该目标词语设置较的注意力权重。

步骤103、基于每个所述目标词语的词向量及注意力权重,获取所述待处理文本的文本向量。

本发明实施例中,对于每个目标词语,可以先计算目标词语的词向量与注意力权重之积,得到多个第一向量,然后计算所有第一向量之和,进而得到该待处理文本的文本向量。由于文本中可能会包含与文本实际语义关联度较低的词语,如果直接将每个词语的词向量之和作为文本向量时,这些与文本实际语义关联度较低的词语的词向量,会使得文本向量表示的语义更贴近于这些关联度较低的词语,进而会削弱文本向量表示的语义与关联度较高的词语的贴近程度,进而会导致确定的关键词不准确。而本发明实施例中,对目标词语对待处理文本的语义影响程度,为目标词语分配注意力权重,并结合该注意力权重与词向量获取文本向量,这样,可以使得对待处理文本的语义影响程度较大的词向量在文本向量中能够占据较大的比重,该文本向量表示的语义能够更加贴近聚焦于对待处理文本的语义影响程度较大的目标词语,进而使得文本向量表示的语义能够更加贴近待处理文本的关键信息。这样,后续步骤中,基于该文本向量提取关键词时候,可以一定程度上使得基于该文本向量提取到的关键词更加准确。

步骤104、基于每个所述目标词语的词向量及所述文本向量,获取所述待处理文本的关键词。

本发明实施例中,可以先基于该目标词语的词向量及文本向量,确定该目标词语的语义与该待处理文本的语义的相似程度,相似程度越大,则可以认为该目标词语是该待处理文本的关键词的概率越大,相应地,可以选择概率较大的目标词语作为关键词。

综上所述,本发明实施例提供的关键词获取方法,可以根据待处理文本中包含的词语,确定待处理文本对应的目标词语,然后,基于每个目标词语的词向量,确定每个目标词语相对于待处理文本的注意力权重,其中,该注意力权重与目标词语对待处理文本的语义影响程度呈正相关,接着,基于每个目标词语的词向量及注意力权重,获取所述待处理文本的文本向量,最后,基于每个目标词语的词向量及所述文本向量,获取待处理文本的关键词。本发明实施例中,由于为目标词语确定的注意力权重与该目标词语对待处理文本的语义影响程度呈正相关,因此可以使得对待处理文本的语义影响程度较大的目标词语对应较高的注意力权重,给对待处理文本的语义影响程度较小的目标词语对应较低的注意力权重,再结合目标词语的注意力权重及词向量,来计算文本向量,使得文本向量能够更加聚焦于对待处理文本的语义影响程度较大的目标词语,进而使得该文本向量表示的语义能够更加贴近有较高概率是关键词的词语,进而一定程度上提高基于该文本向量提取到的关键词的准确率。

图2-1是本发明实施例提供的另一种关键词获取的步骤流程图,如图2-1所示,该方法可以包括:

步骤201、根据待处理文本中包含的词语,确定所述待处理文本对应的目标词语。

具体的,本步骤可以通过下述子步骤(1)~子步骤(2)实现:

子步骤(1):对所述待处理文本进行分词处理,得到所述待处理文本包含的多个词语。

具体的,在进行分词处理时,可以采用基于字符串匹配的分词方法进行分词处理,示例的,可以通过常用分词库,例如,常见的词典等,进行逐词遍历,将常见分词库中的所有词按照排列顺序分别在待处理文本中遍历匹配,若匹配成功则将当前词,确定为该待处理文本的分词,如此循环,直至常见分词库中的所有词都被匹配一遍,即可确定出该待处理文本包含的多个词语。当然,实际应用场景中,也可以采用其他分词方法,例如,基于统计的分词方法,基于理解的分词方法,基于统计的分词方法,或者基于条件随机场(Conditional Random Field,CRF)算法的分词方法,等等。

子步骤(2):获取每个所述词语关联的联想词语和/或关联的固定词语,得到每个所述词语的辅助词语,将每个所述词语以及每个所述词语的辅助词语,作为所述待处理文本对应的目标词语。

本步骤中,词语关联的联想词语可以是实际应用中基于该词语较高频率可以联想到的词语,例如,词语“阳光”关联的联想词语可以为“温暖”,进一步对,词语关联的固定词语可以是该词语经常会搭配固定使用的词组,例如,词语“回忆”关联的固定词组可以为“过去”。进一步地,词语关联的联想词语以及词语关联的固定词语可以是预先搜集到的,示例的,可以预先将获取并存储不同词语与其关联的联想词语以及固定词语的对应关系,然后从该对应关系中查找该待处理文本包含的每个词语关联的联想词语和/或固定词语,当然,也可以是实时从网络中查找每个词语关联的联想词语和/或固定词语,本发明实施例对此不作限定。

本发明实施例中,基于待处理文本中包含的词语获取关联性较强的辅助词语,并将包含的词语及辅助词语作为目标词语的方式,能够获取更多的词语信息,使得目标词语包含的信息更高丰富,进而提高后续步骤中,基于目标词语获取到的关键词更加准确,同时,实际应用中可能会存在最能代表该待处理文本的关键词,是与该待处理文本相关但并不包含在该待处理文本中的词语,如果,仅以待处理文本中包含的词语作为提取关键词的依据,可能会出现无法提取到关键词的问题,本发明实施例中,以待处理文本中包含的词语及辅助词语作为目标词语的方式,一定程度上可以降低无法提取到关键词的概率,进而提高关键词获取的效果。

步骤202、获取每个所述目标词语的初始词向量,以及,获取每个所述目标词语的上下文词向量。

本步骤中,可以预先以样本文本包含的词语作为训练语料,对词向量模型进行训练,通过训练来确定不同词语的词向量,得到向量字典,然后从该向量字典中查找每个目标词语的初始词向量。也可以词编码(one hot representation)的方式,或者基于词频来生成初始词向量的方式,例如,可以统计每个目标词语的词频,最后根据每个目标词语的词频,生成目标词语的初始词向量,本发明实施例对此不作限定。本发明实施例中,该目标词语的上下文词向量表示待处理文本中能够体现该目标词语的上下文语境的词语的词向量。具体的,本发明实施例中,可以通过下述子步骤(3)~子步骤(5)实现获取每个目标词语的上下文词向量:

子步骤(3):在所述待处理文本的首部及尾部分别增加n个补充词语,得到参照文本。

本步骤中,n为正整数,n的具体值可以根据实际情况来设定,2n表示目标词语的上下文词语的数量。进一步地,实时应用中,在确定位于文本前边的词语以及后边的词语的上下文词语时,这些词语之前或者之后邻接的词语数量可能会小于n,示例的,假设n为3,即,取该词语之前邻接的3个词语以及该词语之候邻接的3个词语作为该词语的上下文词语,但是位于文本首位的词语之前没有邻接的词语,位于文本末位的词语之后没有邻接的词语,相应地,本发明实施例中,为了保证获取都每个目标词语的上下文词向量,可以在待处理文本的首部及尾部分别增加n个补充词语,其中,每个补充词语的初始词向量不同。

子步骤(4):将属于所述待处理文本的目标词语作为第一词语,并获取所述参照文本中与所述第一词语邻接的前n个词语的初始词向量以及后n个词语的初始词向量,得到所述第一词语的上下文词向量。

示例的,假设待处理文本为“今天阳光不错,让小王不禁开始回忆”,其中,该待处理文本对应的目标词语包括:属于该待处理文本的词语“今天、阳光、不错、让、小王、不禁、开始以及回忆”,以及获取的辅助词语“温暖、过去”,相应地,可以将词语“今天、阳光、不错、让、小王、不禁、开始以及回忆”作为第一词语,进一步地,以n为1,补充之后的参照文本为“aa今天阳光不错,让小王不禁开始回忆bb”为例,可以将“aa”的初始词向量以及“阳光”的初始词向量确定为第一词语“今天”的上下文词向量,以此类推,可以得到每个第一词语的上下文词向量。

子步骤(5):将属于辅助词语的目标词语作为第二词语,并将与所述第二词语关联的第一词语的上下文词向量,作为所述第二词语的上下文词向量。

示例的,可以将辅助词语“温暖、过去”作为第二词语,进一步地,由于第二词语“温暖”关联的第一词语为“阳光”,因此可以将第一词语“阳光”的上下文词向量作为该第二词语“温暖”的上下文词向量同理,可以将第一词语“回忆”的上下文词向量作为该第二词语“过去”的上下文词向量。

步骤203、对于每个所述目标词语,基于所述目标词语的初始词向量及所述目标词语的上下文词向量,获取所述目标词语的词向量。

本步骤中,可以将目标词语的初始词向量及目标词语的上下文词向量拼接,得到目标词语的词向量。

本步骤中,拼接顺序可以不唯一,可以将上下文词向量拼接在初始词向量之前,也可以将上下文词向量拼接在初始词向量之后,或者,将初始词向量拼接在上下文词向量之间。示例的,假设“aa”的初始词向量以及“阳光”的初始词向量为目标词语“今天”的上下文词向量,按照“aa”的初始词向量、“今天”的初始词向量、“阳光”的初始词向量的顺序,依次拼接。

由于目标词语的初始词向量是基于目标词语本身的信息获取的,仅能体现该目标词语的语义,但是,实际应用场景中,词语在文本中所表示的实际语义与其邻接的上下文词语传达的语境往往存在较强的关联,例如,文本“小张爱吃苹果”中的词语“苹果”表示的一种水果,文本“小张喜欢使用苹果手机”中的词语“苹果”则表示一种电子设备,因此,本发明实施例中,通过结合目标词语的初始词向量及目标词语的上下文词向量,来确定词向量的方式,可以使得词向量能够更加准确的代表该目标词语相对待处理文本的实际语义,进而提高后续步骤中基于该词向量获取的关键词的准确率。

步骤204、根据每个所述目标词语的词向量,并利用预设的注意力机制算法生成每个所述目标词语对应的注意力权重。

其中,注意力(Attention)机制的本质来自于人类视觉注意力机制,视觉注意力机制是人类视觉所特有的大脑信号处理机制,人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,而抑制其他无用信息。相应地,本步骤中,注意力机制算法会基于每个目标词语的词向量所表示出来的每个目标词语的语义,确定需要关注程度较大的目标词语,即,对待处理文本的实际语义影响程度较大的词语,然后为这些目标词语分配更高的注意力权重,以抑制其他目标词语对后续生成的文本向量的影响程度,进而使得后续基于词向量以及注意力权重生成文本向量时,能够更加关注到对待处理文本的实际语义影响程度较大的词语。

具体的,利用注意力机制算法生成目标词语对应的注意力权重的过程可以如下述子步骤(6)~子步骤(8)所示:

子步骤(6):将每个所述目标词语分别作为待处理词语,并基于每个所述目标词语的词向量,分别计算每个所述目标词语相对于所述待处理词语的权重因子,得到每个所述目标词语对应的多个权重因子。

本步骤中,可以分别计算每个目标词语与该待处理词语的对齐概率,即,以该待处理词语在其他每个目标词语上的概率分布作为每个目标词语相对于该待处理词语的权重因子,然后,将该对齐概率作为目标词语相对于该待处理词语的权重因子。具体的,在计算目标词语与该待处理词语的对齐概率时,可以采用通过计算两者的点积来得到对齐概率,当然,也可以采用其他相似度函数来计算,本发明实施例对此不作限定。

示例的,假设有3个目标词语:A、B及C,可以先以A为待处理词语,然后分别基于A的词向量、B的词向量及C的词向量,计算A相对于待处理词语A的权重因子、B相对于待处理词语A的权重因子及C相对于待处理词语A的权重因子;然后,以B为待处理词语,然后分别基于A的词向量、B的词向量及C的词向量,计算A相对于待处理词语B的权重因子、B相对于待处理词语B的权重因子及C相对于待处理词语B的权重因子;最后,以C为待处理词语,然后分别基于A的词向量、B的词向量及C的词向量,计算A相对于待处理词语C的权重因子、B相对于待处理词语C的权重因子及C相对于待处理词语C的权重因子。

子步骤(7):对于每个所述目标词语,计算所述目标词语对应的多个权重因子的累加和。

本步骤中,目标词语相对于不同待处理词语的权重因子,可以表示相对于该待处理词语需要对该目标词语关注的程度,相应地,通过计算该目标词语对应的多个权重因子的累加和,可以得到整个相对于待处理文本需要对该目标词语关注的程度。示例的,对于目标词语A,可以计算A相对于待处理词语A的权重因子、A相对于待处理词语B的权重因子以及A相对于待处理词语C的权重因子的累加和;对于目标词语B,可以计算B相对于待处理词语A的权重因子、B相对于待处理词语B的权重因子以及B相对于待处理词语C的权重因子的累加和;对于目标词语C,可以计算C相对于待处理词语A的权重因子、C相对于待处理词语B的权重因子以及C相对于待处理词语C的权重因子的累加和。

子步骤(8):对于每个所述目标词语的累加和,对所述累加和进行归一化,得到所述目标词语对应的注意力权重。

本步骤中,可以通过归一化可以将权重因子的累加和的取值转换为符合概率分布取值区间的注意力权重值,进而方便后续步骤中基于注意力权重进行计算。具体的,可以利用Sigmoid函数进行归一化,该Sigmoid函数由于其单增以及反函数单增等性质,可以将数值射到(0,1)之间。

步骤205、基于每个所述目标词语的词向量及注意力权重,获取所述待处理文本的文本向量。

示例的,假设有3个目标词语:A、B及C,每个目标词语的注意力权重分别为:0.3、0.6、0.1,每个目标词语的词向量分别为:a、b、c,那么可以将0.3a+0.6b+0.1c作为待处理文本的文本向量。可以看出,在计算时,由于为需要关注程度更大的目标词语,即,对待处理文本的实际语义影响程度更大的目标词语分配了更大的权重,进而可以使得计算出的文本向量表示的语义能够更加贴近聚焦于对待处理文本的语义影响程度较大的目标词语,进而可以提高后续步骤中,基于该文本向量提取的关键词的准确性。

步骤206、将每个所述目标词语的词向量及所述文本向量输入预设的神经网络模型,并利用所述神经网络模型生成每个所述目标词语对应的分值。

由于向量具有方向,且各个目标词语的词向量的方向无法控制,因此,如果直接基于词向量与文本向量的夹角来确定两者的相似程度,例如,通过计算两者的余弦相似度,在夹角越大时,认为两者的相似程度小,在夹角越小时,认为两者的相似程度大,可能会导致提取的关键词有所遗漏。例如,目标词语中可能会存在向量方向与某个真实的关键词的向量方向相反的词,这样,计算出来的文本向量的方向可能会与该真实的关键词的向量方向差距较大,进而可能会导致该真实的关键词不能被提取出来,使得提取到的关键词不够全面。

因此,本发明实施例中,可以通过预设的神经网络模型,来生成每个目标词语对应的分值,其中,该分值可以体现目标词语的语义与该待处理文本的语义的相似程度,具体的,该神经网络模型可以包括向量拼接层以及全连接层,相应地,生成分值的过程可以通过下述子步骤(9)~子步骤(10)实现:

子步骤(9):对于每个所述目标词语的词向量,利用所述向量拼接层将所述目标词语的词向量与所述文本向量拼接,并输出所述目标词语的最终向量。

示例的,假设有3个目标词语:A、B及C,向量拼接层可以将目标词语A的词向量与文本向量拼接,输出该目标词语A的最终向量,将目标词语B的词向量与文本向量拼接,输出该目标词语B的最终向量,将目标词语C的词向量与文本向量拼接,输出该目标词语C的最终向量。具体的,在进行拼接时,可以将目标词语的词向量拼接在文本向量之前,也将目标词语的词向量拼接在文本向量之后,本发明实施例对此不作限定。

子步骤(10):利用所述全连接层将所述目标词语的最终向量与所述全连接层的预设权重矩阵相乘,得到所述目标词语对应的分值。

本步骤中,该全连接层中可以包括一个神经元,该预设权重矩阵可以定义在该神经元中,通过设置该全连接层中包括一个神经元,且预设权重矩阵定义在该神经元中,这样,通过直接将目标词语的最终向量与该神经元中的预设权重矩阵相乘,即可通过该神经元输出目标词语对应的分值,进而可以提高计算效率。

由于词向量是基于待处理文本中的部分组成内容确定的词向量,体现的是待处理文本的局部特征,本发明实施例中,通过对目标词语的词向量以及文本向量拼接得到的最终向量,进行全连接处理,可以将局部特征映射到待处理文本的全部特征,即,文本向量中,这样,通过得到的分值即可表示两者的相似程度,同时,本发明实施例中,相较于基于词向量与文本向量的夹角来确定两者的相似程度的方式,直接利用预设的神经网络模型来生成能够体现两者相似程度的分值的方式,可以避免由于向量角度造成的偏差,进而可以使得提取到的关键词更加全面。

步骤207、将对应的分值大于或者等于预设分值阈值的目标词语作为关键词。

本步骤中,该预设分值阈值可以是基于实际情况预先设置的,例如,该预设分值阈值可以是0.6,本发明实施例对此不作限定。进一步地,如果目标词语对应的分值大于或者等于预设分值阈值,则可以认为该目标词语对待处理文本的语义影响程度较大,相应地,可以将该目标词语确定为关键词。

进一步地,图2-2是本发明实施例提供的一种关键词获取过程示意图,如图2-2所示,可以确定待处理文本对应的n个目标词语,然后基于n个目标词语,确定每个目标词语的词向量,得到n个词向量,以及确定每个目标词语相对于待处理文本的注意力权重,得到n个注意力权重,接着,基于n个注意力权重以及n个词向量,获取文本向量,接着,将n个词向量与文本向量输入预设的神经网络模型的向量拼接层进行拼接,最后,由神经网络模型的全连接层,生成每个目标词语对应的分值,最后,基于每个目标词语对应的分值确定关键词。

综上所述,本发明实施例提供的关键词获取方法,可以根据待处理文本中包含的词语,确定待处理文本对应的目标词语,然后,基于每个目标词语的词向量,确定每个目标词语相对于待处理文本的注意力权重,其中,该注意力权重与目标词语对待处理文本的语义影响程度呈正相关,接着,基于每个目标词语的词向量及注意力权重,获取所述待处理文本的文本向量,最后,将每个目标词语的词向量及文本向量输入预设的神经网络模型,并利用神经网络模型生成每个目标词语对应的分值,将对应的分值大于或者等于预设分值阈值的目标词语确定为关键词。

由于为目标词语确定的注意力权重与该目标词语对待处理文本的语义影响程度呈正相关,因此可以使得对待处理文本的语义影响程度较大的目标词语对应较高的注意力权重,对待处理文本的语义影响程度较小的目标词语对应较低的注意力权重,再结合目标词语的注意力权重及词向量,来计算文本向量,使得文本向量能够更加聚焦于对待处理文本的语义影响程度较大的目标词语,进而使得该文本向量表示的语义能够更加贴近有较高概率是关键词的词语,进而一定程度上提高基于该文本向量提取到的关键词的准确率。通过利用预设的神经网络模型来生成能够体现两者相似程度的分值的方式,可以避免由于向量角度造成的偏差,进而可以使得提取到的关键词更加全面。

图3是本发明实施例提供的一种关键词获取装置的框图,如图3所示,该装置30可以包括:

第一确定模块301,用于根据待处理文本中包含的词语,确定所述待处理文本对应的目标词语。

第二确定模块302,用于基于每个所述目标词语的词向量,确定每个所述目标词语相对于所述待处理文本的注意力权重;所述注意力权重与所述目标词语对所述待处理文本的语义影响程度呈正相关。

第一获取模块303,用于基于每个所述目标词语的词向量及注意力权重,获取所述待处理文本的文本向量。

第二获取模块304,用于基于每个所述目标词语的词向量及所述文本向量,获取所述待处理文本的关键词。

综上所述,本发明实施例提供的关键词获取装置,第一确定模块可以根据待处理文本中包含的词语,确定待处理文本对应的目标词语,然后,第二确定模块可以基于每个目标词语的词向量,确定每个目标词语相对于待处理文本的注意力权重,其中,该注意力权重与目标词语对待处理文本的语义影响程度呈正相关,接着,第一获取模块可以基于每个目标词语的词向量及注意力权重,获取所述待处理文本的文本向量,最后,第二获取模块可以基于每个目标词语的词向量及所述文本向量,获取待处理文本的关键词。本发明实施例中,由于为目标词语确定的注意力权重与该目标词语对待处理文本的语义影响程度呈正相关,因此可以使得对待处理文本的语义影响程度较大的目标词语对应较高的注意力权重,给对待处理文本的语义影响程度较小的目标词语对应较低的注意力权重,再结合目标词语的注意力权重及词向量,来计算文本向量,使得文本向量能够更加聚焦于对待处理文本的语义影响程度较大的目标词语,进而使得该文本向量表示的语义能够更加贴近有较高概率是关键词的词语,进而一定程度上提高基于该文本向量提取到的关键词的准确率。

图4是本发明实施例提供的另一种关键词获取装置的框图,如图4所示,该装置40可以包括:

第一确定模块401,用于根据待处理文本中包含的词语,确定所述待处理文本对应的目标词语。

第二确定模块402,用于基于每个所述目标词语的词向量,确定每个所述目标词语相对于所述待处理文本的注意力权重;所述注意力权重与所述目标词语对所述待处理文本的语义影响程度呈正相关;

第一获取模块403,用于基于每个所述目标词语的词向量及注意力权重,获取所述待处理文本的文本向量。

第二获取模块404,用于基于每个所述目标词语的词向量及所述文本向量,获取所述待处理文本的关键词。

可选的,所述第一确定模块402,用于:

对所述待处理文本进行分词处理,得到所述待处理文本包含的多个词语;

获取每个所述词语关联的联想词语和/或关联的固定词语,得到每个所述词语的辅助词语,将每个所述词语以及每个所述词语的辅助词语,作为所述待处理文本对应的目标词语。

可选的,如图4所示,所述第二确定模块402,包括:

第一获取子模块4021,用于获取每个所述目标词语的初始词向量,以及,获取每个所述目标词语的上下文词向量;

第二获取子模块4022,用于对于每个所述目标词语,基于所述目标词语的初始词向量及所述目标词语的上下文词向量,获取所述目标词语的词向量;

第一生成子模块4023,用于根据每个所述目标词语的词向量,并利用预设的注意力机制算法生成每个所述目标词语对应的注意力权重。

可选的,所述第一生成子模块4023,用于:

将每个所述目标词语分别作为待处理词语,并基于每个所述目标词语的词向量,分别计算每个所述目标词语相对于所述待处理词语的权重因子,得到每个所述目标词语对应的多个权重因子;

对于每个所述目标词语,计算所述目标词语对应的多个权重因子的累加和;

对于每个所述目标词语的累加和,对所述累加和进行归一化,得到所述目标词语对应的注意力权重。

可选的,所述第一获取子模块4021,用于;

在所述待处理文本的首部及尾部分别增加n个补充词语,得到参照文本;

将属于所述待处理文本的目标词语作为第一词语,并获取所述参照文本中与所述第一词语邻接的前n个词语的初始词向量以及后n个词语的初始词向量,得到所述第一词语的上下文词向量;

将属于辅助词语的目标词语作为第二词语,并将与所述第二词语关联的第一词语的上下文词向量,作为所述第二词语的上下文词向量。

可选的,所述第一获取模块403,用于:

对于每个所述目标词语,计算所述目标词语的词向量与注意力权重之积,得到第一向量;

计算所有第一向量之和,得到所述待处理文本的文本向量。

可选的,如图4所示,所述第二获取模块404,包括:

第二生成子模块4041,用于将每个所述目标词语的词向量及所述文本向量输入预设的神经网络模型,并利用所述神经网络模型生成每个所述目标词语对应的分值;

确定子模块4042,用于将对应的分值大于或者等于预设分值阈值的目标词语作为关键词。

可选的,所述预设的神经网络模型包括向量拼接层以及全连接层;

所述第二生成子模块4041,用于:

对于每个所述目标词语的词向量,利用所述向量拼接层将所述目标词语的词向量与所述文本向量拼接,并输出所述目标词语的最终向量;

利用所述全连接层将所述目标词语的最终向量与所述全连接层的预设权重矩阵相乘,得到所述目标词语对应的分值;所述全连接层中包括一个神经元,所述预设权重矩阵定义在所述神经元中。

综上所述,本发明实施例提供的关键词获取装置,第一确定模块可以根据待处理文本中包含的词语,确定待处理文本对应的目标词语,然后,第二确定模块可以基于每个目标词语的词向量,确定每个目标词语相对于待处理文本的注意力权重,其中,该注意力权重与目标词语对待处理文本的语义影响程度呈正相关,接着,第一获取模块可以基于每个目标词语的词向量及注意力权重,获取所述待处理文本的文本向量,最后,第二生成子模块可以将每个目标词语的词向量及文本向量输入预设的神经网络模型,并利用神经网络模型生成每个目标词语对应的分值,确定子模块可以将对应的分值大于或者等于预设分值阈值的目标词语确定为关键词。

由于为目标词语确定的注意力权重与该目标词语对待处理文本的语义影响程度呈正相关,因此可以使得对待处理文本的语义影响程度较大的目标词语对应较高的注意力权重,对待处理文本的语义影响程度较小的目标词语对应较低的注意力权重,再结合目标词语的注意力权重及词向量,来计算文本向量,使得文本向量能够更加聚焦于对待处理文本的语义影响程度较大的目标词语,进而使得该文本向量表示的语义能够更加贴近有较高概率是关键词的词语,进而一定程度上提高基于该文本向量提取到的关键词的准确率。通过利用预设的神经网络模型来生成能够体现两者相似程度的分值的方式,可以避免由于向量角度造成的偏差,进而可以使得提取到的关键词更加全面。

对于上述装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

优选的,本发明实施例还提供一种终端,包括处理器,存储器,存储在存储器上并可在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述关键词获取方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述关键词获取方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

本领域技术人员易于想到的是:上述各个实施例的任意组合应用都是可行的,故上述各个实施例之间的任意组合都是本发明的实施方案,但是由于篇幅限制,本说明书在此就不一一详述了。

在此提供的关键词获取方法不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造具有本发明方案的系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的关键词获取方法中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1