文本关键词生成方法及装置和电子设备及可读存储介质与流程

文档序号:11250872
文本关键词生成方法及装置和电子设备及可读存储介质与流程

本发明涉及多媒体技术领域,特别是涉及一种文本关键词生成方法及装置和电子设备及可读存储介质。



背景技术:

随着互联网的发展,互联网用户每天接触的信息越来越多,不管是新闻或者电影字幕,如何从海量的信息中提取对互联网用户有用的信息越来越重要。同时,提取信息的关键词对互联网用户快速理解信息的作者要表达的意思非常有帮助。目前,常用的关键词提取算法包括:TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)算法和Textrank算法等。

其中,TF-IDF算法通过词频判断一个词在文中是否重要,同时对在各个文章中都出现的词降低权重,对在本文章中出现但在其它文章不出现的词增加权重。

根据TF-IDF计算公式:TF-IDF(w,di)=tfw*IDF(w),计算特征词w的TF-IDF值。根据TF-IDF值即可判断特征词的重要性,进而根据特征词的重要性生成关键词。

其中,IDF计算公式为:IDF(w)表示特征词w在所有文档中的逆向文档频率,|D|表示文档的总个数,di表示文档,dfw表示包含特征词w的文档的总个数,tfw表示TF值,也即特征词w在文档D中出现的个数。

但是,TF-IDF算法仅仅从词频的角度挖掘信息,不能体现文本的深层次语义信息。因此,TF-IDF算法生成关键词的准确性比较低。



技术实现要素:

本发明实施例的目的在于提供一种文本关键词生成方法及装置和电子设备及可读存储介质,以提高关键词生成的准确性。具体技术方案如下:

本发明实施例公开了一种文本关键词生成方法,包括:

获取待检测文本,对所述待检测文本中的每一个字符进行向量表示,得到所述待检测文本的字符矩阵;

将所述待检测文本的字符矩阵输入预先建立的关键词模型,得到所述待检测文本的字符矩阵对应的关键词矩阵;

计算所述关键词矩阵中的每一个向量和向量模型中的字符向量的相似度,根据所述相似度获取所述待检测文本的关键词,其中,所述向量模型包括:字符和所述字符对应的字符向量。

可选的,在所述获取待检测文本之前,所述文本关键词生成方法还包括:

构建训练数据;

对所述训练数据中每一个样本文本中的每一个字符进行向量表示,得到所述每一个样本文本的字符矩阵;

对所述训练数据中每一个样本文本对应的关键词中的每一个字符进行向量表示,得到所述每一个样本文本的关键词矩阵;

根据所述每一个样本文本的字符矩阵和所述每一个样本文本的关键词矩阵的对应关系,通过长短期记忆LSTM神经网络对所述训练数据进行训练,建立所述关键词模型。

可选的,所述构建训练数据,包括:

获取多个待训练文本,对所述多个待训练文本中的每一个待训练文本进行过滤,得到多个待处理文本;

对所述多个待处理文本中的每一个待处理文本进行长度设置,得到所述样本文本;

根据所述每一个样本文本的长度,以及预先建立的文本长度和关键词个数的对应关系,提取所述每一个样本文本中的关键词;

建立所述样本文本和所述样本文本中关键词的对应关系。

可选的,所述对所述多个待训练文本中的每一个待训练文本进行过滤,包括:

删除所述每一个待训练文本中的数字字符和标点符号;和/或,

删除所述每一个待训练文本中出现次数小于预设阈值的词语。

可选的,所述对所述多个待处理文本中的每一个待处理文本进行长度设置,包括:

在所述待处理文本的长度小于预设下限阈值时,在所述待处理文本中添加预设字符,使所述待处理文本的长度等于预设下限阈值;

在所述待处理文本的长度大于预设上限阈值时,对所述待处理文本进行截短处理,使所述待处理文本的长度等于预设上限阈值。

可选的,所述对所述训练数据中每一个样本文本中的每一个字符进行向量表示,得到所述每一个样本文本的字符矩阵,包括:

对所述每一个样本文本进行文本倒序,得到倒序的样本文本;

对所述倒序的样本文本中的每一个字符进行向量表示,得到所述倒序的样本文本的字符矩阵;

所述根据所述每一个样本文本的字符矩阵和所述样本文本中关键词的对应关系,通过LSTM神经网络对所述训练数据进行训练,建立所述关键词模型,包括:

根据所述倒序的样本文本的字符矩阵和所述样本文本中关键词的对应关系,通过LSTM神经网络对所述训练数据进行训练,建立所述关键词模型。

可选的,所述获取待检测文本,包括:

删除文本数据中的数字字符和标点符号,得到所述待检测文本。

可选的,所述计算所述关键词矩阵中的每一个向量和向量模型中的字符向量的相似度,根据所述相似度获取所述待检测文本的关键词,包括:

计算所述关键词矩阵中的每一个向量和所述向量模型中的字符向量的余弦值;

将每一个余弦值中最大值对应的所述向量模型中的字符作为目标字符,依次获取所述目标字符,得到所述待检测文本的关键词。

本发明实施例还公开了一种文本关键词生成装置,包括:

字符矩阵获取模块,用于获取待检测文本,通过所述待检测文本中的每一个字符进行向量表示,得到所述待检测文本的字符矩阵;

关键词矩阵生成模块,用于将所述待检测文本的字符矩阵输入预先建立的关键词模型,得到所述待检测文本的字符矩阵对应的关键词矩阵;

关键词生成模块,用于计算所述关键词矩阵中的每一个向量和向量模型中的字符向量的相似度,根据所述相似度获取所述待检测文本的关键词,其中,所述向量模型包括:字符和所述字符对应的字符向量。

可选的,本发明实施例的文本关键词生成装置,还包括:

训练数据构建模块,用于构建训练数据;

样本字符矩阵生成模块,用于对所述训练数据中每一个样本文本中的每一个字符进行向量表示,得到所述每一个样本文本的字符矩阵;

样本关键词矩阵生成模块,用于对所述训练数据中每一个样本文本对应的关键词中的每一个字符进行向量表示,得到所述每一个样本文本的关键词矩阵;

关键词模型建立模块,用于根据所述每一个样本文本的字符矩阵和所述每一个样本文本的关键词矩阵的对应关系,通过长短期记忆LSTM神经网络对所述训练数据进行训练,建立所述关键词模型。

可选的,所述训练数据构建模块,包括:

预处理子模块,用于获取多个待训练文本,对所述多个待训练文本中的每一个待训练文本进行过滤,得到多个待处理文本;

长度设置子模块,用于对所述多个待处理文本中的每一个待处理文本进行长度设置,得到所述样本文本;

关键词提取子模块,用于根据所述每一个样本文本的长度,以及预先建立的文本长度和关键词个数的对应关系,提取所述每一个样本文本中的关键词;

对应关系建立子模块,用于建立所述样本文本和所述样本文本中关键词的对应关系。

可选的,所述预处理子模块,包括:

第一删除单元,用于删除所述每一个待训练文本中的数字字符和标点符号;和/或,

第二删除单元,用于删除所述每一个待训练文本中出现次数小于预设阈值的词语。

可选的,所述长度设置子模块,包括:

第一长度设置单元,用于在所述待处理文本的长度小于预设下限阈值时,在所述待处理文本中添加预设字符,使所述待处理文本的长度等于预设下限阈值;

第二长度设置单元,用于在所述待处理文本的长度大于预设上限阈值时,对所述待处理文本进行截短处理,使所述待处理文本的长度等于预设上限阈值。

可选的,所述样本字符矩阵生成模块,包括:

倒序设置子模块,用于对所述每一个样本文本进行文本倒序,得到倒序的样本文本;

向量表示子模块,用于对所述倒序的样本文本中的每一个字符进行向量表示,得到所述倒序的样本文本的字符矩阵;

所述关键词模型建立模块具体用于,根据所述倒序的样本文本的字符矩阵和所述样本文本中关键词的对应关系,通过LSTM神经网络对所述训练数据进行训练,建立所述关键词模型。

可选的,所述字符矩阵获取模块具体用于,删除文本数据中的数字字符和标点符号,得到所述待检测文本。

可选的,所述关键词生成模块,包括:

相似度计算子模块,用于计算所述关键词矩阵中的每一个向量和所述向量模型中的字符向量的余弦值;

生成子模块,用于将每一个余弦值中最大值对应的所述向量模型中的字符作为目标字符,依次获取所述目标字符,得到所述待检测文本的关键词。

本发明实施例还公开了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信;

所述存储器,用于存放计算机程序;

所述处理器,用于执行所述存储器上所存放的程序时,实现以下步骤:

获取待检测文本,对所述待检测文本中的每一个字符进行向量表示,得到所述待检测文本的字符矩阵;

将所述待检测文本的字符矩阵输入预先建立的关键词模型,得到所述待检测文本的字符矩阵对应的关键词矩阵;

计算所述关键词矩阵中的每一个向量和向量模型中的字符向量的相似度,根据所述相似度获取所述待检测文本的关键词,其中,所述向量模型包括:字符和所述字符对应的字符向量。

本发明实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

获取待检测文本,对所述待检测文本中的每一个字符进行向量表示,得到所述待检测文本的字符矩阵;

将所述待检测文本的字符矩阵输入预先建立的关键词模型,得到所述待检测文本的字符矩阵对应的关键词矩阵;

计算所述关键词矩阵中的每一个向量和向量模型中的字符向量的相似度,根据所述相似度获取所述待检测文本的关键词,其中,所述向量模型包括:字符和所述字符对应的字符向量。

本发明实施例提供的文本关键词生成方法及装置和电子设备及可读存储介质,对待检测文本中的每一个字符进行向量表示,得到待检测文本的字符矩阵;将待检测文本的字符矩阵输入预先建立的关键词模型,得到待检测文本的字符矩阵对应的关键词矩阵;计算关键词矩阵中的每一个向量和向量模型中的字符向量的相似度,根据相似度获取待检测文本的关键词。本发明实施例通过时间递归神经网络得到待检测文本的关键词,提高了文本关键词生成的准确性。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例的文本关键词生成方法的一种流程图;

图2为本发明实施例的文本关键词生成方法的另一种流程图;

图3为本发明实施例的文本关键词生成装置的一种结构图;

图4为本发明实施例的文本关键词生成装置的另一种结构图;

图5为本发明实施例的电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。

由于现有技术中通过TF-IDF得到关键词的方法仅仅从词频的角度挖掘信息,不能体现文本的深层次语义信息。因此,TF-IDF算法得到关键词的准确性比较低,为了解决该问题,本发明实施例提供了一种文本关键词生成方法及装置和电子设备及可读存储介质,以提高文本关键词生成的准确性。下面首先对本发明实施例所提供的文本关键词生成方法进行介绍。

参见图1,图1为本发明实施例的文本关键词生成方法的一种流程图,包括:

S101,获取待检测文本,对待检测文本中的每一个字符进行向量表示,得到待检测文本的字符矩阵。

需要说明的是,Word2vec是Google在2013年年中开源的一款将词表征为实数值向量的高效工具,Word2vec利用深度学习的思想,通过训练,把对文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。因此,Word2vec输出的词向量可以被用来做很多NLP(Natural Language Processing,自然语言处理)相关的工作,比如聚类、找同义词、词性分析等等。Word2vec把特征映射到K维向量空间,可以为文本寻求更加深层次的特征表示。本发明实施例中,待检测文本可以为一句话、一段话或一篇文章等,可以通过word2vec把待检测文本中的每一个字符映射为K维向量空间,当然,对每一个字符进行向量表示的方法也可以是其他任何向量表示的方法。如果待检测文本中包含M个字符,那么,每一个字符由K维向量表示,待检测文本就可以表示为M×K的矩阵,即字符矩阵。其中,M为大于0的整数,K维向量一般是高维向量,因此,K为数值比较大的整数,例如,K可以取值为400,当然K也可以为其他数值,在此不做限定。

S102,将待检测文本的字符矩阵输入预先建立的关键词模型,得到待检测文本的字符矩阵对应的关键词矩阵。

具体的,关键词模型为本发明实施例对训练数据进行训练得到的模型,训练数据包括:训练数据中样本文本的字符矩阵和字符矩阵对应的该样本文本中关键词的关键词矩阵,其中,关键词矩阵为对样本文本中的关键词进行向量表示得到的矩阵。那么,在得到关键词模型之后,将待检测文本的字符矩阵输入关键词模型,即可得到待检测文本的字符矩阵对应的关键词矩阵。例如,将S101中待检测文本的字符矩阵(M×K的矩阵)输入关键词模型,得到的待检测文本的字符矩阵对应的关键词矩阵可以为N×K的矩阵,其中,N为关键词中字符的个数。关键词模型的建立方法将在下文进行详细描述,这里不再赘述。

S103,计算关键词矩阵中的每一个向量和向量模型中的字符向量的相似度,根据相似度获取待检测文本的关键词,向量模型包括:字符和字符对应的字符向量。

本发明实施例中,在通过关键词模型得到待检测文本的字符矩阵对应的关键词矩阵之后,需要对关键词矩阵进行相似度计算,得到关键词矩阵对应的关键词。更为具体的,如果关键词矩阵为N×K的矩阵,K表示每个字符的维数,N为关键词中字符的个数。那么,将N个1×K的向量分别与向量模型中存储的字符向量进行相似度计算,即可得到N个相似度最大值对应的字符,该N个字符即为得到的待检测文本的关键词。需要说明的是,向量模型中存储的是字符向量和字符的对应关系,因此,通过向量模型可以对字符进行向量表示,得到字符对应的字符向量,同样地,通过向量模型可以得到关键词矩阵对应的关键词。可选的,向量模型可以是word2vec。

可见,本发明实施例的文本关键词生成方法,通过对获取到的待检测文本中的每一个字符进行向量表示,得到待检测文本的字符矩阵。将待检测文本的字符矩阵输入预先建立的关键词模型,即可得到待检测文本的字符矩阵对应的关键词矩阵。计算关键词矩阵中的每一个向量和向量模型中的字符向量的相似度,根据相似度获取待检测文本的关键词。本发明实施例通过时间递归神经网络得到待检测文本的关键词,提高了文本关键词生成的准确性。

图1所示实施例中,S102中关键词模型的建立方法,可参见图2,图2为本发明实施例的文本关键词生成方法的另一种流程图,包括:

S201,构建训练数据。

本发明实施例中,训练数据是指用于训练关键词模型的数据,并且,每一条数据都具有对应的关键词。例如,可以通过抓取4000w条“新华网”的新闻数据,同时得到每一条新闻数据中经过人工编辑的关键词,其中,新闻数据涵盖政治、军事、财经、房产、教育、旅游等方面,新闻数据的长度可以在100到800个词之间,关键词的个数可以在4到10个之间。这样,新闻数据以及每一条新闻数据对应的关键词构成了训练数据。

S202,对训练数据中每一个样本文本中的每一个字符进行向量表示,得到每一个样本文本的字符矩阵。

S203,对训练数据中每一个样本文本对应的关键词中的每一个字符进行向量表示,得到每一个样本文本的关键词矩阵。

需要说明的是,S202和S203中都是对字符进行向量表示,不同的是,S202中是对样本文本中的每一个字符进行向量表示,S203中是对样本文本对应的关键词中的每一个字符进行向量表示,其中,对每一个字符进行向量表示的方法可以是word2vec,通过word2vec对字符进行向量表示的方法可参见S101,这里不再赘述。

S204,根据每一个样本文本的字符矩阵和每一个样本文本的关键词矩阵的对应关系,通过长短期记忆LSTM神经网络对训练数据进行训练,建立关键词模型。

本发明实施例中,在得到每一个样本文本的字符矩阵之后,将每一个样本文本的字符矩阵和该样本文本的关键词矩阵输入关键词模型,通过LSTM神经网络对输入的每一个样本文本的字符矩阵和样本文本中的关键词矩阵进行训练,得到关键词模型。

本发明实施例的一种实现方式中,构建训练数据,包括:

获取多个待训练文本,对多个待训练文本中的每一个待训练文本进行过滤,得到多个待处理文本。

对多个待处理文本中的每一个待处理文本进行长度设置,得到样本文本。

根据每一个样本文本的长度,以及预先建立的文本长度和关键词个数的对应关系,提取每一个样本文本中的关键词。

建立样本文本和样本文本中关键词的对应关系。

本发明实施例中,为了得到有效的文本,需要对待训练文本进行预处理,例如,过滤掉待训练文本中不需要的文本和字符等,得到待处理文本。

另外,为了解决输入关键词模型中数据的变长问题,本发明实施例中,对多个待处理文本中的每一个待处理文本进行长度设置,得到样本文本。具体的,通过构建桶,使不同长度的输入文本和输出关键词的个数根据桶的大小训练网络。构建的桶可以为:(200,5)、(300,5)、(600,5)、(200,8)、(300,8)、(600,8)、(200,11)、(300,11)、(600,11)等。当然,桶的大小可以根据实际情况进行设定,在此不做限定。其中,括号内第一个数字表示输入文本的长度,括号内第二个数字表示输入文本对应的输出的关键词的个数。

因此,在对每一个待处理文本进行长度设置时,可以根据待处理文本的长度,将待处理文本的长度设置为200、300、600等,然后根据设置的桶的大小以及待处理文本的长度,提取待处理文本中的关键词。例如:待处理文本的长度为200,提取的待处理文本中的关键词的个数可以为5个或8个。由此,建立样本文本和样本文本中关键词的对应关系。

本发明实施例的一种实现方式中,对多个待训练文本中的每一个待训练文本进行过滤,包括:

删除每一个待训练文本中的数字字符和标点符号。和/或,

删除每一个待训练文本中出现次数小于预设阈值的词语。

通常,待训练文本是包含多种字符的文本,特殊字符对于关键词的提取是没有贡献的,而且,待训练文本中词频很低的词语对于大量的待训练文本来讲,也是可以忽略不计的。那么,当训练文本中包含特殊字符而不包含词频很低的词语时,可以删除每一个待训练文本中特殊字符,特殊字符包括:数字字符和标点符号等。当待训练文本中包含词频很低的词语而不包含特殊字符时,还可以删除待训练文本中词频很低的词语。当训练文本中同时包含特殊字符和词频很低的词语时,可以将特殊字符和词频很低的词语同时删除。例如,可以删除在待训练文本出现次数小于预设阈值的词语,预设阈值可以取值为100,也可以为根据实际情况设定的其他值,例如,可以包括(50,200)范围内的值。

本发明实施例的一种实现方式中,对多个待处理文本中的每一个待处理文本进行长度设置,包括:

在待处理文本的长度小于预设下限阈值时,在待处理文本中添加预设字符,使待处理文本的长度等于预设下限阈值。

在待处理文本的长度大于预设上限阈值时,对待处理文本进行截短处理,使待处理文本的长度等于预设上限阈值。

实际应用中,不同的待处理文本的长度是各不相同的,因此,在构建桶的时候,将待处理文本的长度设置为桶的长度,例如,待处理文本的长度为286,那么,可以根据预先设置的桶(300,5)、(300,8)和(300,11),在待处理文本中添加预设字符,将待处理文本的长度设置为300。在待处理文本的长度小于预设下限阈值时,同样地,在待处理文本中添加预设字符,使待处理文本的长度等于预设下限阈值。例如,预设下限阈值为200,待处理文本的长度为183,可以在待处理文本的后面添加预设字符,使待处理文本的长度为200,本发明实施例对预设字符不做具体限定。在待处理文本的长度大于预设上限阈值时,对待处理文本进行截短处理,使待处理文本的长度等于预设上限阈值。例如,预设上限阈值为800,当待处理文本的长度为986时,对待处理文本进行截短处理,可以取待处理文本中的前800个字符,也可以取待处理文本中的后800个字符。另外,预设下限阈值和预设上限阈值可以是根据实际情况设定的值,例如预设下限阈值可以为(100,300)范围内的值,预设上限阈值可以为(700,1000)范围内的值。

本发明实施例的一种实现方式中,对训练数据中每一个样本文本中的每一个字符进行向量表示,得到每一个样本文本的字符矩阵,包括:

对每一个样本文本进行文本倒序,得到倒序的样本文本。

对倒序的样本文本中的每一个字符进行向量表示,得到倒序的样本文本的字符矩阵。

根据每一个样本文本的字符矩阵和样本文本中关键词的对应关系,通过LSTM神经网络对训练数据进行训练,建立关键词模型,包括:

根据倒序的样本文本的字符矩阵和样本文本中关键词的对应关系,通过LSTM神经网络对训练数据进行训练,建立关键词模型。

需要说明的是,文本倒序指的是将文本按照相反的顺序进行表示。例如:样本文本为:我是一名来自A大学的大学生,那么,得到的倒序的样本文本为:生学大的学大A自来名一是我。通过多次试验表明,将文本倒序输入关键词模型会得到更好的效果,即,生成关键词的准确性更高。主要原因在于虽然LSTM能够解决长程依赖问题,但是随着数据的传递,前向信息的损失也在增加,同时,当训练数据为新闻数据时,由于新闻自身的性质决定重要的新闻信息一般都会放在靠前的位置。因此,本发明实施例中,对每一个样本文本进行文本倒序,对倒序的样本文本中的每一个字符进行向量表示,得到倒序的样本文本的字符矩阵,然后对倒序的样本文本的字符矩阵和对应的该样本文本中的关键词进行训练,得到关键词模型。

可选的,本发明实施例的文本关键词生成方法中,获取待检测文本,包括:

删除文本数据中的数字字符和标点符号,得到待检测文本。

具体的,待检测文本可以是对文本数据进行预处理之后得到的文本。文本数据是包含多种字符的文本,文本数据中的特殊字符对于关键词的提取是没有贡献的。那么,可以删除文本数据中的特殊字符,特殊字符包括:数字字符和标点符号等。在对文本数据进行预处理之后,得到待检测文本,然后再对待检测文本进行向量表示,可以减小计算量,提高关键词生成的效率。

本发明实施例的一种实现方式中,计算关键词矩阵中的每一个向量和向量模型中的字符向量的相似度,根据相似度获取待检测文本的关键词,包括:

计算关键词矩阵中的每一个向量和向量模型中的字符向量的余弦值。

将每一个余弦值中最大值对应的向量模型中的字符作为目标字符,依次获取目标字符,得到待检测文本的关键词。

需要说明的是,由于关键词矩阵和字符向量是一个多维向量,两个多维向量之间的相似度可以通过计算两个向量之间的余弦值判断,两个向量之间的余弦值指的是,两个向量形成的夹角的余弦值。在通过余弦值对关键词矩阵中的每一个向量和向量模型中的字符向量进行判断时,余弦值与整数1越接近,表明两个向量越接近。那么,余弦值中最大值对应的向量模型中的字符即为目标字符,也就是待检测文本的关键词对应的字符。由于关键词矩阵中的每一个向量表示一个字符,因此,得到的目标字符为多个,依次获取目标字符,即可得到待检测文本的关键词。

另外,也可以通过计算两个向量之间的欧式距离判断两个向量之间的相似度。欧式距离指在多维空间中两个点之间的真实距离,或者向量的自然长度。在通过欧式距离进行判断时,欧式距离越小,表明两个向量之间相似度越高。当然,现有的计算向量相似度的方法都属于本发明实施例的保护范围。

相应于上述方法实施例,本发明实施例还公开了一种文本关键词生成装置,参见图3,图3为本发明实施例的文本关键词生成装置的一种结构图,包括:

字符矩阵获取模块301,用于获取待检测文本,对待检测文本中的每一个字符进行向量表示,得到待检测文本的字符矩阵。

关键词矩阵生成模块302,用于将待检测文本的字符矩阵输入预先建立的关键词模型,得到待检测文本的字符矩阵对应的关键词矩阵。

关键词生成模块303,用于计算关键词矩阵中的每一个向量和向量模型中的字符向量的相似度,根据相似度获取待检测文本的关键词。

可见,本发明实施例的文本关键词生成装置,通过对获取到的待检测文本中的每一个字符进行向量表示,得到待检测文本的字符矩阵。将待检测文本的字符矩阵输入预先建立的关键词模型,即可得到待检测文本的字符矩阵对应的关键词矩阵。计算关键词矩阵中的每一个向量和向量模型中的字符向量的相似度,根据相似度获取待检测文本的关键词。本发明实施例通过时间递归神经网络得到待检测文本的关键词,提高了文本关键词生成的准确性。

需要说明的是,本发明实施例的装置是应用上述文本关键词生成方法的装置,则上述文本关键词生成方法的所有实施例均适用于该装置,且均能达到相同或相似的有益效果。

参见图4,图4为本发明实施例的文本关键词生成装置的另一种结构图,包括:

训练数据构建模块401,用于构建训练数据。

样本字符矩阵生成模块402,用于对训练数据中每一个样本文本中的每一个字符进行向量表示,得到每一个样本文本的字符矩阵。

样本关键词矩阵生成模块403,用于对训练数据中每一个样本文本对应的关键词中的每一个字符进行向量表示,得到每一个样本文本的关键词矩阵。

关键词模型建立模块404,用于根据每一个样本文本的字符矩阵和每一个样本文本的关键词矩阵的对应关系,通过LSTM神经网络对训练数据进行训练,建立关键词模型。

可选的,本发明实施例的关键词生成装置中,训练数据构建模块,包括:

预处理子模块,用于获取多个待训练文本,对多个待训练文本中的每一个待训练文本进行过滤,得到多个待处理文本。

长度设置子模块,用于对多个待处理文本中的每一个待处理文本进行长度设置,得到样本文本。

关键词提取子模块,用于根据每一个样本文本的长度,以及预先建立的文本长度和关键词个数的对应关系,提取每一个样本文本中的关键词。

对应关系建立子模块,用于建立样本文本和样本文本中关键词的对应关系。

可选的,本发明实施例的关键词生成装置中,预处理子模块,包括:

第一删除单元,用于删除每一个待训练文本中的数字字符和标点符号。和/或,

第二删除单元,用于删除每一个待训练文本中出现次数小于预设阈值的词语。

可选的,本发明实施例的关键词生成装置中,长度设置子模块,包括:

第一长度设置单元,用于在待处理文本的长度小于预设下限阈值时,在待处理文本中添加预设字符,使待处理文本的长度等于预设下限阈值。

第二长度设置单元,用于在待处理文本的长度大于预设上限阈值时,对待处理文本进行截短处理,使待处理文本的长度等于预设上限阈值。

可选的,本发明实施例的关键词生成装置中,样本字符矩阵生成模块,包括:

倒序设置子模块,用于对每一个样本文本进行文本倒序,得到倒序的样本文本。

向量表示子模块,用于对倒序的样本文本中的每一个字符进行向量表示,得到倒序的样本文本的字符矩阵。

关键词模型建立模块具体用于,根据倒序的样本文本的字符矩阵和样本文本中关键词的对应关系,通过LSTM神经网络对训练数据进行训练,建立关键词模型。

可选的,本发明实施例的关键词生成装置中,字符矩阵获取模块具体用于,删除文本数据中的数字字符和标点符号,得到待检测文本。

可选的,本发明实施例的关键词生成装置中,关键词生成模块,包括:

相似度计算子模块,用于计算关键词矩阵中的每一个向量和向量模型中的字符向量的余弦值。

生成子模块,用于将每一个余弦值中最大值对应的向量模型中的字符作为目标字符,依次获取目标字符,得到待检测文本的关键词。

本发明实施例还提供了一种电子设备,参见图5,图5为本发明实施例的电子设备的结构图,包括:处理器501、通信接口502、存储器503和通信总线504,其中,处理器501、通信接口502、存储器503通过通信总线504完成相互间的通信;

存储器503,用于存放计算机程序;

处理器501,用于执行存储器503上所存放的程序时,实现以下步骤:

获取待检测文本,对待检测文本中的每一个字符进行向量表示,得到待检测文本的字符矩阵;

将待检测文本的字符矩阵输入预先建立的关键词模型,得到待检测文本的字符矩阵对应的关键词矩阵;

计算关键词矩阵中的每一个向量和向量模型中的字符向量的相似度,根据相似度获取待检测文本的关键词,其中,向量模型包括:字符和所述字符对应的字符向量。

需要说明的是,上述电子设备提到的通信总线504可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(Extended Industry Standard Architecture,扩展工业标准结构)总线等。该通信总线504可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口502用于上述电子设备与其他设备之间的通信。

存储器503可以包括RAM(Random Access Memory,随机存取存储器),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器501可以是通用处理器,包括:CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(Digital Signal Processing,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

由以上可见,本发明实施例的电子设备中,处理器通过执行存储器上所存放的程序,从而获取待检测文本,对待检测文本中的每一个字符进行向量表示,得到待检测文本的字符矩阵;将待检测文本的字符矩阵输入预先建立的关键词模型,得到待检测文本的字符矩阵对应的关键词矩阵;计算关键词矩阵中的每一个向量和向量模型中的字符向量的相似度,根据相似度获取待检测文本的关键词。本发明实施例通过时间递归神经网络得到待检测文本的关键词,提高了文本关键词生成的准确性。

本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时,使得计算机执行上述实施例中任一所述的方法。

由以上可见,本发明实施例的计算机可读存储介质内存储的计算机程序被处理器执行时,获取待检测文本,对待检测文本中的每一个字符进行向量表示,得到待检测文本的字符矩阵;将待检测文本的字符矩阵输入预先建立的关键词模型,得到待检测文本的字符矩阵对应的关键词矩阵;计算关键词矩阵中的每一个向量和向量模型中的字符向量的相似度,根据相似度获取待检测文本的关键词。本发明实施例通过时间递归神经网络得到待检测文本的关键词,提高了文本关键词生成的准确性。

在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的方法。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

再多了解一些
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1