一种关键词确定方法及装置与流程

文档序号:30453135发布日期:2022-06-18 02:29阅读:82来源:国知局
一种关键词确定方法及装置与流程

1.本发明涉及自然语言处理技术领域,尤其涉及一种关键词确定方法及装置。


背景技术:

2.关键词提取算法广泛应用于信息检索、文本分类和文本聚类等需要判断文本边界的技术领域。
3.现有技术中,关键词提取算法采用的是包括实体抽取、词性识别和词典匹配在内的无监督和有监督结合的算法。但是,现有算法中以文本向量的序列特征为输入实现关键词提取,而文本向量的序列特征不能较强地体现出文本中每个字之间的语义联系,即语义序列特征的差异化偏弱,导致抽取关键词的准确率和识别率较低。


技术实现要素:

4.本发明提供一种基关键词确定方法及装置,解决了抽取关键词的准确率和识别率较低的问题。
5.为达到上述目的,本发明采用如下技术方案:
6.第一方面,本发明提供一种关键词确定方法,该方法包括:
7.获取待处理文本;
8.对待处理文本包括的每个词语进行词性识别,得到每个词语的词性;
9.根据待处理文本包括的每个字的先后顺序,确定每个字的位置信息;
10.根据每个字的位置信息,确定每个词语的词性的位置信息;
11.采用关键词识别模型对目标特征信息进行关键词识别,得到第一关键词集合,目标特征信息包括目标嵌入信息和目标位置信息,目标嵌入信息包括每个字的字向量和每个词语的词性,目标位置信息包括每个字的位置信息和每个词性的位置信息;
12.确定待处理文本的目标关键词,目标关键词包括第一关键词集合中的词语。
13.在一种可能的实现方式中,根据每个字的位置信息,确定每个词语的词性的位置信息,包括:将每个词语中的第一个字的位置信息,确定为每个词语的词性的位置信息;或者,将每个词语中的最后一个字的位置信息,确定为每个词语的词性的位置信息。
14.在一种可能的实现方式中,确定待处理文本的目标关键词,包括:将第一关键词集合中的词语确定为目标关键词;或者,采用词典匹配技术,确定待处理文本的第二关键词集合;将第一关键词集合和第二关键词集合的并集,确定为目标关键词集合;采用预设规则,从目标关键词集合包括的词语中确定目标关键词。
15.在一种可能的实现方式中,目标特征信息还包括目标片段信息,上述关键词确定方法还包括:获取预存的目标片段信息,目标片段信息包括第一信息和第二信息,第一信息用于指示目标嵌入信息中的字向量,第二信息用于指示目标嵌入信息中的词性。
16.在一种可能的实现方式中,上述关键词确定方法还包括:根据待处理文本包括的每个字在预存的字典中的位置,确定每个字的字向量。
17.在一种可能的实现方式中,上述关键词确定方法还包括:确定待处理文本包括的每个句子;在每个句子包括的所有字向量之后拼接每个句子包括的所有词语的词性,得到目标嵌入信息;或者,在待处理文本包括的所有字向量之后拼接待处理文本包括的所有词语的词性,得到目标嵌入信息。
18.在一种可能的实现方式中,上述关键词确定方法还包括:获取多个文本样本和每个文本样本的标签信息,每个标签信息用于标识每个文本样本中的关键词;对每个文本样本进行特征提取处理,得到每个文本样本对应的目标特征信息;以每个文本样本对应的目标特征信息为深度神经网络模型的输入,以每个文本样本的标签信息为深度神经网络模型的输出,对深度神经网络模型进行训练,得到关键词识别模型。
19.第二方面,本发明提供一种关键词确定装置,包括:
20.获取模块,用于获取待处理文本;
21.词性识别模块,用于对获取模块获取的待处理文本包括的每个词语进行词性识别,得到每个词语的词性;
22.第一确定模块,用于根据获取模块获取的待处理文本包括的每个字的先后顺序,确定每个字的位置信息;
23.第二确定模块,用于根据第一确定模块确定的每个字的位置信息,确定每个词语的词性的位置信息;
24.关键词识别模块,用于采用关键词识别模型对目标特征信息进行关键词识别,得到第一关键词集合,目标特征信息包括目标嵌入信息和目标位置信息,目标嵌入信息包括每个字的字向量和词性识别模块识别的每个词语的词性,目标位置信息包括第一确定模块确定的每个字的位置信息和第二确定模块确定的每个词语的词性的位置信息;
25.第三确定模块,用于确定待处理文本的目标关键词,目标关键词包括关键词识别模块识别的第一关键词集合中的词语。
26.在一种可能的实现方式中,第二确定模块具体用于:将每个词语中的第一个字的位置信息,确定为每个词语的词性的位置信息;或者,将每个词语中的最后一个字的位置信息,确定为每个词语的词性的位置信息。
27.在一种可能的实现方式中,第三确定模块具体用于:将第一关键词集合中的词语确定为目标关键词;或者,采用词典匹配技术,确定待处理文本的第二关键词集合;将第一关键词集合和第二关键词集合的并集,确定为目标关键词集合;采用预设规则,从目标关键词集合包括的词语中确定目标关键词。
28.在一种可能的实现方式中,目标特征信息还包括目标片段信息,获取模块还用于:获取预存的目标片段信息,目标片段信息包括第一信息和第二信息,第一信息用于指示目标嵌入信息中的字向量,第二信息用于指示目标嵌入信息中的词性。
29.在一种可能的实现方式中,上述关键词确定装置还包括第四确定模块,第四确定模块用于:根据待处理文本包括的每个字在预存的字典中的位置,确定每个字的字向量。
30.在一种可能的实现方式中,上述关键词确定装置还包括第五确定模块,第五确定模块用于:确定待处理文本包括的每个句子,在每个句子包括的所有字向量之后拼接每个句子包括的所有词语的词性,得到目标嵌入信息;或者,在待处理文本包括的所有字向量之后拼接待处理文本包括的所有词语的词性,得到目标嵌入信息。
31.在一种可能的实现方式中,上述关键词确定装置还包括提取模块和训练模块;获取模块还用于,获取多个文本样本和每个文本样本的标签信息,每个标签信息用于标识每个文本样本中的关键词;提取模块用于,对每个文本样本进行特征提取处理,得到每个文本样本对应的目标特征信息;训练模块用于,以每个文本样本对应的目标特征信息为深度神经网络模型的输入,以每个文本样本的标签信息为深度神经网络模型的输出,对深度神经网络模型进行训练,得到关键词识别模型。
32.第三方面,本发明提供一种计算机设备,该计算机设备包括:处理器和存储器。存储器用于存储计算机程序代码,计算机程序代码包括计算机指令。当处理器执行计算机指令时,计算机设备执行如第一方面及其任一种可能的实现方式的关键词确定方法。
33.第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机指令,当计算机指令在计算机设备上运行时,使得计算机设备执行如第一方面或第一方面的可能的实现方式中任意一项的关键词确定方法。
34.第五方面,本发明提供一种计算机程序产品,该计算机程序产品包括计算机指令,当计算机指令在计算机设备上运行时,使得计算机设备执行如第一方面及其任一种可能的实现方式的关键词确定方法。
35.本发明实施例提供的关键词确定方法,计算机设备获取待处理文本,对待处理文本包括的每个词语进行词性识别,得到每个词语的词性,并根据待处理文本包括的每个字的先后顺序,确定每个字的位置信息,根据每个字的位置信息,确定每个词语的词性的位置信息,而后采用关键词识别模型对目标特征信息进行关键词识别,得到第一关键词集合,其中,目标特征信息包括目标嵌入信息和目标位置信息,目标嵌入信息包括每个字的字向量和每个词语的词性,目标位置信息包括每个字的位置信息和每个词性的位置信息,最后确定待处理文本的目标关键词,目标关键词包括第一关键词集合中的词语。本发明将待处理文本中包含的每个词的词性特征引入关键词识别模型的输入中,使得输入的文本向量的序列特征能够较强地体现出文本中每个字之间的语义联系,增强了语义序列特征的差异化,从而提高了关键词抽取的准确率和识别率。
附图说明
36.图1为本发明实施例提供的一种传统bert模型中嵌入层的结构示意图;
37.图2为本发明实施例提供的一种关键词确定方法的流程图之一;
38.图3为本发明实施例提供的一种关键词识别模型中嵌入层的结构示意图;
39.图4为本发明实施例提供的一种关键词确定方法的流程图之二;
40.图5为本发明实施例提供的一种关键词确定方法的流程图之三;
41.图6为本发明实施例提供的一种“r-drop”训练机制示意图;
42.图7为本发明实施例提供的一种关键词确定装置的组成示意图之一;
43.图8为本发明实施例提供的一种关键词确定装置的组成示意图之二;
44.图9为本发明实施例提供的一种关键词确定装置的组成示意图之三;
45.图10为本发明实施例提供的一种关键词确定装置的组成示意图之四。
具体实施方式
46.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
47.以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。另外,“基于”或“根据”的使用意味着开放和包容性,因为“基于”或“根据”一个或多个所述条件或值的过程、步骤、计算或其他动作在实践中可以基于额外条件或超出所述的值。
48.为了解决关键词抽取的准确率和识别率较低的问题,本发明实施例提供了一种关键词确定方法及装置,计算机设备获取待处理文本,对待处理文本包括的每个词语进行词性识别,得到每个词语的词性,并根据待处理文本包括的每个字的先后顺序,确定每个字的位置信息,根据每个字的位置信息,确定每个词语的词性的位置信息,而后采用关键词识别模型对目标特征信息进行关键词识别,得到第一关键词集合,其中,目标特征信息包括目标嵌入信息和目标位置信息,目标嵌入信息包括每个字的字向量和每个词语的词性,目标位置信息包括每个字的位置信息和每个词性的位置信息,最后确定待处理文本的目标关键词,目标关键词包括第一关键词集合中的词语。本发明将待处理文本中包含的每个词的词性特征引入关键词识别模型的输入中,使得输入的文本向量的序列特征能够较强地体现出文本中每个字之间的语义联系,增强了语义序列特征的差异化,从而提高了关键词抽取的准确率和识别率。
49.本发明实施例提供的关键词确定方法的执行主体为关键词确定装置,该关键词确定装置可以为计算机设备。该计算机设备可以是终端设备,也可以是服务器,还可以是服务器集群。本发明实施例不做限定。
50.在本发明实施例提供的一种关键词抽取方法中所使用的关键词识别模型,可以是改进后的基于变换器的双向编码器(bidirectional encoder representations from transformers,bert)模型,该模型的结构可以包括嵌入层(输入层)、编码器和池化层。为了方便理解,下面首先对传统bert模型进行简单介绍。
51.图1为传统bert模型中嵌入层的结构示意图,如图1所示,传统bert模型的嵌入层信息包括由目标嵌入信息token embeddings、目标片段信息segment embeddings和目标位置信息position embeddings组成。示例性的,假设有这样一对句子“i like cats”和“i like dogs”,目标嵌入信息token embeddings包括文本中的每个词转换成固定维度的向量“ex”,“x”为文本中的一个词,“ex”可以为数字,它表示“x”在传统bert模型的词典中的位置,例如,“cats”的向量表示“ecats”可以为666。目标片段信息segment embeddings可以包括辅助传统bert模型区别句子对中的两个句子的向量,第一个句子表示为“e
a”,第二个句子表示为“e
b”,“e
a”和“e
b”可以为数字,例如,“e
a”可以为0,“e
b”可以为1。目标位置信息position embeddings可以包括输入句子中每个词的顺序属性,例如上述句子对中可以表示为e0-e10,此外,特殊字符[cls]可以被插入到每文本的开头,特殊字符[sep]可以被插入
到每个句子的结尾,为传统bert模型后续的分类任务和划分句子对服务。
[0052]
可以理解的是,传统bert模型通过以上嵌入层信息作为输入,能够实现如句对匹配、文本匹配、文本抽取等诸多功能。
[0053]
图2为本发明实施例提供的一种关键词确定方法的流程图。如图2所示,关键词确定方法可以包括以下步骤s201-步骤s206。
[0054]
s201、计算机设备获取待处理文本。
[0055]
其中,待处理文本可以是由一个或多个中文句子组成的文本。
[0056]
具体的,计算机设备可以获取待处理文本。
[0057]
s202、计算机设备对待处理文本包括的每个词语进行词性识别,得到每个词语的词性。
[0058]
在一种可能的实现方式中,计算机设备可以通过词性识别技术,利用词性识别工具来确定处理文本包括的每个词语的词性。词性识别工具包括不限于词法分析模型lac或者中文分词库jieba等第三方工具。示例性地,对于一个句子“夏天要抓紧瘦肚子”,计算机设备通过词性识别技术可以确定,“夏天”的词性为“time”,即时间类型的专有名词,“要”和“抓紧”的词性为“v”,即动词,“瘦”的词性为a,即形容词,“肚子”的词性为n,即普通名词。
[0059]
进一步的,计算机设备还可以根据待处理文本包括的每个字在关键词识别模型中预存的字典中的位置,确定每个字的字向量。也就是说,字向量是用预设的词典映射得到的,示例性的,假设“夏”这个字在词典中的位置是666,则“夏”的字向量就用“666”表示。
[0060]
s203、计算机设备根据待处理文本包括的每个字的先后顺序,确定每个字的位置信息。
[0061]
具体的,计算机设备可以根据待处理文本包括的每个字的先后顺序,确定每个字的位置信息。
[0062]
示例性的,对于一个句子“夏天要抓紧瘦肚子”,每个字的位置信息可以按照每个字的顺序分别取为1-8。
[0063]
s204、计算机设备根据每个字的位置信息,确定每个词语的词性的位置信息。
[0064]
在一种可能的实现方式中,计算机设备可以将每个词语中的第一个字的位置信息,确定为每个词语的词性的位置信息。例如,在“夏天要抓紧瘦肚子”中,词语“夏天”的词性的位置信息可以为“夏”字的位置信息“1”。
[0065]
在另一种可能的实现方式中,计算机设备还可以将每个词语中的最后一个字的位置信息,确定为每个词语的词性的位置信息。例如,在“夏天要抓紧瘦肚子”中,词语“夏天”的词性的位置信息可以为“夏”字的位置信息“2”。
[0066]
s205、计算机设备采用关键词识别模型对目标特征信息进行关键词识别,得到第一关键词集合,目标特征信息包括目标嵌入信息和目标位置信息,目标嵌入信息包括每个字的字向量和每个词语的词性,目标位置信息包括每个字的位置信息和每个词性的位置信息。
[0067]
可以理解的是,目标特征信息可以为关键词识别模型的嵌入层信息。
[0068]
在一种可能的实现方式中,目标特征信息可以包括目标嵌入信息和目标位置信息,其中目标嵌入信息可以包括每个字的字向量和每个词语的词性,目标位置信息包括每个字的位置信息和每个词性的位置信息。
[0069]
示例性地,针对上述实施例中的句子“夏天要抓紧瘦肚子”,如图3所示,目标特征信息可以是嵌入层信息input,其中,两个特殊的符号[cls]、[sep]会被插入到input中,分别用于表示待处理文本所包含的字向量的开头和结尾。它们可以为模型后面的分类任务和划分句子对服务的。嵌入层信息input可以由目标嵌入信息token embeddings和目标位置信息position embeddings组成,目标嵌入信息token embeddings可以包括句子中每个字的字向量和每个词语的词性,目标位置信息position embeddings则用于让关键词识别模型学习到输入内容的顺序属性。
[0070]
进一步的,计算机设备还可以获取预存的目标片段信息。目标片段信息可以包括第一信息和第二信息,第一信息可以用于指示目标嵌入信息中的字向量,第二信息可以用于指示目标嵌入信息中的词性。目标片段信息可以用于辅助关键词识别模型区别目标嵌入信息中的字向量和词性。示例性的,如图3所示,嵌入层信息input还可以包括目标片段信息segment embeddings,在目标片段信息segment embeddings中,用于指示目标嵌入信息中的字向量的第一信息均为0,用于指示目标嵌入信息中的词性的第二信息均为1。
[0071]
s206、计算机设备确定待处理文本的目标关键词,目标关键词包括第一关键词集合中的词语。
[0072]
具体的,计算机设备可以确定待处理文本的目标关键词,其中,目标关键词包括第一关键词集合中的词语。
[0073]
在一种可能的实现方式中,计算机设备可以将第一关键词集合中的词语确定为目标关键词。
[0074]
在另一种可能的实现方式中,计算机设备可以采用词典匹配技术,确定待处理文本的第二关键词集合,并将第一关键词集合和第二关键词集合的并集,确定为目标关键词集合,并采用预设规则,从目标关键词集合包括的词语中确定目标关键词。可以理解的是,词典的匹配技术采用hash(哈希)表,通过hash函数把所有的单词分别hash成key值,查询的时候直接通过hash函数即可。
[0075]
本实施例中,计算机设备获取待处理文本,对待处理文本包括的每个词语进行词性识别,得到每个词语的词性,并根据待处理文本包括的每个字的先后顺序,确定每个字的位置信息,根据每个字的位置信息,确定每个词语的词性的位置信息,而后采用关键词识别模型对目标特征信息进行关键词识别,得到第一关键词集合,其中,目标特征信息包括目标嵌入信息和目标位置信息,目标嵌入信息包括每个字的字向量和每个词语的词性,目标位置信息包括每个字的位置信息和每个词性的位置信息,最后确定待处理文本的目标关键词,目标关键词包括第一关键词集合中的词语。本实施例将待处理文本中包含的每个词的词性特征引入关键词识别模型的输入中,使得输入的文本向量的序列特征能够较强地体现出文本中每个字之间的语义联系,增强了语义序列特征的差异化,从而提高了关键词抽取的准确率和识别率。
[0076]
可选的,在上述实施例的基础上,结合图2,如图4所示,上述关键词确定方法还包括:
[0077]
s301、计算机设备确定待处理文本包括的每个句子。
[0078]
可以理解的是,待处理文本可以包括有多个中文句子。
[0079]
具体的,计算机设备可以通过中文分句技术,确定待处理文本包括的每个句子。
[0080]
s302、计算机设备在每个句子包括的所有字向量之后拼接每个句子包括的所有词语的词性,得到目标嵌入信息;或者,在待处理文本包括的所有字向量之后拼接待处理文本包括的所有词语的词性,得到目标嵌入信息。
[0081]
可以理解的是,计算机设备在对待处理文本进行关键词抽取时,可以逐句抽取关键词,也可以直接对待处理文本全文进行关键词抽取。
[0082]
在一种可能的实现方式中,当计算机设备逐句抽取关键词时,计算机设备可以在每个句子包括的所有字向量之后拼接每个句子包括的所有词语的词性,从而得到目标嵌入信息。
[0083]
在另一种可能的实现方式中,当计算机设备直接对待处理文本全文进行关键词抽取时,计算机设备可以在待处理文本包括的所有字向量之后拼接待处理文本包括的所有词语的词性,从而得到目标嵌入信息。
[0084]
本实施例中,计算机设备确定待处理文本包括的每个句子,并在每个句子包括的所有字向量之后拼接每个句子包括的所有词语的词性,从而得到目标嵌入信息;或者,在待处理文本包括的所有字向量之后拼接待处理文本包括的所有词语的词性,从而得到目标嵌入信息。本实施例对关键词抽取的方式进行的拓展,既可以逐句抽取关键词,也直接对待处理文本全文进行关键词抽取,增加了关键词抽取的灵活性,同时,通过以上两种方式对关键词抽取的结果进行交互验证,还可以进一步提升关键词抽取的准确率和识别率。
[0085]
可选的,在上述实施例的基础上,结合图2,如图5所示,上述关键词确定方法还包括:
[0086]
s401、计算机设备获取多个文本样本和每个文本样本的标签信息,每个标签信息用于标识每个文本样本中的关键词。
[0087]
可以理解的是,本实施例是上述实施例中的关键词识别模型的训练过程。
[0088]
具体的,计算机设备可以获取多个文本样本和每个文本样本的标签信息,每个标签信息用于标识每个文本样本中的关键词。
[0089]
在一种可能的实现方式中,计算机设备可以获取采用iob2标注体系对每个文本样本进行标注后的标签信息,iob2标注体系即是以x-b作为词性为x的词的开始,以x-i作为词性为x的词的持续,以o表示不关注的字。
[0090]
示例性的,针对一个文本样本“春天的花开”,通过iob2标注体系标注后,可以表示为“春/time-b天/time-i的/u-b花/v-b开/v-i”。
[0091]
s402、计算机设备对每个文本样本进行目标特征提取处理,得到每个文本样本对应的目标特征信息。
[0092]
具体的,计算机设备可以对每个文本样本进行目标特征提取处理,得到每个文本样本对应的目标特征信息,具体的目标特征提取处理过程参考上述实施例,在此不做赘述。
[0093]
s403、计算机设备以每个文本样本对应的目标特征信息为深度神经网络模型的输入,以每个文本样本的标签信息为深度神经网络模型的输出,对深度神经网络模型进行训练,得到关键词识别模型。
[0094]
具体的,计算机设备可以每个文本样本对应的目标特征信息为深度神经网络模型的输入,以每个文本样本的标签信息为深度神经网络模型的输出,对深度神经网络模型进行训练,得到关键词识别模型。
[0095]
在一种可能的实现方式中,计算机设备可以将多个文本样本和每个文本样本的标签信息按一定的比例(例如7:3的比例)划分为训练集和验证集两部分,例训练集用来训练关键词识别模型,验证集用于在训练过程中检验关键词识别模型的状态和收敛情况,从而提高关键词识别模型的性能。
[0096]
进一步的,计算机设备可以通过“r-drop”机制对关键词识别模型进行训练。所谓“r-drop”机制,即是将处理好的同一个input分别输入两个一样的关键词识别模型进行训练。训练部分的损失函数l(total)由传统的最大似然损失函数l(ce)和kl散度l(kl)两部分组成,公式如下:
[0097]
l(ce)=-log(p1(yi|xi)-log(p2(yi|xi))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0098]
l(kl)=1/2[kl(p1(yi|xi)||p2(yi|xi))+kl(p2(yi|xi)||p1(yi|xi))]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0099]
l(total)=l(ce)+αl(kl)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0100]
具体来说,如图6所示,当给定训练数据d={xi,yi}_(i=1)^n后,对于每个训练样本xi,会经过两次网络的前向传播,从而得到两次输出预测:p1(yi|xi),p2(yi|xi)。由于“dropout”每次会随机丢弃部分神经元,因此p1和p2是经过两个不同的子网络(来源于同一个模型)得到的不同的两个预测概率。“r-drop”利用这两个预测概率的不同,采用了对称的kl散度l(kl)来对p1和p2进行约束,再加上传统的最大似然损失函数l(ce),最终的训练损失函数即如公式(3),其中α是用来控制kl散度l(kl)的系数,可根据训练任务自行调整。“r-drop”的核心思想是模型通过两次“dropout”,而通过这两次“dropout”过后可以认为样本已经通过了两个略有不同的关键词识别模型,几乎优于所有的数据扩增手段,在保证了关键词识别模型泛化能力的基础上,能够提高关键词提取的识别率和准确率。
[0101]
本实施例涉及关键词识别模型的训练过程,计算机设备获取多个文本样本和每个文本样本的标签信息,每个标签信息用于标识每个文本样本中的关键词,对每个文本样本进行目标特征提取处理,得到每个文本样本对应的目标特征信息,并以每个文本样本对应的目标特征信息为深度神经网络模型的输入,以每个文本样本的标签信息为深度神经网络模型的输出,对深度神经网络模型进行训练,得到关键词识别模型。本实施例将待处理文本中包含的每个词的词性特征引入关键词识别模型的输入中,使得训练出的关键词识别模型能够更好的关注待训练文本中每个字之间的语义联系,从而提高关键词抽取的准确率和识别率。
[0102]
上述主要从设备的角度对本发明实施例提供的方案进行了介绍。可以理解的是,设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的算法步骤,本发明能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0103]
图7示出了上述实施例中涉及的关键词确定装置的一种可能的组成示意图,如图7所示,该关键词确定装置可以包括:
[0104]
获取模块71,用于获取待处理文本;
[0105]
词性识别模块72,用于对待处理文本包括的每个词语进行词性识别,得到每个词
语的词性;
[0106]
第一确定模块73,用于根据待处理文本包括的每个字的先后顺序,确定每个字的位置信息;
[0107]
第二确定模块74,用于根据每个字的位置信息,确定每个词语的词性的位置信息;
[0108]
关键词识别模块75,用于采用关键词识别模型对目标特征信息进行关键词识别,得到第一关键词集合,目标特征信息包括目标嵌入信息和目标位置信息,目标嵌入信息包括每个字的字向量和每个词语的词性,目标位置信息包括每个字的位置信息和每个词性的位置信息;
[0109]
第三确定模块76,用于确定待处理文本的目标关键词,目标关键词包括第一关键词集合中的词语。
[0110]
可选的,第二确定模块74具体用于:将每个词语中的第一个字的位置信息,确定为每个词语的词性的位置信息;或者,将每个词语中的最后一个字的位置信息,确定为每个词语的词性的位置信息。
[0111]
可选的,第三确定模块76具体用于:将第一关键词集合中的词语确定为目标关键词;或者,采用词典匹配技术,确定待处理文本的第二关键词集合;将第一关键词集合和第二关键词集合的并集,确定为目标关键词集合;采用预设规则,从目标关键词集合包括的词语中确定目标关键词。
[0112]
可选的,标特征信息还包括目标片段信息,获取模块71还用于:获取预存的目标片段信息,目标片段信息包括第一信息和第二信息,第一信息用于指示目标嵌入信息中的字向量,第二信息用于指示目标嵌入信息中的词性。
[0113]
可选的,如图8所示,上述关键词确定装置还包括第四确定模块77,第四确定模块77用于:根据待处理文本包括的每个字在预存的字典中的位置,确定每个字的字向量。
[0114]
可选的,如图9所示,上述关键词确定装置还包括第五确定模块78,第五确定模块78用于:确定待处理文本包括的每个句子,在每个句子包括的所有字向量之后拼接每个句子包括的所有词语的词性,得到目标嵌入信息;或者,在待处理文本包括的所有字向量之后拼接待处理文本包括的所有词语的词性,得到目标嵌入信息。
[0115]
可选的,如图10所示,上述关键词确定装置还包括训练模块79;获取模块71还用于,获取多个文本样本和每个文本样本的标签信息,每个标签信息用于标识每个文本样本中的关键词;对每个文本样本进行特征提取处理,得到每个文本样本对应的目标特征信息;训练模块79用于,以每个文本样本对应的目标特征信息为深度神经网络模型的输入,以每个文本样本的标签信息为深度神经网络模型的输出,对深度神经网络模型进行训练,得到关键词识别模型。
[0116]
当然,本发明实施例提供的关键词确定装置包括但不限于上述模块。
[0117]
本发明实施例提供的关键词确定装置,用于执行上述关键词确定方法,因此可以达到与上述关键词确定方法相同的效果。
[0118]
本发明另一实施例还提供一种计算机设备,该计算机设备包括:处理器和存储器。存储器用于存储计算机程序代码,计算机程序代码包括计算机指令。当处理器执行计算机指令时,计算机设备执行上述方法实施例所述的关键词确定方法。
[0119]
本发明另一实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存
储有计算机指令,当计算机指令在计算机设备上运行时,使得计算机设备执行上述方法实施例所示的方法流程中计算机设备执行的各个步骤。
[0120]
本发明另一实施例还提供一种计算机程序产品,该计算机程序产品包括计算机指令,当计算机指令在计算机设备上运行时,使得计算机设备执行上述方法实施例所示的方法流程中计算机设备执行的各个步骤。
[0121]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何在本发明揭露的技术范围内的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1