一种关键词抽取方法、装置、设备及存储介质与流程

文档序号:29446313发布日期:2022-03-30 11:04阅读:112来源:国知局
一种关键词抽取方法、装置、设备及存储介质与流程

1.本技术涉及自然语言处理技术领域,尤其涉及一种关键词抽取方法、装置、设备及存储介质。


背景技术:

2.自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,而关键词抽取是自然语言处理的一项重要的基础技术。关键词抽取方法能够从文本中抽取重要的关键词,使读者可以迅速获知文本的核心内容,因此被广泛应用于信息检索、文本分类和文本聚类等领域。
3.目前的关键词抽取方法主要为基于模型的关键词抽取方法,即采用人工标注的训练文本(即人工标注出关键词的训练文本)训练关键词抽取模型,然后利用训练得到的关键词抽取模型从待抽取关键词的文本数据中抽取关键词。
4.然而,由于人工标注本身的主观性,获取足够数量的高质量标注数据非常困难,采用较低质量的标注数据难以训练得到性能较佳的关键词抽取模型,利用性能较差的关键词抽取模型进行关键词抽取,难以获得较好的抽取效果。


技术实现要素:

5.有鉴于此,本技术提供了一种关键词抽取方法、装置、设备及存储介质,用以解决现有的关键词抽取方法因难以获得足够数量的高质量标注数据,导致难以训练得到性能较佳的关键词抽取模型,进而导致在利用关键词抽取模型对待抽取关键词的文本数据进行关键词抽取时,难以获得较好的抽取效果的问题,其技术方案如下:
6.一种关键词抽取方法,包括:
7.获取待抽取关键词的文本数据;
8.利用预先训练的关键词抽取模型从所述文本数据中抽取关键句,并利用所述关键词抽取模型从抽取出的关键句中抽取关键词;
9.其中,所述关键词抽取模型采用训练文本以及从所述训练文本获取的关键句集、非关键句集、关键词集、非关键词集,以使将所述关键句集中的关键句预测为关键句的概率大于将所述非关键句集中的非关键句预测为关键句的概率,以及将所述关键词集中的关键词预测为关键词的概率大于将所述非关键词集中的非关键词预测为关键词的概率为目标训练得到。
10.可选的,所述利用所述关键词抽取模型从抽取出的关键句中抽取关键词,包括:
11.利用所述关键词抽取模型从抽取出的关键句中获取若干候选关键词,其中,每个候选关键词为抽取出的关键句中长度在预设长度范围内的一个句子片段;
12.利用所述关键词抽取模型预测所述若干候选关键词分别为关键词的概率,并根据所述若干候选关键词分别为关键词的概率,从所述若干候选关键词中确定关键词。
13.可选的,所述利用所述关键词抽取模型预测所述若干候选关键词分别为关键词的
概率,包括:
14.针对所述若干候选关键词中的每个候选关键词,利用所述关键词抽取模型,结合已确定出的关键词的信息,预测该候选关键词为关键词的概率。
15.可选的,所述利用所述关键词抽取模型预测所述若干候选关键词分别为关键词的概率,包括:
16.利用所述关键词抽取模型,以抽取出的关键句的重要性为依据,对所述若干候选关键词进行排序,得到候选关键词序列;
17.利用所述关键词抽取模型,获取所述候选关键词序列中各候选关键词分别对应的上下文向量,其中,所述上下文向量包含对应候选关键词在所述候选关键词序列中的上下文信息;
18.针对所述候选关键词序列中的每个候选关键词,利用所述关键词抽取模型,以该候选关键词对应的上下文向量为依据,预测该候选关键词为关键词的概率。
19.可选的,所述利用所述关键词抽取模型,获取所述候选关键词序列中各候选关键词分别对应的上下文向量,包括:
20.利用所述关键词抽取模型,获取所述候选关键词序列中各候选关键词的表征向量,其中,一候选关键词的表征向量包含该候选关键词包含的各子词在所述训练文本中的上下文信息;
21.利用所述关键词抽取模型和所述候选关键词序列中各候选关键词的表征向量,获取所述候选关键词序列中各候选关键词分别对应的上下文向量。
22.可选的,所述利用所述关键词抽取模型,以该候选关键词对应的上下文向量为依据,预测该候选关键词为关键词的概率,包括:
23.利用所述关键词抽取模型,以该候选关键词对应的上下文向量和历史关键词信息向量为依据,预测该候选关键词为关键词的概率,其中,所述历史关键词信息向量为已确定出的各关键词分别对应的上下文向量的融合结果;
24.所述关键词抽取方法还包括:
25.针对所述候选关键词序列中的每个候选关键词,若根据该候选关键词为关键词的概率确定该候选关键词为关键词,则将该候选关键词对应的上下文向量与历史关键词信息向量融合,融合后向量作为新的历史关键词信息向量。
26.可选的,所述训练文本具有对应的参考关键词集;
27.从所述训练文本中获取关键句集和非关键句集,包括:
28.对所述训练文本进行分句处理,得到所述训练文本的每个句子;
29.针对所述训练文本的每个句子,根据所述参考关键词集合与该句子的共有词在该句子中的出现情况和在语料集中的出现情况,确定该句子的得分;
30.根据所述训练文本的各个句子的得分确定关键句,由确定出的关键句组成的句子集作为从所述训练文本获取的关键句集;
31.将若干与所述参考关键词集合无交集的句子组成的句子集作为从所述训练文本获取的非关键句集。
32.可选的,从所述训练文本获取关键词集和非关键词集,包括:
33.从所述关键句集中的关键句中获取若干候选关键词;
34.将所述若干候选关键词中与所述参考关键词集中的关键词完全匹配的候选关键词确定为关键词,由确定出的关键词组成的词集作为从所述训练文本获取的关键词集;
35.将所述若干候选关键词中与所述参考关键词集中的关键词不完全匹配的候选关键词确定为非关键词,由确定出的非关键词组成的词集作为从所述训练文本获取的非关键词集。
36.可选的,所述将所述若干候选关键词中与所述参考关键词集中的关键词不完全匹配的候选关键词确定为非关键词,包括:
37.将所述若干候选关键词中与所述参考关键词集中的关键词不完全匹配,且与所述参考关键词集合中的关键词有交集的候选关键词确定为非关键词。
38.可选的,所述关键词抽取模型的训练过程包括:
39.利用关键词抽取模型,预测所述训练文本中每个句子为关键句的概率,以得到所述关键句集中的每个句子为关键句的概率以及所述非关键句集中的每个句子为关键句的概率;
40.根据所述关键句集中的每个句子为关键句的概率以及所述非关键句集中的每个句子为关键句的概率,确定关键句预测损失;
41.预测从所述关键句集包含的关键句中获取的若干候选关键词分别为关键词的概率,以得到所述关键词集中的每个词为关键词的概率,以及所述非关键词集中的每个词为关键词的概率;
42.根据所述关键词集中的每个词为关键词的概率,以及所述非关键词集中的每个词为关键词的概率,确定关键词预测损失;
43.根据所述关键句预测损失和所述关键词预测损失,对关键词抽取模型进行参数更新。
44.一种关键词抽取装置,包括:文本获取模块和文本处理模块;
45.所述文本获取模块,用于获取待抽取关键词的文本数据;
46.所述文本处理模块,用于利用预先训练的关键词抽取模型从所述文本数据中抽取关键句,并利用所述关键词抽取模型从抽取出的关键句中抽取关键词;
47.其中,所述关键词抽取模型采用训练文本以及从所述训练文本获取的关键句集、非关键句集、关键词集、非关键词集,以使将所述关键句集中的关键句预测为关键句的概率大于将所述非关键句集中的非关键句预测为关键句的概率,以及将所述关键词集中的关键词预测为关键词的概率大于将所述非关键词集中的非关键词预测为关键词的概率为目标训练得到。
48.可选的,所述文本处理模块在利用所述关键词抽取模型从抽取出的关键句中抽取关键词时,具体用于:
49.利用所述关键词抽取模型从抽取出的关键句中获取若干候选关键词,其中,每个候选关键词为抽取出的关键句中长度在预设长度范围内的一个句子片段;
50.利用所述关键词抽取模型预测所述若干候选关键词分别为关键词的概率,并根据所述若干候选关键词分别为关键词的概率,从所述若干候选关键词中确定关键词。
51.可选的,所述文本处理模块在利用所述关键词抽取模型预测所述若干候选关键词分别为关键词的概率时,具体用于:
52.针对所述若干候选关键词中的每个候选关键词,利用所述关键词抽取模型,结合已确定出的关键词的信息,预测该候选关键词为关键词的概率。
53.一种关键词抽取设备,包括:存储器和处理器;
54.所述存储器,用于存储程序;
55.所述处理器,用于执行所述程序,实现上述任一项所述的关键词抽取方法的各个步骤。
56.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项所述的关键词抽取方法的各个步骤。
57.本技术提供的关键词抽取方法、装置、设备及存储介质,在获得待抽取关键词的文本数据后,首先利用预先训练的关键词抽取模型从文本数据中抽取关键句,然后利用关键词抽取模型从抽取出的关键句中抽取关键词,本技术中的关键词抽取模型并非如现有技术那般,采用标注有关键词的训练文本,以使针对训练文本预测的关键词与训练文本标注的关键词趋于一致为目标训练得到,而是以训练文本以及从训练文本获取的关键句集、非关键句集、关键词集、非关键词集为训练数据,以使将关键句集中的关键句预测为关键句的概率大于将非关键句集中的非关键句预测为关键句的概率,以及使将关键词集中的关键词预测为关键词的概率大于将非关键词集中的非关键词预测为关键词的概率为目标训练得到,这种训练策略使得无需获取高质量标注数据,即可训练得到性能较佳的关键词抽取模型,利用性能较佳的关键词抽取模型对待抽取关键词的文本数据进行关键词抽取,能够获得较好的抽取效果。另外,本技术并非直接从文本数据中抽取关键词,而是先从文本数据中抽取关键句,再进一步从抽取出的关键句中抽取关键词,这种抽取策略相比于直接从文本数据中抽取关键词具有更高的抽取效率。
附图说明
58.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
59.图1为本技术实施例提供的关键词抽取方法的流程示意图;
60.图2为本技术实施例提供的从训练文本获取关键句集和非关键句集的流程示意图;
61.图3为本技术实施例提供的从训练文本获取关键词集和非关键词集的流程示意图;
62.图4为本技术实施例提供的采用训练文本以及从训练文本获取的关键句集、非关键句集、关键词集、非关键词集训练关键词抽取模型的流程示意图;
63.图5为本技术实施例提供的关键词抽取模型的结构示例;
64.图6为本技术实施例提供的关键词抽取装置的结构示意图;
65.图7为本技术实施例提供的关键词抽取设备的结构示意图。
具体实施方式
66.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
67.申请人在实现本技术的过程中发现:目前的关键词抽取方法多为强监督方法,即采用标注有关键词的训练文本训练得到关键词抽取模型,进而利用训练得到关键词抽取模型对待抽取关键词的文本数据进行关键词抽取,然而,关键词标注代价较大,且人工标注本身的主观性导致难以获得足够数量的高质量标注数据,虽然目前网络上存在一些有标注数据,但是这些有标注数据质量比较差,也就是说,不管是采用人工标注的方式获取有标注数据,还是直接从网络上获取有标注数据,获取的有标注数据均无法满足模型训练需求。申请人还发现,目前还存在一些无监督方法,比如,基于统计量化特征的关键词抽取方法和基于主题模型的关键词抽取方法,然而,基于统计量化特征的关键词抽取方法会遗漏统计特征不明显的关键词,准确性欠佳,而基于主题模型的关键词抽取方法得到的关键词过于宽泛,无法充分体现文本主题,因此,抽取的关键词准确性也不足。
68.鉴于现有的关键词抽取方法存在的问题,申请人试图提出一种效果较好的关键词抽取方法,为此,申请人进行了深入研究,通过不断研究,最终提出了一种关键词抽取方法,该关键词抽取方法完美解决了现有的关键词抽取方法存在的问题。本技术提出的关键词抽取方法可应用于具有数据处理能力的电子设备,该电子设备可以为用户侧使用的终端,比如智能手机、pc、笔记本、pad等,该电子设备还可以为网络侧的服务器(可以为单个服务器,也可以为多个服务器或服务器集群),电子设备可按本技术提供的关键词抽取方法从待抽取关键词的文本数据中抽取出关键词。接下来通过下述实施例对本技术提供的关键词抽取方法进行介绍。
69.第一实施例
70.请参阅图1,示出了本技术实施例提供的关键词抽取方法的流程示意图,该方法可以包括:
71.步骤s101:获取待抽取关键词的文本数据。
72.本技术提供的关键词抽取方法适用于任何需要进行关键词抽取的场景,比如,语音识别场景、信息检索场景、文本分类场景、文本聚类场景等等,相应的,待抽取关键词的文本数据为本技术提供的关键词抽取方法适用场景中需要进行关键词抽取的文本数据。
73.步骤s102:利用预先训练的关键词抽取模型从文本数据中抽取关键句。
74.利用预先训练的关键词抽取模型从文本数据中抽取关键句的过程可以包括:首先对文本数据进行分句处理,以得到文本数据的每个句子,然后利用预先训练的关键词抽取模型,预测文本数据的每个句子为关键句的概率,最后根据文本数据的每个句子为关键句的概率确定关键句。
75.步骤s103:利用关键词抽取模型从抽取出的关键句中抽取关键词。
76.利用关键词抽取模型从抽取出的关键句中抽取关键词的过程可以包括:首先利用关键词抽取模型从抽取出的关键句中获取候选关键词,以得若干候选关键词,然后利用关键词抽取模型预测每个候选关键词为关键词的概率,根据每个候选关键词为关键词的概率
从若干候选关键词中确定关键词。其中,每个候选关键词为抽取出的关键句中长度在预设长度范围内的一个句子片段。
77.需要说明的是,本实施例中的关键词抽取模型采用训练文本以及从训练文本获取的关键句集、非关键句集、关键词集、非关键词集,以使将关键句集中的关键句预测为关键句的概率大于将非关键句集中的非关键句预测为关键句的概率,以及使将关键词集中的关键词预测为关键词的概率大于将非关键词集中的非关键词预测为关键词的概率为目标训练得到。
78.其中,关键句集中包括从训练文本获取的若干关键句,关键句集为模型训练用的关键句正样本集,非关键句集中包括从训练文本获取的若干非关键句,非关键句集为模型训练用的关键句负样本集,关键词集中包括从训练文本获取的若干关键词,关键词集为模型训练用的关键词正样本集,非关键词集中包括从训练文本获取的若干非关键词,非关键词集为模型训练用的关键词负样本集。
79.本技术实施例提供的关键词抽取方法,在获得待抽取关键词的文本数据后,首先利用预先训练的关键词抽取模型从文本数据中抽取关键句,然后利用关键词抽取模型从抽取出的关键句中抽取关键词。本技术实施例中的关键词抽取模型并非如现有技术那般,采用标注有关键词的训练文本,以使针对训练文本预测的关键词与训练文本标注的关键词趋于一致为目标训练得到,而是以训练文本以及从训练文本获取的关键句集、非关键句集、关键词集、非关键词集为训练数据,以使将关键句集中的关键句预测为关键句的概率大于将非关键句集中的非关键句预测为关键句的概率,以及使将关键词集中的关键词预测为关键词的概率大于将非关键词集中的非关键词预测为关键词的概率为目标训练得到,这种训练策略使得无需获取高质量标注数据,即可训练得到性能较佳的关键词抽取模型,利用性能较佳的关键词抽取模型对待抽取关键词的文本数据进行关键词抽取,能够获得较好的抽取效果。另外,本技术并非直接从文本数据中抽取关键词,而是先从文本数据中抽取关键句,再进一步从抽取出的关键句中抽取关键词,这种抽取策略相比于直接从文本数据中抽取关键词具有更高的抽取效率。
80.第二实施例
81.上述实施例提到,关键词的抽取基于预先训练得到的关键词抽取模型实现,接下来对关键词抽取模型的训练过程进行介绍。
82.由于关键词抽取模型采用训练文本以及从训练文本获取的关键句集、非关键句集、关键词集、非关键词集训练得到,在介绍关键词抽取模型的训练过程之前,首先对从训练文本获取的关键句集、非关键句集、关键词集、非关键词集的过程进行介绍。
83.由于关键词集和非关键词集是在获得关键句集的基础上获取的,因此,本实施例首先对从训练文本获取关键句集和非关键句集的过程进行介绍。
84.请参阅图2,示出了从训练文本获取关键句集和非关键句集的流程示意图,可以包括:
85.步骤s201:对训练文本进行分句处理,得到训练文本的每个句子。
86.对训练文本进行分句处理的过程可以包括:首先对训练文本进行分词,以得到训练文本的分词结果,然后采用指定窗长的窗口对训练文本的分词结果进行分句。
87.示例性的,指定窗长为30,则将训练文本起始位置(此处一般为起始符)作为窗口
的开始位置,将训练文本的第29个词作为窗口的结束位置,窗口内共30个词,这30个词组成的句子作为划分出的第一个句子,接着将窗口向后移动到上一个窗口结束位置的下一个词,即,将训练文本的第30个词作为窗口的开始位置,将训练文本的第59个词作为窗口的结束位置,如此可获得由训练文本的第30个词~第59个词组成的句子,即划分出的第二个句子,以此类推。
88.优选的,为了保证句子的完整性,如果窗口结束位置不是标点(比如逗号、顿号、冒号、分号、句号、问号、叹号等),则将窗口结束位置向后移动至第一个标点处。
89.本实施例并不限定采用上述的分句方式对训练文本进行分句处理,还可采用其它的分句方式,比如,可根据训练文本中的标点进行分句。
90.对训练文本进行分句处理后,可得到训练文本对应的句子序列,训练文本对应的句子序列可表示为para={(s1,s2,

,sn)|si=(s
i,1
,s
i,2
,

,s
i,m
)},其中si为训练文本中的第i个句子,s
i,j
为第i个句子中包含的第j个词。
91.步骤s202:针对训练文本的每个句子,根据训练文本对应的参考关键词集与该句子的共有词在该句子中的出现情况和在语料集中的出现情况,确定该句子的得分。
92.需要说明的是,新闻语料通常包括新闻主体内容和与新闻主体内容相关的若干关键词,本技术中的训练文本可以为新闻语料中的新闻主体内容,本技术中训练文本对应的参考关键词集可以为由新闻语料中与新闻主体内容相关的关键词组成的词集。
93.另外需要说明的是,新闻语料中与新闻主体内容相关的若干关键词可能包括在新闻主体内容中出现的关键词,也可能包括未在新闻主体内容中出现的关键词,有鉴于此,可将与新闻主体内容相关的若干关键词中未在新闻主体内容中出现的关键词删除,将由剩余关键词组成的词集作为训练文本对应的参考关键词集合,即,如此获得的参考关键词集中只包括在训练文本中出现的关键词。
94.可选的,针对训练文本的每个句子,根据训练文本对应的参考关键词集与该句子的共有词在该句子中的出现情况和在语料集中的出现情况,确定该句子的得分的过程可以包括:根据训练文本对应的参考关键词集与该句子的共有词在该句子中的出现情况和在语料集中的出现情况,计算该句子对应的tf-idf值,将该句子的tf-idf值作为该句子的得分。
95.其中,在计算一个句子对应的tf-idf值时,首先根据训练文本对应的参考关键词集与该句子的共有词在该句子中的出现情况,计算该句子对应的tf值,并根据训练文本对应的参考关键词集与该句子的共有词在语料集中的出现情况计算该句子对应的idf值,然后根据该句子对应的tf值和该句子对应的idf值,计算该句子对应的tf-idf值。需要说明的是,一个句子的得分(比如tf-idf值)能够表征该句子的重要程度。
96.步骤s203:根据训练文本的各个句子的得分确定关键句,由确定出的关键句组成的句子集作为从训练文本获取的关键句集。
97.根据训练文本的各个句子的得分确定关键句的实现方式有多种,在一种可能的实现方式中,可将得分最高的预设数量(比如10)个句子确定为关键句,在另一种可能的实现方式中,可将得分大于预设得分阈值的句子确定为关键句。
98.步骤s204:将若干与训练文本对应的参考关键词集合无交集的句子组成的句子集作为从训练文本获取的非关键句集。
99.需要说明的是,与参考关键词集合无交集的句子指的是,不包含参考关键词集合
中的关键词的句子。
100.接下来对从训练文本获取关键词集和非关键词集的过程进行介绍。
101.请参阅图3,示出了从训练文本获取关键词集和非关键词集的流程示意图,可以包括:
102.步骤s301:从关键句集中的关键句中获取若干候选关键词。
103.其中,每个候选关键词为关键句中长度在预设长度范围内的句子片段。
104.具体的,针对关键句集中的每个关键句,可从该关键句中获取所有可能的、长度在预设长度范围内的句子片段。
105.示例性的,一关键句为“所述方法可以应用于语音识别系统、信息检索系统中的后处理模块,”预设长度范围为[2,4],则从该句子中获取的句子片段可以包括“所述方法”、“所述方法可以”、“所述方法可以应用”、“方法可以”、“方法可以应用”、“方法可以应用于”、

.,从该关键句中获取所有可能的长度在预设长度范围内的句子片段,最终会获得48个句子片段。
[0106]
在一种可能的实现方式中,在从关键句集中的各关键句中获取到若干句子片段后,可将获取的每个句子片段作为一个候选关键词,以得到若干候选关键词;为了降低后续的计算量,在另一种可能的实现方式中,在从关键句集中的各关键句中获取到若干句子片段后,可将一些明显不是关键词的句子片段(比如包含停用词的句子片段、包含标点的判断的句子片段等)滤除,考虑到多数情况下,关键词在文本中出现的次数超过一次,有鉴于此,可统计获取的每个句子片段在训练文本中的出现次数,将在训练文本中出现一次的句子片段滤除,将最终剩余的每个句子片段作为一个候选关键词,以得到若干候选关键词。
[0107]
步骤s302:将若干候选关键词中与训练文本对应的参考关键词集中的关键词完全匹配的候选关键词确定为关键词,由确定出的关键词组成的词集作为从训练文本获取的关键词集。
[0108]
需要说明的是,两个词完全匹配指的是两个词完全相同,比如,一候选关键词为“语音识别”,假设训练文本对应的参考关键词集中的一个关键词为“语音识别”,则该候选关键词与训练文本对应的参考关键词集中的关键词“语音识别”完全匹配。
[0109]
步骤s303:将若干候选关键词中与训练文本对应的参考关键词集中的关键词不完全匹配的候选关键词确定为非关键词,由确定出的非关键词组成的词集作为从训练文本获取的非关键词集。
[0110]
需要说明的是,两个词不完全匹配指的是两个词完全不相同,或者,只有部分相同,比如,“可以应用”与“语音识别”完全不同,“语音识别”与“语音识别系统”只有部分相同。
[0111]
在一种可能的实现方式中,可将若干候选关键词中与训练文本对应的参考关键词集中的关键词不完全匹配的所有或部分候选关键词组成非关键词集;为了提升模型训练效果,在另一种可能的实现方式中,可将若干候选关键词中与训练文本对应的参考关键词集中的关键词不完全匹配,且与训练文本对应的参考关键词集中的关键词有交集的候选关键词组成非关键词集,需要说明的是,经由第二种实现方式获得的非关键词集中的非关键词为困难负样本,示例性的,一候选关键词为“语音识别系统”,训练文本对应的参考关键词集中的一关键词为“语音识别”,由于“语音识别系统”与“语音识别”不完全匹配,且“语音识别
系统”与“语音识别”有交集“语音识别”,因此“语音识别系统”为困难负样本,后续利用困难负样本训练关键词抽取模型,能够提升关键词抽取模型对于关键词边界的决策能力。
[0112]
经由上述部分提供的实现方式可从训练文本中获得关键句集、非关键句集、关键词集和非关键词集。接下来对采用训练文本以及从训练文本获取的关键句集、非关键句集、关键词集、非关键词集训练关键词抽取模型的过程进行介绍。
[0113]
请参阅图4,示出了采用训练文本以及从训练文本获取的关键句集、非关键句集、关键词集、非关键词集训练关键词抽取模型的流程示意图,可以包括:
[0114]
步骤s401:利用关键词抽取模型,预测训练文本中每个句子为关键句的概率,以得到关键句集中的每个句子为关键句的概率以及非关键句集中的每个句子为关键句的概率。
[0115]
利用关键词抽取模型,预测训练文本中每个句子为关键句的概率的过程可以包括:针对训练文本中每个句子,首先利用关键词抽取模型获取该句子包含的每个词对应上下文向量,然后利用关键词抽取模型和该句子包含的所有词分别对应上下文向量确定该句子的表征向量,以获得训练文本中每个句子的表征向量;利用关键词抽取模型和训练文本包含的所有句子的表示向量,确定训练文本包含放入每个句子对应的上下文向量;针对训练文本中每个句子,根据该句子对应的上下文向量预测该句子为关键句的概率,以得到训练文本中每个句子为关键句的概率。其中,一个词对应的上下文向量包含该词在其所在句子的上下文信息,一个句子对应的上下文向量包含该句子在训练文本中的上下文信息。
[0116]
可选的,如图5所示,关键词抽取模型可以包括关键句抽取模块,可利用关键词抽取模型的关键句抽取模块预测训练文本中每个句子为关键句的概率。具体的,关键句抽取模块可以包括词编码模块、句子表征向量获取模块、句编码模块和关键句预测模块,针对训练文本的每个句子,首先将该句子包含的各个词的表示向量输入词编码模块进行编码,词编码模块输出该句子包含的各个词分别对应的上下文向量(图5中的s1中的w
1,1
、w
1,2

…w1,n
表示训练文本的第1个句子包含的各个词的表示向量,h
1,1
、h
1,2

…h1,n
表示训练文本的第1个句子包含的各个词分别对应的上下文向量,

,图5中的sm中的w
m,1
、w
m,2

…wm,n
表示训练文本的第m个句子包含的各个词的表示向量,h
m,1
、h
m,2

…hm,n
表示训练文本的第m个句子包含的各个词分别对应的上下文向量),然后将该句子包含的所有词分别对应的上下文向量输入句子表征向量获取模块,句子表征向量获取模块输出该句子的表征向量(图5中的s1表示训练文本的第1个句子的表征向量,s2表示训练文本的第2个句子的表征向量,sm表示训练文本的第m个句子的表征向量),可选的,句子表征向量获取模块可以为池化层,池化层对该句子包含的所有词分别对应的上下文向量进行最大池化操作,输出该句子的表征向量。经由上述过程可获得训练文本的各个句子的表征向量,接下来,将训练文本的所有句子的表征向量输入句编码模块进行编码,句编码模块输出训练文本的每个句子对应的上下文向量(图5中的s1′
表示训练文本的第1个句子对应的上下文向量,s2′
表示训练文本的第2个句子对应的上下文向量,sm′
表示训练文本的第m个句子对应的上下文向量),最后将训练文本的每个句子对应的上下文向量输入关键句预测模块,关键句预测模块输出训练文本的每个句子为关键句的概率(图5中的y1表示训练文本的第1个句子为关键句的概率,y2表示训练文本的第2个句子为关键句的概率,ym表示训练文本的第m个句子为关键句的概率),可选的,关键句预测模块可以为分类层,分类层根据训练文本的每个句子对应的上下文向量预测训练文本的每个句子为关键句的概率并输出。需要说明的是,上述给出的关键句抽取模块的结
构仅为示例,本实施例并不限定于此,只要是能够预测出训练文本中每个句子为关键句的概率的结构都属于本技术保护的范围。
[0117]
步骤s402:根据关键句集中的每个句子为关键句的概率以及非关键句集中的每个句子为关键句的概率,确定关键词抽取模型的关键句预测损失。
[0118]
具体的,可根据下式计算关键词抽取模型的关键句预测损失:
[0119][0120]
其中,p表示关键句集,n表示非关键句集,|n|表示非关键句集中句子的数量,yi表示关键句集p中的第i个句子为关键句的概率,yj表示非关键句集n中的第j个句子为关键句的概率。
[0121]
需要说明的是,传统的训练方式是,针对每个句子计算预测损失,目的是将所有句子的正确分类概率都趋近于1,但考虑到本技术中的关键句通过简单规则获得,其可能存在错误,若按上述方式训练,会导致模型学习困难,为此,本技术提出,获取关键句负样本集(即非关键句集),约束将关键句正样本集合(即关键句集)中的正样本预测为关键句的概率高于将关键句负样本集(即非关键句集)中的负样本预测为关键句的概率,来提升不精确数据下模型训练的稳定性。
[0122]
步骤s403:利用关键词抽取模型,预测从关键句集包含的关键句中获取的若干候选关键词分别为关键词的概率,以得到关键词集中的每个词为关键词的概率,以及非关键词集中的每个词为关键词的概率。
[0123]
利用关键词抽取模型,预测从关键句集包含的关键句中获取的若干候选关键词分别为关键词的概率的过程可以包括:
[0124]
步骤s4031、利用关键词抽取模型,以关键句集包含的各关键句的重要性为依据,对若干候选关键词进行排序,得到候选关键词序列。
[0125]
在对若干候选关键词进行排序时,可首先对从同一关键句中获取的各候选关键词进行排序,以得到每个关键句对应的候选关键词序列,在对同一关键句中获取的各候选关键词进行排序时,可按候选关键词在训练文本中的出现次数由多到少的顺序对各候选关键词进行排序,在获得关键句集包含的各关键句分别对应的候选关键词序列后,按关键句集包含的各关键句的重要性由高到低的顺序对各关键句分别对应的候选关键词序列进行排序,如此获得最终的候选关键词序列。
[0126]
示例性的,关键句集包含包括3个关键句s1、s2、s3,从s1抽取出的候选关键词包括c
11
、c
12
、c
13
,从s2中抽取出的候选关键词包括c
21
、c
22
、c
23
、c
24
,从s3中抽取出的候选关键词包括c
31
、c
32
、c
33
,假设c
11
在训练文本中出现的次数多于c
12
,c
12
在训练文本中出现的次数多于c
13
,c
21
在训练文本中出现的次数多于c
22
,c
22
在训练文本中出现的次数多于c
23
,c
23
在训练文本中出现的次数多于c
24
,c
31
在训练文本中出现的次数多于c
32
,c
32
在训练文本中出现的次数多于c
33
,则s1对应的候选关键词序列为{c
11
,c
12
,c
13
},s2对应的候选关键词序列为{c
21
,c
22
,c
23
,c
24
},s3对应的候选关键词序列为{c
31
,c
32
,c
33
},假设s2的重要性高于s1,s1的重要性高于s3,则将s2对应的候选关键词序列排在s1对应的候选关键词序列前面,将s3对应的候选关键词序列排在最后面,最终得到候选关键词序列{c
21
,c
22
,c
23
,c
24
,c
11
,c
12
,c
13
,c
31
,c
32
,c
33
}。
[0127]
步骤s4032、利用关键词抽取模型,获取候选关键词序列中各候选关键词分别对应
的上下文向量。
[0128]
其中,一候选关键词分别对应的上下文向量包含该候选关键词在候选关键词序列中的上下文信息。
[0129]
具体的,利用关键词抽取模型,获取候选关键词序列中各候选关键词分别对应的上下文向量的过程可以包括:
[0130]
步骤a1、利用关键词抽取模型,获取候选关键词序列中各候选关键词的表征向量。
[0131]
其中,一候选关键词的表征向量包含该候选关键词包含的各子词在训练文本中的上下文信息;
[0132]
具体的,利用关键词抽取模型,获取候选关键词序列中各候选关键词的表征向量的过程可以包括:针对每个候选关键词,利用关键词抽取模型,获取该候选关键词所包含的各子词分别对应的上下文向量,根据该候选关键词所包含的各子词分别对应的上下文向量确定该候选关键词的表征向量。其中,可通过对该候选关键词所包含的所有子词分别对应的上下文向量进行最大池化操作,来获得该候选关键词的表征向量。
[0133]
需要说明的是,上述利用关键词抽取模型,预测训练文本中每个句子为关键句的概率时,获取了训练文本中的每个句子包含的每个词对应上下文向量,此处获取一个候选关键词所包含的各子词分别对应的上下文向量时,只需要根据该候选关键词在句子中的起始位置和结束位置,从之前获取的上下文向量中获取即可。示例性的,一个句子为“所述方法可以应用于语音识别系统、信息检索系统中的后处理模块,”,在预测该句子为关键句的概率时,获取了“所述”、“方法、“可以”、

.分别对应的上下文向量,若一候选关键词为“语音识别”,则将之前获取的“语音”、“识别”分别对应的上下文向量获取来即可。
[0134]
步骤a2、利用关键词抽取模型,以候选关键词序列中各候选关键词的表征向量为依据,获取候选关键词序列中各候选关键词分别对应的上下文向量。
[0135]
步骤a2的目的在于进行候选关键词之间的信息交互,以使模型学习到候选关键词在候选关键词序列中的上下文信息。
[0136]
步骤s4033、针对候选关键词序列中的每个候选关键词,利用关键词抽取模型,以该候选关键词对应的上下文向量为依据,预测该候选关键词为关键词的概率。
[0137]
利用关键词抽取模型,以该候选关键词对应的上下文向量为依据,预测该候选关键词为关键词的概率的实现方式有多种:
[0138]
在一种可能的实现方式中,可利用关键词抽取模型,只以该候选关键词对应的上下文向量为依据,预测该候选关键词为关键词的概率。具体的,可根据下式计算一候选关键词为关键词的概率:
[0139]
yi=softmax(wki+b)
ꢀꢀꢀꢀ
(2)
[0140]
其中,w和b为模型训练参数,yi为候选关键词序列中第i个候选关键词为关键词的概率,ki为第i个候选关键词对应的上下文向量。
[0141]
为了避免最终抽取出语义相同或相近的关键词,在另一种可能的实现方式中,可利用关键词抽取模型,以该候选关键词对应的上下文向量和历史关键词信息向量为依据,预测该候选关键词为关键词的概率,其中,历史关键词信息向量为已确定出的各关键词对应的上下文向量的融合结果。具体的,可根据下式计算一候选关键词为关键词的概率:
[0142]
yi=softmax(w1k
i-w2memi+b)
ꢀꢀꢀꢀꢀ
(3)
[0143]
memi=tanh(mem
i-1
+w3(sign(y
i-1-0.5)k
i-1
))
ꢀꢀꢀꢀꢀ
(4)
[0144]
其中,w1、w2、w3、b为模型训练参数,yi为第i个候选关键词为关键词的概率,ki为第i个候选关键词对应的上下文向量,sign为符号函数,memo为全0向量,memi为第i个候选关键词对应的历史关键词信息向量。
[0145]
需要说明的是,若根据yi确定第i个候选关键词为关键词(比如,若yi大于预设的关键词概率阈值(比如0.5),则可确定第i个候选关键词为关键词),则将第i个候选关键词对应的上下文向量与memi融合得到mem
i+1
(融合方式可参考参见上式(4)),融合后向量作为第i+1个候选关键词对应的历史关键词信息向量mem
i+1
,在预测第i+1个候选关键词为关键词的概率时,以第i+1个候选关键词对应的上下文向量和历史关键词信息向量mem
i+1
进行预测。
[0146]
需要说明的是,本技术对候选关键词序列中的候选关键词逐个进行概率预测,对于上述第二种实现方式,在针对每个候选关键词进行概率预测时,结合已确定出的关键词的信息进行预测,能够抑制当前预测出与已确定出的关键词语义相同或相近的关键词。
[0147]
步骤s404:根据关键词集中的每个词为关键词的概率,以及非关键词集中的每个词为关键词的概率,确定关键词抽取模型的关键词预测损失。
[0148]
具体的,可根据下式计算关键词抽取模型的关键词预测损失:
[0149][0150]
其中,q表示关键词集,m表示非关键词集,|m|表示非关键词集中词的数量,pi表示关键词集q中的第i个词为关键词的概率,pj表示非关键词集m中的第j个词为关键词的概率。
[0151]
可选的,关键词抽取模型可包括关键词抽取模块,可利用关键词抽取模型的关键词抽取模块按上述提供的实现方式预测训练文本中每个句子为关键句的概率。具体的,如图5所示,关键词抽取模块可以包括候选关键词表征向量获取模块、候选关键词编码模块和关键词预测模块,其中,候选关键词表征向量获取模块获取候选关键词序列中各候选关键词的表征向量并输出,将候选关键词序列中各关键词的表征向量输入候选关键词编码模块进行编码,候选关键词编码模块输出候选关键词序列中各候选关键词分别对应的上下文向量,可选的,候选关键词编码模块可以但不限定为多层transformer(比如三层transformer)将候选关键词序列中各关键词分别对应的上下文向量逐个输入关键词预测模块进行概率预测,关键词预测模块输出对应候选关键词为关键词的概率。可选的,关键词抽取模块还可以包括历史关键词信息处理及记录模块,在每确定出一关键词后,历史关键词信息处理及记录模块将当前确定出的关键词对应的上下文向量与记录的历史关键信息向量融合并记录融合结果。需要说明的是,初始历史关键信息向量为全0向量,在确定出第1个关键词后,将第1个关键词对应的上下文向量与初始历史关键信息向量融合,得到一次融合结果,在确定出第2个关键词后,将第2个关键词对应的上下文向量与上述的一次融合结果融合,得到二次融合结果,在确定出第3个关键词后,将第3个关键词对应的上下文向量与上述的二次融合结果融合,以此类推。需要说明的是,上述给出的关键词抽取模块的结构仅为示例,本实施例并不限定于此,只要是按步骤s4031~s4031的方式进行关键词概率预测的结构都属于本技术保护的范围。
[0152]
步骤s405:根据关键词抽取模型的关键句预测损失和关键词抽取模型的关键词预测损失,对关键词抽取模型进行参数更新。
[0153]
按上述训练方式,采用不同的训练数据进行多次迭代训练,直至满足结束训练条件。训练结束后,便可利用训练得到的关键词抽取模型对待抽取关键词的文本数据进行关键词抽取。
[0154]
本技术实施例以训练文本以及从训练文本获取的关键句集、非关键句集、关键词集、非关键词集为训练数据,以使将关键句集中的关键句预测为关键句的概率大于将非关键句集中的非关键句预测为关键句的概率,以及使将关键词集中的关键词预测为关键词的概率大于将非关键词集中的非关键词预测为关键词的概率为目标训练得到,这种训练策略使得无需获取高质量标注数据,即可训练得到性能较佳的关键词抽取模型。
[0155]
第三实施例
[0156]
在上述实施例上,本实施例对上述实施例中的“步骤s102:利用预先训练的关键词抽取模型从文本数据中抽取关键句”和“步骤s103:利用关键词抽取模型从抽取出的关键句中抽取关键词”的具体实现过程进行介绍。
[0157]
利用预先训练的关键词抽取模型从文本数据中抽取关键句的过程可以包括:
[0158]
步骤b1、利用关键词抽取模型,预测文本数据中每个句子为关键句的概率。
[0159]
具体的,利用关键词抽取模型,预测文本数据中每个句子为关键句的概率的过程可以包括:针对文本数据中每个句子,首先利用关键词抽取模型获取该句子包含的每个词对应上下文向量(一个词对应的上下文向量包含该词在其所在句子的上下文信息),然后利用关键词抽取模型和该句子包含的所有词分别对应上下文向量确定该句子的表征向量,以获得文本数据中每个句子的表示向量;利用关键词抽取模型和文本数据包含的所有句子的表征向量,确定文本数据包含的每个句子对应的上下文向量(一个句子对应的上下文向量包含该句子在文本数据中的上下文信息);根据文本数据包含每个句子对应的上下文向量预测训练文本中每个句子为关键句的概率。
[0160]
需要说明的是,利用关键词抽取模型,预测文本数据中每个句子为关键句的概率的实现过程与上述实施例中利用关键词抽取模型,预测训练文本中每个句子为关键句的概率的实现过程相同,利用关键词抽取模型,预测文本数据中每个句子为关键句的概率更为具体的实现过程可参见上述实施例中利用关键词抽取模型,预测文本数据中每个句子为关键句的概率的具体实现过程,本实施例在此不作赘述。
[0161]
步骤b2、根据文本数据中每个句子为关键句的概率确定关键句,以得到从文本数据中抽取出的关键句。
[0162]
根据文本数据的每个句子为关键句的概率确定关键句的实现方式有多种,在一种可能的实现方式中,可将概率最大的预设数量(比如10)个句子确定为关键句,在另一种可能的实现方式中,可将概率大于预设关键句概率阈值的句子确定为关键句。
[0163]
在从文本数据中抽取出的关键句后,便可进一步利用关键词抽取模型从抽取出的关键句中抽取关键词。利用关键词抽取模型从抽取出的关键句中抽取关键词的实现过程可以包括:
[0164]
步骤c1、利用关键词抽取模型从抽取出的关键句中获取若干候选关键词。
[0165]
其中,每个候选关键词为抽取出的关键句中长度在预设长度范围内的一个句子片
段。
[0166]
利用关键词抽取模型从抽取出的关键句中获取若干候选关键词的实现过程与上述实施例中“从关键句集中的关键句中获取若干候选关键词”的实现过程相同,具体可参见上述实施例中的相关部分,本实施例在此不做赘述。
[0167]
步骤c2、利用关键词抽取模型预测若干候选关键词分别为关键词的概率,并根据若干候选关键词分别为关键词的概率,从若干候选关键词中确定关键词。
[0168]
具体的,步骤c2的实现过程可以包括:
[0169]
步骤c21、利用关键词抽取模型,以抽取出的关键句的重要性为依据,对若干候选关键词进行排序,得到候选关键词序列。
[0170]
具体的,可按候选关键词在文本数据中的出现次数由多到少的顺序,对从同一关键句中获取的各候选关键词进行排序,以得到每个关键句对应的候选关键词序列,然后按关键句的重要性由高到底的顺序,对各关键句对应的候选关键词序列进行排序,以得到最终的候选关键词序列。需要说明的是,一个关键句对应的预测概率越高,则该关键句的重要性越高,一个关键句对应的预测概率指的是关键词抽取模型将该句子预测为关键句的概率。
[0171]
步骤c22、利用关键词抽取模型,获取候选关键词序列中各候选关键词分别对应的上下文向量。
[0172]
其中,一个候选关键词对应的上下文向量包含对应候选关键词在候选关键词序列中的上下文信息。
[0173]
利用关键词抽取模型,获取候选关键词序列中各候选关键词分别对应的上下文向量,包括:利用关键词抽取模型,获取候选关键词序列中各候选关键词的表征向量,以得到候选关键词表征向量序列,其中,一候选关键词的表征向量包含该候选关键词包含的各子词在所述训练文本中的上下文信息;利用关键词抽取模型,以候选关键词表征向量序列为依据,获取候选关键词序列中各候选关键词分别对应的上下文向量。
[0174]
步骤c23、针对候选关键词序列中的每个候选关键词,利用关键词抽取模型,以该候选关键词对应的上下文向量为依据,预测该候选关键词为关键词的概率,并根据该候选关键词为关键词的概率确定该候选关键词是否为关键词。
[0175]
其中,利用关键词抽取模型,以该候选关键词对应的上下文向量为依据,预测该候选关键词为关键词的概率的实现方式有多种:
[0176]
在一种可能的实现方式中,可利用关键词抽取模型,只以该候选关键词对应的上下文向量为依据,预测该候选关键词为关键词的概率;为了避免最终抽取出语义相同或相近的关键词,在另一种可能的实现方式中,可利用关键词抽取模型,以该候选关键词对应的上下文向量和历史关键词信息向量为依据,预测该候选关键词为关键词的概率,其中,历史关键词信息向量为已确定出的各关键词对应的上下文向量的融合结果。上述第二种实现方式,针对每个候选关键词,利用关键词抽取模型,结合已确定出的关键词的信息,预测该候选关键词为关键词的概率,结合已确定出的关键词的信息进行概率预测,能够抑制当前预测出与已确定出的关键词语义相同或相近的关键词。
[0177]
若采用上述第二种实现方式,针对候选关键词序列中的每个候选关键词,若根据该候选关键词为关键词的概率确定该候选关键词为关键词,则将该候选关键词的表征向量
与历史关键词信息向量融合,融合后向量作为新的历史关键词信息向量。
[0178]
需要说明的是,步骤c23中“利用关键词抽取模型,以该候选关键词对应的上下文向量为依据,预测该候选关键词为关键词的概率”的具体实现过程与上述实施例中的“步骤s4033、针对候选关键词序列中的每个候选关键词,利用关键词抽取模型,以该候选关键词对应的上下文向量为依据,预测该候选关键词为关键词的概率”中“利用关键词抽取模型,以该候选关键词对应的上下文向量为依据,预测该候选关键词为关键词的概率”的实现过程相同,更为具体的实现过程可参见上述实施例中的相关部分,本实施例在此不做赘述。
[0179]
在根据一候选关键词为关键词的概率确定该候选关键词是否为关键词时,可判断该候选关键词为关键词的概率是否大于预设的关键词概率阈值(比如0.5),若该候选关键词为关键词的概率大于预设的关键词概率阈值,则确定该候选关键词为关键词,否则确定该候选关键词为非关键词。
[0180]
第四实施例
[0181]
本技术实施例还提供了一种关键词抽取装置,下面对本技术实施例提供的关键词抽取装置进行描述,下文描述的关键词抽取装置与上文描述的关键词抽取方法可相互对应参照。
[0182]
请参阅图6,示出了本技术实施例提供的语音端点检测装置的结构示意图,可以包括:文本获取模块601和文本处理模块602。
[0183]
文本获取模块块601,用于获取待抽取关键词的文本数据;
[0184]
文本处理模块块602,用于利用预先训练的关键词抽取模型从所述文本数据中抽取关键句,并利用所述关键词抽取模型从抽取出的关键句中抽取关键词。
[0185]
其中,所述关键词抽取模型采用训练文本以及从所述训练文本获取的关键句集、非关键句集、关键词集、非关键词集,以使将所述关键句集中的关键句预测为关键句的概率大于将所述非关键句集中的非关键句预测为关键句的概率,以及将所述关键词集中的关键词预测为关键词的概率大于将所述非关键词集中的非关键词预测为关键词的概率为目标训练得到。
[0186]
可选的,文本处理模块602在利用所述关键词抽取模型从抽取出的关键句中抽取关键词时,具体用于:
[0187]
利用所述关键词抽取模型从抽取出的关键句中获取若干候选关键词,其中,每个候选关键词为抽取出的关键句中长度在预设长度范围内的一个句子片段;
[0188]
利用所述关键词抽取模型预测所述若干候选关键词分别为关键词的概率,并根据所述若干候选关键词分别为关键词的概率,从所述若干候选关键词中确定关键词。
[0189]
可选的,文本处理模块602在利用所述关键词抽取模型预测所述若干候选关键词分别为关键词的概率时,具体用于:
[0190]
针对所述若干候选关键词中的每个候选关键词,利用所述关键词抽取模型,结合已确定出的关键词的信息,预测该候选关键词为关键词的概率。
[0191]
可选的,文本处理模块602在利用所述关键词抽取模型预测所述若干候选关键词分别为关键词的概率时,具体用于:
[0192]
利用所述关键词抽取模型,以抽取出的关键句的重要性为依据,对所述若干候选关键词进行排序,得到候选关键词序列;
[0193]
利用所述关键词抽取模型,获取所述候选关键词序列中各候选关键词分别对应的上下文向量,其中,所述上下文向量包含对应候选关键词在所述候选关键词序列中的上下文信息;
[0194]
针对所述候选关键词序列中的每个候选关键词,利用所述关键词抽取模型,以该候选关键词对应的上下文向量为依据,预测该候选关键词为关键词的概率。
[0195]
可选的,文本处理模块602在利用所述关键词抽取模型,获取所述候选关键词序列中各候选关键词分别对应的上下文向量时,具体用于:
[0196]
利用所述关键词抽取模型,获取所述候选关键词序列中各候选关键词的表征向量,其中,一候选关键词的表征向量包含该候选关键词包含的各子词在所述训练文本中的上下文信息;
[0197]
利用所述关键词抽取模型和所述候选关键词序列中各候选关键词的表征向量,获取所述候选关键词序列中各候选关键词分别对应的上下文向量。
[0198]
可选的,文本处理模块602在利用所述关键词抽取模型,以该候选关键词对应的上下文向量为依据,预测该候选关键词为关键词的概率,包括:
[0199]
利用所述关键词抽取模型,以该候选关键词对应的上下文向量和历史关键词信息向量为依据,预测该候选关键词为关键词的概率,其中,所述历史关键词信息向量为已确定出的各关键词分别对应的上下文向量的融合结果;
[0200]
文本处理模块602,还用于:
[0201]
针对所述候选关键词序列中的每个候选关键词,若根据该候选关键词为关键词的概率确定该候选关键词为关键词,则将该候选关键词对应的上下文向量与历史关键词信息向量融合,融合后向量作为新的历史关键词信息向量。
[0202]
可选的,所述训练文本具有对应的参考关键词集。
[0203]
本技术实施例提供的关键词抽取装置还可以包括句子集获取模块,句子集获取模块用于从所述训练文本中获取关键句集和非关键句集。
[0204]
所述句子集获取模块在从所述训练文本中获取关键句集和非关键句集时,具体用于:
[0205]
对所述训练文本进行分句处理,得到所述训练文本的每个句子;
[0206]
针对所述训练文本的每个句子,根据所述参考关键词集合与该句子的共有词在该句子中的出现情况和在语料集中的出现情况,确定该句子的得分;
[0207]
根据所述训练文本的各个句子的得分确定关键句,由确定出的关键句组成的句子集作为从所述训练文本获取的关键句集;
[0208]
将若干与所述参考关键词集合无交集的句子组成的句子集作为从所述训练文本获取的非关键句集。
[0209]
本技术实施例提供的关键词抽取装置还可以包括词集获取模块,词集获取模块用于从所述训练文本获取关键词集和非关键词集。
[0210]
所述词集获取模块在从所述训练文本获取关键词集和非关键词集时,具体用于:
[0211]
从所述关键句集中的关键句中获取若干候选关键词;
[0212]
将所述若干候选关键词中与所述参考关键词集中的关键词完全匹配的候选关键词确定为关键词,由确定出的关键词组成的词集作为从所述训练文本获取的关键词集;
[0213]
将所述若干候选关键词中与所述参考关键词集中的关键词不完全匹配的候选关键词确定为非关键词,由确定出的非关键词组成的词集作为从所述训练文本获取的非关键词集。
[0214]
所述词集获取模块在将所述若干候选关键词中与所述参考关键词集中的关键词不完全匹配的候选关键词确定为非关键词时,具体用于:
[0215]
将所述若干候选关键词中与所述参考关键词集中的关键词不完全匹配,且与所述参考关键词集合中的关键词有交集的候选关键词确定为非关键词。
[0216]
本技术实施例提供的关键词抽取装置还可以包括模型训练模块。模型训练模块用于:
[0217]
利用关键词抽取模型,预测所述训练文本中每个句子为关键句的概率,以得到所述关键句集中的每个句子为关键句的概率以及所述非关键句集中的每个句子为关键句的概率;
[0218]
根据所述关键句集中的每个句子为关键句的概率以及所述非关键句集中的每个句子为关键句的概率,确定关键句预测损失;
[0219]
预测从所述关键句集包含的关键句中获取的若干候选关键词分别为关键词的概率,以得到所述关键词集中的每个词为关键词的概率,以及所述非关键词集中的每个词为关键词的概率;
[0220]
根据所述关键词集中的每个词为关键词的概率,以及所述非关键词集中的每个词为关键词的概率,确定关键词预测损失;
[0221]
根据所述关键句预测损失和所述关键词预测损失,对关键词抽取模型进行参数更新。
[0222]
本技术实施例提供的关键词抽取装置,在获得待抽取关键词的文本数据后,首先利用预先训练的关键词抽取模型从文本数据中抽取关键句,然后利用关键词抽取模型从抽取出的关键句中抽取关键词。本技术实施例中的关键词抽取模型并非如现有技术那般,采用标注有关键词的训练文本,以使针对训练文本预测的关键词与训练文本标注的关键词趋于一致为目标训练得到,而是以训练文本以及从训练文本获取的关键句集、非关键句集、关键词集、非关键词集为训练数据,以使将关键句集中的关键句预测为关键句的概率大于将非关键句集中的非关键句预测为关键句的概率,以及使将关键词集中的关键词预测为关键词的概率大于将非关键词集中的非关键词预测为关键词的概率为目标训练得到,这种训练策略使得无需获取高质量标注数据,即可训练得到性能较佳的关键词抽取模型,利用性能较佳的关键词抽取模型对待抽取关键词的文本数据进行关键词抽取,能够获得较好的抽取效果。另外,本技术实施例提供的关键词抽取装置并非直接从文本数据中抽取关键词,而是先从文本数据中抽取关键句,再进一步从抽取出的关键句中抽取关键词,这种抽取策略相比于直接从文本数据中抽取关键词具有更高的抽取效率。
[0223]
第五实施例
[0224]
本技术实施例还提供了一种关键词抽取设备,请参阅图7,示出了该关键词抽取设备的结构示意图,该关键词抽取设备可以包括:至少一个处理器701,至少一个通信接口702,至少一个存储器703和至少一个通信总线704;
[0225]
在本技术实施例中,处理器701、通信接口702、存储器703、通信总线704的数量为
至少一个,且处理器701、通信接口702、存储器703通过通信总线704完成相互间的通信;
[0226]
处理器701可能是一个中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
[0227]
存储器703可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
[0228]
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
[0229]
获取待抽取关键词的文本数据;利用预先训练的关键词抽取模型从所述文本数据中抽取关键句,并利用所述关键词抽取模型从抽取出的关键句中抽取关键词;其中,所述关键词抽取模型采用训练文本以及从所述训练文本获取的关键句集、非关键句集、关键词集、非关键词集,以使将所述关键句集中的关键句预测为关键句的概率大于将所述非关键句集中的非关键句预测为关键句的概率,以及将所述关键词集中的关键词预测为关键词的概率大于将所述非关键词集中的非关键词预测为关键词的概率为目标训练得到。
[0230]
可选的,所述程序的细化功能和扩展功能可参照上文描述。
[0231]
第六实施例
[0232]
本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质可存储有适于处理器执行的程序,所述程序用于:
[0233]
获取待抽取关键词的文本数据;利用预先训练的关键词抽取模型从所述文本数据中抽取关键句,并利用所述关键词抽取模型从抽取出的关键句中抽取关键词;其中,所述关键词抽取模型采用训练文本以及从所述训练文本获取的关键句集、非关键句集、关键词集、非关键词集,以使将所述关键句集中的关键句预测为关键句的概率大于将所述非关键句集中的非关键句预测为关键句的概率,以及将所述关键词集中的关键词预测为关键词的概率大于将所述非关键词集中的非关键词预测为关键词的概率为目标训练得到。
[0234]
可选的,所述程序的细化功能和扩展功能可参照上文描述。
[0235]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0236]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
[0237]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1