关键词确定方法及装置与流程

文档序号:30595886发布日期:2022-07-01 20:39阅读:92来源:国知局
关键词确定方法及装置与流程

1.本技术涉及计算机技术领域,特别涉及一种关键词确定方法及装置、计算设备和计算机可读存储介质。


背景技术:

2.随着电子信息化技术的不断发展,电子资源日益普及,电子资源的数据量也变得越来越大,那么从海量数据中寻找到需要的信息,对数据的分类和查找显得尤为重要。为了更好的对数据进行分类,便于数据的查找和统计,一般会对语句提取标签或者索引词,将这些可以标识语句内容的词语称为关键词。
3.现有关键词提取主要是通过预先训练的特征提取模型获取语义信息,将获得语句的特征表示直接作为词嵌入特征,通过线性网络得到最后的输出,没有有效利用语句的其他特征信息,泛化能力不强,关键词提取效果不好。


技术实现要素:

4.有鉴于此,本技术实施例提供了一种关键词确定方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
5.根据本技术实施例的第一方面,提供了一种关键词确定方法,包括:
6.接收待处理语句,并获取与所述待处理语句对应的关键词词典;
7.基于特征提取模型获得所述关键词词典的词典特征,并基于语言模型获得所述待处理语句的句子特征,且对所述待处理语句进行词性标注,以获得所述待处理语句的词性对应的词性特征;
8.基于所述词典特征、所述词性特征以及所述句子特征确定所述待处理语句中的关键词。
9.可选的,所述接收待处理语句之后,并获取与所述待处理语句对应的关键词词典之前,还包括:
10.确定所述待处理语句的属性信息,获取与所述待处理语句的至少一个属性信息相同的样本语句;
11.提取所述样本语句中的样本关键词,并基于所述样本关键词构建与所述待处理语句对应的关键词词典。
12.可选的,所述提取所述样本语句中的样本关键词,并基于所述样本关键词构建与所述待处理语句对应的关键词词典之后,还包括:
13.基于提取的所述样本语句的样本关键词确定关键词提取规则。
14.可选的,所述基于特征提取模型获得所述关键词词典的词典特征,包括:
15.基于词向量表确定所述关键词词典中每个关键词的词向量;
16.将所述关键词词典中所有关键词的词向量输入特征提取模型,获得所述关键词词典的词典特征。
17.可选的,所述基于语言模型获得所述待处理语句的句子特征,包括:
18.通过位置编码获得所述待处理语句中每个字的字向量;
19.将所述待处理语句中所有字的字向量输入语言模型,获得所述待处理语句的句子特征。
20.可选的,所述对所述待处理语句进行词性标注,以获得所述待处理语句的词性对应的词性特征,包括:
21.基于预设词性标注工具对所述待处理语句进行词性标注,获得所述待处理语句的词性表示;
22.初始化所述待处理语句的词性表示,以获得所述待处理语句的词性特征。
23.可选的,所述基于所述词典特征、所述词性特征以及所述句子特征确定所述待处理语句中的关键词,包括:
24.将所述词典特征、所述词性特征以及所述句子特征进行融合,获得所述待处理语句的初始特征,并将所述初始特征输入第一双向长短期记忆网络,获得所述待处理语句的候选特征;
25.基于预设算法将所述候选特征以及所述词典特征进行注意力计算,获得所述待处理语句的注意力值,并将所述注意力值输入第二双向长短期记忆网络,获得所述待处理语句的目标特征;
26.将所述待处理语句的目标特征输入关键词提取模型,获得所述待处理语句中的关键词。
27.可选的,所述将所述注意力值输入第二双向长短期记忆网络,获得所述待处理语句的目标特征,包括:
28.将所述注意力值输入第二双向长短期记忆网络,在所述第二双向长短期记忆网络中,将所述注意力值与所述候选特征相乘,获得所述待处理语句中的字与所述关键词词典的相关性特征;
29.将所述相关性特征通过所述第二双向长短期记忆网络输出,获得所述待处理语句的目标特征。
30.可选的,所述获得所述待处理语句中的关键词之后,还包括:
31.基于所述关键词词典以及所述关键词提取规则对所述待处理语句中的关键词进行修正。
32.可选的,所述特征提取模型包括卷积神经网络模型,所述语言模型包括bert模型,所述关键词提取模型包括条件随机场算法模型。
33.根据本技术实施例的第二方面,提供了一种关键词确定装置,包括:
34.语句接收模块,被配置为接收待处理语句,并获取与所述待处理语句对应的关键词词典;
35.特征获得模块,被配置为基于特征提取模型获得所述关键词词典的词典特征,并基于语言模型获得所述待处理语句的句子特征,且对所述待处理语句进行词性标注,以获得所述待处理语句的词性对应的词性特征;
36.关键词确定模块,被配置为基于所述词典特征、所述词性特征以及所述句子特征确定所述待处理语句中的关键词。
37.可选的,所述装置,还包括:
38.词典构建模块,被配置为:
39.确定所述待处理语句的属性信息,获取与所述待处理语句的至少一个属性信息相同的样本语句;
40.提取所述样本语句中的样本关键词,并基于所述样本关键词构建与所述待处理语句对应的关键词词典。
41.可选的,所述装置,还包括:
42.规则确定模块,被配置为:
43.基于提取的所述样本语句的样本关键词确定关键词提取规则。
44.可选的,所述特征获得模块,进一步被配置为:
45.基于词向量表确定所述关键词词典中每个关键词的词向量;
46.将所述关键词词典中所有关键词的词向量输入特征提取模型,获得所述关键词词典的词典特征。
47.可选的,所述特征获得模块,进一步被配置为:
48.通过位置编码获得所述待处理语句中每个字的字向量;
49.将所述待处理语句中所有字的字向量输入语言模型,获得所述待处理语句的句子特征。
50.可选的,所述特征获得模块,进一步被配置为:
51.基于预设词性标注工具对所述待处理语句进行词性标注,获得所述待处理语句的词性表示;
52.初始化所述待处理语句的词性表示,以获得所述待处理语句的词性特征。
53.可选的,所述关键词确定模块,进一步被配置为:
54.将所述词典特征、所述词性特征以及所述句子特征进行融合,获得所述待处理语句的初始特征,并将所述初始特征输入第一双向长短期记忆网络,获得所述待处理语句的候选特征;
55.基于预设算法将所述候选特征以及所述词典特征进行注意力计算,获得所述待处理语句的注意力值,并将所述注意力值输入第二双向长短期记忆网络,获得所述待处理语句的目标特征;
56.将所述待处理语句的目标特征输入关键词提取模型,获得所述待处理语句中的关键词。
57.可选的,所述关键词确定模块,进一步被配置为:
58.将所述注意力值输入第二双向长短期记忆网络,在所述第二双向长短期记忆网络中,将所述注意力值与所述候选特征相乘,获得所述待处理语句中的字与所述关键词词典的相关性特征;
59.将所述相关性特征通过所述第二双向长短期记忆网络输出,获得所述待处理语句的目标特征。
60.可选的,所述装置,还包括:
61.修正模块,被配置为基于所述关键词词典以及所述关键词提取规则对所述待处理语句中的关键词进行修正。
62.可选的,所述特征提取模型包括卷积神经网络模型,所述语言模型包括bert模型,所述关键词提取模型包括条件随机场算法模型。
63.根据本技术实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述关键词确定方法的步骤。
64.根据本技术实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述关键词确定方法的步骤。
65.本技术实施例提供了所述关键词确定方法及装置,其中,所述关键词确定方法包括接收待处理语句,并获取与所述待处理语句对应的关键词词典;基于特征提取模型获得所述关键词词典的词典特征,并基于语言模型获得所述待处理语句的句子特征,且对所述待处理语句进行词性标注,以获得所述待处理语句的词性对应的词性特征;基于所述词典特征、所述词性特征以及所述句子特征确定所述待处理语句中的关键词。具体的,所述关键词确定方法将预先训练的语言模型作为待处理语句的特征提取工具,并添加词性特征、词典特征等丰富的底层信息来扩大词的差异化,使得待处理语句中关键词和非关键词的差异较为明确,从而可以更加精确的获得待处理语句中关键词。
附图说明
66.图1是本技术实施例提供的计算设备的结构框图;
67.图2是本技术实施例提供的一种关键词确定方法的流程图;
68.图3是本技术实施例提供的一种关键词确定方法的具体处理流程图;
69.图4是本技术实施例提供的一种关键词确定装置的结构示意图。
具体实施方式
70.在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本技术内涵的情况下做类似推广,因此本技术不受下面公开的具体实施的限制。
71.在本技术一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术一个或多个实施例。在本技术一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本技术一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
72.应当理解,尽管在本技术一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本技术一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“响应于确定”。
73.首先,对本发明一个或多个实施例涉及的名词术语进行解释。
74.keyphrase extraction:关键短语提取,其中,关键短语(keyphrase)是关键词组成的短语,短语的语义更加丰富,能够更加全面的概括内容主题;不管是基于文本的推荐还
是基于文本的搜索,对于文本关键短语的依赖也很大,关键短语提取的准确程度直接关系到推荐系统或者搜索系统的最终效果;现有技术中,可以采用有监督的关键短语提取算法、无监督的关键短语提取算法以及半监督的关键短语提取算法等。
75.bert:bidirectional encoder representations from transformers,是基于transformer的双向编码器表征,bert模型的根基就是transformer,来源于attention is all you need。其中双向的意思表示它在处理一个词的时候,能考虑到该词前面和后面单词的信息,从而获取上下文的语义。
76.glove词向量:global vectors for word representation,基于词与词之间的共现(co-occurrence)信息,假设元素x
ij
为词j出现在词i的环境(context)的次数。这里的”环境”有多种的定义。比如,在一段文本序列中,如果词j出现在词i左边或者右边不超过10个词的距离,我们可以认为词j出现在词i的环境一次。
77.lac:lexical analysis of chinese,词法分析工具,可实现中文分词、词性标注、专名识别等功能;具体使用时,通过深度学习模型联合学习分词、词性标注、专名识别任务,整体效果f1值超过0.91,词性标注f1值超过0.94,专名识别f1值超过0.85,效果好;并且精简模型参数,结合paddle预测库的性能优化,cpu单线程性能达800qps,效率也较好;同时实现简单可控的干预机制,精准匹配用户词典对模型进行干预。词典支持长片段形式,使得干预更为精准;且支持一键安装,同时提供了python、java和c++调用接口与调用示例,实现快速调用和集成;此外,定制超轻量级模型,体积仅为2m,主流千元手机单线程性能达200qps,满足大多数移动端应用的需求。
78.ccn:convolutional neural networks,卷积神经网络,是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习(deep learning)的代表算法之一,在本技术中,通过cnn网络编码得到每一个词相应的字符级别的特征。
79.attention mechanism:注意力机制,是在处理过载信息的一种手段,具体表现为如何对图像的不同区域或一句话中的相关单词关注度会有所区别,通常对于感兴趣的部分往往会分配大量的注意力。
80.lstm:long short-term memory,长短期记忆,是一种时间循环神经网络,也是一种特殊的rnn,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。相比普通的rnn,lstm能够在更长的序列中有更好的表现。
81.crf:conditional random field,条件随机场,基于遵循马尔可夫性的概率图模型,结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。条件随机场是一个典型的判别式模型,其联合概率可以写成若干势函数联乘的形式,其中最常用的是线性链条件随机场。
82.sequence tagging:序列标注;可用于解决一系列对字符进行分类的问题,如分词、词性标注、命名实体识别、关系抽取等等,常用模型包括:隐马尔可夫模型(hmm)、条件随机场(crf)、bilstm+crf。
83.one-hot编码:分类变量作为二进制向量的表示,将类别变量转换为机器学习算法易于利用的一种形式的过程,即nlp(自然语言处理)中的一种词特征表示方式,每一个词都被表示成一个的向量,其长度等于词表大小,当前词对应位置为1,其他位置为0。
84.现有的关键词提取主要分为有监督和无监督的提取方式,无监督提取方式由于不
需要数据标注,有比较广泛的应用,主要包含基于tf-idf(term frequency

inverse document frequency,词频-逆文本频率指数)的统计方法、lda(latent dirichlet allocation,隐含狄利克雷分布)的主题模型方法、textrank(文本排列)的图网络方法以及利用字、语法、语义等的词嵌入信息的方法等,有监督的提取方式需要在标注数据集上进行训练,主要包含基于svm(support vector machines,支持向量机)、crf的机器学习算法,基于rnn(recurrent neural network,循环神经网络)、cnn的深度学习方法,以及通过预训练特征提取模型进行微调,并且连接浅层网络进行训练,得到提取结果的方法。
85.但是,基于无监督的关键词提取方法由于没有标准的数据集,主要通过特征量化指标的计算,没有理解语义信息,关键词提取准确性不高,并且需要高质量的文本,从而造成关键词提取成本较高。基于有监督的方法虽然能够较好的利用语义信息、词之间的依赖信息进行关键词提取,但是由于需要大量精力去标注数据,人工成本较高;并且泛化迁移能力不足,可解释性不强,此外,采用的底层特征不足,差异化较小,关键词与非关键词之间的特征不明显,从而造成关键词提取不精确。
86.基于此,为了解决上述技术问题,在本技术中,提供了一种关键词确定方法及装置、计算设备和计算机可读存储介质,在下面的实施例中逐一进行详细说明。
87.图1示出了根据本技术一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
88.计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(pstn)、局域网(lan)、广域网(wan)、个域网(pan)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(nic))中的一个或多个,诸如ieee802.11无线局域网(wlan)无线接口、全球微波互联接入(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc)接口,等等。
89.在本技术的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本技术范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
90.计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或pc的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
91.其中,处理器120可以执行图2所示关键词确定方法中的步骤。图2示出了根据本技术一实施例提供的一种关键词确定方法的流程图,具体包括以下步骤。
92.步骤202:接收待处理语句,并获取与所述待处理语句对应的关键词词典。
93.其中,待处理语句包括但不限于任何领域的待提取关键词的语句,例如医学领域、金融领域或者通信领域的待提取关键词的语句。
94.若待处理语句为金融领域的语句“我国的营商环境还存在哪些问题”,则接收待处
理语句,并获取与所述待处理语句对应的关键词词典,可以理解为接收“我国的营商环境还存在哪些问题”的该待处理语句,并获取与“我国的营商环境还存在哪些问题”该待处理语句对应的关键词词典。
95.具体的,所述接收待处理语句之后,并获取与所述待处理语句对应的关键词词典之前,还包括:
96.确定所述待处理语句的属性信息,获取与所述待处理语句的至少一个属性信息相同的样本语句;
97.提取所述样本语句中的样本关键词,并基于所述样本关键词构建与所述待处理语句对应的关键词词典。
98.其中,待处理语句的属性信息包括但不限于待处理语句对应的领域信息、语句长度以及语义信息等,沿用上例,待处理语句的属性信息为:金融领域。
99.以待处理语句的属性信息为该待处理语句对应的领域为例,在确定该待处理语句的领域后,获取与该待处理语句的领域相同的多个样本语句,然后提取每个样本语句中的样本关键词,并基于该样本关键词构建与待处理语句对应的关键词词典。
100.具体实施时,样本语句为与待处理语句的属性信息相同的语句,沿用上例,样本语句为金融领域的多个不同的样本语句,获得多个样本语句后,根据人工标注的数据,将每个样本语句中的关键词提取出来,基于提取出的关键词构建该金融领域的关键词词典。
101.此外,以待处理语句的属性信息为该待处理语句对应的语句长度为例,在确定该待处理语句的语句长度后,获取与该待处理语句的语句长度相同的多个样本语句,然后提取每个样本语句中的样本关键词,并基于该样本关键词构建与待处理语句对应的关键词词典;又或者以待处理语句的属性信息为该待处理语句对应的语义信息为例,在通过现有的语义提取模型确定该待处理语句的语义信息后,获取与该待处理语句的语义信息相同的多个样本语句,然后提取每个样本语句中的样本关键词,并基于该样本关键词构建与待处理语句对应的关键词词典。并且在待处理语句的属性信息为多个的情况下,还可以根据实际需求对待处理语句的属性信息进行两个或多个进行组合,以获取与待处理语句的属性信息相同的样本语句。
102.具体的,关键词提取也可以称为关键短语提取,是从样本语句中自动提取一组具有代表性短语的任务,提取出来的短语能够简洁且准确地描述对应样本语句的主题内容。
103.沿用上例,我b-i、国i-i、的d、营b-i、商i-i、环i-i、境i-i、还d、存d、在d、哪d、些d、问d、题d,其中,“我国的营商环境还存在哪些问题”即为样本语句,“b-i、i-i、d”则是通过人工或者其他算法对样本语句中每个字的标注,每个
“‑”
前的“b、i”分别代表“begin、inside”,标签为“b-i”的字表示是样本语句中关键词的起始,标签为“i-i”的字表示是关键词的剩余部分,而标签为“d”的字表示不是样本语句中的关键词,那么通过此标签标注,可以提取出该样本语句的关键词“我国、营商环境”,通过此种方式将与待处理语句的属性信息相同的所有样本语句中的样本关键词均提取出来,以构建与待处理语句对应的关键词词典。
104.实际应用中,关键词词典的构建就是标注数据的过程,例如将上述样本语句中的具有代表性的词“营商环境”提取出来,作为词典内容,后续当来了一个新的待处理语句,里面出现“营商环境”的情况下,则可以直接将“营商环境”作为新的待处理语句的关键词之
一,可以极大的节省关键词提取时间,提高关键词提取效率。
105.具体的,可以在接收待处理语句之后,通过上述方法,基于待处理语句的属性信息构建与待处理语句对应的关键词词典,还可以在基于关键词确定方法对待处理语句中的关键词进行确定之前,基于上述方法,预先为各个领域构建关键词词典,例如获取每个领域的样本语句,提取每个领域的样本语句中的样本关键词,并基于每个领域的样本关键词构建每个领域对应的关键词词典;那么在实际应用时,接收待处理语句,确定该待处理语句的属性信息之后,基于该待处理语句的属性信息直接选择与该待处理语句的属性信息对应的关键词词典。
106.本说明书实施例中,获取与待处理语句对应的关键词词典,后续基于特征提取模型获得该关键词词典的词典特征,采用词典特征扩大待处理语句中关键词与非关键词的差异化,从而更好的对待处理语句中的关键词进行提取。
107.此外,所述提取所述样本语句中的样本关键词,并基于所述样本关键词构建与所述待处理语句对应的关键词词典之后,还包括:
108.基于提取的所述样本语句的样本关键词确定关键词提取规则。
109.具体实施时,在提取样本语句中的样本关键词的过程中,可以依据关键词对应的词语属性,比如关键词是否为动词、名词等,然后将该规则作为关键词抽取规则。
110.实际应用中,还可以基于提取的所述样本语句对应的领域确定出对应的关键词提取规则,后续再对其他语句进行关键词提取时,可以基于其他语句对应的领域,选取与该领域对应的关键词提取规则进行关键词的提取,进而提高关键词提取的准确性。例如,样本语句的领域为医学领域,提取的该样本语句的关键词为“医院”、“医药”、“医疗”等,则可以确定医疗领域的关键词一般为与健康相关的词语,那么则可以确定关键词提取规则为:与健康相近的所有词语均为关键词。
111.本说明书实施例中,在对样本语句中的样本关键词提取的过程中,可以总结样本关键词的提取规律,又或者通过机器学习确定样本语句中样本关键词提取的提取特征,将这些规律以及特征作为关键词提取规则,可以使用在后续对新样本语句中样本关键词的提取过程中,通过此种关键词提取规则可以更加快速的方便的对新样本语句中的样本关键词进行获取,提高关键词词典的构建效率。
112.步骤204:基于特征提取模型获得所述关键词词典的词典特征,并基于语言模型获得所述待处理语句的句子特征,且对所述待处理语句进行词性标注,以获得所述待处理语句的词性对应的词性特征。
113.具体的,在接收待处理语句,且获取与待处理语句对应的关键词词典之后,可以基于特征提取模型获得该关键词词典的词典特征,具体实现方式如下所述:
114.所述基于特征提取模型获得所述关键词词典的词典特征,包括:
115.基于词向量表确定所述关键词词典中每个关键词的词向量;
116.将所述关键词词典中所有关键词的词向量输入特征提取模型,获得所述关键词词典的词典特征。
117.其中,预设词向量表包括但不限于glove词向量表;实际应用中,特征提取模型可以为卷积神经网络模型,即cnn模型。
118.具体的,获取与待处理语句对应的关键词词典之后,通过查询glove词向量表,将
关键词词典中的每个关键词映射为词向量,映射完成之后,将该关键词词典的所有关键词的词向量输入到cnn模型中,通过cnn模型的池化层对所有关键词的词向量进行池化,获得所有关键词的池化后的词向量作为整体的关键词词典的向量,且将该关键词词典的向量作为关键词词典特征。
119.本说明书实施例中,通过glove词向量表以及cnn模型获得与待处理语句对应的关键词词典的词典特征,后续在对待处理语句进行关键词提取时,可以基于该词典特征扩大待处理语句中每个词的差异化,以实现更加准确的获得待处理语句中的关键词。
120.具体实施时,所述基于语言模型获得所述待处理语句的句子特征,包括:
121.通过位置编码获得所述待处理语句中每个字的字向量;
122.将所述待处理语句中所有字的字向量输入语言模型,获得所述待处理语句的句子特征。
123.其中,语言模型可以理解为bert模型,位置编码可以理解one-hot编码。
124.具体的,在基于bert模型获得待处理语句的句子特征时,bert模型生成一个词表,通过独热编码one-hot将待处理语句中的每个字或词映射到该词表对应的位置,相当于通过该词表给待处理语句中的每个字进行一个编码序号,将待处理语句中的所有字变为数字向量,然后将待处理语句中所有字对应的数字向量输入到bert模型中进行编码,以获得该待处理语句对应的特征表示,即待处理语句的句子特征。
125.实际应用中,在本次应用之前,bert模型已经使用相同任务进行调整(fine-tune)过,所以它的编码层的输出可以更好的适应该任务;例如实际应用之前,获取样本训练集,其中,样本训练集中包括至少一个样本语句以及每个样本语句对应的样本标签。具体的,该至少一个样本语句可以为上述实施例中的样本语句,即与待处理语句的领域相同的样本语句等,且每个样本语句对应的样本标签为每个样本语句对应的句子特征。
126.将样本训练集中一部分样本作为训练样本,另一部分作为测试样本,基于训练样本对初始bert模型进行训练得到bert模型。并且基于测试样本对bert模型进行测试,并基于测试结果调整bert模型的网络参数,以获得较佳的bert模型。
127.本说明书实施例中,通过bert预训练模型作为待处理语句的特征抽取工具,实现获取待处理语句中丰富的语义信息,后续通过将该语义信息与上述的词典特征等进行结合使用,从而使得对待处理语句中的关键词提取达到更好的效果。
128.本说明书另一实施例中,所述对所述待处理语句进行词性标注,以获得所述待处理语句的词性对应的词性特征,包括:
129.基于预设词性标注工具对所述待处理语句进行词性标注,获得所述待处理语句的词性表示;
130.初始化所述待处理语句的词性表示,以获得所述待处理语句的词性特征。
131.其中,预设词性标注工具包括但不限于lac词性标注工具。
132.具体的,使用lac词性标注工具对待处理语句进行词性标注,获得动词、代词、名词等词性,将这些词性信息作为待处理语句的词性表示;然后随机初始化待处理语句的词性表示,作为待处理语句的词性特征。
133.沿用上例,对待处理语句“我国的营商环境还存在哪些问题”进行词性标注,具体参见表1。
134.表1
[0135][0136][0137]
通过表1可以得出,待处理语句['我','国','的','营商','环境','还','存在','哪些','问题']对应的['r','n','u,'n','n','d','v','r','n']即是对待处理语句的词性标注,在获得待处理语句的词性标注后,将待处理语句的词性标注随机初始化,以获得待处理语句的词性表示(词性向量),将其作为待处理语句的词性特征。
[0138]
本说明书实施例中,通过lac词性标注工具对待处理语句进行词性标注,随机初始化待处理语句的词性标识获得待处理语句的词性特征,后续可以通过将通过bert模型获得的待处理语句的句子特征、通过cnn模型获得的关键词词典的词典特征进行结合,以实现对待处理语句中关键词的精确提取。
[0139]
步骤206:基于所述词典特征、所述词性特征以及所述句子特征确定所述待处理语句中的关键词。
[0140]
具体的,所述基于所述词典特征、所述词性特征以及所述句子特征确定所述待处理语句中的关键词,包括:
[0141]
将所述词典特征、所述词性特征以及所述句子特征进行融合,获得所述待处理语句的初始特征,并将所述初始特征输入第一双向长短期记忆网络,获得所述待处理语句的候选特征;
[0142]
基于预设算法将所述候选特征以及所述词典特征进行注意力计算,获得所述待处理语句的注意力值,并将所述注意力值输入第二双向长短期记忆网络,获得所述待处理语句的目标特征;
[0143]
将所述待处理语句的目标特征输入关键词提取模型,获得所述待处理语句中的关键词。
[0144]
其中,预设算法通过如下公式1实现:
[0145][0146]
其中,q表示全局特征向量(即上述候选特征),k表示关键词词典的特征向量(即上述关键词词典的词典特征),t表示矩阵转置,dk表示一个常数,softmax表示一个函数。
[0147]
而实际应用中,关键词提取模型可以为条件随机场算法模型,即crf模型。
[0148]
具体的,在获取与待处理语句对应的关键词词典的词典特征,待处理语句的词性特征以及句子特征之后,将词典特征、词性特征以及句子特征进行融合拼接,作为待处理语句的底层表示(即初始特征)输入到第一双向lstm中,通过第一双向lstm计算获得待处理语句的全局特征(即候选特征)。
[0149]
其中,在进行待处理语句的全局特征计算时,可以通过两个或两个以上的第一双向lstm进行计算,具体采用的第一双向lstm的数量可以基于实际应用进行设置,本技术对此不做任何限定。
[0150]
而在获得待处理语句的候选特征后,将上述获得的待处理语句的候选特征以及关键词词典的词典特征输入到公式1中进行注意力计算,以获得待处理语句对应的注意力值,然后将待处理语句的注意力值输入第二双向长短期记忆网络,获得所述待处理语句的目标特征;最后将该目标特征输入到crf模型获得该待处理语句中的关键词。其中,第二双向长短期记忆网络也可以通过两个或两个以上的第二双向lstm进行计算,具体采用的第二双向lstm的数量可以基于实际应用进行设置,本技术对此不做任何限定。
[0151]
本说明书实施例中,将词典特征、词性特征以及句子特征的融合拼接,通过第一双向lstm获得待处理语句的全局特征,以及将基于该全局特征以及词典特征获得的注意力值通过第二双向lstm获得待处理语句的目标特征,最后将通过双层lstm获得的目标特征输入到预先训练的关键词提取模型中,可以获得更为准确的待处理语句的关键词。
[0152]
可选的,所述将所述注意力值输入第二双向长短期记忆网络,获得所述待处理语句的目标特征,包括:
[0153]
将所述注意力值输入第二双向长短期记忆网络,在所述第二双向长短期记忆网络中,将所述注意力值与所述候选特征相乘,获得所述待处理语句中的字与所述关键词词典的相关性特征;
[0154]
将所述相关性特征通过所述第二双向长短期记忆网络输出,获得所述待处理语句的目标特征。
[0155]
具体的,在将候选特征以及词典特征根据预设算法获得待处理数据的注意力值后,将该注意力值输入到第二双向lstm,在第二双向lstm中,将注意力值与待处理语句的候选特征相乘,获得待处理语句中字与关键词词典的相关性的特征表示,然后将其输出第二双向lstm,以获得整体的待处理语句对应的隐层表示,即目标特征;最后将该目标特征输入到crf模型获得该待处理语句中的关键词。
[0156]
例如,将整体的待处理语句对应的隐层表示输入到crf模型中,crf模型对待处理语句对应的隐层表示采用上述构建关键词词典的“b-i、i-i、d”的序列标注方式进行训练,从而获得crf模型的预测结果,即待处理语句中的关键词;具体的,crf模型可以获得待处理语句的一个三维的概率值,其中,第一维的概率值代表b-i标签,第二维的概率值表示i-i标签,第三维的概率值表示d标签,即将待处理语句的对应的隐层表示输入到crf模型中,可以
获得每一维标签对应的概率值,然后将概率值最大的标签对应的文字作为待处理语句的关键词,例如,当前文字对应的标签b-i的概率值最大,那么当前文字对应的标签为b-i,而当前文字对应的标签i-i的概率值最大,那么当前字对应的标签为i-i,沿用上例,对于“我国”,其对应的标签为“b-i、i-i”,则“我国”就是关键词。本说明书实施例中,关键词正确的提取方法是b-i和i-i两个标签的结合,对于一个关键词,其中,词的第一字标签是b-i,第二个到最后的标签是i-i。
[0157]
本说明书实施例中,所述关键词确定方法将预先训练的语言模型作为待处理语句的特征提取工具,并添加词性特征、词典特征等丰富的底层信息来扩大词的差异化,使得待处理语句中关键词和非关键词的差异较为明确,从而可以更加精确的获得待处理语句中关键词。
[0158]
本说明书另一实施例中,所述获得所述待处理语句中的关键词之后,还包括:
[0159]
基于所述关键词词典以及所述关键词提取规则对所述待处理语句中的关键词进行修正。
[0160]
具体的,通过关键词词典可以获得待处理语句中的一种关键词,通过关键词提取规则可以获得待处理语句中的另一种关键词,然后将通过crf模型获得的待处理语句的关键词与上述两种关键词进行比对,以实现对通过crf模型获得的待处理语句的关键词的修正,获得最终待处理语句的关键词提取结果。
[0161]
本说明书实施例中,在通过crf模型获得的待处理语句的关键词之后,可以基于这些关键词提取规则对待处理语句中提取的关键词进行验证和调整,使得提取的待处理语句中的关键词可以更加准确。
[0162]
沿用上例,若通过上述方式获得的待处理语句中的关键词为“我国、营商环境”,而将该待处理语句通过关键词词典以及关键词提取规则提取的关键词也均为“我国、营商环境”,则可以确定通过本说明书实施例提供的所述关键词确定方法的准确性较高。
[0163]
若通过上述方式获得的待处理语句中的关键词为“我国、营商环境”,并且将该待处理语句通过关键词词典提取的关键词为“我国、营商环境”,但是将该待处理语句通过关键词提取规则提取的关键词也均为“我国、营商环境、存在”,则可以确定关键词为“我国、营商环境”的概率较高,那么仍可以确定通过本说明书实施例提供的所述关键词确定方法的准确性较高。
[0164]
若通过上述方式获得的待处理语句中的关键词为“我国、营商环境、存在”,但是将该待处理语句通过关键词词典以及关键词提取规则提取的关键词均为“我国、营商环境”,则可以确定通过本说明书实施例提供的所述关键词确定方法的提取的该关键词可能存在错误,那么此时就需要基于通过关键词词典以及关键词提取规则提取的关键词“我国、营商环境”对其进行修正,以获得修正后的准确的关键词“我国、营商环境”;同时还可以对本说明书实施例提供的所述关键词确定方法进行优化,提升用户体验。
[0165]
本说明书实施例提供的所述关键词确定方法通过bert预训练模型模型、关键词提取规则、关键词词典相结合的方法,可以减少数据的标注成本以及标注时间,极大的增强了模型的迁移能力,并且融合待处理语句的词性特征、句子特征以及关键词词典的词典特征等丰富的底层信息,来扩大待处理语句中词的差异化,提高模型的性能,从而可以准确获得待处理语句的关键词,此外,还可以通过关键词词典以及关键词提取规则的方法对提取的
待处理语句中的关键词进行修正,以此获得对待处理语句中关键词的更好的提取结果。
[0166]
参见图3,图3示出了本技术一实施例提供的一种关键词确定方法的具体处理流程图,具体包括以下步骤。
[0167]
步骤302:接收待处理语句。
[0168]
步骤304:确定待处理语句的属性信息,基于待处理语句的属性信息获取与待处理语句对应的关键词词典。
[0169]
步骤306:通过查询glove词向量表对关键词词典构造词向量。
[0170]
步骤308:将关键词词典中所有关键词的词向量输入cnn模型,通过cnn模型的池化层获得关键词词典的词典特征。
[0171]
步骤310:通过one-hot编码获得待处理语句中每个字的字向量。
[0172]
步骤312:将待处理语句中所有字的字向量输入到bret模型,获得待处理语句的句子特征。
[0173]
步骤314:基于lac词性标注工具对待处理语句进行词性标注,获得所述待处理语句的词性表示。
[0174]
步骤316:随机初始化待处理语句的词性表示,以获得待处理语句的词性特征。
[0175]
步骤318:将词典特征、词性特征以及句子特征进行融合拼接,作为底层特征表示输入到第一双向lstm,获得全局特征。
[0176]
步骤320:将全局特征与词典特征进行注意力计算获得注意力值,将该注意力值输入第二双向lstm,得到待处理语句对应的隐层表示。
[0177]
具体的,在第二双向lstm中,将注意力值与全局特征相乘,获得待处理语句中字与关键词词典的相关性特征表示,将其输出第二双向lstm,得到待处理语句对应的隐层表示。
[0178]
步骤322:将待处理语句对应的隐层表示输入到crf模型,获得待处理语句中的关键词。
[0179]
本说明书实施例中,所述关键词确定方法将预先训练的语言模型作为待处理语句的特征提取工具,并添加词性特征、词典特征等丰富的底层信息来扩大词的差异化,使得待处理语句中关键词和非关键词的差异较为明确,从而可以更加精确的获得待处理语句中关键词。
[0180]
与上述方法实施例相对应,本技术还提供了关键词确定装置实施例,图4示出了本技术一个实施例的关键词确定装置的结构示意图。如图4所示,该装置包括:
[0181]
语句接收模块402,被配置为接收待处理语句,并获取与所述待处理语句对应的关键词词典;
[0182]
特征获得模块404,被配置为基于特征提取模型获得所述关键词词典的词典特征,并基于语言模型获得所述待处理语句的句子特征,且对所述待处理语句进行词性标注,以获得所述待处理语句的词性对应的词性特征;
[0183]
关键词确定模块406,被配置为基于所述词典特征、所述词性特征以及所述句子特征确定所述待处理语句中的关键词。
[0184]
可选的,所述装置,还包括:
[0185]
词典构建模块,被配置为:
[0186]
确定所述待处理语句的属性信息,获取与所述待处理语句的至少一个属性信息相
同的样本语句;
[0187]
提取所述样本语句中的样本关键词,并基于所述样本关键词构建与所述待处理语句对应的关键词词典。
[0188]
可选的,所述装置,还包括:
[0189]
规则确定模块,被配置为:
[0190]
基于提取的所述样本语句的样本关键词确定关键词提取规则。
[0191]
可选的,所述特征获得模块404,进一步被配置为:
[0192]
基于词向量表确定所述关键词词典中每个关键词的词向量;
[0193]
将所述关键词词典中所有关键词的词向量输入特征提取模型,获得所述关键词词典的词典特征。
[0194]
可选的,所述特征获得模块404,进一步被配置为:
[0195]
通过位置编码获得所述待处理语句中每个字的字向量;
[0196]
将所述待处理语句中所有字的字向量输入语言模型,获得所述待处理语句的句子特征。
[0197]
可选的,所述特征获得模块404,进一步被配置为:
[0198]
基于预设词性标注工具对所述待处理语句进行词性标注,获得所述待处理语句的词性表示;
[0199]
初始化所述待处理语句的词性表示,以获得所述待处理语句的词性特征。
[0200]
可选的,所述关键词确定模块406,进一步被配置为:
[0201]
将所述词典特征、所述词性特征以及所述句子特征进行融合,获得所述待处理语句的初始特征,并将所述初始特征输入第一双向长短期记忆网络,获得所述待处理语句的候选特征;
[0202]
基于预设算法将所述候选特征以及所述词典特征进行注意力计算,获得所述待处理语句的注意力值,并将所述注意力值输入第二双向长短期记忆网络,获得所述待处理语句的目标特征;
[0203]
将所述待处理语句的目标特征输入关键词提取模型,获得所述待处理语句中的关键词。
[0204]
可选的,所述关键词确定模块406,进一步被配置为:
[0205]
将所述注意力值输入第二双向长短期记忆网络,在所述第二双向长短期记忆网络中,将所述注意力值与所述候选特征相乘,获得所述待处理语句中的字与所述关键词词典的相关性特征;
[0206]
将所述相关性特征通过所述第二双向长短期记忆网络输出,获得所述待处理语句的目标特征。
[0207]
可选的,所述装置,还包括:
[0208]
修正模块,被配置为基于所述关键词词典以及所述关键词提取规则对所述待处理语句中的关键词进行修正。
[0209]
可选的,所述特征提取模型包括卷积神经网络模型,所述语言模型包括bert模型,所述关键词提取模型包括条件随机场算法模型。
[0210]
本说明书实施例提供的所述关键词确定装置,将预先训练的语言模型作为待处理
语句的特征提取工具,并添加词性特征、词典特征等丰富的底层信息来扩大词的差异化,使得待处理语句中关键词和非关键词的差异较为明确,从而可以更加精确的获得待处理语句中关键词。
[0211]
上述为本实施例的一种关键词确定装置的示意性方案。需要说明的是,该关键词确定装置的技术方案与上述的关键词确定方法的技术方案属于同一构思,关键词确定装置的技术方案未详细描述的细节内容,均可以参见上述关键词确定方法的技术方案的描述。
[0212]
需要说明的是,装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
[0213]
本技术一实施例中还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述的关键词确定方法的步骤。
[0214]
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的关键词确定方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述关键词确定方法的技术方案的描述。
[0215]
本技术一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述关键词确定方法的步骤。
[0216]
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的关键词确定方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述关键词确定方法的技术方案的描述。
[0217]
上述对本技术特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0218]
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
[0219]
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本技术所必须的。
[0220]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
[0221]
以上公开的本技术优选实施例只是用于帮助阐述本技术。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本技术的内容,可作很多的修改和变化。本技术选取并具体描述这些实施例,是为了更好地解释本技术的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本技术。本技术仅受权利要求书及其全部范围和等效物的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1