词汇检测方法、词汇检测系统及计算机可读存储介质与流程

文档序号:17951784发布日期:2019-06-19 00:05阅读:191来源:国知局
词汇检测方法、词汇检测系统及计算机可读存储介质与流程

本发明涉及计算机技术领域,具体而言,涉及一种词汇检测方法、一种词汇检测系统及一种计算机可读存储介质。



背景技术:

在文字信息处理的众多领域中,新词发现也就是发现新的单词。相关技术中,均是使用文本中字的特征,运用字向量特征向量的相似度发现出新词。这种新词发现有一个误区在于很难发现完全新的新词,发现的大多都是多一个字的词(比如词库里有头疼,发现新词头很痛)或者是错别字(阿莫西林和啊莫西林)。因为上述技术运用的是字向量模型,字向量仅考虑不同词汇中字与字的相关度,所以发现的词语与原词语基本相似,无法发现我们真正想要的“新词”,适应性不高。



技术实现要素:

本发明旨在至少解决现有技术中存在的技术问题之一。

为此,本发明第一方面提出了一种词汇检测方法。

本发明第二方面提出了一种词汇检测系统。

本发明第三方面提出了一种计算机可读存储介质。

本发明第一方面提出了一种词汇检测方法,包括:获取训练数据;将训练数据输入复合网络模型,以得到训练数据的上下文向量和相关度信息;根据上下文向量及相关度信息确定训练数据中的目标词汇;其中,复合网络模型由双向长短记忆网络及双向注意力网络组成。

本发明第一方面提出的词汇检测方法选取双向长短记忆网络作为提取特征的方法网络,选取双向注意力网络作为生成相关度的核心网络,在获取到训练数据后,将获取到的训练数据输入由双向长短记忆网络及双向注意力网络组成的复合网络模型中,通过该复合网络模型计算并输出训练数据的上下文向量和相关度信息,以通过训练数据的上下文向量和相关度信息确定训练数据中的目标词汇。具体地,是通过训练数据的上下文向量和相关度信息发现新词。

本发明第一方面提出的词汇检测方法选取双向长短记忆网络作为提取特征的方法网络,选取双向注意力网络作为生成相关度的核心网络,获取“相关度”很高的新词。具体地,“相关度”指的是在不同的上下文环境中可以互相替代,如果是可以互相替代是新词,则表示两者相关度很高。例如,“今天我感觉手痛”和“今天我感觉肩膀疼”这两句话,在这其中“手痛”和“肩膀疼”字向量的相似度很低,但是在这两句话中所表达的意思却差不多,所以“手痛”和“肩膀疼”相关度就很高了。本发明正是基于相关度来发现一句话中的新词,以保证对新词的准确发现,得到我们所需要的新词。

根据本发明上述的词汇检测方法,还可以具有以下附加技术特征:

在上述技术方案中,优选地,将训练数据输入复合网络模型,以得到训练数据的上下文向量和相关度信息的步骤,具体包括:在对训练数据进行翻译的过程中,提取训练数据中的第一上下文信息;根据第一上下文信息确定训练数据的第一上下文向量和第一相关度信息。

在该技术方案中,将训练数据输入到复合网络模型后,然后对其进行中文及英文翻译。具体地,无论输入的是英文语句还是中文语句,都对其进行翻译,以得到相对应的英文语句及中文语句;在翻译的过程中,对训练数据的上下文信息进行提取,得到第一上下文信息;然后根据第一上下文信息确定训练数据的第一上下文向量和第一相关度信息。

在上述任一技术方案中,优选地,将训练数据输入复合网络模型,以得到训练数据的上下文向量和相关度信息的步骤,具体包括:在对训练数据与标注数据进行匹配的过程中,提取训练数据的第二上下文信息;根据第二上下文信息确定训练数据的目标向量;将目标向量与标注数据的标注向量进行比对,并记录比对结果;根据比对结果确定第二上下文向量和第二相关度信息。

在该技术方案中,在获取的训练数据的上下文向量及相关度信息后,综合考虑在机器翻译过程中获取的第一上下文向量和第一相关度信息,及在句子匹配过程中获取的第二上下文向量和第二相关度信息,以根据上述上下文向量和相关度信息确定目标词汇,即训练数据中的新词。

具体地,在根据第一计算结果、第二计算结果确定训练数据中的目标词汇之前,可以对第一计算结果及第二计算结果进行分析,对相关度较高的词汇加以标记,进行“高亮”处理,在注意力矩阵中增加权重,使得两句话中相关的词汇获得更多的关注,训练效果好。最后通过双向注意力网络输出两个相关的词汇,一个为词库中已有词汇,另一词为我们想要发现的新词。

在上述任一技术方案中,优选地,获取训练数据的步骤,具体包括:获取语料数据;对语料数据进行预处理,以得到训练数据。

在该技术方案中,首先选取机器翻译语义相似度数据,然后对不同语言的语料数据做一一匹配,去掉乱码,杂乱无章项,清洗掉不需要的语料数据,并整理标签正确性。对同一语言相关度训练数据做句子(段落)匹配,得到需要的训练数据。

本发明第二方面提出了一种词汇检测系统,包括:存储器,用于存储计算机程序;处理器,用于执行计算机程序以:获取训练数据;将训练数据输入复合网络模型,以得到训练数据的上下文向量和相关度信息;根据上下文向量及相关度信息确定训练数据中的目标词汇;其中,复合网络模型由双向长短记忆网络及双向注意力网络组成。

本发明第二方面提出的词汇检测系统包括相互配合的存储器和处理器,其处存储器上存储有存储计算机程序,处理器用于执行该计算机程序,以选取双向长短记忆网络作为提取特征的方法网络,选取双向注意力网络作为生成相关度的核心网络,在获取到训练数据后,将获取到的训练数据输入由双向长短记忆网络及双向注意力网络组成的复合网络模型中,通过该复合网络模型计算并输出训练数据的上下文向量和相关度信息,以通过训练数据的上下文向量和相关度信息确定训练数据中的目标词汇。具体地,是通过训练数据的上下文向量和相关度信息发现新词。

本发明第二方面提出的词汇检测系统选取双向长短记忆网络作为提取特征的方法网络,选取双向注意力网络作为生成相关度的核心网络,获取“相关度”很高的新词。具体地,“相关度”指的是在不同的上下文环境中可以互相替代,如果是可以互相替代是新词,则表示两者相关度很高。例如,“今天我感觉手痛”和“今天我感觉肩膀疼”这两句话,在这其中“手痛”和“肩膀疼”字向量的相似度很低,但是在这两句话中所表达的意思却差不多,所以“手痛”和“肩膀疼”相关度就很高了。本发明正是基于相关度来发现一句话中的新词,以保证对新词的准确发现,得到我们所需要的新词。

根据本发明上述的词汇检测系统,还可以具有以下附加技术特征:

在上述技术方案中,优选地,处理器具体用于:在对训练数据进行翻译的过程中,提取训练数据中的第一上下文信息;根据第一上下文信息确定训练数据的第一上下文向量和第一相关度信息;在对训练数据与标注数据进行匹配的过程中,提取训练数据的第二上下文信息;根据第二上下文信息确定训练数据的目标向量;将目标向量与标注数据的标注向量进行比对,并记录比对结果;根据比对结果确定第二上下文向量和第二相关度信息。

在该技术方案中,处理器将训练数据输入到复合网络模型后,然后对其进行中文及英文翻译。具体地,无论输入的是英文语句还是中文语句,都对其进行翻译,以得到相对应的英文语句及中文语句;在翻译的过程中,对训练数据的上下文信息进行提取,得到第一上下文信息;然后根据第一上下文信息确定训练数据的第一上下文向量和第一相关度信息;同时,将训练数据输入到复合网络模型后,对训练数据进行匹配;在对训练数据与标注数据进行匹配的过程中,提取训练数据的第二上下文信息,具体地,是提取中文语句的上下文信息,以根据第二上下文信息确定训练数据的目标向量;然后将目标向量与标注数据的标注向量进行比对,并做记录;最后根据比对结果确定第二上下文向量和第二相关度信息。

在上述任一技术方案中,优选地,处理器具体用于:将第一上下文向量和第一相关度信息输入双向注意力网络,以得到第一计算结果;将第二上下文向量和第二相关度信息输入双向注意力网络,以得到第二计算结果;根据第一计算结果、第二计算结果获取训练数据中的目标词汇。

在该技术方案中,在获取的训练数据的上下文向量及相关度信息后,综合考虑在机器翻译过程中获取的第一上下文向量和第一相关度信息,及在句子匹配过程中获取的第二上下文向量和第二相关度信息,以根据上述上下文向量和相关度信息确定目标词汇,即训练数据中的新词。

具体地,在根据第一计算结果、第二计算结果确定训练数据中的目标词汇之前,可以对第一计算结果及第二计算结果进行分析,对相关度较高的词汇加以标记,进行“高亮”处理,在注意力矩阵中增加权重,使得两句话中相关的词汇获得更多的关注,训练效果好。最后通过双向注意力网络输出两个相关的词汇,一个为词库中已有词汇,另一词为我们想要发现的新词。

在上述任一技术方案中,优选地,处理器具体用于:获取语料数据;对语料数据进行预处理,以得到训练数据。

在该技术方案中,首先选取机器翻译语义相似度数据,然后对不同语言的语料数据做一一匹配,去掉乱码,杂乱无章项,清洗掉不需要的语料数据,并整理标签正确性。对同一语言相关度训练数据做句子(段落)匹配,得到需要的训练数据。

本发明第三方面提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本发明第一方面中任一项的词汇检测方法。

本发明第三发明提出的计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如本发明第一方面中任一项的词汇检测方法,因此具有上述词汇检测方法的全部有益效果,在此不再一一论述。

本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:

图1是本发明一个实施例的词汇检测方法的流程图;

图2是本发明一个具体实施例的词汇检测方法的流程图;

图3是本发明一个实施例的词汇检测系统的结构框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。

下面参照图1至图3来描述根据本发明一些实施例提出的词汇检测方法、词汇检测系统及计算机可读存储介质。

图1是本发明一个实施例的词汇检测方法的流程图。

如图1所示,该词汇检测方法包括:

s102,获取训练数据;

s104,将训练数据输入复合网络模型,以得到训练数据的上下文向量和相关度信息;

s106,根据上下文向量及相关度信息确定训练数据中的目标词汇。

本发明第一方面提出的词汇检测方法选取双向长短记忆网络作为提取特征的方法网络,选取双向注意力网络作为生成相关度的核心网络,在获取到训练数据后,将获取到的训练数据输入由双向长短记忆网络及双向注意力网络组成的复合网络模型中,通过该复合网络模型计算并输出训练数据的上下文向量和相关度信息,以通过训练数据的上下文向量和相关度信息确定训练数据中的目标词汇。具体地,是通过训练数据的上下文向量和相关度信息发现新词。

本发明第一方面提出的词汇检测方法选取双向长短记忆网络作为提取特征的方法网络,选取双向注意力网络作为生成相关度的核心网络,获取“相关度”很高的新词。具体地,“相关度”指的是在不同的上下文环境中可以互相替代,如果是可以互相替代是新词,则表示两者相关度很高。例如,“今天我感觉手痛”和“今天我感觉肩膀疼”这两句话,在这其中“手痛”和“肩膀疼”字向量的相似度很低,但是在这两句话中所表达的意思却差不多,所以“手痛”和“肩膀疼”相关度就很高了。本发明正是基于相关度来发现一句话中的新词,以保证对新词的准确发现,得到我们所需要的新词。

在本发明的一个实施例中,优选地,将训练数据输入复合网络模型,以得到训练数据的上下文向量和相关度信息的步骤,具体包括:在对训练数据进行翻译的过程中,提取训练数据中的第一上下文信息;根据第一上下文信息确定训练数据的第一上下文向量和第一相关度信息。

在该实施例中,将训练数据输入到复合网络模型后,然后对其进行中文及英文翻译。具体地,无论输入的是英文语句还是中文语句,都对其进行翻译,以得到相对应的英文语句及中文语句;在翻译的过程中,对训练数据的上下文信息进行提取,得到第一上下文信息;然后根据第一上下文信息确定训练数据的第一上下文向量和第一相关度信息。

在本发明的一个实施例中,优选地,将训练数据输入复合网络模型,以得到训练数据的上下文向量和相关度信息的步骤,具体包括:在对训练数据与标注数据进行匹配的过程中,提取训练数据的第二上下文信息;根据第二上下文信息确定训练数据的目标向量;将目标向量与标注数据的标注向量进行比对,并记录比对结果;根据比对结果确定第二上下文向量和第二相关度信息。

在该实施例中,在获取的训练数据的上下文向量及相关度信息后,综合考虑在机器翻译过程中获取的第一上下文向量和第一相关度信息,及在句子匹配过程中获取的第二上下文向量和第二相关度信息,以根据上述上下文向量和相关度信息确定目标词汇,即训练数据中的新词。

具体地,在根据第一计算结果、第二计算结果确定训练数据中的目标词汇之前,可以对第一计算结果及第二计算结果进行分析,对相关度较高的词汇加以标记,进行“高亮”处理,在注意力矩阵中增加权重,使得两句话中相关的词汇获得更多的关注,训练效果好。最后通过双向注意力网络输出两个相关的词汇,一个为词库中已有词汇,另一词为我们想要发现的新词。

在本发明的一个实施例中,优选地,获取训练数据的步骤,具体包括:获取语料数据;对语料数据进行预处理,以得到训练数据。

在该实施例中,首先选取机器翻译语义相似度数据,然后对不同语言的语料数据做一一匹配,去掉乱码,杂乱无章项,清洗掉不需要的语料数据,并整理标签正确性。对同一语言相关度训练数据做句子(段落)匹配,得到需要的训练数据。

图2是本发明一个具体实施例的词汇检测方法的流程图。

如图2所示,该词汇检测方法包括:

s202,获取语料数据;

s204,对语料数据进行预处理,以得到训练数据;

s206,在对训练数据进行翻译的过程中,提取训练数据中的第一上下文信息;

s208,根据第一上下文信息确定训练数据的第一上下文向量和第一相关度信息;

s210,在对训练数据与标注数据进行匹配的过程中,提取训练数据的第二上下文信息;

s212,根据第二上下文信息确定训练数据的目标向量;

s214,将目标向量与标注数据的标注向量进行比对,并记录比对结果;

s216,根据比对结果确定训练数据的第二上下文向量和第二相关度信息;

s218,将第一上下文向量和第一相关度信息输入双向注意力网络,以得到第一计算结果;

s220,将第二上下文向量和第二相关度信息输入双向注意力网络,以得到第二计算结果;

s222,根据第一计算结果、第二计算结果确定训练数据中的目标词汇。

该具体实施例所提供的词汇检测方法,大致可分为以下几个过程:

选取bi-lstm(双向长短记忆网络)作为提取特征的方法网络,选取bi-attention(双向注意力网络)作为生成相关度的核心网络。

选取机器翻译语义相似度数据,对不同语言的数据做一一匹配,去掉乱码,杂乱无章项,清洗掉不需要的语言数据,并整理标签正确性。对同一语言相关度训练数据做句子(段落)匹配,得到需要的训练数据。

运用seq2seq(编码器-解码器)模型对中-英数据做机器翻译,我们只需要上下文向量来描述相关度(重合度),运用机器翻译的过程中,对语料中上下文信息进行提取,得到contextvector(上下文向量)和相关度信息,利用双向注意力模型先对信息和特征进行一轮的提取。

在句子匹配中,主要运用中文之间的上下文信息,虽然不像机器翻译对神经网络模型里信息提取的深刻,但是也可以根据上下文互信息量提取特征向量,根据一对一比对的标注数据做句子匹配,相同的句子标为1,不同的句子标为-1,寻找里面词语的相关度。把机器翻译和句子匹配后的结果并行输入下一步骤中。

然后就是一些神经网络的公式:

cove(w)=mt-lstm(glove(w))

其中,glove(w)表示将单词w通过glove(词向量模型)的映射层对应的向量表示,然后将这个向量表示作为机器翻译模型中ecoder(代码编辑器)的输入,得到的encoder(编码器)的输出就是上下文向量cove。具体地,上下文向量cove实际上就是通过机器翻译模型直接可得。

在对语料进行初步压缩提取特征后,把数据传输到双向注意力网络,进行新词发现训练,这个网络模型可以处理成对的句子也可以处理单个的句子。在处理单个句子的时候就将句子进行复制,然后当成句子对处理。模型重点可以对相关度高的词语做“高亮”处理,可以在注意力矩阵中增加权重,使得两句话中相关的词语获得更多的关注,训练效果好。最后通过双向注意力网络输出两个相关的词语,一个为词库中已有词语,另一词为我们想要发现的新词。

此外,也可以改进机器翻译模型和attention(注意力)模型,使得新词发现结果更好,能发现更多新词,相关度更高。

同时,也有其他方法预训练上下文有关向量。预训练方法也是运用上下文信息对文本向量进行描述,然后用lstm(长短记忆网络)方法进行新词发现。与本方案相同,都是利用上下文信息对文本语料进行建模,虽然其中采用的模型方法完全不同,但原理基本相同,因此也在本发明的保护内。

本发明第二方面提出了一种词汇检测系统300,如图3所示,包括:存储器302,用于存储计算机程序;处理器304,用于执行计算机程序以:获取训练数据;将训练数据输入复合网络模型,以得到训练数据的上下文向量和相关度信息;根据上下文向量及相关度信息确定训练数据中的目标词汇;其中,复合网络模型由双向长短记忆网络及双向注意力网络组成。

本发明第二方面提出的词汇检测系统300包括相互配合的存储器302和处理器304,处存储器302上存储有存储计算机程序,处理器304用于执行该计算机程序,以选取双向长短记忆网络作为提取特征的方法网络,选取双向注意力网络作为生成相关度的核心网络,在获取到训练数据后,将获取到的训练数据输入由双向长短记忆网络及双向注意力网络组成的复合网络模型中,通过该复合网络模型计算并输出训练数据的上下文向量和相关度信息,以通过训练数据的上下文向量和相关度信息确定训练数据中的目标词汇。具体地,是通过训练数据的上下文向量和相关度信息发现新词。

本发明第二方面提出的词汇检测系统300选取双向长短记忆网络作为提取特征的方法网络,选取双向注意力网络作为生成相关度的核心网络,获取“相关度”很高的新词。具体地,“相关度”指的是在不同的上下文环境中可以互相替代,如果是可以互相替代是新词,则表示两者相关度很高。例如,“今天我感觉手痛”和“今天我感觉肩膀疼”这两句话,在这其中“手痛”和“肩膀疼”字向量的相似度很低,但是在这两句话中所表达的意思却差不多,所以“手痛”和“肩膀疼”相关度就很高了。本发明正是基于相关度来发现一句话中的新词,以保证对新词的准确发现,得到我们所需要的新词。

在本发明的一个实施例中,优选地,处理器304具体用于:在对训练数据进行翻译的过程中,提取训练数据中的第一上下文信息;根据第一上下文信息确定训练数据的第一上下文向量和第一相关度信息;在对训练数据与标注数据进行匹配的过程中,提取训练数据的第二上下文信息;根据第二上下文信息确定训练数据的目标向量;将目标向量与标注数据的标注向量进行比对,并记录比对结果;根据比对结果确定第二上下文向量和第二相关度信息。

在该实施例中,处理器将训练数据输入到复合网络模型后,然后对其进行中文及英文翻译。具体地,无论输入的是英文语句还是中文语句,都对其进行翻译,以得到相对应的英文语句及中文语句;在翻译的过程中,对训练数据的上下文信息进行提取,得到第一上下文信息;然后根据第一上下文信息确定训练数据的第一上下文向量和第一相关度信息;同时,将训练数据输入到复合网络模型后,对训练数据进行匹配;在对训练数据与标注数据进行匹配的过程中,提取训练数据的第二上下文信息,具体地,是提取中文语句的上下文信息,以根据第二上下文信息确定训练数据的目标向量;然后将目标向量与标注数据的标注向量进行比对,并做记录;最后根据比对结果确定第二上下文向量和第二相关度信息。

在本发明的一个实施例中,优选地,处理器304具体用于:将第一上下文向量和第一相关度信息输入双向注意力网络,以得到第一计算结果;将第二上下文向量和第二相关度信息输入双向注意力网络,以得到第二计算结果;根据第一计算结果、第二计算结果获取训练数据中的目标词汇。

在该实施例中,在获取的训练数据的上下文向量及相关度信息后,综合考虑在机器翻译过程中获取的第一上下文向量和第一相关度信息,及在句子匹配过程中获取的第二上下文向量和第二相关度信息,以根据上述上下文向量和相关度信息确定目标词汇,即训练数据中的新词。

具体地,在根据第一计算结果、第二计算结果确定训练数据中的目标词汇之前,可以对第一计算结果及第二计算结果进行分析,对相关度较高的词汇加以标记,进行“高亮”处理,在注意力矩阵中增加权重,使得两句话中相关的词汇获得更多的关注,训练效果好。最后通过双向注意力网络输出两个相关的词汇,一个为词库中已有词汇,另一词为我们想要发现的新词。

在本发明的一个实施例中,优选地,处理器304具体用于:获取语料数据;对语料数据进行预处理,以得到训练数据。

在该实施例中,首先选取机器翻译语义相似度数据,然后对不同语言的语料数据做一一匹配,去掉乱码,杂乱无章项,清洗掉不需要的语料数据,并整理标签正确性。对同一语言相关度训练数据做句子(段落)匹配,得到需要的训练数据。

本发明第三方面提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本发明第一方面中任一项的词汇检测方法。

本发明第三发明提出的计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如本发明第一方面中任一项的词汇检测方法,因此具有上述词汇检测方法的全部有益效果,在此不再一一论述。

在本发明的描述中,术语“多个”则指两个或两个以上,除非另有明确的限定,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制;术语“连接”、“安装”、“固定”等均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1