一种词向量模型的生成方法及装置、设备、存储介质与流程

文档序号:17790888发布日期:2019-05-31 20:12阅读:172来源:国知局
一种词向量模型的生成方法及装置、设备、存储介质与流程

本发明涉及词语的特征表示,尤其涉及一种词向量(wordembedding)模型的生成方法及装置、设备、存储介质。



背景技术:

词向量是词语的特征表示,通过语义词典或机器学习技术将每个词语表示为固定长度的向量。目前,词向量模型在语义网、信息检索、数据挖掘、信息集成、知识管理、文本分类、语音识别、词义消歧等领域发挥着越来越重要的作用。词向量的表示方法主要分为独热表示(one-hotrepresentation)和分布式表示(distributedrepresentation)两种。分布式表示是目前表示词语特征的常用方式。

目前,词向量的分布式表示方式分为两种,一种是词语维度的向量表示模型,如word2vec,一种是文章或段落维度词向量表示模型,如doc2vec。词语维度词向量表示模型具有一定的语义特性,可以根据临近词的语境或词义推测该词的词义。而文章或段落维度词向量表示模型输入不只是邻域窗口内的几个词语,还加入了语料库文本的全局信息,将全局的上下文语境以及邻域词语一起训练神经网络模型,相当于每次在预测单词的概率时,都利用了整个句子的语义。

上述两种词向量表示模型,均通过设置固定大小窗口作为预警输入来训练词向量模型,对于多义词,一个词语往往能够表达多个词义,且多义词不同词义的上下文语境也不同,词向量模型弱化了单独的词义在文本分类中的应用。



技术实现要素:

有鉴于此,本发明实施例为解决现有技术中存在的至少一个问题而提供一种词向量模型的生成方法及装置、设备、存储介质,每个多义词的不同词义均对应唯一的词向量,并且对每个词的词性进行了标注,相比现有词向量技术对于词义的表达更为准确。

本发明实施例的技术方案是这样实现的:

本实施例提供一种词向量模型的生成方法,所述方法包括:

确定待训练的语料库;

对所述待训练的语料库中文本的每一词语的各词义进行词义标注,得到标注后的语料库;

采用doc2vec词向量表示模型对所述标注后的语料库对进行训练,得到所述标注后的语料库对应的词向量模型。

本实施例提供一种词向量模型的生成装置,所述装置包括:

第一确定单元,用于确定待训练的语料库;

标注单元,用于对所述待训练的语料库中文本的每一词语的各词义进行词义标注,得到标注后的语料库;

训练单元,用于采用doc2vec词向量表示模型对所述标注后的语料库对进行训练,得到所述标注后的语料库对应的词向量模型。

本实施例提供一种词向量模型的生成设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述词向量模型的生成方法中的步骤。

本实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述词向量模型的生成方法中的步骤。

本发明实施例提供的一种词向量模型的生成方法及装置、设备、存储介质,其中,确定待训练的语料库;对所述待训练的语料库中文本的每一词语进行词义标注,得到标注后的语料库;采用doc2vec词向量表示模型对所述标注后的语料库对进行训练,得到所述标注后的语料库对应的词向量模型;如此,每个多义词的不同词义均对应唯一的词向量,并且对每个词的词性进行了标注,相比现有词向量技术对于词义的表达更为准确。

附图说明

图1为wordnet的结构图;

图2为本发明实施例词向量模型的生成方法的实现流程示意图;

图3为本发明实施例词向量模型的生成方法的实现流程示意图;

图4为本发明实施例词向量模型的生成方法的实现流程示意图;

图5为本发明实施例词向量模型的生成装置的组成结构示意图;

图6为本发明实施例中计算设备的一种硬件实体示意图。

具体实施方式

词向量的表示方法主要分为独热表示(one-hotrepresentation)和分布式表示(distributedrepresentation)两种。分布式表示是目前表示词语特征的常用方式。

目前,词向量的分布式表示方式分为两种,一种是词语维度的向量表示模型,如word2vec,一种是文章或段落维度词向量表示模型,如doc2vec。word2vec等词语维度的词向量表示模型是通过取一个适当大小的窗口(一般为5个词语)当作语境输入来训练神经网络模型,将每一个词映射成一个固定长度的n维向量,将所有向量放在一起形成一个词向量空间,而每个向量则为该空间中的一个点,因此可以根据词之间的距离来判断它们之间的相似度。这种词语维度词向量表示模型具有一定的语义特性,可以根据临近词的语境或词义推测该词的词义。而doc2vec等文章或段落维度词向量表示模型同样利用了神经网络模型,但是其输入不只是邻域窗口内的几个词语,还加入了语料库文本的全局信息,将全局的上下文语境以及邻域词语一起训练神经网络模型,相当于每次在预测单词的概率时,都利用了整个句子的语义。doc2vec模型将每篇文章或一段文本映射为一个文本向量,同时可以利用了整个句子的语义将一个词映射为一个词向量。该模型可以具有更强的语义特性,具有对上下文进行语义分析的能力。

wordnet是一个覆盖范围宽广的英语词汇语义网。名词、动词、形容词和副词各自被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,并且这些集合之间也由各种关系连接,如同义词、反义词等关系。参见图1,英文单词“wet(湿的)”与英文单词“dry(干的)”之间具有反义词(antonymy)的连接关系,而与“wet”具有同义词(similarity)连接冠词的有五个单词。一个多义词将出现在它的每个意思的同义词集合中。在自然语义处理以及人工智能的各方面研究都具有重要的价值。

在wordnet中查询“animal”一词的同义词结果如下:

synset(‘animal.n.01’)alivingorganismcharacterizedbyvoluntarymovement

synset(‘animal.s.01’)markedbytheappetitesandpassionsofthebody

这个结果说明,“animal”这个单词它有两个意思,一个是指动物,是名词;一个是指来自动物的,是形容词。animal.n.01是对名词animal的编码标识。

word2vec词向量表示模型是通过取一个适当大小的窗口(一般为5个词语)作为语境输入来训练词向量模型。这种词语维度词向量表示模型具有一定的语义特性,可以根据临近词的语境或词义推测该词的词义,但是该词向量模型对于每个词语都使用唯一的词向量表示,即使一个词语能够表达多个词义也不例外。由于多义词不同词义的上下文语境也不同,例如“apple”可以表示水果,也可以表示苹果电子产品这种品牌。对于每个多义词来说,这两种模型训练出的词向量实际上是多个词义的一个折中,这在一定程度上弱化了每个单独的词义例如在文本分类的应用中,一些词语在不同文本中表达的词义各不相同,如果词向量不同区分每个多义词的词义,必然造成分类准确性的下降。同时,这种模型训练出的词向量也无法区分一个词语的词性,是名词、动词、还是形容词,同一个词语可能具有多个词性,如“desert”一词作为动词时表示遗弃的含义,作为名词时就表示沙漠的含义,因此词性的区分对于文本分类以及对文本的理解很重要。

下面结合附图和实施例对本发明的技术方案进一步详细阐述。

本实施例提出一种词向量模型的生成方法,该方法应用于计算设备,该方法所实现的功能可以通过计算设备中的处理器调用程序代码来实现,当然程序代码可以保存在计算机存储介质中,可见,该计算设备至少包括处理器和存储介质。

图2为本发明实施例词向量模型的生成方法的实现流程示意图,如图2所示,该方法包括:

步骤s201,确定待训练的语料库;

一般来说,计算设备在实施的过程中可以为各种类型的具有信息处理能力的设备,例如所述计算设备可以包括手机、平板电脑、台式机、个人数字助理、个人电脑等。

这里,待训练的语料库与具体的语言种类有关,例如,语言种类为中文时,待训练的语料库可以是现代汉语语料库;语言种类为英文时,待训练的语料库可以是维基语料库。在其他的实施例中,待训练的语料库还可以与应用环境有关,例如在电子商务领域,待训练的语料库可以是电子商务活动中产生的语言而形成的语料库;在专利检索领域,待训练的语料库可以是专利所通用那些语言而形成的语料库。

步骤s202,对所述待训练的语料库中文本的每一词语的各词义进行词义标注,得到标注后的语料库;

这里,文本中的词语可以是多义词或单义次,一般来说,具有两个或两个以上意义的词叫多义词。多义词是一词多义,几个意义之间往往有联系。多义词是“单义词”的对称。多义词是具有几个彼此不同而又相互关联的意义的词,这些意义是同属一个本义(基本意义)的转义,引申、派生或衍生意义。

这里,待训练的语料库以文本为划分段,而不是以单词进行划分,这样能够考虑词语的全局信息,从而保证准确性。文本中的每一个词语都需要进行词义标注,特别是每一个词的每一个词义都需要标注,例如,有的词语是多义词,那么该多义词的每一个词义都要进行标注。

在其他的实施例中,所述方法还包括:将文本中的每一个词语都查询多义词词典,如果该词语在多义词词典中,那么就查询该多义词的词义对该词语进行标注,如果该词语不再多义词词典中,那么可以查询语言词典,得到该词语的词义。其中,多义词词典也可以作为语料库。

步骤s203,采用doc2vec词向量表示模型对所述标注后的语料库对进行训练,得到所述标注后的语料库对应的词向量模型。

本实施例中,先对预料库中的多义词进行标注,得到多义词标注的预料库,,然后在对得到标注后的语料库进行训练,得到词向量模型;这样每个多义词的不同词义均对应唯一的词向量,并且对每个词的词性进行了标注,相比现有词向量技术对于词义的表达更为准确;所以,能够解决目前预料库中一个词语只有一个向量,从而不准确的问题。

在其他的实施例中,所述方法还包括:获取待表示的文本;将所述待表示的文本输入所述词向量模型,得到所述待表示的文本中每一词语的词向量。

下面提供一种得到进行多义词标注的标注后的语料库,在其他的实施例中,所述对所述待训练的语料库中文本的每一词语进行词义标注,得到标注后的语料库,包括:

步骤s11,确定所述待训练的语料库中每一所述词语的所有词义的词义向量;

这里,得到词义向量可以采用独热表示法和分布式表示法。

步骤s12,确定每一所述词语在所述待训练的语料库中的上下文信息,确定所述上下文信息的文本向量;

这里,确定文本向量可以采用doc2vec词向量表示模型。

步骤s13,计算所述文本向量与所述词义向量之间的距离,将距离最大对应的词义为所述待训练的语料库中对应的词语进行词义标注,得到标注后的语料库。

这里,计算所述文本向量与所述词义向量之间的距离,将距离最大值对应的词义作为对应词语在所述待训练的语料库中每个上下文所表达的不同词义;将距离最大对应的词义为所述待训练的语料库中对应的词语进行词义标注,得到标注后的语料库。

下面再提供一种得到进行多义词标注的标注后的语料库,在其他的实施例中,所述对所述待训练的语料库中文本的每一词语进行词义标注,得到标注后的语料库,包括:

步骤s21,采用doc2vec词向量表示模型对所述待训练的语料库对进行训练,得到文本向量模型;

步骤s22,基于所述文本向量模型确定每一所述词语的所有词义的词义向量

这里,步骤s21和步骤s22提供了一种实现“确定所述待训练的语料库中每一所述词语的所有词义的词义向量”的方法。

步骤s23,确定每一所述词语在所述待训练的语料库中的上下文信息,基于所述文本向量模型确定所述上下文信息的文本向量;

这里,基于所述文本向量模型确定所述上下文信息的文本向量,包括:将所述上下文信息输入所述文本向量模型,得到所述上下文信息的文本向量。

步骤s24,计算所述文本向量与所述词义向量之间的距离,将距离最大对应的词义为所述待训练的语料库中对应的词语进行词义标注,得到标注后的语料库。

这里,计算所述文本向量与所述词义向量之间的距离,将距离最大值对应的词义作为对应词语在所述待训练的语料库中每个上下文所表达的不同词义;将距离最大对应的词义为所述待训练的语料库中对应的词语进行词义标注,得到标注后的语料库。

在其他的实施例中,所述方法还包括:根据所述待训练的语料库的语言种类确定对应的词汇语义网络,所述词汇语义网络至少描述每一词语的词义;基于所述词汇语义网络获取所述待训练的语料库中每一词语的所有词义。

其中,所述词汇语义网络至少描述每一词语的属性,所述属性包括词义编码和与其他词语的连接关系,所述连接关系包括同义词、反义词;所述词义编码包括词义的词性和词义的文本解释;如果语言种类为英文,那么词汇语义网络可以为wordnet。如果采用词汇语义网络时,对应地,步骤s24中的“将距离最大对应的词义为所述待训练的语料库中对应的词语进行词义标注,得到标注后的语料库”,包括:将距离最大值对应的词义编码为所述待训练的语料库中对应的词语进行词义标注,得到标注后的语料库。

下面提供一种得到进行多义词标注的标注后的语料库,在其他的实施例中,所述对所述待训练的语料库中文本的每一词语进行词义标注,得到标注后的语料库,包括:

步骤s31,根据所述待训练的语料库的语言种类确定对应的词汇语义网络,所述词汇语义网络至少描述每一词语的词义;

在其他的实施例中,所述词汇语义网络至少描述每一词语的属性,所述属性包括词义编码和与其他词语的连接关系,所述连接关系包括同义词、反义词;所述词义编码包括词义的词性和词义的文本解释。

步骤s32,基于所述词汇语义网络获取所述待训练的语料库中每一词语的所有词义。

步骤s33,确定所述待训练的语料库中每一所述词语的所有词义的词义向量;

这里,得到词义向量可以采用独热表示法和分布式表示法。

步骤s34,确定每一所述词语在所述待训练的语料库中的上下文信息,确定所述上下文信息的文本向量;

这里,确定文本向量可以采用doc2vec词向量表示模型。

步骤s35,计算所述文本向量与所述词义向量之间的距离,将距离最大对应的词义为所述待训练的语料库中对应的词语进行词义标注,得到标注后的语料库。

这里,计算所述文本向量与所述词义向量之间的距离,将距离最大值对应的词义作为对应词语在所述待训练的语料库中每个上下文所表达的不同词义;将距离最大对应的词义为所述待训练的语料库中对应的词语进行词义标注,得到标注后的语料库。

在其他的实施例中,所述基于所述文本向量模型确定每一所述词语的所有词义的词义向量,包括:

步骤s41,基于所述词汇语义网络获取所述每一词义的文本解释;

步骤s42,将每一词义的文本解释输入到所述文本向量模型中,获得每一词义的文本解释对应的文本向量;

步骤s43,将每一词义的文本解释对应的文本向量作为词语的词义向量。

本实施例提出了一种基于doc2vec和wordnet的词向量模型的生成方法,本实施例以英文为例进行说明,其他语言类似;该方法包括:首先基于英文维基(wiki)料库利用doc2vec训练一个文本-向量模型,通过此模型即可以获得一段文短文本的文本向量表示;之后通过wordnet获取每个词的所有词义编码以及对应的解释,并将每个词义对应的文本解释输入到doc2vec训练的模型中,获得该词义解释对应的文本向量作为该词义的词义向量;利用邻域窗口的方式确定该词在语料库中的上下文信息,将该上下文信息输入doc2vec训练的模型中,获得该词上下文的文本向量;然后通过计算上下文文本向量与该词每个词义向量的余弦距离,选取距离最大的词义向量对应的wordnet编码,作为该词在语料库中不同上下文中表达的不同词义,并利用wordnet中的编码对语料库文本中的词进行词义标识;最后基于标识的语料库利用word2vec训练多义词词向量。在新生成的多义词词向量模型中,每个多义词的不同词义均对应唯一的词向量,并且对每个词的词性进行了标注,相比现有词向量技术对于词义的表达更为准确。

本实施例提出了一种基于doc2vec和wordnet的多义词词向量模型的生成方法,能够充分的利用语料库的上下文信息以及wordnet语义词典中对词义以及词性的划分信息,为多义词的每个词义分别训练一个词向量,使得一个多义词对应多个词向量,并且对每个词义的词性进行了标注可以更准确的表达一个词的语义信息。图3为本发明实施例词向量模型的生成方法的实现流程示意图,如图3所示,该方法共包含五个步骤:

步骤s301,基于英文wiki语料库训练doc2vec模型;

首先选择英文wiki语料库进行初始的doc2vec模型训练,通过此doc2vec模型即可以获得一个词语的词向量表示,同时可以通过一段文本获得该段文本的文本向量表示。

步骤s302,基于wordnet获取词义编码以及词义向量;

首先,通过wordnet语义词典获取每个词的所有词义编码以及对应的解释,词义编码包含该词语本身、词义的词性以及编号。

如在wordnet中获取animal一词的信息如下:

synset(‘animal.n.01’)alivingorganismcharacterizedbyvoluntarymovement

synset(‘animal.s.01’)markedbytheappetitesandpassionsofthebody

‘animal.n.01’以及‘animal.s.01’是对animal两个词义的词义编码。一个是名词,指动物,一个是形容词,指来自动物的。最后是每个词义的具体解释。

然后,将每个词义对应的解释输入到训练的doc2vec模型中,获得该词义解释对应的文本向量作为该词义的词义向量;

如将‘animal.n.01’对应的解释alivingorganismcharacterizedbyvoluntarymovement输入到doc2vec模型中,获得该词义的对应的文本向量(0.033173-0.252127-0.794737-1.1412350.6780412.522937-0.833398……1.8228920.152297-1.032652-0.7251050.790077),将该向量作为animal.n.01的词义向量

步骤s303,获得词语上下文的文本向量;

利用邻域窗口的方式确定该词在语料库中的上下文信息,在本实施例中邻域窗口大小为7,即该词的上文中的最邻近的7个词与下文中最邻近的7个词组成一段文本。然后将该上下文信息输入doc2vec训练的模型中,获得该词上下文的文本向量。

步骤s304,用余弦距离进行词义确认与标注;

通过计算上下文文本向量与该词的每个词义向量之间的余弦距离,根据距离最大值对应的词义向量所描述的wordnet词义编码,确定该词在语料库中每个上下文中表达的不同词义。并利用wordnet中的编码对语料库文本中的词进行词义与词性的标识。如animal在不同的文本上下文中,当表示名词动物时为animal.n.01.animal,表示形容词动物的时为animal.s.01.animal。

步骤s305,基于标注后的预料库训练多义词词向量模型;

利用步骤s304对语料库中的词语进行词义确认与标注后,重新训练词向量模型,将每个词义分别训练一个词向量,使得一个多义词对应多个词向量,使得词义更加明确。同时可以通过编码获得每个词的词性,使得词语信息更加丰富。

本实施例提出一种基于doc2vec和wordnet的词向量模型的生成方法,充分利用语料库的上下文信息以及wordnet语义词典中对词义以及词性的划分信息,为多义词的每个词义分别训练一个词向量,使得一个多义词对应多个词向量,并且对每个词义的词性进行了标注可以更准确的表达一个词的语义信息。图4为本发明实施例词向量模型的生成方法的实现流程示意图,如图4所示,该方法包括:

步骤s401,采用英文wiki料库对doc2vec模型训练,得到文本-向量模型;

这里,此时获得一段短文本的文本向量表示;

步骤s402,通过wordnet获取每个词的所有词义编码以及对应的解释,并将每个词义对应的文本解释输入到上述训练得到的文本-向量模型中,获得该词义解释对应的文本向量作为该词义的词义向量;

步骤s403,利用邻域窗口的方式确定该词在语料库中的上下文信息,将该上下文信息输入doc2vec训练的模型中,获得该词上下文的文本向量;

步骤s404,通过计算上下文文本向量与该词每个词义向量的余弦距离,选取距离最大的词义向量对应的wordnet编码,作为该词在语料库中不同上下文中表达的不同词义,并利用wordnet中的编码对语料库文本中的词进行词义标识;

步骤s405,基于标识的语料库利用word2vec训练多义词词向量。

本实施例中,每个多义词的不同词义均对应唯一的词向量,并且对每个词的词性进行了标注,相比现有词向量技术对于词义的表达更为准确。

以上实施例中,将doc2vec与wordnet相结合,设计了一种词向量表达的新方法,该方法利用了语料库中上下文的全局信息,可以获得准确的上下文语境;同时利用了wordnet中词义分类,词义解释等信息,对多义词进行了有效的词义划分和标注,为每个多义词的不同词义分别训练唯一的词向量模型。使得词语语义表达更加准确。

以上实施例中,采用wordnet中词义编码对多义词的每个词义进行标注,该编码含有词性信息,如名词、动词等,可以丰富词语的语义信息,根据上下文语境以及词性可以更加准确对词义进行表达。

与现有技术相比,上述实施例具有以下技术优点:将doc2vec与wordnet相结合,不仅利用了语料库中上下文信息,同时利用了wordnet中词义分类、词义解释以及词性等信息,对多义词进行了有效的词义划分和标注,为每个多义词的不同词义分别训练唯一的词向量模型。除此之外,还采用wordnet中词义编码对多义词的每个词义进行标注,该编码含有词性信息,如名词、动词等,可以丰富词语的语义信息,根据上下文语境以及词性可以更加准确对词义进行表达。

基于前述的实施例,本发明实施例提供一种词向量模型的生成装置,该装置包括所包括的各单元、以及各单元所包括的各模块,可以通过边缘计算设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(cpu)、微处理器(mpu)、数字信号处理器(dsp)或现场可编程门阵列(fpga)等。

图5为本发明实施例词向量模型的生成装置的组成结构示意图,如图5所示,所述装置500包括第一确定单元501、标注单元502和训练单元503,其中:

第一确定单元501,用于确定待训练的语料库;

标注单元502,用于对所述待训练的语料库中文本的每一词语进行词义标注,得到标注后的语料库;

训练单元503,用于采用doc2vec词向量表示模型对所述标注后的语料库对进行训练,得到所述标注后的语料库对应的词向量模型。

在其他的实施例中,所述标注单元包括:

第一确定模块,用于确定所述待训练的语料库中每一所述词语的所有词义的词义向量;

第二确定模块,用于确定每一所述词语在所述待训练的语料库中的上下文信息;

第三确定模块,用于确定所述上下文信息的文本向量;

计算模块,用于计算所述文本向量与所述词义向量之间的距离;

标注模块,用于将距离最大对应的词义为所述待训练的语料库中对应的词语进行词义标注,得到标注后的语料库。

在其他的实施例中,所述第一确定模块,用于采用doc2vec词向量表示模型对所述待训练的语料库对进行训练,得到文本向量模型;基于所述文本向量模型确定每一所述词语的所有词义的词义向量。

在其他的实施例中,第三确定模块,用于将所述上下文信息输入所述文本向量模型,得到所述上下文信息的文本向量。

在其他的实施例中,所述装置还包括:第二确定单元,用于根据所述待训练的语料库的语言种类确定对应的词汇语义网络,所述词汇语义网络至少描述每一词语的词义;第一获取单元,用于基于所述词汇语义网络获取所述待训练的语料库中每一词语的所有词义。

在其他的实施例中,所述词汇语义网络至少描述每一词语的属性,所述属性包括词义编码和与其他词语的连接关系,所述连接关系包括同义词、反义词;所述词义编码包括词义的词性和词义的文本解释;所述标注单元,用于将距离最大值对应的词义编码为所述待训练的语料库中对应的词语进行词义标注,得到标注后的语料库。

在其他的实施例中,所述基于所述文本向量模型确定每一所述词语的所有词义的词义向量,包括:基于所述词汇语义网络获取所述每一词义的文本解释;将每一词义的文本解释输入到所述文本向量模型中,获得每一词义的文本解释对应的文本向量;将每一词义的文本解释对应的文本向量作为词语的词义向量。

在其他的实施例中,所述装置还包括:

第二获取单元,用于获取待表示的文本;

输入单元,用于将所述待表示的文本输入所述词向量模型,得到所述待表示的文本中每一词语的词向量。

以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本发明装置实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解。

需要说明的是,本发明实施例中,如果以软件功能模块的形式实现上述的词向量模型的生成方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:u盘、移动硬盘、只读存储器(readonlymemory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实施例不限制于任何特定的硬件和软件结合。

对应地,本发明实施例提供一种词向量模型的生成设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述词向量模型的生成方法中的步骤。

对应地,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述词向量模型的生成方法中的步骤。

这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本发明装置实施例中未披露的技术细节,请参照本发明存储介质和设备实施例的描述而理解。

需要说明的是,图6为本发明实施例中计算设备的一种硬件实体示意图,如图6所示,该计算设备600的硬件实体包括:处理器601、通信接口602和存储器603,其中

处理器601通常控制计算设备600的总体操作。

通信接口602可以使计算设备通过网络与其他终端或服务器通信。

存储器603配置为存储由处理器601可执行的指令和应用,还可以缓存待处理器701以及计算设备700中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(flash)或随机访问存储器(randomaccessmemory,ram)实现。

应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(readonlymemory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。

或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1