一种词向量的生成方法和装置与流程

文档序号:12063652阅读:来源:国知局

技术特征:

1.一种词向量的生成方法,其特征在于,所述方法包括:

对获取到的第一训练分词集进行文本深度表示模型word2vec处理,得到所述第一训练分词集中每个训练分词的词向量;

接收新分词;其中,所述新分词不存在于所述第一训练分词集中;

获取所述新分词的训练文本,对所述新分词的训练文本进行分词处理,得到所述新分词的训练分词,利用所述新分词和所述新分词的训练分词组成第二训练分词集;

对所述第二训练分词集进行word2vec处理,得到所述第二训练分词集中每个训练分词的词向量;

根据所述第一训练分词集中每个训练分词的词向量和所述第二训练分词集中每个训练分词的词向量,确定出所述新分词加入至所述第一训练分词集中的词向量。

2.根据权利要求1所述的方法,其特征在于,所述根据所述第一训练分词集中每个训练分词的词向量和所述第二训练分词集中每个训练分词的词向量,确定出所述新分词加入至所述第一训练分词集中的词向量,包括:

从所述第二训练分词集中,选取出满足预设条件的训练分词;

根据所述满足预设条件的训练分词在所述第一训练分词集中的词向量和所述满足预设条件的训练分词在所述第二训练分词集中的词向量,确定出所述新分词加入至所述第一训练分词集中的词向量。

3.根据权利要求2所述的方法,其特征在于,所述从所述第二训练分词集中,选取出满足预设条件的训练分词,包括:

在所述第二训练分词集中,计算每个训练分词的词向量与新分词的词向量之间的相似度;

根据所述每个训练分词的词向量与新分词的词向量之间的相似度,按照从大到小的顺序从所述第二训练分词集中选取出预设数目的训练分词。

4.根据权利要求2所述的方法,其特征在于,所述从所述第二训练分词集中,选取出满足预设条件的训练分词,包括:

从所述第二训练分词集中,按照训练分词选取策略选取训练分词;

其中,所述训练分词选取策略为:选取的训练分词的词向量与所述新分词的词向量之间的相似度大于预设值。

5.根据权利要求2所述的方法,其特征在于,所述根据所述满足预设条件的训练分词在所述第一训练分词集中的词向量和所述满足预设条件的训练分词在所述第二训练分词集中的词向量,确定出所述新分词加入至所述第一训练分词集中的词向量,包括:

对所述满足预设条件的训练分词在所述第二训练分词集中的词向量进行加权平均计算,得到第一加权中心向量;

计算所述新分词的词向量与所述第一加权中心向量之间的相似度;

对所述满足预设条件的训练分词在所述第一训练分词集中的词向量进行加权平均计算,得到第二加权中心向量;

基于相似度相等规则,根据所述新分词的词向量与所述第一加权中心向量之间的相似度和所述第二加权中心向量,确定出所述新分词加入至所述第一训练分词集中的词向量;

其中,所述相似度相等规则为:所述新分词的词向量与所述第一加权中心向量之间的相似度等于所述新分词加入至所述第一训练分词集中的词向量与所述第二加权中心向量之间的相似度。

6.一种词向量的生成装置,其特征在于,所述装置包括:

第一处理模块,用于对获取到的第一训练分词集进行文本深度表示模型word2vec处理,得到所述第一训练分词集中每个训练分词的词向量;

接收模块,用于接收新分词;其中,所述新分词不存在于所述第一训练分词集中;

获取模块,用于获取所述新分词的训练文本,对所述新分词的训练文本进行分词处理,得到所述新分词的训练分词,利用所述新分词和所述新分词的训练分词组成第二训练分词集;

第二处理模块,用于对所述第二训练分词集进行word2vec处理,得到所述第二训练分词集中每个训练分词的词向量;

确定模块,用于根据所述第一训练分词集中每个训练分词的词向量和所述第二训练分词集中每个训练分词的词向量,确定出所述新分词加入至所述第一训练分词集中的词向量。

7.根据权利要求6所述的装置,其特征在于,所述确定模块,包括:

选取子模块,用于从所述第二训练分词集中,选取出满足预设条件的训练分词;

确定子模块,用于根据所述满足预设条件的训练分词在所述第一训练分词集中的词向量和所述满足预设条件的训练分词在所述第二训练分词集中的词向量,确定出所述新分词加入至所述第一训练分词集中的词向量。

8.根据权利要求7所述的装置,其特征在于,所述选取子模块,具体用于在所述第二训练分词集中,计算每个训练分词的词向量与新分词的词向量之间的相似度;根据所述每个训练分词的词向量与新分词的词向量之间的相似度,按照从大到小的顺序从所述第二训练分词集中选取出预设数目的训练分词。

9.根据权利要求7所述的装置,其特征在于,所述选取子模块,具体用于从所述第二训练分词集中,按照训练分词选取策略选取训练分词;其中,所述训练分词选取策略为:选取的训练分词的词向量与所述新分词的词向量之间的相似度大于预设值。

10.根据权利要求6所述的装置,其特征在于,所述确定子模块,具体用于:对所述满足预设条件的训练分词在所述第二训练分词集中的词向量进行加权平均计算,得到第一加权中心向量;计算所述新分词的词向量与所述第一加权中心向量之间的相似度;对所述满足预设条件的训练分词在所述第一训练分词集中的词向量进行加权平均计算,得到第二加权中心向量;基于相似度相等规则,根据所述新分词的词向量与所述第一加权中心向量之间的相似度和所述第二加权中心向量,确定出所述新分词加入至所述第一训练分词集中的词向量;其中,所述相似度相等规则为:所述新分词的词向量与所述第一加权中心向量之间的相似度等于所述新分词加入至所述第一训练分词集中的词向量与所述第二加权中心向量之间的相似度。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1