一种句向量的融合方法和装置的制造方法_2

文档序号：9667303阅读：来源：国知局

042]
[0043]其中，
[0044] Dk为所述第一文本信息中包括的第一词向量的集合D中的元素，
[0045] d]k为对词向量D通过语料库查找后所生成第二词向量的集合d中的元素，
[0046] η为d中第二词向量的个数，
[0047] N为语料库中的词向量的个数，
[0048]tfkSd中每个词出现的频率的集合tf中的元素，
[0049] idf# d中每个词的逆向文件频率的集合idf中的元素。
[0050] 由于每条文本会产生多个词向量，采用上述基于文本多组词向量融合为句向量的方法，所有词向量维度固定，而且可以使得每条文本信息转换为一条词向量，充分考虑到多词向量的语义。
[0051] 通过上述方法得到的第一句向量Sk通常比较高维，试验时千万条用户文本语料信息，产生句向量维度可高达10万维，因此，，在上述实施例的基础上优选是还包括：对计算得到的所述文本句向量进行降维处理，以生成设定维度的句向量。
[0052] 在上述实施例的基础上，在根据所述文本词向量与所述第二词向量之间的空间相似度，确定与所述文本词向量对应的文本句向量之后，优选是还包括：
[0053] 将得到句向量与设定的训练模型进行比对，并根据比对结果识别所述待处理文本中包括的目标信息。
[0054] 在将得到的句向量与设定的训练模型进行比对之前，还包括：获取计算得到的句向量的相匹配的训练模型。训练模型是机器学习中所使用的模型，需要在具体的场景中，使用具体的数据，选择合适的模型，如回归，分类，概率估计等，通过学习训练的过程，得到相应模型的参数，让最终的模型能够最好的模拟场景，供预测，分类等。
[0055] 示例性的，可以通过将得到的句向量与预先训练好的模型进行相关度计算，当计算结果超过一个设定的相关度阈值时，确定与所述目标特征向量对应的待识别数据中包含有目标信息。
[0056] 综上，本发明实施例所提供的技术方案，通过根据文本词向量与第二词向量之间的空间相似度，将文本中多组词向量融合为句向量，可以有效避免破坏单独词向量的内在语义信息，实现了根据文本具体的应用场景，结合上下句的语义进行句向量融合的技术效果，提升句向量对待处理文本的表述能力，此外，本实施例的方法还可以应用于对文本中的目标信息进行识别。
[0057] 实施例二
[0058]图2为本发明实施例二提供的一种句向量的融合装置的结构示意图。如图2所示，该装置包括：
[0059] 文本词向量提取模块210,用于提取待处理文本中包括的文本词向量；
[0060] 第二词向量生成模块220,用于在设定语料库中对所述文本词向量进行查找，生成第二词向量；
[0061] 文本句向量生成模块230,用于根据所述文本词向量与所述第二词向量之间的空间相似度，确定与所述文本词向量对应的文本句向量。
[0062] 本发明实施例所提供的技术方案，通过根据文本词向量与第二词向量之间的空间相似度，将文本中多组词向量融合为句向量，可以有效避免破坏单独词向量的内在语义信息，实现了根据文本具体的应用场景，结合上下句的语义进行句向量融合的技术手段，提升了句向量对待处理文本的表述能力。
[0063] 进一步的，文本句向量生成模块230用于：
[0064] 通过计算所述文本词向量中各个向量元素与所述第二词向量中各个向量元素之间的余弦距离，确定与所述文本词向量对应的文本句向量。
[0065] 具体的，文本句向量生成模块230进一步用于：
[0066] 根据公式：
[0067]
[0068] 计算第一句向量；其中：
[0069]
[0070]其中，
[0071]Dk为所述第一文本信息中包括的第一词向量的集合D中的元素，
[0072] d]k为对词向量D通过语料库查找后所生成第二词向量的集合d中的元素，
[0073]η为d中第二词向量的个数，
[0074]N为语料库中的词向量的个数，
[0075]tfkSd中每个词出现的频率的集合tf中的元素，
[0076]idf# d中每个词的逆向文件频率的集合idf中的元素。
[0077] 在上述方案的基础上，该装置还包括：
[0078] 句向量降维模块240,用于对计算得到的所述文本句向量进行降维处理，以生成设定维度的句向量。
[0079] 此外，在上述方案的基础上，该装置可选是还包括：
[0080]目标信息识别模块250,用于在根据所述文本词向量与所述第二词向量之间的空间相似度，确定与所述文本词向量对应的文本句向量之后，将得到句向量与设定的训练模型进行比对，并根据比对结果识别所述待处理文本中包括的目标信息。
[0081] 本发明实施例所提供的句向量的融合装置可用于执行本发明实施例所提供的句向量的融合方法，具备相应的功能和有益效果。
[0082] 注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。
【主权项】
1. 一种句向量的融合方法，其特征在于，包括：提取待处理文本中包括的文本词向量；在设定语料库中对所述文本词向量进行查找，生成第二词向量；根据所述文本词向量与所述第二词向量之间的空间相似度，确定与所述文本词向量对应的文本句向量。2. 根据权利要求1所述的方法，其特征在于，根据所述文本词向量与所述第二词向量之间的空间相似度，确定与所述文本词向量对应的文本句向量包括：通过计算所述文本词向量中各个向量元素与所述第二词向量中各个向量元素之间的余弦距离，确定与所述文本词向量对应的文本句向量。3. 根据权利要求2所述的方法，其特征在于，通过所述文本词向量中各个向量元素与所述第二词向量中各个向量元素之间的余弦距离，确定与所述文本词向量对应的文本句向量具体包括：根据公式：计算第一句向量Sk;其中：其中， Dk为所述第一文本信息中包括的第一词向量的集合D中的元素， d]k为对词向量D通过语料库查找后所生成第二词向量的集合d中的元素， η为d中第二词向量的个数， N为语料库中的词向量的个数， tfΛ d中每个词出现的频率的集合tf中的元素， idfkS d中每个词的逆向文件频率的集合idf中的元素。4. 根据权利要求3所述的方法，其特征在于，还包括：对计算得到的所述文本句向量进行降维处理，以生成设定维度的句向量。5. 根据权利要求1-4任一项所述的方法，其特征在于，在根据所述文本词向量与所述第二词向量之间的空间相似度，确定与所述文本词向量对应的文本句向量之后，还包括：将得到句向量与设定的训练模型进行比对，并根据比对结果识别所述待处理文本中包括的目标信息。6. -种句向量的融合装置，其特征在于，包括：文本词向量提取模块，用于提取待处理文本中包括的文本词向量；第二词向量生成模块，用于在设定语料库中对所述文本词向量进行查找，生成第二词向量；文本句向量生成模块，用于根据所述文本词向量与所述第二词向量之间的空间相似度，确定与所述文本词向量对应的文本句向量。7. 根据权利要求1所述的装置，其特征在于，文本句向量生成模块用于：通过计算所述文本词向量中各个向量元素与所述第二词向量中各个向量元素之间的余弦距离，确定与所述文本词向量对应的文本句向量。8. 根据权利要求7所述的装置，其特征在于，文本句向量生成模块进一步用于：根据公式：计算第一句向量Sk;其中：其中， Dk为所述第一文本信息中包括的第一词向量的集合D中的元素， d]k为对词向量D通过语料库查找后所生成第二词向量的集合d中的元素， η为d中第二词向量的个数， N为语料库中的词向量的个数， tfΛ d中每个词出现的频率的集合tf中的元素， idfkS d中每个词的逆向文件频率的集合idf中的元素。9. 根据权利要求8所述的装置，其特征在于，还包括：句向量降维模块，用于对计算得到的所述文本句向量进行降维处理，以生成设定维度的句向量。10. 根据权利要求6-9任一项所述的装置，其特征在于，还包括：目标信息识别模块，用于在根据所述文本词向量与所述第二词向量之间的空间相似度，确定与所述文本词向量对应的文本句向量之后，将得到句向量与设定的训练模型进行比对，并根据比对结果识别所述待处理文本中包括的目标信息。
【专利摘要】本发明公开了一种句向量的融合方法和装置。该方法包括：提取待处理文本中包括的文本词向量；在设定语料库中对所述文本词向量进行查找，生成第二词向量；根据所述文本词向量与所述第二词向量之间的空间相似度，确定与所述文本词向量对应的文本句向量。本发明实施例所提供的技术方案，通过根据文本词向量与第二词向量之间的空间相似度，将文本中多组词向量融合为句向量，可以有效避免破坏单独词向量的内在语义信息，根据文本具体的应用场景，结合上下句的语义进行句向量融合，提升了句向量对待处理文本的表述能力。
【IPC分类】G06F17/27, G06F17/24
【公开号】CN105426354
【申请号】CN201510727239
【发明人】吕志高, 邹国平
【申请人】杭州九言科技股份有限公司
【公开日】2016年3月23日
【申请日】2015年10月29日

完整全部详细技术资料下载

当前第2页1 2