确定短文本相似度的方法和装置制造方法

文档序号:6634210阅读:245来源:国知局
确定短文本相似度的方法和装置制造方法
【专利摘要】本发明提出一种确定短文本相似度的方法和装置,该确定短文本相似度的方法包括采用预设的第一模型和第二模型,获取第一词向量和第二词向量,所述第一词向量是第一短文本包含的词的词向量,所述第二词向量是第二短文本包含的词的词向量,其中,所述第一模型是词向量训练模型,所述第二模型是短文本相似度计算模型;根据所述第一词向量获取第一投影值,以及,根据所述第二词向量获取第二投影值;对所述第一投影值和所述第二投影值进行预设函数运算,得到运算后的函数值,并根据所述函数值确定所述第一短文本与所述第二短文本之间的相似度数值。该方法能够提高短文本相似度数值计算的准确度。
【专利说明】确定短文本相似度的方法和装置

【技术领域】
[0001] 本发明涉及数据处理【技术领域】,尤其涉及一种确定短文本相似度的方法和装置。

【背景技术】
[0002] 短文本相似度计算可以对输入的一对短文本,给出一个分数来描述这对短文本的 相似程度。计算相似度的一方短文本可以是用户在搜索引擎输入的查询词,或是网页的标 题,或是客户购买的关键词等。短文本相似度计算应用广泛,可应用于搜索相关性、广告匹 配等领域。如在搜索相关性领域,搜索引擎希望最后呈现给用户的页面与用户的查询词尽 可能相关;在广告匹配领域,广告商希望触发的关键词与用户的查询词尽可能相关。
[0003] 相关技术中,短文本相似度计算时,可以采用词向量训练模型,得到短文本的词向 量,再将一对短文本的词向量之间的余弦距离作为这对短文本之间的相似度数值。
[0004] 但是,这种方式只采用了词向量训练模型,词向量训练模型是无监督模型,采用该 方式得到的词向量不够准确,从而使得计算的相似度也不够准确。


【发明内容】

[0005] 本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
[0006] 为此,本发明的一个目的在于提出一种确定短文本相似度的方法,该方法可以提 高短文本相似度数值计算的准确度。
[0007] 本发明的另一个目的在于提出一种确定短文本相似度的装置。
[0008] 为达到上述目的,本发明第一方面实施例提出的确定短文本相似度的方法,包括:米用预设的第一模型和第二模型,获取第一词向量和第二词向量,所述第一词向量是第一 短文本包含的词的词向量,所述第二词向量是第二短文本包含的词的词向量,其中,所述第 一模型是词向量训练模型,所述第二模型是短文本相似度计算模型;根据所述第一词向量 获取第一投影值,以及,根据所述第二词向量获取第二投影值;对所述第一投影值和所述第 二投影值进行预设函数运算,得到运算后的函数值,并根据所述函数值确定所述第一短文 本与所述第二短文本之间的相似度数值。
[0009] 本发明第一方面实施例提出的确定短文本相似度的方法,本实施例通过采用第一 模型和第二模型确定词向量,由于第二模型是相似度模型,是有监督的过程,因此可以将无 监督的词向量训练模型与有监督的相似度模型结合,通过两者结合可以提高词向量的准确 度,从而提高短文本相似度数值计算的准确度。
[0010] 为达到上述目的,本发明第二方面实施例提出的确定短文本相似度的装置,包括:第一获取模块,用于米用预设的第一模型和第二模型,获取第一词向量和第二词向量,所述 第一词向量是第一短文本包含的词的词向量,所述第二词向量是第二短文本包含的词的词 向量,其中,所述第一模型是词向量训练模型,所述第二模型是短文本相似度计算模型;第 二获取模块,用于根据所述第一词向量获取第一投影值,以及,根据所述第二词向量获取第 二投影值;确定模块,用于对所述第一投影值和所述第二投影值进行预设函数运算,得到运 算后的函数值,并根据所述函数值确定所述第一短文本与所述第二短文本之间的相似度数 值。
[0011] 本发明第二方面实施例提出的确定短文本相似度的装置,本实施例通过采用第一 模型和第二模型确定词向量,由于第二模型是相似度模型,是有监督的过程,因此可以将无 监督的词向量训练模型与有监督的相似度模型结合,通过两者结合可以提高词向量的准确 度,从而提高短文本相似度数值计算的准确度。
[0012] 本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变 得明显,或通过本发明的实践了解到。

【专利附图】

【附图说明】
[0013] 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变 得明显和容易理解,其中:
[0014] 图1是本发明一实施例提出的确定短文本相似度的方法的流程示意图;
[0015] 图2是本发明实施例采用的模型示意图;
[0016] 图3是本发明实施例中获取第一词向量和第二词向量的流程示意图;
[0017] 图4是本发明另一实施例提出的确定短文本相似度的装置的结构示意图;
[0018] 图5是本发明另一实施例提出的确定短文本相似度的装置的结构示意图。

【具体实施方式】
[0019] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考 附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反, 本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同 物。
[0020] 图1是本发明一实施例提出的确定短文本相似度的方法的流程示意图,该方法包 括:
[0021] Sll :采用预设的第一模型和第二模型,获取第一词向量和第二词向量,所述第一 词向量是第一短文本包含的词的词向量,所述第二词向量是第二短文本包含的词的词向 量,其中,所述第一模型是词向量训练模型,所述第二模型是短文本相似度计算模型。
[0022] 其中,第一模型可以具体为skipgram模型,第二模型可以是相似度sim模型。
[0023] 如图2所示,左侧的是skipgram模型(skipgram model)21,右侧的是sim模 型(sim model)22。skipgram模型是一种已知的用于词向量训练的模型,skipgram模 型包括输入层(input),映射层(projection)和输出层(output),输入是w (t),输出是 w(t-2),w(t_l),w(t+l),w(t+2)等。
[0024] sim模型是用于计算短文本相似度的模型,输入信号分别是两个要计算相似度的 短文本的词向量,两个词向量分别得到对应的映射值,之后根据两个映射值得到作为输出 信号的两个短文本之间的相似度数值。
[0025] 短文本可以是指长度小于预设值的文本,例如,在搜索引擎中,当输入的查询词 (query)包括的字的个数小于38个时,该查询词可以称为短文本。
[0026] 可以采用已有的切词方式对短文本进行切词,得到短文本包括的一个或多个词, 每个词可以对应一个词向量。
[0027] 参见图3,所述采用预设的第一模型和第二模型,获取第一词向量和第二词向量, 包括:
[0028] S31 :获取第一初始值和第二初始值,所述第一初始值是所述第一词向量的初始 值,所述第二初始值是所述第二词向量的初始值。
[0029] 例如,可以随机选取两个词向量的初始值。
[0030] S32:交叉采用所述第一模型和所述第二模型,对所述第一初始值和所述第二初始 值进行交叉迭代更新,直至迭代更新次数达到预设次数。
[0031] 例如,先采用第一模型对第一初始值和第二初始值进行更新,得到第一模型第一 次更新后的值,再采用第二模型对第一模型第一次更新后的值进行更新,得到第二模型第 一次更新后的值,之后再采用第一模型对第二模型第一次更新后的值进行更新,得到第一 模型第二次更新后的值,再采用第二模型对第一模型第二次更新后的值进行更新,得到第 二模型第二次更新后的值,依此类推,直到满足迭代次数要求。
[0032] 可以理解的是,上述以先采用第一模型进行更新为例,实际实施时,也可以先采用 第二模型进行更新再采用第一模型进行更新。
[0033] 本实施例结合skipgram模型和sim模型,得到词向量。本实施例中,通过优化如 下的参数,进行词向量的更新迭代:

【权利要求】
1. 一种确定短文本相似度的方法,其特征在于,包括: 采用预设的第一模型和第二模型,获取第一词向量和第二词向量,所述第一词向量是 第一短文本包含的词的词向量,所述第二词向量是第二短文本包含的词的词向量,其中,所 述第一模型是词向量训练模型,所述第二模型是短文本相似度计算模型; 根据所述第一词向量获取第一投影值,以及,根据所述第二词向量获取第二投影值; 对所述第一投影值和所述第二投影值进行预设函数运算,得到运算后的函数值,并根 据所述函数值确定所述第一短文本与所述第二短文本之间的相似度数值。
2. 根据权利要求1所述的方法,其特征在于,所述采用预设的第一模型和第二模型,获 取第一词向量和第二词向量,包括: 获取第一初始值和第二初始值,所述第一初始值是所述第一词向量的初始值,所述第 二初始值是所述第二词向量的初始值; 交叉采用所述第一模型和所述第二模型,对所述第一初始值和所述第二初始值进行交 叉迭代更新,直至迭代更新次数达到预设次数; 将迭代更新次数达到预设次数后,得到的所述第一初始值的更新后的值,以及所述第 二初始值的更新后的值; 将所述第一初始值的更新后的值确定为所述第一词向量,以及,将所述第二初始值的 更新后的值确定为所述第二词向量。
3. 根据权利要求2所述的方法,其特征在于,采用所述第二模型对所述第一初始值和 所述第二初始值进行迭代更新,包括: 采用如下公式进行迭代更新:
其中,Wii和Woi分别是第一初始值和第二初始值;wr i和WCV i分别是第一初始值 更新后的值和第二初始值更新后的值;α是第二模型中的学习率数值
示偏导运算;
T是第一短文本与第二短文本之间的相关度数值,T = 0,表示第一短文本与第二短文 本不相关,或者T = 1,表示第一短文本与第二短文本相关;λ是预设的平衡第一模型和第 二模型的参数; O = f (Va · VB),f ()是预设的函数,Va · Vb表示Va与Vb的内积运算; Va = g (WIi) , Vb = g (WOi); g()是预设的函数。
4. 根据权利要求2所述的方法,其特征在于,所述第一模型是skipgram模型,采用所述 第一模型对所述第一初始值和所述第二初始值进行迭代更新,包括: 以所述第一初始值和所述第二初始值分别作为所述skipgram模型的输入和输出,对 所述第一初始值和所述第二初始值进行迭代更新,使得如下参数为最优值:
λ是预设的平衡第一模型和第二模型的参数, eSkiPgmm是skipgram模型的误差函数。
5. 根据权利要求1所述的方法,其特征在于,所述根据所述第一词向量获取第一投影 值,以及,根据所述第二词向量获取第二投影值,包括: 采用如下公式,得到所述第一投影值和所述第二投影值:
其中,V;和V;分别是第一投影值和第二投影值;Pr/;和分别是第一词向量和第 二词向量; g()是预设的函数。
6. 根据权利要求1所述的方法,其特征在于,所述对所述第一投影值和所述第二投影 值进行预设函数运算,得到运算后的函数值,并根据所述函数值确定所述第一短文本与所 述第二短文本之间的相似度数值,包括 :
采用如下公式得到运算后的函数值:
,其中,〇是运算后的函数值,f()是预设的函数, 的 内积运算,和4分别是第一投影值和第二投影值; 将所述运算后的函数值确定为所述第一短文本与所述第二短文本之间的相似度数值。
7. 根据权利要求3或5所述的方法,其特征在于,所述g()是均值函数,或者RNN函数。
8. 根据权利要求3或6所述的方法,其特征在于,所述f()是sigmoid函数。
9. 一种确定短文本相似度的装置,其特征在于,包括: 第一获取模块,用于米用预设的第一模型和第二模型,获取第一词向量和第二词向量, 所述第一词向量是第一短文本包含的词的词向量,所述第二词向量是第二短文本包含的词 的词向量,其中,所述第一模型是词向量训练模型,所述第二模型是短文本相似度计算模 型; 第二获取模块,用于根据所述第一词向量获取第一投影值,以及,根据所述第二词向量 获取第二投影值; 确定模块,用于对所述第一投影值和所述第二投影值进行预设函数运算,得到运算后 的函数值,并根据所述函数值确定所述第一短文本与所述第二短文本之间的相似度数值。
10. 根据权利要求9所述的装置,其特征在于,所述第一获取模块包括: 第一单元,用于获取第一初始值和第二初始值,所述第一初始值是所述第一词向量的 初始值,所述第二初始值是所述第二词向量的初始值; 第二单元,用于交叉采用所述第一模型和所述第二模型,对所述第一初始值和所述第 二初始值进行交叉迭代更新,直至迭代更新次数达到预设次数; 第三单元,用于将迭代更新次数达到预设次数后,得到的所述第一初始值的更新后的 值,以及所述第二初始值的更新后的值; 第四单元,用于将所述第一初始值的更新后的值确定为所述第一词向量,以及,将所述 第二初始值的更新后的值确定为所述第二词向量。
11. 根据权利要求10所述的装置,其特征在于,所述第二单元具体用于: 采用如下公式进行迭代更新:

其中,WIi和WOi分别是第一初始值和第二初始值;wr i和WCV i分别是第一初始值 更新后的值和第二初始值更新后的值;α是第二模型中的学习率数值 示偏导运算;
T是第一短文本与第二短文本之间的相关度数值,T = 0,表示第一短文本与第二短文 本不相关,或者T = 1,表示第一短文本与第二短文本相关;λ是预设的平衡第一模型和第 二模型的参数; O = f (Va · VB),f ()是预设的函数,Va · Vb表示Va与Vb的内积运算; Va = g (WIi), Vb = g (WOi); g()是预设的函数。
12. 根据权利要求10所述的装置,其特征在于,所述第一模型是Skipgram模型,所述第 二单元具体用于: 以所述第一初始值和所述第二初始值分别作为所述skipgram模型的输入和输出,对 所述第一初始值和所述第二初始值进行迭代更新,使得如下参数为最优值:
入是预设的平衡第一模型和第二模型的参数, eSkiPgmm是skipgram模型的误差函数。
13. 根据权利要求9所述的装置,其特征在于,所述第二获取模块具体用于: 采用如下公式,得到所述第一投影值和所述第二投影值:
其中,< 和V;分别是第一投影值和第二投影值;和ffO;分别是第一词向量和第 二词向量; g()是预设的函数。
14. 根据权利要求9所述的装置,其特征在于,所述确定模块具体用于: 采用如下公式得到运算后的函数值:
,其中,〇是运算后的函数值,f()是预设的函数,v>v;表示V;与< 的 内积运算,< 和V;分别是第一投影值和第二投影值; 将所述运算后的函数值确定为所述第一短文本与所述第二短文本之间的相似度数值。
15. 根据权利要求11或13所述的装置,其特征在于,所述g ()是均值函数,或者RNN函 数。
16.根据权利要求11或14所述的装置,其特征在于,所述f ()是sigmoid函数。
【文档编号】G06F17/22GK104391828SQ201410645486
【公开日】2015年3月4日 申请日期:2014年11月11日 优先权日:2014年11月11日
【发明者】冯仕堃, 石磊, 何径舟 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1