一种基于多粒度主题模型的短文本哈希学习方法

文档序号：6637311阅读：190来源：国知局

一种基于多粒度主题模型的短文本哈希学习方法
【专利摘要】本发明公开了一种基于多粒度主题模型的短文本哈希学习方法，采用外部大规模语料库训练候选主题模型，可依据数据集类型选择最优的多粒度主题特征，并赋予权重，由该方法选择出来的多粒度主题模型有较好的区分度，在构建稀疏短文本间相似语义关联的同时有助于哈希函数学习；本发明方法采用了两种基于多主题模型的哈希学习策略，分别为多粒度主题特征融合、哈希码学习同哈希函数训练相独立的学习方法，以及多粒度主题特征独立、哈希码学习同哈希函数训练相耦合的学习方法，较基于单粒度主题特征方法，在精度和召回率等多项测评指标上均有大幅度提升。
【专利说明】一种基于多粒度主题模型的短文本哈希学习方法

【技术领域】
[0001] 本发明涉及文本信息检索领域，更具体地涉及一种短文本哈希学习方法，可应用于海量短文本快速语义检索、问答系统相似问句快速匹配、微博语义相似内容推荐等子领域。

【背景技术】
[0002] 随着社交媒体的迅猛发展，大量的短文本以各种形式产生，如：微博、短消息、问答网站中的问题，以及在线广告等。为了解决海量文本数据的快速相似查询问题，近几年相关研究者提出一种语义哈希方法，它可以将文本特征映射到具有相似信息保存性的二进制编码中，并在快速语义搜索中得到了广泛的应用。然而，目前许多哈希学习方法都是基于关键词特征空间的，短文本原始特征空间的稀疏性导致这些哈希方法不能很好的保存语义相似信息。例如，有三个短文本：
[0003] 文本1 :"拉斐尔纳达尔错过了澳网公开赛"；
[0004] 文本2 :"罗杰费德勒荣获大满贯头衔"；
[0005] 文本3 :"泰格伍兹打破多次高尔夫记录"。
[0006] 显然，基于关键词特征空间的哈希学习方法无法保存文本1、文本2和文本3之间的语义关联信息。近些年，一些研究者尝试通过潜层主题模型来解决文本表示中语义鸿沟给哈希学习方法所带来的上述问题。但是，基于特定粒度的主题特征并没有充分表示文本间的内在语义关联。如我们所知，指定不同主题数的主题模型能够从文本中抽取出不同层次的语义特征。当我们设定的主题数较多时，可以从文本中抽取出细粒的隐层主题特征，如：从文本1、2中抽取出"网球"，从文本3中抽取出"高尔夫"。这种粒度的主题特征无法构建文本3和其他文本间的关联性。当主题数设定的较少时，我们可以从文本中抽取出较粗粒的隐层主题特征，如：从文本1、2及3中都抽取出"运动员"和"明星"。这种粒度的主题特征缺乏区分度信息而无法有效地学习哈希映射函数。因而，针对短文本哈希问题，多粒度主题特征更适合用于哈希码的相似度保存及哈希映射函数学习。
[0007] 另一方面，在哈希学习方法中应该充分挖掘文本中的标签信息。因为在很多实际应用中，文本都是具有多标签信息的。例如：问答系统中，提问者会给自己的问句张贴所属类别或相关类别标签；在微博文本中，很多用户会通过" #关键词"形式给微博张贴相关内容标签。因此，有必要充分挖掘这些标签信息来增强相关文本间的语义相似度。

【发明内容】

[0008] 针对上述问题，作为本发明的一个方面，本发明提出了一种基于多粒度主题模型的短文本哈希离线训练方法，包括以下步骤：
[0009] 步骤1，利用大规模语料库训练N个候选主题模型T = IT1, T2, ...，TN}，其中所述大规模语料库为外部通用的大规模语料库，N为训练得到的候选主题模型的数目，为一个正整数；
[0010] 步骤2,从训练集X中随即抽取一部分带有标签信息的样本f选择M个最优多粒度主题模型集合及对应权重U ={> (T1), y (T2), ...，y (Tn) }，其中，M为预先设定的最优多粒度主题模型的数目，为一个正整数；
[0011] 步骤3,计算训练集原始特征的TF-IDF特征w，并进行归一化；
[0012] 步骤4,从最优的M个主题模型中抽取多粒度主题特征{ 0 p 0 2, . . .，0 M};
[0013] 步骤5,通过两种学习策略融合多粒度主题特征及标签信息进行哈希学习，得到训练集哈希码和哈希函数。
[0014] 其中，在步骤2中，所述选择M个最优多粒度主题模型集合及对应权重的步骤包括：
[0015] 步骤2. 1，从训练样本X中随机采样小部分带有标签的样本f ;
[0016] 步骤2. 2,从候选的N个主题模型中抽出样本集文的多粒度主题特征汍其中主题特征0为文本上主题概率分布P (z I X),并初始化权重向量ii = 0;
[0017] 步骤2. 3,开始遍历样本集合i中的每个样本皂；
[0018] 步骤2. 4,寻找样本矣.的两组近邻集合々+--+(毛)和;
[0019] 其中，集合〃+--+沃)是从同样本矣所带标签有任意匹配的样本集合中找到k+近邻，另一个集合(幻是从同样本彳所带标签未有任意匹配的样本集合中找到f近邻，k+ = k- = 10 ;
[0020] 步骤2. 5,开始遍历候选主题集合T中的每个主题模型Ti ;
[0021] 步骤2. 6,按照下面的公式（1)更新当前主题模型Ti的权重值i! (Ti):

【权利要求】
1. 一种基于多粒度主题模型的短文本哈希离线训练方法，包括以下步骤：步骤1，利用大规模语料库训练N个候选主题模型T= {1\，T2,. . .，TN}，其中所述大规模语料库为外部通用的大规模语料库，N为训练得到的候选主题模型的数目，为一个正整数；步骤2,从训练集X中随即抽取一部分带有标签信息的样本f选择M个最优多粒度主题模型集合及对应权重U 0\)，y(T2)，...，y(TN)}，其中，M为预先设定的最优多粒度主题模型的数目，为一个正整数；步骤3,计算训练集原始特征的TF-IDF特征w，并进行归一化；步骤4,从最优的M个主题模型中抽取多粒度主题特征{ 0 0 2, . . .，0 M}; 步骤5,通过两种学习策略融合多粒度主题特征及标签信息进行哈希学习，得到训练集哈希码和哈希函数。
2. 根据权利要求1所述的基于多粒度主题模型的短文本哈希离线训练方法，其中在步骤2中，所述选择M个最优多粒度主题模型集合及对应权重的步骤包括：步骤2. 1，从训练样本X中随机采样小部分带有标签的样本f; 步骤2. 2,从候选的N个主题模型中抽出样本集爻的多粒度主题特征!，其中主题特征0为文本上主题概率分布p(z|x),并初始化权重向量y= 0; 步骤2. 3,开始遍历样本集合f中的每个样本矣；步骤2.4,寻找样本為的两组近邻集合為)和; 其中，集合&++(#是从同样本矣所带标签有任意匹配的样本集合中找到k+近邻，另一个集合hwra,)是从同样本$所带标签未有任意匹配的样本集合中找到f近邻，k+ =f= 10 ；步骤2. 5,开始遍历候选主题集合T中的每个主题模型凡；步骤2. 6,按照下面的公式（1)更新当前主题模型的权重值y〇\):
步骤2. 7,判断候选主题模型T是否已经全部遍历完毕，若是则继续，若否则跳转至步骤 2. 5 ; 步骤2. 8,判断样本集合文是否已经全部遍历完毕，若是则继续，若否则跳转至步骤 2. 3 ；步骤2. 9,权重向量更新完毕之后，直接根据前M个最高权重值选出对应的主题模型集合〇,即为最优多粒度主题模型。
3.根据权利要求1所述的基于多粒度主题模型的短文本哈希离线训练方法，其中在步骤5中，所述两种学习策略如下所示：第一策略，基于多粒度主题特征融合、哈希码学习同哈希函数训练相独立的学习方法，包括以下步骤：步骤5.1，将多粒度主题特征{0:，02，...，0M}及原始特征w整合到一个高维向量中：
其中，入为原始特征与多粒度主题特征的权衡系数，说A也}为多粒度主题特征之间的权重调节系数：A ; 步骤5.2,基于高维特征Q构造相似度矩阵s，同时引入标签信息增强相关文本间的语义相似度；构建局部相似度矩阵，并重新定义文本之间的相似度计算方法如下：
其中，NNk (x)表示样本x的k近邻集合，eg为置信系数；当两个样本Xi和&共享任意相同标签时= 1)，置Cij 一个较高的值a;相反地，如果两个样本Xi和Xj不相关时（1^. =〇)，置eg-个较低的值b，如下所示：
其中，参数a和b满足1彡a彡b> 0 ; 步骤5. 3,引入到两步哈希方法中进行学习；通过引入一个两阶段的自学习式哈希框架，哈希码和哈希函数可独立学习，优化目标函数如下：
s.t.YG{-1,l}nX1,Yt1 = 0,YtY=I 其中，Sij是基于高维特征Q构造的局部相似度矩阵，yi是文本Xi的哈希码，| | ? ||F 是F-范数；通过松弛哈希码离散化的约束条件Ye{-1，l}nxl，最优的1维实值向量f可以通过求解拉普拉斯特征映射问题解决；步骤5. 4,得到1维实值向量f及其中值向量= ；步骤5. 5,采用m为阈值对实值向量:f进行二值化，得到哈希码Y;所述哈希码Y即为训练样本集语料X映射后的1维二进制编码集合；步骤5. 6,训练1个线性支持向量机分类器；基于前面得到的1维哈希码及现有训练集语料X的特征集合学习1个线性支持向量机二值分类器f(x) =sgn(wTx)，输出为0或1;以及第二策略，基于多粒度主题特征独立、哈希码学习同哈希函数训练相耦合的学习方法，包括以下步骤：步骤5. 1，提取训练样本集X的M+1种特征集合{w，0 0 2, . . .，0 M}; 步骤5. 2,基于M+1种特征构造M+1个相似度矩阵集合以，S2, . . .，SM+1}，同时引入标签信息增强相关文本间的语义相似度；构建局部相似度矩阵，并重新定义文本之间的相似度计算方法如下：
其中，NNk (x)表示样本x的k近邻集合，eg为置信系数；当两个样本Xi和&共享任意相同标签时= 1)，置Cij 一个较高的值a;相反地，如果两个样本Xi和Xj不相关时（1^. =〇)，置eg-个较低的值b，如下所示：
其中，参数a和b满足1彡a彡b> 0 ; 步骤5. 3,引入到多源哈希方法中进行学习；通过引入一种多源哈希学习框架，同时进行哈希码和哈希函数学习；直接对M+1种特征所对应的相似度矩阵{SpS2, . . .，SM+1}进行线性组合，如下：
其中，是第k个特征对应的相似度矩阵；通过引入一个nXn对角矩阵D(k)，其对角元
则上式可重新为如下形式：
其中，L(k)是定义在第k个特征上的拉普拉斯矩阵；该步骤整体优化目标函数如下：
s.t.YG{-1,l}nXk,Yt1= 0, YtY=I,aT1 = 1,a^〇其中，和C2是权衡系数，通过交叉验证方式进行参数寻优；a为M+1维调和系数向量，来权衡M+1种特征的线性函数输出权重；松弛哈希码离散化的约束条件Ye{_l，l}nxl，并参考多源哈希学习方法中的迭代优化过程进行求解，可得到1维实值向量？，M+1维调和系数向量a，及M+1个线性函数{ff(1)，W(2)，...，W(M+1)}; 步骤5. 4,得到1维实值向量；f及其中值向量= ; 步骤5. 5,采用m为阈值对实值向量f进行二值化，得到哈希码Y; 步骤5. 6,由步骤5. 3得到M+1个1维线性哈希函数及调和系数向量a。
4. 一种基于多粒度主题模型的短文本哈希检索方法，包括以下步骤：步骤1，计算查询文本q的TF-IDF特征w，并进行归一化；步骤2,对如权利要求1至3任意一项所述的基于多粒度主题模型的短文本哈希离线训练方法中选定的训练文本集X进行主题特征抽取，从最优的M个主题模型中抽取多粒度主题特征{0 p 0 2, . . .，9; 步骤3,通过如权利要求1至3任意一项所述的基于多粒度主题模型的短文本哈希离线训练方法得到的哈希函数得到所述查询文本的哈希码yq: 步骤4,通过所述查询文本的哈希码在二值汉明空间中进行匹配搜索来对所述查询文本进行语义相似检索。
5. 根据权利要求4所述的基于多粒度主题模型的短文本哈希检索方法，其中在步骤3 中所述通过哈希函数得到查询文本的哈希码的步骤包括：第一策略，基于多粒度主题特征融合、哈希码学习同哈希函数训练相独立的学习方法的在线哈希编码步骤包括：步骤3.1，将多粒度主题特征{0:，02，...，0M}及原始特征w整合到一个高维向量中
步骤3. 2,通过如权利要求1至3任意一项所述的基于多粒度主题模型的短文本哈希离线训练方法得到的1个线性支持向量机二值分类器对高维特征Q进行二分类得到查询样本q的1维哈希码；或者第二策略，基于多粒度主题特征独立、哈希码学习同哈希函数训练相耦合的学习方法的在线哈希编码步骤包括：步骤3. 1，得到查询样本q的M+1种特征{w，0 ^ 0 2，…，0 M}; 步骤3. 2,通过如权利要求1至3任意一项所述的基于多粒度主题模型的短文本哈希离线训练方法得到的M+1个1维线性函数{W(1)，W(2)，. . .，W(M+1)}及输出权重向量a进行映射，得到1维实值低维向量之：
步骤3. 3,采用m为阈值对实值向量&进行二值化，得到哈希码yq。
6. -种基于多粒度主题的短文本哈希学习方法，包括以下步骤：离线训练阶段，通过大规模语料库对输入的短文本训练集X= {Xl，x2,. . .，xn}、对应标签信息t={tpt2, . . .，tn}及最优多粒度主题数M进行离线训练，得到所述短文本训练集的哈希码和哈希函数、最优多粒度主题模型〇= ，TM}和权重向量y= {> 〇\)， y(T2)，? --，y(TN)};以及在线预测阶段，根据所述离线训练阶段得到的哈希函数、最优多粒度主题模型〇={Tp T2,...，TM}，权重向量y= {> 〇\)，y(T2)，...，y(TN)}计算待查询文本的哈希码和哈希函数，通过哈希码在二值汉明空间中进行匹配搜索来对查询文本进行语义相似检索。
7. 根据权利要求6所述的基于多粒度主题的短文本哈希学习方法，其中所述离线训练阶段采用如权利要求1至3任意一项所述的基于多粒度主题模型的短文本哈希离线训练方法来得到所述短文本训练集的哈希码和哈希函数、最优多粒度主题模型0 = {1\，T2,...， TM}和权重向量U= {> 〇\)，y(T2)，…，y(TN)}。
8. 根据权利要求6所述的基于多粒度主题的短文本哈希学习方法，其中所述在线预测阶段采用如权利要求4或5所述的基于多粒度主题模型的短文本哈希检索方法来根据所述离线训练阶段得到的哈希函数、最优多粒度主题模型〇 ={TpT2,. . .，TM}，权重向量y= {> 〇\)，y(T2)，. ..，y(TN)}计算待查询文本的哈希码和哈希函数。
【文档编号】G06F17/30GK104408153SQ201410729347
【公开日】2015年3月11日申请日期:2014年12月3日优先权日:2014年12月3日
【发明者】郝红卫, 许家铭, 徐博, 田冠华, 王方圆申请人:中国科学院自动化研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郝红卫;许家铭;徐博;田冠华;王方圆;
技术所有人：中国科学院自动化研究所;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。