与查询相关的多排序模型集成算法的制作方法

文档序号：6483448阅读：369来源：国知局

专利名称：与查询相关的多排序模型集成算法的制作方法
技术领域：
本发明涉及信息检索及机器学习领域，特别是多个与查询相关的排序支持向量机模型融合算法。
背景技术：
排序学习是目前信息检索与机器学习领域研究的热点问题。信息检索是指从大量的文档集合中查找到与给定的查询相关的信息子集，是处理海量文本信息的重要手段。在目前绝大多数的信息检索系统中，其检索出来的信息(如文档等)都以排序的方式返回给用户，因此，信息检索模型研究的核心问题也就归结为如何高效地为信息进行排序。排序学习的目的是寻找一个能够精确预测未知数据i的标号y的决策函数/(幻。传统的排序学习方法大致可以分为三个大类基于回归的排序学习、基于分类的排序学习和基于顺序回归的排序学习。基于顺序回归的排序学习算法是当前排序学习研究的热点，包括以排序感知机算法(PRank)、改进的排序感知机算法(Large Marge PRank) 和支持向量顺序回归算法(Support Vector Ordinal Regression)为代表的基于数据点(Point-wise)排序学习算法，以排序支持向量机算法(Rank SVM)、RankBoost算法和 RankNet算法为代表的基于有序对(I^ir-wise)的排序学习算法。近年来，一些研究者针对排序问题的特性，提出了多种排序学习算法，有些方法暗含着一定的与查询相关的多排序模型集成思想。这些方法可分为三类一是在建立模型的过程中以一个查询下所有的样本为一个训练单元，称之为基于列表(Listwise)的排序学习；二是以排序性能的评价指标作为优化目标，直接优化评价指标(Directly optimizing evaluation measures)；三是建立多个模型，对于不同的查询使用不同的模型，称之为与查询相关的排序学习(Query Dependent Ranking)。基于列表的排序学习方法以一个列表为基本的学习单元，取得了比基于有序对的排序学习方法更好的效果。Cao等在2007年第一次提出基于列表的排序学习方法ListNet，以似然函数(Likelihood)作为输出排序列表与真实排序列表之间差异的度量。此后，又相继提出了以余弦差异(Cosine)为度量RankCos，以交叉熵(Cross Entropy)为度量的 LiseMLE 等。针对传统排序学习损失函数优化过程与排序性能评价指标脱离的问题，一些研究者提出在损失函数优化过程考虑具有排序特性评价指标(如MAP、NDCG)的排序学习方法，称为直接优化评价指标排序学习。Yue等提出基于结构化支持向量机(Structure SVM)的 SVM MAP方法；Xu等同时提出了直接优化评价指标并使用Boosting方法优化的AdaRank方法。与查询相关的排序学习方法在传统共性排序模型基础上，对不同查询建立不同的特性模型，并根据测试查询找出与之对应的特性模型。Geng等在2008年提出基于KNN方法的与查询相关的排序学习算法，并分别提出离线学习和在线学习两种模型。但是，基于列表的排序学习方法和直接优化评价指标排序学习方法在建模过程中都没有特别考虑查询之间的差异。与查询相关的排序学习算法虽比传统建立单一模型增加考虑了查询特性，但依然存在两个问题一是特性的选择过程与排序模型的建立相脱离，并没有体现于排序模型损失上；二是训练得到多个模型，不便于最终排序结果的处理。

发明内容
本发明与传统方法不同之处在于首先建立多个子模型，然后考虑不同查询之间的差异性，建立与查询相关的多排序模型集成模型。其步骤包括以排序支持向量机为子排序模型，以每一个查询及其相关文档为训练子集，查询-文档对为基本训练数据，建立样本级训练模型，着重于构建新的能反映排序学习问题中的查询差异性和有序性的训练数据；以样本级训练模型的输出作为训练数据，在整个训练数据集上建立查询级训练模型，给出新的损失函数作为优化目标，并利用此损失函数实现样本级模型融合；当有新的查询需要预测时，需要构建与训练数据形式相同的预测数据，因此需要使用样本级模型构建特征数据和查询级模型两步预测。将本发明提出的算法应用于文本检索与网页检索的实验表明，使用本发明提出的与查询相关的多排序模型集成模型可以取得比传统排序学习模型更好的性能。本发明提出的多模型融合思想除排序学习之外，还可应用于多元分类、序列标注等问题，在文本分类，信息检索、网络搜索等领域具有广泛的应用前景。

图1与查询相关的多排序模型集成算法流程图
具体实施例方式1.数据采集及预处理将文本文档或互联网中的网页与用户查询进行匹配，建立查询-文档对。所有查询-文档对都被表示成了特征向量的形式。本发明主要采用了以下特征第一类是基本特征，主要反映了查询与文档的各个域之间的匹配情况，比如共现词频
权利要求
1.与查询相关的多排序模型集成算法，其特征在于，为每一个查询及其相关文档集合建立一个子排序模型，并将子排序模型进行向量化表示，进而将多个查询相关的排序模型转化为特征数据，从而实现多排序模型的集成。
2.根据权利1与查询相关的多排序模型集成算法，其特征在于将多个子排序模型进行向量化表示后转化为特征数据，且可以描述查询及其相关文档的特性，体现出不同查询及其相关文档之间的差异。
3.与查询相关的多排序模型集成算法，包括四个步骤1.数据采集及预处理、2.子排序模型的训练、3.多排序模型的集成训练4.使用集成排序模型对检索文档结果进行排序。
4.根据权利要求3的一种多查询相关的排序模型融合算法，其具体步骤如下步骤Si.将文本文档或互联网中的网页与用户查询进行匹配，建立查询-文档对。所有查询-文档对都被表示成了特征向量的形式；步骤S2.以每一个查询及其相关文档为训练子集，查询-文档对为基本训练数据，建立样本级训练模型，着重于构建新的能反映排序学习问题中的查询差异性和有序性的训练数据；步骤S3.以样本级训练模型的输出作为训练数据，在整个训练数据集上建立查询级训练模型，给出新的损失函数作为优化目标，并利用此损失函数实现样本级模型融合；步骤S4.当使用集成排序模型对新查询的检索结果进行排序时，需要构建与训练数据形式相同的预测数据，因此需要使用样本级模型构建特征数据和查询级模型预测两步。
5.根据权利要求3或4的与查询相关的多排序模型集成，其特征在于在查询级和样本级建立新的损失函数作为优化目标，并利用此损失函数调节不同查询产生损失之间的权重。
全文摘要
本发明公开一种全新的与查询相关的多排序模型集成方法。该方法为每一个查询及其相关文档建立子排序模型，并将子排序模型进行向量化表示，进而将多个查询相关的排序模型转化为特征数据，从而实现多排序模型的集成。并以排序支持向量机为子排序模型，在查询级和样本级建立新的损失函数作为优化目标，并利用此损失函数调节不同查询产生损失之间的权重，提出多查询相关的排序支持向量机融合算法。将本发明提出的与查询相关的多排序模型集成算法应用于实际任务，可以取得比传统模型更好的性能。本发明提出的多模型融合方法除排序学习之外，还可应用于多元分类、序列标注等问题，在信息检索、网络搜索等领域具有广泛的应用前景。
文档编号G06F17/30GK102043776SQ20091007078
公开日2011年5月4日申请日期2009年10月14日优先权日2009年10月14日
发明者卢敏, 廖振, 王扬, 谢茂强, 黄亚楼申请人:南开大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王扬;黄亚楼;谢茂强;卢敏;廖振
技术所有人：南开大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。