与查询相关的多排序模型集成算法的制作方法

文档序号:6483448阅读:369来源:国知局
专利名称:与查询相关的多排序模型集成算法的制作方法
技术领域
本发明涉及信息检索及机器学习领域,特别是多个与查询相关的排序支持向量机 模型融合算法。
背景技术
排序学习是目前信息检索与机器学习领域研究的热点问题。信息检索是指从大量 的文档集合中查找到与给定的查询相关的信息子集,是处理海量文本信息的重要手段。在 目前绝大多数的信息检索系统中,其检索出来的信息(如文档等)都以排序的方式返回给 用户,因此,信息检索模型研究的核心问题也就归结为如何高效地为信息进行排序。排序学 习的目的是寻找一个能够精确预测未知数据i的标号y的决策函数/(幻。传统的排序学习方法大致可以分为三个大类基于回归的排序学习、基于分类的 排序学习和基于顺序回归的排序学习。基于顺序回归的排序学习算法是当前排序学习研 究的热点,包括以排序感知机算法(PRank)、改进的排序感知机算法(Large Marge PRank) 和支持向量顺序回归算法(Support Vector Ordinal Regression)为代表的基于数据 点(Point-wise)排序学习算法,以排序支持向量机算法(Rank SVM)、RankBoost算法和 RankNet算法为代表的基于有序对(I^ir-wise)的排序学习算法。近年来,一些研究者针对排序问题的特性,提出了多种排序学习算法,有些方法暗 含着一定的与查询相关的多排序模型集成思想。这些方法可分为三类一是在建立模型的 过程中以一个查询下所有的样本为一个训练单元,称之为基于列表(Listwise)的排序学 习;二是以排序性能的评价指标作为优化目标,直接优化评价指标(Directly optimizing evaluation measures);三是建立多个模型,对于不同的查询使用不同的模型,称之为与查 询相关的排序学习(Query Dependent Ranking)。基于列表的排序学习方法以一个列表为基本的学习单元,取得了比基于有序对的 排序学习方法更好的效果。Cao等在2007年第一次提出基于列表的排序学习方法ListNet, 以似然函数(Likelihood)作为输出排序列表与真实排序列表之间差异的度量。此后,又 相继提出了以余弦差异(Cosine)为度量RankCos,以交叉熵(Cross Entropy)为度量的 LiseMLE 等。针对传统排序学习损失函数优化过程与排序性能评价指标脱离的问题,一些研究 者提出在损失函数优化过程考虑具有排序特性评价指标(如MAP、NDCG)的排序学习方法, 称为直接优化评价指标排序学习。Yue等提出基于结构化支持向量机(Structure SVM)的 SVM MAP方法;Xu等同时提出了直接优化评价指标并使用Boosting方法优化的AdaRank方法。与查询相关的排序学习方法在传统共性排序模型基础上,对不同查询建立不同的 特性模型,并根据测试查询找出与之对应的特性模型。Geng等在2008年提出基于KNN方法 的与查询相关的排序学习算法,并分别提出离线学习和在线学习两种模型。但是,基于列表的排序学习方法和直接优化评价指标排序学习方法在建模过程中都没有特别考虑查询之间的差异。与查询相关的排序学习算法虽比传统建立单一模型增加 考虑了查询特性,但依然存在两个问题一是特性的选择过程与排序模型的建立相脱离,并 没有体现于排序模型损失上;二是训练得到多个模型,不便于最终排序结果的处理。

发明内容
本发明与传统方法不同之处在于首先建立多个子模型,然后考虑不同查询之间 的差异性,建立与查询相关的多排序模型集成模型。其步骤包括以排序支持向量机为子排序模型,以每一个查询及其相关文档为训练子集,查 询-文档对为基本训练数据,建立样本级训练模型,着重于构建新的能反映排序学习问题 中的查询差异性和有序性的训练数据;以样本级训练模型的输出作为训练数据,在整个训练数据集上建立查询级训练模 型,给出新的损失函数作为优化目标,并利用此损失函数实现样本级模型融合;当有新的查询需要预测时,需要构建与训练数据形式相同的预测数据,因此需要 使用样本级模型构建特征数据和查询级模型两步预测。将本发明提出的算法应用于文本检索与网页检索的实验表明,使用本发明提出的 与查询相关的多排序模型集成模型可以取得比传统排序学习模型更好的性能。本发明提出 的多模型融合思想除排序学习之外,还可应用于多元分类、序列标注等问题,在文本分类, 信息检索、网络搜索等领域具有广泛的应用前景。


图1与查询相关的多排序模型集成算法流程图
具体实施例方式1.数据采集及预处理将文本文档或互联网中的网页与用户查询进行匹配,建立查询-文档对。所有查 询-文档对都被表示成了特征向量的形式。本发明主要采用了以下特征第一类是基本特征,主要反映了查询与文档的各个域之间的匹配情况,比如共现词频
权利要求
1.与查询相关的多排序模型集成算法,其特征在于,为每一个查询及其相关文档集合 建立一个子排序模型,并将子排序模型进行向量化表示,进而将多个查询相关的排序模型 转化为特征数据,从而实现多排序模型的集成。
2.根据权利1与查询相关的多排序模型集成算法,其特征在于将多个子排序模型进行 向量化表示后转化为特征数据,且可以描述查询及其相关文档的特性,体现出不同查询及 其相关文档之间的差异。
3.与查询相关的多排序模型集成算法,包括四个步骤1.数据采集及预处理、2.子排 序模型的训练、3.多排序模型的集成训练4.使用集成排序模型对检索文档结果进行排序。
4.根据权利要求3的一种多查询相关的排序模型融合算法,其具体步骤如下步骤Si.将文本文档或互联网中的网页与用户查询进行匹配,建立查询-文档对。所 有查询-文档对都被表示成了特征向量的形式;步骤S2.以每一个查询及其相关文档为训练子集,查询-文档对为基本训练数据,建立 样本级训练模型,着重于构建新的能反映排序学习问题中的查询差异性和有序性的训练数 据;步骤S3.以样本级训练模型的输出作为训练数据,在整个训练数据集上建立查询级训 练模型,给出新的损失函数作为优化目标,并利用此损失函数实现样本级模型融合;步骤S4.当使用集成排序模型对新查询的检索结果进行排序时,需要构建与训练数据 形式相同的预测数据,因此需要使用样本级模型构建特征数据和查询级模型预测两步。
5.根据权利要求3或4的与查询相关的多排序模型集成,其特征在于在查询级和样 本级建立新的损失函数作为优化目标,并利用此损失函数调节不同查询产生损失之间的权 重。
全文摘要
本发明公开一种全新的与查询相关的多排序模型集成方法。该方法为每一个查询及其相关文档建立子排序模型,并将子排序模型进行向量化表示,进而将多个查询相关的排序模型转化为特征数据,从而实现多排序模型的集成。并以排序支持向量机为子排序模型,在查询级和样本级建立新的损失函数作为优化目标,并利用此损失函数调节不同查询产生损失之间的权重,提出多查询相关的排序支持向量机融合算法。将本发明提出的与查询相关的多排序模型集成算法应用于实际任务,可以取得比传统模型更好的性能。本发明提出的多模型融合方法除排序学习之外,还可应用于多元分类、序列标注等问题,在信息检索、网络搜索等领域具有广泛的应用前景。
文档编号G06F17/30GK102043776SQ20091007078
公开日2011年5月4日 申请日期2009年10月14日 优先权日2009年10月14日
发明者卢敏, 廖振, 王扬, 谢茂强, 黄亚楼 申请人:南开大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1