一种体现查询差异的直接优化性能指标排序方法

文档序号：6546999阅读：238来源：国知局

一种体现查询差异的直接优化性能指标排序方法
【专利摘要】一种体现查询差异的直接优化性能指标排序方法。其包括：步骤1.网页爬取；步骤2.数据预处理及特征提取；步骤3.建立样本级排序模型；步骤4.建立查询级排序模型；步骤5.预测新查询。本发明在排序模型建立过程中考虑查询差异，基于大规模真实数据的实验结果表明，使用本发明提供的体现查询差异的直接优化性能指标排序方法可以取得比传统排序学习模型更好的性能。本发明提供的方法除排序学习之外，还可应用于多类分类、序列标注等问题，在文本分类、信息检索、网络搜索等领域具有广泛的应用前景。
【专利说明】一种体现查询差异的直接优化性能指标排序方法
【技术领域】
[0001]本发明属于网络搜索和机器学习【技术领域】，特别是涉及一种体现查询差异的直接优化性能指标排序方法。
【背景技术】
[0002]排序学习旨在为目标对象按照某种规律确定一个等级顺序，是目前网络搜索与机器学习领域研究的热点问题；现有排序学习方法可分为三类:基于数据点排序学习方法，基于有序对的排序学习方法和基于列表的排序学习方法。排序学习在信息检索、网页搜索等方面有着广泛的应用前景。
[0003]与传统的机器学习任务(如分类任务等)相比，排序学习问题具有自身特性；由于待排序的文档分别是由不同的查询检索得到的，因此只有同一个查询检索到的文档之间才有序关系；在排序学习任务中，不同查询及其对应文档之间，如在数据分布、评价指标和预测未知查询能力等方面，存在显著的差异；现有排序学习方法在建立排序模型过程中，没有考虑查询及其相关文档之间的差异，在一定程度上影响了排序模型的性能；因此，有必要在建立排序模型过程中考虑不同查询及其相关文档之间的差异。
[0004]近年来提出的部分排序学习方法在一定程度上考虑了查询之间的差异；与本发明研究紧密相关的包括两大类方法:一是与查询相关的排序学习，二是排序模型融合与查询相关的排序学习方法建立多个排序模型，对于不同的预测查询使用不同的排序模型预测；Geng等基于K近邻方法，提出了与查询相关的排序学习方法。Ni等将排序样本与查询相关的性质抽象为分组学习问题，使用共性模型和特性模型共同预测排序结果。Peng等提出使用JS-散度选择与未知查询最相关的排序模型算法。以上三种与查询相关的排序学习方法虽考虑了排序样本与查询相关的特性，但仍存在以下一些不足:1.与查询相关的排序学习方法将训练集割裂为若干个训练子集；此方法只注意到训练集中样本的区别，没有考虑到样本之间还存在着联系；2.每个与查询相关排序子模型只使用训练集中的部分样本而非所有样本参与训练，导致排序模型性能不佳；3.训练过程中需要建立大量排序模型，模型训练的时间代价过大；排序模型融合主要包括以下几种方法。Qin等提出依照查询-文档对的相关程度标注将整个数据集划分为多个数据子集，而后使用BordaCount算法融合多个子排序模型的结果。Liu等将排序模型融合问题转化为半正定规划问题，使用马尔科夫过程建模并优化。Bian等提出一种基于主题的多排序模型融合方法，使用支持向量机方法建立排序模型；排序模型融合方法虽然在性能上取得比传统使用单一模型决策更好的性能，但是在子模型建立过程中并未特别考虑排序学习中查询之间存在的差异；此外，多数方法使用计算概率、加权融合等方法简单线性合并子模型，并未明确提出一种适用于排序学习问题的融合函数；但是，基于列表的排序学习方法和直接优化评价指标排序学习方法在建模过程中都没有特别考虑查询之间的差异。与查询相关的排序学习方法虽比传统建立单一模型增加考虑了查询特性，但依然存在两个问题:一是特性的选择过程与排序模型的建立相脱离，并没有体现于排序模型损失上；二是训练得到多个模型，不便于最终排序结果的处理。

【发明内容】

[0005]为了解决上述问题，本发明的目的在于提供一种体现查询差异的直接优化性能指标排序方法。
[0006]为了达到上述目的，本发明提供的体现查询差异的直接优化性能指标排序方法包括按顺序执行的下列步骤:
[0007]步骤1、网页爬取:从互联网中爬取网页，并解析处理，留下文本连接信息，形成网页数据集；
[0008]步骤2、数据预处理及特征提取:将步骤I中形成的网页数据集与用户查询进行匹配，建立查询-文档对；所有查询-文档对都被表示成了特征向量的形式，形成特征数据集;
[0009]步骤3、建立样本级排序模型:以排序支持向量机为子排序模型，以步骤2中形成的特征数据集中的每一个查询及其相关文档为训练子集，查询-文档对为基本训练数据，建立样本级训练模型，着重于构建新的能反映排序学习问题中的查询差异性和有序性的训练数据；
[0010]步骤4、建立查询级排序模型:以步骤3中形成的样本级训练模型的输出作为训练数据，在整个训练数据集上建立查询级训练模型，给出新的损失函数作为优化目标，并利用此损失函数实现样本级模型融合；
[0011]步骤5、预测新查询:当有新的查询需要预测时，需要构建与训练数据形式相同的预测数据，使用样本级模型构建特征数据和查询级模型两步预测，得到最终的排序结果。
[0012]在步骤2中，所述的数据预处理及特征提取的具体方法是:主要采用四大类共64维特征:第一类是20个基本内容特征，主要反映了查询与网页的各个组成部分之间的匹配情况，包括共现词频tf、文档翻转频率idf、文档长度dl及它们的各种组合形式；第二类是24个高级内容特征，主要包括概率模型BM25和统计语言模型LMIR检索模型，对该查询-文档对的打分，以及这些打分的变型形式；第三类是12个超链接特征，主要包括PageRank、HITS在内的各种链接分析算法对该网页的打分；第四类是8个网络层次特征，这主要反映了网页所在的网络中的一些结构信息。
[0013]在步骤3中，所述的建立样本级排序模型的具体方法是:
[0014]在多排序模型的融合方法中，首先需要建立子排序模型；每一个子排序模型由一个查询及其相关文档建立；不同子排序模型之间能够体现出查询之间的差异性；
[0015]对于每一个查询qi e Q,将这个查询与其所有的相关文档组成查询-文档对；每
一个查询-文档对〈q” (Iij)都用一个特征向量描述；
【权利要求】
1.一种体现查询差异的直接优化性能指标排序方法，其特征在于:所述的体现查询差异的直接优化性能指标排序方法包括按顺序执行的下列步骤: 步骤1、网页爬取:从互联网中爬取网页，并解析处理，留下文本连接信息，形成网页数据集；步骤2、数据预处理及特征提取:将步骤I中形成的网页数据集与用户查询进行匹配，建立查询-文档对；所有查询-文档对都被表示成了特征向量的形式，形成特征数据集；步骤3、建立样本级排序模型:以排序支持向量机为子排序模型，以步骤2中形成的特征数据集中的每一个查询及其相关文档为训练子集，查询-文档对为基本训练数据，建立样本级训练模型，着重于构建新的能反映排序学习问题中的查询差异性和有序性的训练数据；步骤4、建立查询级排序模型:以步骤3中形成的样本级训练模型的输出作为训练数据，在整个训练数据集上建立查询级训练模型，给出新的损失函数作为优化目标，并利用此损失函数实现样本级模型融合；步骤5、预测新查询:当有新的查询需要预测时，需要构建与训练数据形式相同的预测数据，使用样本级模型构建特征数据和查询级模型两步预测，得到最终的排序结果。
2.根据权利要求1所述的体现查询差异的直接优化性能指标排序方法，其特征在于:在步骤2中，所述的数据预处理及特征提取的具体方法是:主要采用四大类共64维特征:第一类是20个基本内容特征，主要反映了查询与网页的各个组成部分之间的匹配情况，包括共现词频tf、文档翻转频率idf、文档长度dl及它们的各种组合形式；第二类是24个高级内容特征，主要包括概率模型BM25和统计语言模型LMIR检索模型，对该查询-文档对的打分，以及这些打分的变型形式；第三类是12个超链接特征，主要包括PageRank、HITS在内的各种链接分析算法对该网页的打分；第四类是8个网络层次特征，这主要反映了网页所在的网络中的一些结构信息。
3.根据权利要求1所述的体现查询差异的直接优化性能指标排序方法，其特征在于:在步骤3中，所述的建立样本级排序模型的具体方法是: 在多排序模型的融合方法中，首先需要建立子排序模型；每一个子排序模型由一个查询及其相关文档建立；不同子排序模型之间能够体现出查询之间的差异性；对于每一个查询Qi e Q,将这个查询与其所有的相关文档组成查询-文档对；每一个查询-文档对〈1，(Iij)都用一个特征向量^描述；4 = '?(I) 其中:D为特征向量\的维数；以查询为单位将整个训练数据集S =划分为η个数据子集；随后，在每一个训练子集上建立子排序模型；假设排序决策函数f为线性损失函数，Μ；)=iVt(2) 以子模型的输出作为子模型特征的描述，每一个子模型的输出为一维列向量，由融合模型调节每一维的权重。
4.根据权利要求1所述的体现查询差异的直接优化性能指标排序方法，其特征在于:在步骤4中，所述的建立查询级排序模型的具体方法是: 基于多排序模型融合思想设计融合函数；基于评价指标NDCG，体现查询差异的直接优化性能指标排序方法融合函数设计为:
5.根据权利要求4所述的体现查询差异的直接优化性能指标排序方法，其特征在于:所述的直接优化排序性能的融合函数的优化求解是使用梯度上升方法: 对于所有的X e R，指数函数exp(x)均为0-1函数的上界；因此，对于所有的X e R, I [x>0] < exp (X)均成立；即,
【文档编号】G06F17/30GK103984733SQ201410213581
【公开日】2014年8月13日申请日期:2014年5月20日优先权日:2014年5月20日
【发明者】王扬申请人:国家电网公司, 国网天津市电力公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王扬
技术所有人：国家电网公司;国网天津市电力公司
我是此专利的发明人

上一篇：滤波器组训练方法及系统和图像关键点定位方法及系统的制作方法
上一篇：一种空间操作式鼠标的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。