一种对排序结果进行验证的方法和系统的制作方法

文档序号:6580730阅读:162来源:国知局
专利名称:一种对排序结果进行验证的方法和系统的制作方法
技术领域
本发明属于电信业务中的信息搜索应用技术领域,尤其涉及一种对 排序结果进行验证的方法和系统。
背景技术
在信息大爆炸的时代,用户需要更准确定位所需分类信息,由此衍 生出垂直搜索技术以满足客户日益增长变化的需求。为实现此目的,搜 索引擎需要不断根据客户需求完善其自身的排序规则,使之做到准确、 合理、高效。
大多数搜索产品在面临新增排序需求或调整排序结果时,并不能较 完美的满足用户需求,无法较好的按照客户业务需求进行排序,搜索结 果不尽如人意。急需在排序算法调整后对搜索结果的准确性做完备的验 证,但目前业内尚无较好的方法对搜索结果的排序进行衡量,主要存在
如下问题
1、 大多情况下,搜索结果的排序效果需要依靠人工的方式进行验 证,再对比业务需求修改排序参数来优化排序效果,效率低。
2、 对排序效果的判断存在个人主观性,无法完全客观反映验证实 际情况。
3、 对排序效果的衡量没有可量化的标准,无法对各类排序算法或 算法不同参数组合的排序结果进行自动对比。

发明内容
本发明提出 一种对排序结果进行验证的方法和系统,可以对多个搜 索算法的效果进行比较,并提高检验排序结果的效率。
根据本发明的一个方面,提出一种对排序结果进行验证的方法,包括以下步骤搜索引擎根据要搜索的关键词获取搜索结果,并对搜索结 果标注位置序号,得到用位置序号组成的搜索结果序列;将各搜索结果 划分成具有权重系数的多个信息文本,根据关键词与信息文本的匹配次 数以及信息文本的权重系数计算信息相关度r ,
其中,p表示关键词在字段中的匹配次数,
w表示权重系数;根据对信息文本设定的业务M和权重系数计算信息
丰富度C, c二Fl l + F2、2 + i^w3 +…+ f^而,其中,W表示权重系 数,U气—,>F *W ;根据信息相关度和信息丰富度计算排序分数
按分数大小顺序排列排序分数,并将搜索引擎搜索结 果中的位置序号对应标注到各排序后分数,得到用位置序号组成的排序
结果序列;计算用位置序号組成的排序结果序列与用位置序号组成的搜 索结果序列的相似度;将相似度与配置的阈值进行比较,并记录比较结 果,在比较结果中包括相似度大于阈值的次数以及相似度小于阈值的次 数;当比较结果中相似度大于阁值的次数大于设定次数,或者比较结果 中相似度小于阈值的次数小于设定次数,搜索引擎的排序结果未通过验 证,否则通过验i正。
进一步,计算用位置序号組成的排序结果序列与用位置序号组成的 搜索结果序列的相似度的操作,包括以下步骤计算排序结果序列中位 置序号与搜索结果序列中相应位置的位置序号的差值的绝对值;将各计 算结果进行加和运算得到相似度。
进一步,计算差值的绝对值的操作,还包括对各差值的绝对值配以 权重系数的步骤。
进一步,计算用位置序号组成的排序结果序列与用位置序号组成的
搜索结果序列的相似度的操作,包括以下步骤计算排序结果序列中两 个位置序号的差值的绝对值,并将各计算结果进4亍加和运算得到绝对排 序结果序列;计算搜索结果序列中相应位置的两个位置序号的差值的绝 对值,并将各计算结果进行加和运算得到绝对搜索结果序列;将绝对排 序结果序列与绝对搜索结果序列的差值的绝对值作为相似度。
进一步,将相似度与配置的阈值进行比较,并记录比较结果的操作,包括以下步骤判断相似度是否大于配置的阈值,如果是,将记录 结杲中相似度大于阈值的次数加1,否则,将相似度小于阈值的次数加 1;或者判断相似度与配置的阈值的差值的绝对值是否在设定范围内, 如果是,将记录结果中相似度小于阈值的次数加1,否则,将记录结果 中相似度大于阈值的次数加1。
进一步,将搜索引擎搜索结果中的位置序号对应标注到各排序后分 数的操作,还包括以下步骤当计算得到的排序分数相同时,将位置序
:排序后分数。 、 、 、 ;、
根据本发明的另一个方面,还提出一种对排序结果进行验证的系 统,包括搜索引擎,根据要搜索的关键词获取搜索结果,对搜索结果 标注位置序号,并得到用位置序号组成的搜索结果序列;信息相关度计 算模块,将各搜索结果划分成具有权重系数的多个信息文本,根据关键 词与信息文本的匹配次数以及信息文本的权重系数计算信息相关度r,
"p"wl""M^ +…+ ;^濯,其中,p表示关键词在字段中的匹配次数,
w表示权重系数;信息丰富度计算模块,根据各搜索结果对信息文本设 定的业务条件和权重系数计算信息丰富度c ,
c = ^l*wl + F2*w2 + F3*w3 + ... + F"*ww ,其中,w 表示权重系数,
UVV一/^气;排序分数计算模块,根据信息相关度和信息丰富度计
算排序分数ww + ^m/;按分数大小顺序排列排序分数,将搜索引 擎搜索结果中的位置序号对应标注到各排序后分数,并得到用位置序号 组成的排序结果序列;相似度计算才莫块,计算用位置序号组成的排序结
果序列与用位置序号組成的搜索结果序列的相似度;配置^=莫块,配置相 似度阈值;比较模块,将相似度与配置的阈值进行比较,并记录比较结 果,当比较结果中相似度大于阈值的次数大于设定次数,或者比较结果 中相似度小于阈值的次数小于设定次数,搜索引擎的排序结果未通过验 证,否则通过验证。
进一步,相似度计算模块计算排序结果序列中位置序号与搜索结果 序列中相应位置的位置序号的差值的绝对值,并将各计算结果进行加和运算得到相似度。
进一步,相似度计算模块还对各差值的绝对值配以权重系数。 进一步,相似度计算模块计算排序结果序列中两个位置序号的差值
的绝对值,并将各计算结果进行加和运算得到绝对排序结果序列;计算 搜索结果序列中相应位置的两个位置序号的差值的绝对值,并将各计算 结果进行加和运算得到绝对搜索结果序列;将绝对糸夂序结果序列与绝对 搜索结果序列的差值的绝对值作为相似度。
进一步,比较模块判断相似度是否大于配置的阈值,如果是,将相 似度大于阈值的次数加1,否则,将相似度小于阈值的次数加1;或者 比较模块判断相似度与配置的阈值的差值的绝对值是否在设定范围内, 如果是,将记录结果中相似度小于阅值的次数加1,否则,将记录结果 中相似度大于阈值的次数加1。
进一步,排序分数计算模块在排序分数相同时,将位置序号在搜索 结果序列中的排列顺序按照排序分数的排列顺序标注到对应的各排序后 分数。
与现有技术相比,本发明具有以下优点和效果
提出排序相似度作为比较排序算法效果的量化指标,通过简化搜索 方法及相似度计算得出合理的衡量标准,可以对多个搜索算法的效果进 行比较。
提供了科学的方法,构造一个自动检验搜索排序结果的系统,通过 自动量化而非人工的方式对搜索排序结果进行验证,大大减少了检验排 序效果的人为主观性,提高检验排序结果的效率。


图l为本发明一种对排序结果进行验证的方法流程图。 图2为本发明一种对排序结果进行l^正的系统结构图。
具体实施例方式
垂直搜索引擎在面临新增调整需求时,需要通过调整排序算法或参
9数来实现相关功能,但目前对于频繁调整后的排序结果无较好方式进行自动化测试及量化衡量,这给后续用户体验带来了 一定的风险。
本发明的目的是提出一种搜索结果排序效果的量化指标,并根据这一指标创建一套切实可用的排序验证规则,将排序算法的实现结果通过量化数字的形式进行展现,可以使测试人员更为直^见和全面的对各类情况进行客观判断,进一步做到排序的自动化测试验证,简化排序算法的优化过程,使排序算法能够最大限度的满足产品需求。
下面将结合具体实施方式
和实施例详细说明本发明。
图l为本发明一种对排序结果进行l^的方法流程图。在步骤101,搜索引擎根据要搜索的关键词获取搜索结果,并对搜索结果标注位置序号,得到用位置序号组成的搜索结果序列。
在步骤102,将各搜索结果划分成具有权重系数的多个信息文本,根据关键词与信息文本的匹配次数以及信息文本的权重系数计算信息相关度 r, r = pi* wl + p2* w2 + ... +戸*簡, 信息相关度是指关键词和信息文本
的匹配度。其中,p表示关键词在字段中的匹配次数,w表示字段权重。
一般的搜索过程可能对若干个字段进行检索,并有一个比较复杂的
计算公式用于计算关键词在这些字^:中的相关度。本发明可将这一过程简化为以搜索关键词在字段的匹配次数和字段权重来决定其相关度。例如信息包含字段企业名称、企业简介,其优先级顺序企业名称->企业简介。假设对关键字"星巴克,,搜索的N条结果中,其中一条记录A在企业名称字典出现次数为2,在企业简介字段出现次数为2,则得到信息相关度值2+2=4。
在步骤103,根据设定的业务条件以及各业务条件的权重系数,计算搜索结果所包含的信息文本的信息丰富度c,即当信息文本与设定的业务条件匹配时,将该业务条件对应的权重系数相加得到信息丰富度。
c = Fl*wl + F2*w2 + F3*w3 + ... + F" w ,其中,W 表示权重系数,UvV,:^Z气。信息丰富度是指由若干个业务条〗牛,每个条件按照一定的权重计算得到的信息指数。例如业务规则定义了 一个信息丰富度加盟商户一>是否有图片展示一>是否有预定服务_>是否地图标注一>是否有点评信息—>商户简
介信息量从多到少(权值递减) 一>商户字段总量从多到少。信息丰富度的值是根据该排序设定一个公式得出,这个值可以在测试中直接得到。假设对记录A根据公式得到信息丰富度值为0.218,且该值总是小于l。
在步骤104,根据信息相关度和信息丰富度计算排序分数score = "w + c*w' > 其中信息相关度优先级w高于信息丰富度优先级w,。假设记录A得到的相关度r=4,信息丰富度c=0.218,取w=10,w,=l,则得到记录A的排序分数score=4 x 10+0.218=40.218。
在步骤105,按分数大小顺序排列排序分数,并将搜索引擎搜索结果中的位置序号对应标注到各排序后分数,得到用位置序号组成的排序结果序列。
其中,将搜索引擎搜索结杲中的位置序号对应标注到各排序后分数的操作,还包括以下步骤当计算得到的排序分数相同时,将位置序号
排序后分数。
在步骤106,计算用位置序号组成的排序结果序列与用位置序号组
成的搜索结果序列的相似度。其中,搜索引擎所采用的算法即被测试的搜索排序算法,算法中的参数可以改变。
假设对于关键字"星巴克",计算得到的排序分数score从大到小排列得到新的排序al,a2,a3,a5,a6,a4,a7,a8,al0,a9,调用搜索引擎搜索得到10条结果al,a2,a3,a4,a5,a6,a7,a8,a9,a10 (其中1, 2,…,n代表了位置信息)。下面通过实施例来说明计算相似度的实施例,但是,所述说明只是用于理解,并不是对本发明的限制。凡在此基础上进行的变形和修改,都应属于本发明的保护范围。
在第一实施例中,计算排序结果序列中位置序号与搜索结果序列中相应位置的位置序号的差值的绝对值,将各计算结果进行加和运算得到相似度。记S(A)为集合A关于算法S的排序序列,S,(A)为集合关于算法S, 的排序序列,"e^为A中的一个记录,记P(a)为a在序列S(A)中的位 置,P,(a)为a在序列S,(A)中的位置。对于任意的"e力,D(a)叫P(a)-P,(a)l表示a在序列S(A)与序列S,(A)中的相对距离差。则排序相似度记 为"Z"(a》。
在JTk例子中,相似度值为<formula>formula see original document page 12</formula>在第"二实施例中,计算排序结果序列中位置序号与搜索结果序列中
相应位置的位置序号的差值的绝对值,对各差值的绝对值配以权重系
数,再将各计算结果进^f于加和运算得到相似度。
不同位置的记录,可通过配置权重决定其对最终相似度计算的影响
程度,记为其中,w,表示位置i的4又重。
在第三实施銜"中,计算排序结果序列中两个位置序号的差值的绝对 值,并将各计算结果进行加和运算得到绝对排序结果序列;计算搜索结 果序列中相应位置的两个位置序号的差值的绝对值,并将各计算结果进 行加和运算得到绝对搜索结果序列;将绝对排序结果序列与绝对搜索结 果序列的差值的绝对值作为相似度。
相似度计算公式为<formula>formula see original document page 12</formula>
其中P(a)是记录a在排岸序列S(A)的tf皇,P,(a)是记录a在排序 序列S,(A)的位置,S(A)和S,(A)是记录集合A不同的排序结果。
在步骤107,将相似度与配置的阈值进行比较,并记录比较结果, 在比较结果中包括相似度大于阈值的次数和相似度小于阈值的次数。
判断相似度是否大于配置的阈值,如果是,将记录结果中相似度大 于阈值的次数加l,否则,将相似度小于阈值的次数加1;或者
判断相似度与配置的阈值的差值的绝对值是否在设定范围内,如果 是,将记录结果中相似度小于阈值的次数加1,否则,将记录结果中相 似度大于阈值的次数加1。
在步骤108,当比较结果中相似度大于阈值的次数大于设定次数, 或者比较结果中相似度小于阈值的次数小于设定次数,搜索引擎的排序搜索引擎排序算法的参数,重新执行计算过 程。否则搜索引擎的排序结果通过验证。其中,相似度大于或小于阈值 的次数是针对不同的关键词得到的结果。这里所说的通过验证是指搜索 结果能够更加精确、准确的反映要搜索的信息,即通过上述判断,可以 搜索到更加精确、准确的搜索结果。
跳转到步骤109,跳转到步骤110。本发明将相似度作为比较排序 算法效果的量化指标,通过简化搜索方法及相似度计算得出合理的衡量 标准,可以对多个搜索算法的效果进行比较。
构造一个自动检验搜索排序结果的系统,通过自动量化而非人工的 方式对搜索排序结果进行验证,大大减少了检验排序效果的人为主观 性,提高检验排序结果的效率。
图2为本发明一种对排序结果进行验证的系统结构图。该系统包括 搜索引擎、信息相关度计算模块、信息丰富度计算模块、排序分数计算 模块、相似度计算模块、配置模块以及比较模块。
搜索引擎,根据要搜索的关键词获取搜索结果,对搜索结果标注位 置序号,并得到用位置序号组成的搜索结果序列。
信息相关度计算模块,将各搜索结果划分成具有权重系数的多个信 息文本,根据关键词与信息文本的匹配次数以及信息文本的权重系数计 算信息相关度r, ^p"wl + p2、2 +…+ p^而,信息相关度是指搜索关键 词和信息文本的匹配度。其中,p表示关键词在字段中的匹配次数,W 表示字段权重。
一般的搜索过程可能对若干个字段进行检索,并有一个比较复杂的 计算公式用于计算关键词在这些字段中的相关度。本发明可将这一过程 简化为以搜索关键词在字段的匹配次数和字段权重来决定其相关度。 例如信息包含字段企业名称、企业简介,其优先级顺序企业名称-> 企业简介。假设对关键字"星巴克,,搜索的N条结果中,其中一条记录 A在企业名称字典出现次数为2,在企业简介字段出现次数为2,则得 到值2+2=4。
信息丰富度计算模块,根据各搜索结果对信息文本设定的业务条件
13承wl +尸2伞w2 +尸3承w3 +…+尸w承w",其中, W表示权重系数,UMv一i^气。信息丰富度是指由若干个业务条 件,每个条件按照一定的权重计算得到的信息指数。
例如业务规则定义了一个信息丰富度加盟商户~^>是否有图片展 示一>是否有预定服务一>是否地图标注一>是否有点评信息。假设对记 录A根据公式得到信息丰富度值为0.218,且该值总是小于1。
排序分数计算模块,根据信息相关度和信息丰富度计算排序分数
"婦-"w + c ',按分数大小顺序排列排序分数,将搜索引擎搜索结果
中的位置序号对应标注到各排序后分数,并得到用4立置序号组成的排序
结果序列。其中信息相关度优先级w高于信息丰富度优先级w,。假设 记录A得到的相关度F4,信息丰富度c-0.218,取>¥=10, w,=l,则得 到记录A的排序分数score=4 x 10+0.218=40.218。
其中,排序分数计算模块还在排序分数相同时,将位置序号在搜索
分数。 ,、 ; 口
相似度计算模块,计算用位置序号組成的排序结果序列与用位置序 号组成的搜索结果序列的相似度。其中,搜索引擎所采用的算法即被测 试的搜索排序算法,算法中的参数可以改变。
假设对于关键字"星巴克",计算得到的排序分数score从大到小排 列得到新的排序al,a2,a3,a5,a6,a4,a7,a8,al0,a9,调用搜索引擎搜索得到 10条结果al,a2,a3,a4,a5,a6,a7,a8,a9,a10 (其中1, 2,…,n代表了位置信 息)。下面通过实施例来说明计算相似度的实施例,但是,所述说明只 是用于理解,并不是对本发明的限制。凡在此基础上进行的变形和修 改,都应属于本发明的保护范围。
在第一实施例中,相似度计算模块计算排序结果序列中位置序号与 搜索结果序列中相应位置的位置序号的差值的绝对值,并将各计算结果 进行加和运算得到相似度。
记S(A)为集合A关于算法S的排序序列,S,(A)为集合关于算法S, 的排序序列,"e^为A中的一个记录,记P(a)为a在序列S(A)中的位置,P,(a)为a在序列S,(A)中的位置。对于任意的。e^, D(a)叫P(a)-P,(a)l表示a在序列S(A)与序列S,(A)中的相对距离差。则排序相似度记 为"S"")。
在_£叙例子中,相似度值为
10
d = S"("') = "("4) + 0(a5) + "("6) + "("9) + "010) = 2 + 1 + 1 + 1 + 1 = 6。
在第'二实施例中,相似度计算模块计算排序结果序列中位置序号与 搜索结果序列中相应位置的位置序号的差值的绝对值,还对各差值的绝 对值配以权重系数,再将各计算结果进行加和运算得到相似度。
不同位置的记录,可通过配置权重决定其对最终相似度计算的影响
程度,记为d=ZZ)("》*W,,其中,w,表示位置i的4又重。
在第三实施荷"中,相似度计算模块计算排序结果序列中两个位置序
号的差值的绝对值,并将各计算结果进行加和运算得到绝对排序结果序
列;计算搜索结果序列中相应位置的两个位置序号的差值的绝对值,并 将各计算结果进行加和运算得到绝对搜索结果序列;将绝对排序结果序
列与绝对搜索结果序列的差值的绝对值作为相似度。
相似度计算公式为》p(",)-卜;|)-11 。 其中P(a)是记录a在排岸序列S(A)的tf皇,P,(a)是记录a在排序 序列S,(A)的位置,S(A)和S,(A)是记录集合A不同的排序结果。 配置模块,配置相似度阈值。
比较模块,将相似度与配置的阈值进行比较,并记录比较结果,当 比较结果中相似度大于阈值的次数大于设定次数,或者比较结果中相似 度小于阈值的次数小于设定次数,搜索引擎的排序结果未通过验证,否 则通过验证。这里所说的通过验证是指搜索结果能够更加精确、准确的 反映要搜索的信息,即通过上述判断,可以搜索到更加精确、准确的搜 索结果。
比较模块判断相似度是否大于配置的阈值,如果是,将相似度大于 阈值的次数加l,否则,将相似度小于阈值的次数加l;或者
比较模块判断相似度与配置的阈值的差值的绝对值是否在设定范围 内,如果是,将记录结果中相似度小于阈值的次数加1,否则,将记录结果中相似度大于阈值的次数加1。
本发明主要验证信息相关度和信息丰富度相结合的排序方式的合理 性。其中,信息相关度是指搜索关键词和信息文本的匹配程度。信息丰 富度是指由若干个业务条件,每个条件按照一定的权重计算得到的信息 指数。对信息相关度和信息丰富度通过一套简化的算法得到比较直观的 排序结果,并以此结果为标准,将其与搜索引擎系统得出的排序结果进 行比较计算,得到对相同关键字的两份排序相似度的值,该值越小则相 似度越高,即认为搜索引擎系统的排序结果的可接受程序越高。
下面通过具体的实施例来说明本发明的排序效果。
对关键字"红星,,和"大通"的搜索排序结果进行验证。其中,在 计算相似度时根据两个排序结果中的每条记录的相对距离差值的和进行
计算。搜索结果仅打印出标题title, score为排序值,source position表 示搜索系统排序结果,dest position表示简化算法排序结果,relevent value表示相似度值。
关键字红星
计算结果
1— title
2— title
3— title
4— title
5— title
6— title
7— title
8— title
9— title
石井街红星社区卫生服务站
红星电脑绣花制衣有限/>司
红星针织厂
红星仪器有限公司
红星电线厂
红星幼儿园
score : 10.02734375 score : 10.02734375 score : 10.02734375 score : 10.02734375 score : 10.02734375 score : 10.0234375 score : 10.0234375
小红星幼儿园
石井农村信用合作社红星分社score : 10.0234375 红星通iK店 score : 10.0234375
10— title:红星筛网厂 score : 10.0234375
source position: [1, 2, 3, 4, 5, 6, 7, 8, 9, 10
dest position1, 2, 3, 4, 5, 6, 7, 8,9,阔 relevent value : 0
关键字大通 计算结果
1— title:广东大通市场研究有限公司score : 10.02734375
2- title:大通证券股份有限公司广州体育西路证券营业部score :
10.0234375
3-title:碧大通讯器材经营部score :10.0234375
4-title:大通国际运输有限公司广州分公司score : 10.0234375
5-title:大通成科技有限公司score j10.0234375
6—title:大通才几电经营部score10.0234375
7—title:大通磨具厂score :10.0234375
8—title:广东浩大通讯设备有限公司score j10.02734375
9—title:大通电子有限公司score 10.01953125
10--title::大通电子厂score j10.01953125
source position:
[1, 2, 3, 4, 5, 6, 7, 8, 9,10

dest position
[1, 8, 2, 3, 4, 5, 6, 7, 9, 10
relevent value : 12
从以下结果可以看到,对关键字"红星"的排序结果准确率为 100%,对关键字"大通"的相似度值为12,排序结果是否合理可以根 据该值判断。可灵活设置阈值,假设阈值为10,那么此次的排序结果不 合理。
本发明适用于对搜索排序结果进行自动化的验证和排序算法参数的 自动优化。
权利要求
1.一种对排序结果进行验证的方法,包括以下步骤搜索引擎根据要搜索的关键词获取搜索结果,并对搜索结果标注位置序号,得到用位置序号组成的搜索结果序列;将各搜索结果划分成具有权重系数的多个信息文本,根据关键词与信息文本的匹配次数以及信息文本的权重系数计算信息相关度r,r=p1*w1+p2*w2+...+pn*wn,其中,p表示关键词在字段中的匹配次数,w表示权重系数;根据对信息文本设定的业务条件和权重系数计算信息丰富度c,c=F1*w1+F2*w2+F3*w3+...+Fn*wn,其中,w表示权重系数,Fn-1*wn-1>Fn*wn;根据信息相关度和信息丰富度计算排序分数score=r*w+c*w′;按分数大小顺序排列排序分数,并将搜索引擎搜索结果中的位置序号对应标注到各排序后分数,得到用位置序号组成的排序结果序列;计算用位置序号组成的排序结果序列与用位置序号组成的搜索结果序列的相似度;将相似度与配置的阈值进行比较,并记录比较结果,在比较结果中包括相似度大于阈值的次数以及相似度小于阈值的次数;当比较结果中相似度大于阈值的次数大于设定次数,或者比较结果中相似度小于阈值的次数小于设定次数,搜索引擎的排序结果未通过验证,否则通过验证。
2. 根据权利要求1所述对排序结果进行验证的方法,其中,计算 用位置序号组成的排序结果序列与用位置序号组成的搜索结果序列的相 似度的操作,包括以下步骤计算排序结果序列中位置序号与搜索结果序列中相应位置的位置序号的差值的绝对值;将各计算结果进行加和运算得到相似度。
3. 根据权利要求2所述对排序结果进行验证的方法,其中,计算差值的绝对值的操作,还包括对各差值的绝对值配以权重系数的步骤。
4. 根据权利要求l所述对排序结果进行验证的方法,其中,计算用位置序号组成的排序结果序列与用位置序号组成的搜索结果序列的相似度的操作,包括以下步骤计算排序结果序列中两个位置序号的差值的绝对值,并将各计算结果进行加和运算得到绝对排序结果序列;计算搜索结果序列中相应位置的两个位置序号的差值的绝对值,并 将各计算结果进行加和运算得到绝对搜索结果序列;将绝对排序结果序列与绝对搜索结果序列的差值的绝对值作为相似度。
5. 根据权利要求1所述对排序结果进行验证的方法,其中,将相 似度与配置的阈值进行比较,并记录比较结果的操作,包括以下步骤判断相似度是否大于配置的阁值,如果是,将记录结果中相似度大 于阈值的次数加l,否则,将相似度小于阈值的次数加l;或者判断相似度与配置的阈值的差值的绝对值是否在设定范围内,如果 是,将记录结果中相似度小于阈值的次数加1,否则,将记录结果中相 似度大于阈值的次数加1。
6. 根据权利要求1所述对排序结果进行验证的方法,其中,将搜 索引擎搜索结果中的位置序号对应标注到各排序后分数的操作,还包括 以下步骤当计算得到的排序分数相同时,将位置序号在搜索结果序列中的排 列顺序按照排序分数的排列顺序标注到对应的各排序后分数。
7. —种对排序结果进行m^的系统,包括搜索引擎,根据要搜索的关键词获取搜索结果,对搜索结果标注位 置序号,并得到用位置序号组成的搜索结果序列;信息相关度计算模块,将各搜索结果划分成具有权重系数的多个信 息文本,根据关键词与信息文本的匹配次数以及信息文本的权重系数计算信息相关度 其中,p表示关键词在字段中的匹配次数,w表示权重系数;3信息丰富度计算模块,根据对信息文本设定的业务条件和权重系数 计算信息丰富度C, ^ = ^1*由尸2*^2 + ,3*^3 + ... +尸"*簡,其中,W表示 权重系数,F"一 * w"一, >尸 * w ;排序分数计算模块,根据信息相关度和信息丰富度计算排序分数score 二r^v^ + c^vv、 按分数大小顺序排列排序分数,将搜索引擎搜索结果中的位置序号对应标注到各排序后分数,并得到用位置序号组成的排序结果序列;相似度计算模块,计算用位置序号组成的排序结果序列与用位置序 号组成的搜索结果序列的相似度; 配置模块,配置相似度阈值;比较模块,将相似度与配置的阈值进行比较,并记录比较结果,当 比较结果中相似度大于阈值的次数大于设定次数,或者比较结果中相似 度小于阅值的次数小于设定次数,搜索引擎的排序结果未通过验证,否 则通过^ii。
8. 根据权利要求7所述对排序结果进行验证的系统,其中,相似 度计算模块计算排序结果序列中位置序号与搜索结果序列中相应位置的 位置序号的差值的绝对值,并将各计算结果进行加和运算得到相似度。
9. 根据权利要求8所述对排序结果进行验证的系统,其中,相似 度计算模块还对各差值的绝对值配以权重系数。
10. 根据权利要求7所述对排序结果进行验证的系统,其中,相似 度计算才莫块计算排序结果序列中两个位置序号的差值的绝对值,并将各计算结果进行加和运算得到绝对排序结果序列;计算搜索结果序列中相 应位置的两个位置序号的差值的绝对值,并将各计算结果进行加和运算 得到绝对搜索结果序列;将绝对排序结果序列与绝对搜索结果序列的差 值的绝对值作为相似度。
11. 根据权利要求7所述对排序结果进行验证的系统,其中 比较模块判断相似度是否大于配置的阈值,如果是,将相似度大于阈值的次数加l,否则,将相似度小于阈值的次数加1;或者比较模块判断相似度与配置的阈值的差值的绝对值是否在设定范围内,如果是,将记录结果中相似度小于阈值的次数加1,否则,将记录 结果中相似度大于阈值的次数加1。
12.根据权利要求7所述对排序结果进行验证的系统,其中,排序 分数计算模块在排序分数相同时,将位置序号在搜索结果序列中的排列 顺序按照排序分数的排列顺序标注到对应的各排序后分数。
全文摘要
本发明提出一种对排序结果进行验证的方法和系统,根据要搜索的关键词获取搜索结果,并对搜索结果标注位置序号,得到用位置序号组成的搜索结果序列;计算信息相关度、信息丰富度以及排序分数;按分数大小顺序排列排序分数,并将搜索结果中的位置序号对应标注到各排序后分数,得到用位置序号组成的排序结果序列;计算用位置序号组成的排序结果序列与用位置序号组成的搜索结果序列的相似度;将相似度与配置的阈值进行比较,记录比较结果,并根据比较结果判断排序结果是否通过验证。本发明可以对多个搜索算法的效果进行比较,并提高检验排序结果的效率。
文档编号G06F17/30GK101650746SQ20091017722
公开日2010年2月17日 申请日期2009年9月27日 优先权日2009年9月27日
发明者余锦婷, 雄 徐, 杨翊平 申请人:中国电信股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1