一种用于搜索结果排序的转义度确定方法和装置的制作方法

文档序号:6556054阅读:172来源:国知局
专利名称:一种用于搜索结果排序的转义度确定方法和装置的制作方法
一种用于搜索结果排序的转义度确定方法和装置
技术领域
本发明涉及计算机技术领域,特别涉及一种用于搜索结果排序的转义度确定方法和装置。
背景技术
随着计算机技术的不断发展,搜索引擎已经成为人们获取信息的主要手段。当用户输入搜索请求query后,搜索引擎将与该query匹配的页面包含在搜索结果中返回给用户。对搜索结果中各页面的排序是基于用户输入的query与页面的匹配程度进行的,在目前的搜索技术中通常该匹配程度仅取决于query中各词语在页面中的物理距离。但实际上query中包含的各词语之间是存在紧密度上的区分的,同一个query中,如果紧密度大 的词语对在页面I中的物理距离与紧密度小的词语对在页面2中的物理距离相同,那么显然页面I的排序应该比页面2的排序靠前,但在目前的搜索技术中并不能在搜索结果的排序中体现这一特点,因搜索结果的排序不优导致用户长时间占用网络资源,从而造成网络资源的浪费。

发明内容本发明提供了一种用于搜索结果排序的转义度确定方法和装置,以便于提高搜索结果的排序效果,从而节约网络资源。具体技术方案如下一种用于搜索结果排序的转义度确定方法,该方法包括A、对用户输入的搜索请求进行紧密度的分析,确定所述搜索请求中各词语对的紧密度;B、根据对所述搜索请求对应的搜索结果中各网页进行的结构信息处理的结果,统计所述搜索请求中各词语对在所述各网页中的物理距离分布;C、利用所述搜索请求中各词语对对应的紧密度以及在所述各网页中的物理距离分布,确定所述搜索结果中各网页针对所述搜索请求的转义度,所述转义度用于对所述搜索结果中各网页进行排序。其中,所述步骤A具体包括Al、对所述搜索请求进行分词处理;A2、利用所述分词处理后得到的词语,确定所述搜索请求中的各词语对;A3、查询预先挖掘出的专名词典和/或共现词典,确定所述各词语对的紧密度,其中所述专名词典包含预先挖掘出的专有名词,所述共现词典包含预先确定的各词语对在已有数据源中的共现状况。较优地,在所述步骤Al中还包括对所述分词处理后得到的词语进行基于停用词表的过滤。
具体地,所述步骤A2包括将所述分词处理后得到的词语中相邻的词语两两构成词语对;或者,将所述分词处理后得到的词语中表意能力强的词语两两构成词语对,其中所述表意能力强的词语根据词性或者在所述搜索请求中的句子成分确定。
在所述步骤A3中查询预先挖掘出的专名词典确定所述各词语对的紧密度具体包括如果所述专名词典中的专有名词包含词语对i,则将所述词语对i的紧密度确定为预设紧密度值,所述词语对i为所述搜索请求中各词语对的任一个。在所述步骤A3中查询预先挖掘出的共现词典确定所述各词语对的紧密度具体包括查询所述共现词典确定词语对i在已有数据源中的共现状况,所述共现状况包括词语对i在各距离范围等级的出现次数,所述词语对i为所述搜索请求中各词语对的任一个;确定所述词语对i在各距离范围等级中相对出现概率值最大的距离范围等级;将确定的所述距离范围等级所对应的紧密度作为所述词语对i的紧密度,其中预先设置不同距离范围等级对应不同的紧密度。另外,所述共现词典的挖掘具体包括D1、对所述数据源进行分词处理和基于停用词表的过滤后,将得到的词语两两组合构成词语对;D2、统计所述步骤Dl得到的词语对在所述数据源中的共现状况,并将统计到的共现状况存入共现词典中。如果在所述步骤A3中同时采用了专名词典和共现词典,并且通过专名词典的查询能够确定出词语对i的紧密度,则以查询专名词典确定出的所述词语对i的紧密度作为所述词语对i的紧密度,所述词语对i为所述搜索请求中各词语对的任一个。具体地,对网页进行的结构信息处理包括将网页划分为网页块、段和句;记录网页中各词语的位置信息并存储在数据库中,其中位置信息包括所在的网页块、段、句和句内偏移。基于此,所述步骤B具体包括BI、根据所述数据库中记录的所述搜索请求中词语对i的两词语分别在网页d中的位置信息,确定出所述词语对i在网页d中的共现状况,所述词语对i为所述搜索请求中各词语对的任一个,网页d为所述搜索结果中的任一个网页;B2、根据所述步骤BI确定出的共现状况,统计所述词语对i在网页d中的物理距离分布。所述步骤C具体包括Cl、利用所述搜索请求中的词语对i的紧密度确定所述词语对i的加权值weight (i);C2、利用所述词语对i在所述搜索结果中的网页d中的物理距离分布确定所述网页d对所述词语对i的满足度fit(i, d);
C3、按照公式 确定所述网页d针对所述搜
索请求q的转义度offset—ratio (d,q),其中,$为所述搜索请求q中的词语对构成的集
口 O所述weight (i)为weight (i) = fl (tight (i), imp ⑴);其中 tight (i)为所述词语对 i 的紧密度,imp(i)为所述词语对i在所述搜索请求q中的重要程度,fl (tight (i), imp(i))是将tight (i)作为主因数且将imp(i)作为调节因数的函数,在相同imp(i)的情况下tight (i)值越大weight (i)值越大;或者,weight (i) = f2 (tight (i)),其中 f2 (tight (i))是对 tight (i)进行归一化处理的函数。所述imp⑴由以下因素中的至少一种确定所述词语对i在所述搜索请求中的词性、所述词语对i在所述搜索请求中的句子成分以及所述词语对i的倒文档率。所述fit(i,d)为fit (i, d) = f3 (HIT (i,d) ,tight (i));其中 HIT (i, d)标识统计到的所述词语对 i在网页d中的物理距离分布,tight (i)为所述词语对i的紧密度,f3 (HIT (i,d) ,tight (i))是由HIT(i,d)确定出的所述词语对i的距离范围作为主因数且tight(i)作为调节因数的函数,在相同tight (i)的情况下由HIT(i,d)确定出的词语对i的距离范围越小fit (i, d)值越大;或者,fit(i,d) = f4(HIT(i,d)),f4(HIT(i,d))是将由 HIT(i,d)确定出的词语对 i 的距离范围映射为具体的fit(i,d)值的函数。由HIT(i, d)确定所述词语对i的距离范围具体包括采用所述HIT(i,d)中所述词语对i的最小距离范围作为所述词语对i的距离范围;或者,依据所述HIT(i,d)将相对出现概率值最大的距离范围等级作为词语对i的距离范围等级。一种用于搜索结果排序的转义度确定装置,该装置包括紧密度分析单元、距离分布确定单元以及转义度确定单元;所述紧密度分析单元,用于对用户输入的搜索请求进行紧密度的分析,确定所述搜索请求中各词语对的紧密度;所述距离分布确定单元,用于根据对所述搜索请求对应的搜索结果中各网页进行的结构信息处理的结果,统计所述搜索请求中各词语对在所述各网页中的物理距离分布;所述转义度确定单元,用于利用所述搜索请求中各词语对对应的紧密度以及在所述各网页中的物理距离分布,确定所述搜索结果中各网页针对所述搜索请求的转义度,所述转义度用于对所述搜索结果中各网页进行排序。其中,所述紧密度分析单元具体包括分词处理子单元、词语对确定子单元和紧密度确定子单元;
所述分词处理子单元,用于对所述搜索请求进行分词处理;所述词语对确定子单元,用于利用所述分词处理后得到的词语,确定所述搜索请求中的各词语对;所述紧密度确定子单元,用于查询预先挖掘出的专名词典和/或共现词典,确定所述各词语对的紧密度,其中所述专名词典包含预先挖掘出的专有名词,所述共现词典包含预先确定的各词语对在已有数据源中的共现状况。较优地,所述紧密度分析单元还包括过滤处理子单元,用于对所述分词处理子单元进行分词处理后得到的词语进行基于停用词表的过滤,将过滤后得到的词语发送给所述词语对确定子单元。具体地,所述词语对确定子单元将所述分词处理后得到的词语中相邻的词语两两构成词语对;或者,将所述分词处理后得到的词语中表意能力强的词语两两构成词语对,其中所述表 意能力强的词语根据词性或者在所述搜索请求中的句子成分确定。如果所述专名词典中的专有名词包含词语对i,则所述紧密度确定子单元将所述词语对i的紧密度确定为预设紧密度值,所述词语对i为所述搜索请求中各词语对的任一个。所述紧密度确定子单元具体包括词典查询模块、距离等级确定模块和紧密度确定模块;所述词典查询模块,用于查询所述共现词典确定词语对i在已有数据源中的共现状况,所述共现状况包括词语对i在各距离范围等级的出现次数,所述词语对i为所述搜索请求中各词语对的任一个;所述距离等级确定模块,用于根据所述词典查询模块的查询结果,确定所述词语对i在各距离范围等级中相对出现概率值最大的距离范围等级;所述紧密度确定模块,用于将所述距离等级确定模块确定的所述距离范围等级所对应的紧密度作为所述词语对i的紧密度,其中预先设置不同距离范围等级对应不同的紧
山/又o更进一步地,所述紧密度分析单元还包括共现词典挖掘子单元,用于对所述数据源进行分词处理和基于停用词表的过滤后,将得到的词语两两组合构成词语对,统计得到的词语对在所述数据源中的共现状况,并将统计到的共现状况存入共现词典中。如果所述紧密度确定子单元同时采用了专名词典和共现词典,并且通过专名词典的查询能够确定出词语对i的紧密度,则以查询专名词典确定出的所述词语对i的紧密度作为所述词语对i的紧密度,所述词语对i为所述搜索请求中各词语对的任一个。更进一步地,该装置还包括结构信息处理单元,用于将网页划分为网页块、段和句,记录网页中各词语的位置信息并存储在数据库中,其中所述位置信息包括所在的网页块、段、句和句内偏移。所述距离分布确定单元具体包括共现状况确定子单元和距离分布统计子单元;所述共现状况确定子单元,用于根据所述数据库中记录的所述搜索请求中词语对i的两词语分别在网页d中的位置信息,确定出所述词语对i在网页d中的共现状况,所述词语对i为所述搜索请求中各词语对的任一个,网页d为所述搜索结果中的任一个网页;
所述距离分布统计子单元,用于根据所述共现状况确定子单元确定出的共现状况,统计所述词语对i在网页d中的物理距离分布。所述转义度确定单元具体包括加权值确定子单元、满足度确定子单元和转义度确定子单元;所述加权值确定子单元,用于利用所述搜索请求中的词语对i的紧密度确定所述词语对i的加权值weight (i);所述满足度确定子单元,用于利用所述词语对i在所述搜索结果中的网页d中的物理距离分布确定所述网页d对所述词语对i的满足度fit (i,d); 所述转义度确定子单元,用于按照公式
权利要求
1.一种用于搜索结果排序的转义度确定方法,其特征在于,该方法包括 A、对用户输入的搜索请求进行紧密度的分析,确定所述搜索请求中各词语对的紧密度; B、根据对所述搜索请求对应的搜索结果中各网页进行的结构信息处理的结果,统计所述搜索请求中各词语对在所述各网页中的物理距离分布; C、利用所述搜索请求中各词语对对应的紧密度以及在所述各网页中的物理距离分布,确定所述搜索结果中各网页针对所述搜索请求的转义度,所述转义度用于对所述搜索结果中各网页进行排序。
2.根据权利要求I所述的方法,其特征在于,所述步骤A具体包括 Al、对所述搜索请求进行分词处理; A2、利用所述分词处理后得到的词语,确定所述搜索请求中的各词语对; A3、查询预先挖掘出的专名词典和/或共现词典,确定所述各词语对的紧密度,其中所述专名词典包含预先挖掘出的专有名词,所述共现词典包含预先确定的各词语对在已有数据源中的共现状况。
3.根据权利要求2所述的方法,其特征在于,在所述步骤Al中还包括对所述分词处理后得到的词语进行基于停用词表的过滤。
4.根据权利要求2所述的方法,其特征在于,所述步骤A2具体包括 将所述分词处理后得到的词语中相邻的词语两两构成词语对;或者, 将所述分词处理后得到的词语中表意能力强的词语两两构成词语对,其中所述表意能力强的词语根据词性或者在所述搜索请求中的句子成分确定。
5.根据权利要求2所述的方法,其特征在于,在所述步骤A3中查询预先挖掘出的专名词典确定所述各词语对的紧密度具体包括 如果所述专名词典中的专有名词包含词语对i,则将所述词语对i的紧密度确定为预设紧密度值,所述词语对i为所述搜索请求中各词语对的任一个。
6.根据权利要求2所述的方法,其特征在于,在所述步骤A3中查询预先挖掘出的共现词典确定所述各词语对的紧密度具体包括 查询所述共现词典确定词语对i在已有数据源中的共现状况,所述共现状况包括词语对i在各距离范围等级的出现次数,所述词语对i为所述搜索请求中各词语对的任一个;确定所述词语对i在各距离范围等级中相对出现概率值最大的距离范围等级; 将确定的所述距离范围等级所对应的紧密度作为所述词语对i的紧密度,其中预先设置不同距离范围等级对应不同的紧密度。
7.根据权利要求2或6所述的方法,其特征在于,所述共现词典的挖掘具体包括 D1、对所述数据源进行分词处理和基于停用词表的过滤后,将得到的词语两两组合构成词语对; D2、统计所述步骤Dl得到的词语对在所述数据源中的共现状况,并将统计到的共现状况存入共现词典中。
8.根据权利要求2所述的方法,其特征在于,如果在所述步骤A3中同时采用了专名词典和共现词典,并且通过专名词典的查询能够确定出词语对i的紧密度,则以查询专名词典确定出的所述词语对i的紧密度作为所述词语对i的紧密度,所述词语对i为所述搜索请求中各词语对的任一个。
9.根据权利要求I所述的方法,其特征在于,对网页进行的结构信息处理包括 将网页划分为网页块、段和句; 记录网页中各词语的位置信息并存储在数据库中,其中位置信息包括所在的网页块、段、句和句内偏移。
10.根据权利要求9所述的方法,其特征在于,所述步骤B具体包括 BI、根据所述数据库中记录的所述搜索请求中词语对i的两词语分别在网页d中的位置信息,确定出所述词语对i在网页d中的共现状况,所述词语对i为所述搜索请求中各词语对的任一个,网页d为所述搜索结果中的任一个网页; B2、根据所述步骤BI确定出的共现状况,统计所述词语对i在网页d中的物理距离分布。
11.根据权利要求I所述的方法,其特征在于,所述步骤C具体包括 Cl、利用所述搜索请求中的词语对i的紧密度确定所述词语对i的加权值weight (i);C2、利用所述词语对i在所述搜索结果中的网页d中的物理距离分布确定所述网页d对所述词语对i的满足度fit(i,d);$ fit(i, d) * weight(i) C3、按照公式—raft+o(d,q) = ^^~^,确定所述网页d针对所述搜索请 求q的转义度offset_ratio(d, q),其中,为所述搜索请求q中的词语对构成的集合。
12.根据权利要求11所述的方法,其特征在于,所述weight(i)为 weight⑴=f I (tight⑴,imp⑴);其中tight⑴为所述词语对i的紧密度,imp (i)为所述词语对i在所述搜索请求q中的重要程度,fl (tight (i), imp(i))是将tight (i)作为主因数且将imp(i)作为调节因数的函数,在相同imp(i)的情况下tight(i)值越大weight (i)值越大;或者, weight (i) = f2 (tight (i)),其中 f2 (tight (i))是对 tight (i)进行归一化处理的函数。
13.根据权利要求12所述的方法,其特征在于,所述imp(i)由以下因素中的至少一种确定 所述词语对i在所述搜索请求中的词性、所述词语对i在所述搜索请求中的句子成分以及所述词语对i的倒文档率。
14.根据权利要求11所述的方法,其特征在于,所述fit(i,d)为 fit (i, d) = f3 (HIT (i, d), tight Q));其中HIT (i, d)标识统计到的所述词语对i在网页d中的物理距离分布,tight (i)为所述词语对i的紧密度,f3 (HIT (i, d), tight (i))是由HIT(i,d)确定出的所述词语对i的距离范围作为主因数且tight(i)作为调节因数的函数,在相同tight (i)的情况下由HIT (i,d)确定出的词语对i的距离范围越小fit(i,d)值越大;或者, fit(i,d) = f4(HIT(i,d)),f4(HIT(i,d))是将由 HIT(i,d)确定出的词语对 i 的距离范围映射为具体的fit(i,d)值的函数。
15.根据权利要求14所述的方法,其特征在于,由HIT(i,d)确定所述词语对i的距离范围具体包括 采用所述HIT(i,d)中所述词语对i的最小距离范围作为所述词语对i的距离范围;或者, 依据所述HIT(i,d)将相对出现概率值最大的距离范围等级作为词语对i的距离范围等级。
16.一种用于搜索结果排序的转义度确定装置,其特征在于,该装置包括紧密度分析单元、距离分布确定单元以及转义度确定单元; 所述紧密度分析单元,用于对用户输入的搜索请求进行紧密度的分析,确定所述搜索请求中各词语对的紧密度; 所述距离分布确定单元,用于根据对所述搜索请求对应的搜索结果中各网页进行的结构信息处理的结果,统计所述搜索请求中各词语对在所述各网页中的物理距离分布; 所述转义度确定单元,用于利用所述搜索请求中各词语对对应的紧密度以及在所述各网页中的物理距离分布,确定所述搜索结果中各网页针对所述搜索请求的转义度,所述转义度用于对所述搜索结果中各网页进行排序。
17.根据权利要求16所述的装置,其特征在于,所述紧密度分析单元具体包括分词处理子单元、词语对确定子单元和紧密度确定子单元; 所述分词处理子单元,用于对所述搜索请求进行分词处理; 所述词语对确定子单元,用于利用所述分词处理后得到的词语,确定所述搜索请求中的各词语对; 所述紧密度确定子单元,用于查询预先挖掘出的专名词典和/或共现词典,确定所述各词语对的紧密度,其中所述专名词典包含预先挖掘出的专有名词,所述共现词典包含预先确定的各词语对在已有数据源中的共现状况。
18.根据权利要求17所述的装置,其特征在于,所述紧密度分析单元还包括过滤处理子单元,用于对所述分词处理子单元进行分词处理后得到的词语进行基于停用词表的过滤,将过滤后得到的词语发送给所述词语对确定子单元。
19.根据权利要求17所述的装置,其特征在于,所述词语对确定子单元将所述分词处理后得到的词语中相邻的词语两两构成词语对;或者, 将所述分词处理后得到的词语中表意能力强的词语两两构成词语对,其中所述表意能力强的词语根据词性或者在所述搜索请求中的句子成分确定。
20.根据权利要求17所述的装置,其特征在于,如果所述专名词典中的专有名词包含词语对i,则所述紧密度确定子单元将所述词语对i的紧密度确定为预设紧密度值,所述词语对i为所述搜索请求中各词语对的任一个。
21.根据权利要求17所述的装置,其特征在于,所述紧密度确定子单元具体包括词典查询模块、距离等级确定模块和紧密度确定模块; 所述词典查询模块,用于查询所述共现词典确定词语对i在已有数据源中的共现状况,所述共现状况包括词语对i在各距离范围等级的出现次数,所述词语对i为所述搜索请求中各词语对的任一个; 所述距离等级确定模块,用于根据所述词典查询模块的查询结果,确定所述词语对i在各距离范围等级中相对出现概率值最大的距离范围等级;所述紧密度确定模块,用于将所述距离等级确定模块确定的所述距离范围等级所对应的紧密度作为所述词语对i的紧密度,其中预先设置不同距离范围等级对应不同的紧密度。
22.根据权利要求17或21所述的装置,其特征在于,所述紧密度分析单元还包括共现词典挖掘子单元,用于对所述数据源进行分词处理和基于停用词表的过滤后,将得到的词语两两组合构成词语对,统计得到的词语对在所述数据源中的共现状况,并将统计到的共现状况存入共现词典中。
23.根据权利要求17所述的装置,其特征在于,如果所述紧密度确定子单元同时采用了专名词典和共现词典,并且通过专名词典的查询能够确定出词语对i的紧密度,则以查询专名词典确定出的所述词语对i的紧密度作为所述词语对i的紧密度,所述词语对i为所述搜索请求中各词语对的任一个。
24.根据权利要求16所述的装置,其特征在于,该装置还包括结构信息处理单元,用于将网页划分为网页块、段和句,记录网页中各词语的位置信息并存储在数据库中,其中所述位置信息包括所在的网页块、段、句和句内偏移。
25.根据权利要求24所述的装置,其特征在于,所述距离分布确定单元具体包括共现状况确定子单元和距离分布统计子单元; 所述共现状况确定子单元,用于根据所述数据库中记录的所述搜索请求中词语对i的两词语分别在网页d中的位置信息,确定出所述词语对i在网页d中的共现状况,所述词语对i为所述搜索请求中各词语对的任一个,网页d为所述搜索结果中的任一个网页; 所述距离分布统计子单元,用于根据所述共现状况确定子单元确定出的共现状况,统计所述词语对i在网页d中的物理距离分布。
26.根据权利要求16所述的装置,其特征在于,所述转义度确定单元具体包括加权值确定子单元、满足度确定子单元和转义度确定子单元; 所述加权值确定子单元,用于利用所述搜索请求中的词语对i的紧密度确定所述词语对i的加权值weight (i); 所述满足度确定子单元,用于利用所述词语对i在所述搜索结果中的网页d中的物理距离分布确定所述网页d对所述词语对i的满足度fit (i,d); 所述转义度确定子单元,用于按照公式
27.根据权利要求26所述的装置,其特征在于,所述加权值确定子单元按照weight(i)=fl (tight (i), imp⑴)或者weight (i) = f2 (tight (i))确定所述词语对i的加权值weight (i); 其中tight (i)为所述词语对i的紧密度,imp (i)为所述词语对i在所述搜索请求q中的重要程度,f I (tight (i),imp(i))是将tight (i)作为主因数且将imp (i)作为调节因数的函数,在相同imp⑴的情况下tight (i)值越大weight (i)值越大,f2 (tight (i))是对tight (i)进行归一化处理的函数。
28.根据权利要求27所述的装置,其特征在于,所述转义度确定单元还包括重要度确定子单元,用于按照以下因素中的至少一种确定所述imp(i) 所述词语对i在所述搜索请求中的词性、所述词语对i在所述搜索请求中的句子成分以及所述词语对i的倒文档率。
29.根据权利要求26所述的装置,其特征在于,所述满足度确定子单元按照fit(i,d)=f3 (HIT (i, d),tight Q))或者 fit (i, d) = f4(HIT(i, d))确定所述网页 d 对所述词语对i的满足度fit(i,d); 其中HIT(i,d)标识统计到的所述词语对i在网页d中的物理距离分布,tight(i)为所述词语对i的紧密度,f3 (HIT (i,d),tight (i))是由HIT(i,d)确定出的所述词语对i的距离范围作为主因数且tight (i)作为调节因数的函数,在相同tight (i)的情况下由HIT(i,d)确定出的词语对i的距离范围越小fit(i,d)值越大,f4(HIT(i,d))是将由HIT(i,d)确定出的词语对i的距离范围映射为具体的fit(i,d)值的函数。
30.根据权利要求29所述的装置,其特征在于,所述转义度确定单元还包括距离范围确定子单元,用于根据所述HIT(i,d)确定所述词语对i的距离范围,具体包括 采用所述HIT(i,d)中所述词语对i的最小距离范围作为所述词语对i的距离范围;或者, 依据所述HIT(i,d)将相对出现概率值最大的距离范围等级作为词语对i的距离范围等级。
全文摘要
本发明提供了一种用于搜索结果排序的转义度确定方法和装置,其中方法包括A、对用户输入的搜索请求进行紧密度的分析,确定所述搜索请求中各词语对的紧密度;B、根据对所述搜索请求对应的搜索结果中各网页进行的结构信息处理的结果,统计所述搜索请求中各词语对在所述各网页中的物理距离分布;C、利用所述搜索请求中各词语对对应的紧密度以及在所述各网页中的物理距离分布,确定所述搜索结果中各网页针对所述搜索请求的转义度,所述转义度用于对所述搜索结果中各网页进行排序。利用本发明确定出的转义度进行搜索结果的排序能够提高搜索结果的排序效果,从而节约网络资源。
文档编号G06F17/30GK102799586SQ20111013580
公开日2012年11月28日 申请日期2011年5月24日 优先权日2011年5月24日
发明者程道放 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1