搜索处理方法、装置及终端的制作方法_2

文档序号:8430732阅读:来源:国知局
用于判断对多个搜索对象的打分因子是否相同;排序单元44, 连接至上述第二判断单元42,用于在上述第二判断单元42判断结果为是的情况下,依据预 定参数进行排序。
[0045] 图5是根据本发明实施例的搜索处理装置中确定模块24的结构框图三,如图5所 示,该确定模块24包括第二确定单元52,下面对该第二确定单元52进行说明。
[0046] 第二确定单元52,用于通过以下公式依据复合域为搜索对象确定打分因子:SC〇r e(q, d)=coord(q, d)* E tin(1(tf(tind)*t. boost〇),其中,q表示搜索条件,d表示搜索记录, score (q,d)表示打分因子,coord (q,d)表示命中参数,tinq表示搜索条件中的词项索引, tf(tind)表示词频参数,tind表示搜索记录中的词项索引,t表示词项索引,boost()表示 人为干预参数。
[0047] 图6是根据本发明实施例的终端的结构框图,如图6所示,该终端62包括上述任 一项搜索处理装置64。
[0048] 针对相关技术中存在的由于打分因子考虑的因素很多,导致搜索目标的排序不能 以最优的方式展现出来,以及搜素目标无法得到定制化排序的问题,本发明实施例给出了 一种排序打分的处理方法及装置,以达到在单机搜索或集群搜索中,实现搜索结果匹配不 重复命中词个数递减并突出主题排序的智能打分的效果。
[0049] 下面根据本发明实施例对该排序打分方法进行说明,依据该分数对搜索结果进行 排序。
[0050] 打分公式的优化内容包括:
[0051] 1、打分规则:搜索排序的核心就是匹配度,因此首先就是要抽象出产品的打分规 贝U :大原则就是搜索结果完全匹配搜索条件的记录打分高,该记录排序在最前面,搜索结果 部分匹配搜索条件的打分次之,其记录排序在完全匹配的后面。
[0052] 例如:搜索("内容")域,搜索条件为"我爱中兴通讯"。搜索条件经过智能分词后, 得到【我、爱、中兴、通讯】4个词。那么,搜索结果完全匹配到"我爱中兴通讯"的搜索结果记 录排在第一条;有4个词都命中但是不完全匹配的记录就排在第二条,如"爱我中兴通讯"。 如果搜索结果是"爱我中兴",任意匹配3个不同词的记录就排在第三位,依次类推,接下来 是2个词,再然后是1个词。但是如果两条结果都匹配到了 3个词,但是词频不一样,那就 在匹配的词的个数相同的基础上,再按词频由高到底顺序排序。例如【我爱中兴我爱中兴】 这条记录中匹配的词个数为3个,"我"、"爱"、"中兴"三个词的词频分别为两次,【我爱中兴 我爱】这条记录中匹配的词个数也为3个,"我"、"爱"两个词的词频为两次,"中兴"的词频 为一次,由于【我爱中兴我爱中兴】这条记录中"中兴"词频为两次,因此,【我爱中兴我爱中 兴】这条记录会排在【我爱中兴我爱】这条记录的前面。
[0053] 抽象后的打分规则如下:面向所有单个搜索域,命中词个数按照【N>N_1】递减降 序规则进行打分排序,其中,N是命中不同搜索条件的分词个数。
[0054] 2、按照在打分规则中突出主题(即,"标题"域)排序的打分:如果是基于单域的搜 索,例如只有("内容")域的搜索排序,直接按照上文提到的单域排序规则即可满足。但是 如果搜索多个域,例如在("内容"、"标题"、"作者"、"简介"、"关键字")这5个复合域中搜索 "中兴通讯"这个检索条件,那么应该如何排序呢。这就有一个不同域的重要性不同的问题。 一个主次的问题。何为主?何为次?例如在百度或谷歌的搜索结果界面,大家最关注的主 要是标题中高亮标红的搜索条件匹配词,其次才是内容与简介中的搜索条件匹配词。这种 情况下用户的搜索习惯,基本上与大多数使用我们产品的用户的搜索习惯不谋而合。那么, 应在上述提到的单域搜索的N>N-1的规则基础上,做出原则的扩展:N>N-1的规则是单域排 序的大原则,在这个大原则不变的情况下,可以突出"标题"域;在这里,单域的规则就会被 修改为综合的("内容"、"标题"、"作者"、"简介"、"关键字")5个域的一个复合的"单域",下 面简称"复合域"。
[0055] 抽象后的打分规则:先按复合域的总体命中词N>N_1的规则进行排序,在复合域 中命中词的个数N-致的情况下,再按"标题"这个单域的N>N-1规则进行排序;如果在搜 索结果中,复合域中命中的N与标题域中命中的N都相同的情况下,即命中词均在标题中, 那就需要再按命中词的总体的词频由高到低进行排序;
[0056] 3、扩展排序规则:在以上单域、复合域的搜索结果命中词都复合N>N_1的排序原 则基础上,本发明实施例还提出了一种基于搜索打分的"公平且通用"的排序规则,更重要 的是,在该打分公平的基础上,还可以做出很多扩展排序。
[0057] 例如,在本发明实施例中,在2条搜索结果记录打分计算完全相同的基础上(即, 匹配度一致),可以依据下面的方法进行排序:
[0058] (a)按"匹配度"〉"日期"排序,即在匹配度相同的基础上可以按照日期进行排序, 该日期可以采用正序也可以采用倒序进行排序。
[0059] (b)按"匹配度"〉"订购量"〉"日期"排序,即在匹配度相同的基础上可以按照订 购量进行排序,订购量可以采用正序也可以采用倒叙进行排序,若匹配度相同且订购量也 相同,则按照日期进行排序,日期也采用正序或者倒序进行排序。
[0060] (C)上述(a)、(b)排序都是由单域或多域的所保证的,单域或多域均可 按照上述方法(a)、(b)进行排序。
[0061] 例如,在本发明实施例中,还可以单独做到各种定制化的排序:
[0062] (d)搜索"书名"单域,按"完全匹配〉左匹配〉中匹配〉右匹配"的顺序排序。
[0063] (e)搜索"书名"、"作者"、"简介"三个域,优先按⑷的规则排序,再在⑷的基 础上再按"书名"、"作者"、"简介"域的优先级顺序进行排序。
[0064] 下面根据本发明的实施例对本发明进行说明。
[0065] 精简掉所有干扰到本发明规则的打分因子,如下:
[0066] 1、打分因子:命中因子(同上述的命中参数)、词频因子(同上述的词频参数)、人为 干预因子(同上述的人为干预参数)。
[0067] 2、打分公式:
[0068] score (q, d) =coord (q, d) * E tinq (tf (tind) *t. boost ())
[0069]
【主权项】
1. 一种搜索处理方法,其特征在于,包括: 将搜索目标的一个或多个搜索域整合为一个复合域; 依据所述复合域为搜索对象确定打分因子,其中,所述打分因子标明所述搜索对象与 搜索目标的匹配度; 依据确定的所述打分因子对所述搜索对象进行排序。
2. 根据权利要求1所述的方法,其特征在于,依据所述复合域为所述搜索对象确定打 分因子包括: 判断仅依据所述复合域的命中参数是否能够确定所述搜索对象的排序; 在判断结果为否的情况下,依据所述复合域,以及组成所述复合域的搜索域的命中参 数、以及词频参数确定所述搜索对象的所述打分因子。
3. 根据权利要求1所述的方法,其特征在于,依据所述复合域为搜索对象确定打分因 子包括: 判断对多个搜索对象的打分因子是否相同; 在判断结果为是的情况下,依据预定参数进行排序。
4. 根据权利要求1所述的方法,其特征在于,所述预定参数包括以下至少之一: 日期、订购量、搜索域的优先级、点击量。
5. 根据权利要求1至4中任一项所述的方法,其特征在于,通过以下公式依据所述复合 域为搜索对象确定打分因子: score (q, d) =coord (q, d) * E tinq (tf (tind) *t. boost ()),其中,q 为搜索条件,d 为搜索 记录,score (q,d)表示打分因子,coord (q,d)表示命中参数,tinq表示搜索条件中的词项 索引,tf (tind)表示词频参数,tind表示搜索记录中的词项索引,t表示词项索引,boost () 表示人为干预参数。
6. -种搜索处理装置,其特征在于,包括: 整合模块,用于将搜索目标的一个或多个搜索域整合为一个复合域; 确定模块,用于据所述复合域为搜索对象确定打分因子,其中,所述打分因子标明所述 搜索对象与搜索目标的匹配度; 排序模块,用于依据确定的所述打分因子对所述搜索对象进行排序。
7. 根据权利要求6所述的装置,其特征在于,所述确定模块包括: 第一判断单元,用于判断仅依据所述复合域的命中参数是否能够确定所述搜索对象的 排序; 第一确定单元,用于在所述第一判断单元判断结果为否的情况下,依据所述复合域, 以及组成所述复合域的搜索域的命中参数、以及词频参数确定所述搜索对象的所述打分因 子。
8. 根据权利要求6所述的装置,其特征在于,所述确定模块包括: 第二判断单元,用于判断对多个搜索对象的打分因子是否相同; 排序单元,用于在所述第二判断单元判断结果为是的情况下,依据预定参数进行排序。
9. 根据权利要求6至8中任一项所述的装置,其特征在于,所述确定模块包括: 第二确定单元,用于通过以下公式依据所述复合域为搜索对象确定打分因子:sc〇re( 9,(1)=(3〇(^(1(9,(1)*[他(1(^;^1:;[11(1)*1:.13〇〇81:〇),其中,9表示搜索条件,(1表示搜索记录, score (q,d)表示打分因子,coord (q,d)表示命中参数,tinq表示搜索条件中的词项索引, tf(tind)表示词频参数,tind表示搜索记录中的词项索引,t表示词项索引,boost ()表示 人为干预参数。
10. -种终端,其特征在于,包括上述任一项所述的装置。
【专利摘要】本发明提供了一种搜索处理方法、装置及终端,将搜索目标的一个或多个搜索域整合为一个复合域;依据复合域为搜索对象确定打分因子,其中,该打分因子标明上述搜索对象与搜索目标的匹配度;依据确定的打分因子对搜索对象进行排序的方法,通过本发明解决了相关技术中存在的由于打分因子考虑的因素很多,导致搜索目标的搜索结果的排序不能以最优的方式展现出来,以及搜素目标的搜索结果无法得到定制化排序的问题,进而达到了使得搜索目标的搜索结果以最优的方式展现出来,节省搜索时间,提高用户体验的效果。
【IPC分类】G06F17-30
【公开号】CN104750701
【申请号】CN201310737643
【发明人】王源
【申请人】中兴通讯股份有限公司
【公开日】2015年7月1日
【申请日】2013年12月27日
【公告号】WO2014177104A1
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1