一种综合搜索结果的排序系统及方法

文档序号:6556026阅读:183来源:国知局
专利名称:一种综合搜索结果的排序系统及方法
技术领域
本发明属于数据处理领域,尤其涉及一种综合搜索结果的排序系统及方法。
背景技术
垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供有一定价值的信息和相关服务,例如,论坛、图片、新闻、音乐、视频等都是独立的垂直搜索类型。综合搜索引擎则是将多个垂直搜索引擎的结果按一定的规则合并在一个结果页上的搜索系统。
在目前的综合搜索引擎中,一般都采取对各个独立的垂直搜索引擎结果硬性排序的方式,因此在综合搜索的显示页面中各种垂直搜索结果的位置固定不变。例如Yahoo中国提供的综合搜索,在汇集各个独立搜索引擎的结果时,预先人工设定了各个结果的排序,当用户在输入框输入某检索词时,结果页将会显示来自多个垂直搜索引擎的结果,按照“歌曲、图片、网页......”的固定顺序显示给用户。
因此,现有技术在综合搜索结果的排序方式方面过于单一,缺乏灵活性,难以满足用户需求。

发明内容
本发明的目的在于提供一种综合搜索结果的排序系统,旨在解决现有技术在综合搜索结果的排序方面存在的灵活性不足的问题。
本发明的另一目的在于提供一种综合搜索结果的排序方法,以更好地解决现有技术存在的上述问题。
为了实现发明目的,所述排序系统包括数据分析模块、数据库和排序模块;所述数据分析模块提供可用于排序算法的数据信息,并导入所述数据库中存储;所述数据库用于存储数据分析模块提供的数据信息,供应所述排序模块执行排序算法时的提取,并存储所述排序模块得到的最终排序信息;所述排序模块用于根据所述数据库中存储的数据信息执行排序算法,对所述垂直搜索引擎进行排序,并将最终排序信息存储到所述数据库中。
所述排序算法包括独立排序算法和综合排序算法;所述独立排序算法包括人工干预法、索引量比较法、用户行为分析法以及日志词频分析法,相互独立地对所述垂直搜索引擎进行排序;所述综合排序算法根据所述独立排序算法的排序结果,计算所述垂直搜索引擎的综合值,并根据所述综合值对所述垂直搜索引擎进行排序。
所述数据分析模块进一步包括人工预定义模块、索引量对比模块、日志及分析模块;所述人工预定义模块用于提供人工预定义的相关信息,定时导入所述数据库中,以供所述排序模块提取并采取人工干预法对所述垂直搜速引擎进行排序;所述索引量对比模块用于提供检索词在垂直搜索引擎中的结果数与搜索引擎的总索引量的比值信息,定时导入所述数据库中,以供所述排序模块提取并采取索引量比较法对所述垂直搜速引擎进行排序;所述日志及分析模块用于提供用户行为相关信息以及检索词相关的词频信息,定时导入所述数据库中,以供所述排序模块提取并分别采取用户行为分析法和日志词频分析法对所述垂直搜速引擎进行排序。
为了更好地实现发明目的,所述排序方法包括以下步骤A.在所述综合搜索引擎中输入检索词进行搜索,得到全部垂直搜索引擎搜索的结果;B.所述排序模块从所述数据库提取数据信息,采取排序算法计算该次搜索中每种垂直搜索引擎的综合值;C.对所述每种垂直搜索引擎的综合值进行比较,对所述垂直搜索引擎进行排序,并将最终排序信息显示输出。
所述排序算法包括独立排序算法和综合排序算法;所述独立排序算法包括人工干预法、索引量比较法、用户行为分析法以及日志词频分析法,相互独立地对所述垂直搜索引擎进行排序;所述综合排序算法根据所述独立排序算法的排序结果,计算所述垂直搜索引擎的综合值,并根据所述综合值对所述垂直搜索引擎进行排序。
所述步骤B进一步包括B1.所述排序模块从所述数据库提取数据信息,分别采取全部独立排序算法对所述垂直搜索引擎进行排序;B2.所述排序模块根据所述步骤B1得到的排序结果,采取综合排序算法计算垂直搜索引擎的综合值,并根据所述综合值对所述垂直搜索引擎进行排序。
所述步骤B2中综合排序算法利用如下公式进行计算
S(K,Ti)=∑Si(j)*Wj,∑Wj=1,(0<=Wj<=1);所述K是检索词,Ti是垂直搜索引擎,i是垂直搜索引擎的编号,j是独立排序算法的编号,Si(j)表示在用j号独立排序算法搜索检索词K时i号垂直搜索引擎Ti所得排序对应的分值,Wj表示j号独立排序算法的权重因子,S(K,Ti)表示搜索检索词K时i号垂直搜索引擎Ti具有的综合值。
所述方法进一步包括以下步骤D.所述排序模块将最终排序信息存储到所述数据库中。
本发明通过应用多种独立排序算法,并在综合排序算法中整合为综合值进行排序,增强了对综合搜索结果进行排序的灵活性,并满足了用户的个性化需求。


图1是本发明中综合搜索结果的排序系统结构图;图2是本发明中综合搜索结果的排序方法流程图;图3是本发明的一个实施例中综合搜索结果的排序方法流程图。
具体实施例方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明构建了一个综合搜索结果的排序系统,分别采取多种独立排序算法对垂直搜索引擎的结果进行排序,并将各次排序结果整合为一个综合值,根据该综合值得到最终的排序结果。此方法充分考虑到了用户的各种需求,能够对搜索结果进行智能化地灵活排序,以最佳方式将搜索结果显示给用户。
图1示出了本发明中综合搜索结果的排序系统的结构,该排序系统可以位于搜索引擎中,也可以与搜索引擎处于独立并行的关系,其中包括数据分析模块100、数据库200和排序模块300。
数据分析模块100提供可用于各种独立排序算法的数据信息,定时导入到数据库200中存储,该数据分析模块100中包括人工预定义模块101、索引量对比模块102、日志及分析模块103,三者可相互独立。本发明采取的独立排序算法包括人工干预法、索引量比较法、用户行为分析法和日志词频分析法等多种。所述的人工干预法,是指由搜索引擎提供者来预先定义每个检索词对应的结果顺序,做法是首先列举所有需要预定义的检索词(可来源以往的用户检索日志),然后对于其中某一个检索词,设定一个结果排序,例如对于检索词“大长今”,排序为视频、论坛、图片、音乐、新闻、网页等。所述索引量比较法,是指根据每个检索词在各个独立搜索引擎的结果数与搜索引擎的总索引量的比值排序,这个比值可反映此检索词在此搜索引擎的重要程度,因此,比值越大的引擎,其排位越靠前。所述用户行为分析法,是指当用户在输入检索词得到综合搜索的结果页后,通过统计其点击某项垂直搜索的次数,以此可以反应用户对此引擎的兴趣。所述日志词频分析法,是指统计各个引擎中的用户检索日志,统计检索词的检索词频,检索词在各个搜索引擎的检索日志中出现的频繁程度,决定该检索词在各个引擎中的热门程度。本发明的排序算法包括但不局限于上述四种,为满足用户更多需求,可以进行扩展。
其中,人工预定义模块101用于提供人工预定义的相关信息,以使本发明的排序系统能够采用人工干预法进行排序;索引量对比模块102提供每个检索词在各个垂直搜索引擎的结果数与搜索引擎的总索引量的比值,以使本发明的排序系统能够采用索引量比较法进行排序;日志及分析模块103提供用户行为相关信息,以及检索词相关的词频信息,以使本发明的排序系统能够采用用户行为分析法和日志词频分析法进行排序。需要指出的是,该数据分析模块100中的模块可以依据排序算法进行扩展或者删除,例如,若本发明的排序系统需要增加新的算法,则在该数据分析模块100中增加相应的模块,提供可用于该算法的数据信息。
数据库200中存放排序规则的中间与最终数据信息,其中最终数据为检索词与排序规则的线性表。
排序模块300则用于定时执行各种独立排序算法,以及综合排序算法。排序模块300从数据库200中提取可用于某独立排序算法的数据信息,从而采取该独立排序算法对各个垂直搜索引擎搜索结果进行排序,不同的排序结果对应不同的分值。排序模块300再根据这些由独立排序算法得到的分值,采取综合排序算法计算此次搜索中各个垂直搜索引擎的综合值,根据综合值进行排序,并显示输出,同时将最终排序信息存放到数据库200中。
图2示出了本发明中综合搜索结果的排序方法的流程。
在步骤S201中,在综合搜索引擎中输入检索词进行搜索,得到全部垂直搜索引擎搜索的结果。
在步骤S202中,排序模块300从数据库200提取数据信息,采取各独立排序算法以及综合排序算法计算该次搜索中每种垂直搜索引擎的综合值(即其综合排名)。具体过程是首先采取各种独立排序算法,对该次搜索中的各垂直搜索引擎进行排序,并得到对应的分值;然后采取综合排序算法,利用独立排序算法得到的各垂直搜索引擎的分值,计算其综合值。
在步骤S203中,根据各垂直搜索引擎的综合值进行比较,对所述垂直搜索引擎进行排序,将最终排序信息显示输出,同时还将最终排序信息存储到数据库200中。
图3示出了本发明的一个实施例中综合搜索结果的排序方法的流程,以某检索词K为例,详述如下在步骤S301中,在综合搜索引擎中输入检索词K进行搜索,得到全部垂直搜索引擎(以Ti表示)搜索的结果,例如有关K的垂直搜索引擎有以下六种视频(T1)、论坛(T2)、图片(T3)、音乐(T4)、新闻(T5)、网页(T6)。当然,本发明并不限定为所提及的这些搜索引擎种类。
在步骤S302中,排序模块300从数据库200提取各排序算法相关的数据信息,首先采取各独立排序算法对此次搜索中各垂直搜索引擎排序,并给出各垂直搜索引擎对应的分值。具体过程如下采取第一种独立排序算法,如人工干预法,得到一个垂直搜索引擎的排序,并根据该排序结果给各垂直搜索引擎设定对应的分值,以Si(1)表示。假定该次搜索中的排序结果为图片(T3)、视频(T1)、音乐(T4)、网页(T6)、新闻(T5)、论坛(T2),则其对应的分值排序为S3(1)、S1(1)、S4(1)、S6(1)、S5(1)、S2(1),由此可为各搜索引擎赋值为S1(1)=5,S2(1)=1,S3(1)=6,S4(1)=4,S5(1)=2,S6(1)=3。当然本发明的赋值也并不限定为以上方式,所赋值可根据需要灵活变更,只要能根据排序结果将各垂直搜索引擎分出梯度即可。
采取第二种独立排序算法,如索引量对比法,得到第二列垂直搜索引擎的赋值Si(2)。再采取其他的独立排序算法,均以相同的方式为各垂直搜索引擎赋值。最终得到四次排序对应的赋值,结果如下表所示

其中i为垂直搜索引擎的编号,此实施例中1<=i<=6;j为独立排序算法的编号,本发明的此实施例中运用的独立排序算法有四种,所以1<=j<=4。如上表所示,垂直搜索引擎“视频(T1)”在四次排序中分别得到的赋值为S1(1)=5,S1(2)=1,S1(3)=2,S1(4)=4。
在步骤S303中,采取综合排序算法计算此次搜索中各垂直搜索引擎的综合值。即利用如下的计算公式S(K,Ti)=Si(1)*W1+Si(2)*W2+Si(3)*W3+Si(4)*W4,W1+W2+W3+W4=1(0<=W1,W2,W3,W4<=1)。
在该计算公式中,K是检索词,Ti是垂直搜索引擎,Si(1)、Si(2)、Si(3)、Si(4)分别表示检索词K在垂直搜索引擎Ti中使用各独立排序算法时所得排序对应的分值(例如本实施例中的六种垂直搜索引擎,根据排名的先后顺序分别赋值为6、5、4、3、2、1),W1、W2、W3、W4为各独立排序算法的权重因子(例如可设定为W1=0.4,W2=0.3,W3=0.2,W4=0.1),S(K,Ti)表示检索词K在垂直搜索引擎Ti中的综合值。
则在该实施例中,根据步骤S302中已经得到的各垂直搜索引擎的各次排序结果对应的分值,运用该计算公式计算综合值,例如搜索引擎T1对应的综合值为S(K,T1)=S1(1)*W1+S1(2)*W2+S1(3)*W3+S1(4)*W4
=5*0.4+1*0.3+2*0.2+4*0.1=3.1用同样的方法,计算出此次搜索中其他各垂直搜索引擎对应的综合值,分别为S(K,T2)=1.8,S(K,T3)=5.2,S(K,T4)=4.7,S(K,T5)=2.5,S(K,T6)=3.7。
在步骤S304中,根据各垂直搜索引擎的综合值进行比较,按照从大到小的顺序即为S(K,T3)、S(K,T4)、S(K,T1)、S(K,T6)、S(K,T5)、S(K,T2)。因此各垂直搜索引擎的排序对应为图片(T3)、音乐(T4)、视频(T1)、网页(T6)、新闻(T5)、论坛(T2),而显示输出时也在网页上以“图片、音乐、视频、网页、新闻、论坛”的顺序显示给用户。最后再将此排序存入数据库200中。
在此步骤之后,用户得到综合搜索的结果页,并可在其上选取点击自己感兴趣的内容。而本发明的排序系统会利用其中的数据分析模块100(尤其是日志及分析模块103)记录用户的点击行为,统计其点击某项垂直搜索的次数。并在一个固定周期之后利用排序模块300再次进行计算,得到的排序结果保存到数据库200中,当用户下一次输入同样的检索词时,本发明的排序系统则将该排序结果显示给用户。这个排序结果由于参考了用户行为的反馈,可以更加准确和个性化地满足用户的需求。
应当说明的是,本发明所使用的独立排序算法并不局限于所提及的几种,根据需要可进行扩展或者删除,另外本发明综合搜索中包含的垂直搜索引擎也不局限于以上提及的类型。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种综合搜索结果的排序系统,用于对综合搜索引擎中相互独立的垂直搜索引擎的结果进行排序,其特征在于,所述系统包括数据分析模块、数据库和排序模块;所述数据分析模块提供可用于排序算法的数据信息,并导入所述数据库中存储;所述数据库用于存储数据分析模块提供的数据信息,供应所述排序模块执行排序算法时的提取,并存储所述排序模块得到的最终排序信息;所述排序模块用于根据所述数据库中存储的数据信息执行排序算法,对所述垂直搜索引擎进行排序,并将最终排序信息存储到所述数据库中。
2.如权利要求1所述的综合搜索结果的排序系统,其特征在于,所述排序算法包括独立排序算法和综合排序算法;所述独立排序算法包括人工干预法、索引量比较法、用户行为分析法以及日志词频分析法,相互独立地对所述垂直搜索引擎进行排序;所述综合排序算法根据所述独立排序算法的排序结果,计算所述垂直搜索引擎的综合值,并根据所述综合值对所述垂直搜索引擎进行排序。
3.如权利要求1所述的综合搜索结果的排序系统,其特征在于,所述数据分析模块进一步包括人工预定义模块、索引量对比模块、日志及分析模块;所述人工预定义模块用于提供人工预定义的相关信息,定时导入所述数据库中,以供所述排序模块提取并采取人工干预法对所述垂直搜速引擎进行排序;所述索引量对比模块用于提供检索词在垂直搜索引擎中的结果数与搜索引擎的总索引量的比值信息,定时导入所述数据库中,以供所述排序模块提取并采取索引量比较法对所述垂直搜速引擎进行排序;所述日志及分析模块用于提供用户行为相关信息以及检索词相关的词频信息,定时导入所述数据库中,以供所述排序模块提取并分别采取用户行为分析法和日志词频分析法对所述垂直搜速引擎进行排序。
4.一种综合搜索结果的排序方法,用于对综合搜索引擎中相互独立的垂直搜索引擎的结果进行排序,其特征在于,所述方法包括以下步骤A.在所述综合搜索引擎中输入检索词进行搜索,得到全部垂直搜索引擎搜索的结果;B.所述排序模块从所述数据库提取数据信息,采取排序算法计算该次搜索中每种垂直搜索引擎的综合值;C.对所述每种垂直搜索引擎的综合值进行比较,对所述垂直搜索引擎进行排序,并将最终排序信息显示输出。
5.如权利要求4所述的综合搜索结果的排序方法,其特征在于,所述排序算法包括独立排序算法和综合排序算法;所述独立排序算法包括人工干预法、索引量比较法、用户行为分析法以及日志词频分析法,相互独立地对所述垂直搜索引擎进行排序;所述综合排序算法根据所述独立排序算法的排序结果,计算所述垂直搜索引擎的综合值,并根据所述综合值对所述垂直搜索引擎进行排序。
6.如权利要求4或5所述的综合搜索结果的排序方法,其特征在于,所述步骤B进一步包括B1.所述排序模块从所述数据库提取数据信息,分别采取全部独立排序算法对所述垂直搜索引擎进行排序;B2.所述排序模块根据所述步骤B1得到的排序结果,采取综合排序算法计算垂直搜索引擎的综合值,并根据所述综合值对所述垂直搜索引擎进行排序。
7.如权利要求6所述的综合搜索结果的排序方法,其特征在于,所述步骤B2中综合排序算法利用如下公式进行计算S(K,Ti)=∑Si(j)*Wj,∑Wj=1,(0<=Wj<=1);所述公式中K是检索词,Ti是垂直搜索引擎,i是垂直搜索引擎的编号,j是独立排序算法的编号,Si(j)表示在用j号独立排序算法搜索检索词K时i号垂直搜索引擎Ti所得排序对应的分值,Wj表示j号独立排序算法的权重因子,S(K,Ti)表示搜索检索词K时i号垂直搜索引擎Ti具有的综合值。
8.如权利要求4所述的的综合搜索结果的排序方法,其特征在于,所述方法进一步包括以下步骤D.所述排序模块将最终排序信息存储到所述数据库中。
9.如权利要求4所述的的综合搜索结果的排序方法,其特征在于,所述方法进一步包括以下步骤E.将用户在结果页上的点击行为反馈给数据分析模块中的日志及分析模块,定时再次计算和排序,并将结果保存在数据库中。
全文摘要
本发明适用于数据处理领域,提供了一种综合搜索结果的排序系统及方法。所述方法包括以下步骤A.在所述综合搜索引擎中输入检索词进行搜索,得到全部垂直搜索引擎搜索的结果;B.所述排序模块从所述数据库提取数据信息,采取排序算法计算该次搜索中每种垂直搜索引擎的综合值;C.对所述每种垂直搜索引擎的综合值进行比较,对所述垂直搜索引擎进行排序,并将最终排序信息显示输出。本发明通过应用多种独立排序算法,并整合为综合值进行排序,增强了对综合搜索结果进行排序的灵活性,并满足了用户的个性化需求。
文档编号G06F17/30GK101079033SQ20061003636
公开日2007年11月28日 申请日期2006年6月30日 优先权日2006年6月30日
发明者刑宏宇, 朱建朋 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1