优化搜索结果的方法及装置与流程

文档序号:11155354阅读:630来源:国知局
优化搜索结果的方法及装置与制造工艺

本发明实施例涉及计算机技术,尤其涉及一种优化搜索结果的方法及装置。



背景技术:

随着计算机技术的发展,用户通过计算机进行搜索的场景越来越普遍。例如,在线上购物过程中,用户可以输入搜索词来搜索自己想要的商品。计算机中的搜索系统在接收到用户输入的搜索词后,可以根据内部的算法计算搜索出的文档的分值,将搜索出的文档按照分值进行排序,并输出给用户。对于用户来说,最终呈现出的文档的顺序非常重要,其直接影响了用户的搜索体验。在计算搜索出的文档的分值时,是按照文档的各索引字段及各索引字段的权重值进行计算的。通过设置索引字段的权重值,可以在搜索过程中强调一些字段而弱化另一些字段。因此,在搜索系统中,确定索引字段的合理的权重集非常重要。

目前,企业通常都采用人工的方式确定各索引字段的权重值。例如,在搜索系统上线之前,通常由技术人员根据需求设置各索引字段及各索引字段的初始的权重值,加载数据后进行测试搜索,,再根据搜索结果调整索引字段的权重值,直至最终输出的目标文档的顺序达到满意的程度。

但是,上述过程是采用人工方式调整字段的权重值,调整后的搜索效果依赖于个人经验,效果不可靠。而且,一旦搜索系统上线运行之后,无法持续对搜索结果进行优化,从而,导致用户的搜索体验不高。



技术实现要素:

本发明实施例提供一种优化搜索结果的方法及装置,以提高用户的搜索体验。

一方面,本发明实施例提供一种优化搜索结果的方法,应用于对搜索系统进行分析的搜索分析系统。该搜索系统提供不同的索引字段。该方法包括:搜索分析系统获取搜索系统的搜索日志。其中,搜索日志中包括发生过的搜索中的搜索词信息、搜索结果信息及用户的操作信息。搜索分析系统从搜索词信息中确定出用于测试的搜索词集合,并根据搜索词信息、搜索结果信息及用户的操作信息对搜索词集合中每个搜索词的搜索进行有效性分析,得到关于有效性的分析结果。搜索分析系统以搜索词集合中的搜索词在索引字段的不同权重集下进行测试搜索,得到各搜索词在不同权重集下的测试结果。搜索分析系统利用从搜索日志得到的关于有效性的分析结果测算每个权重集下的测试结果的有效值,并确定各测试结果的有效值中满足预设条件的有效值,将满足预设条件的有效值对应的权重集作为索引字段的最优权重集。搜索分析系统以最优权重集对搜索系统中的索引字段的权重值进行更新。权重集是由各索引字段的权重值组合而成集合。这里的预设条件可以为各测试结果的有效值中最大的有效值,也可以是各测试结果的有效值中大于预设阈值的有效值。该方法实现了在搜索系统的运行过程中,可以根据搜索日志得到每个搜索词的有效性的分析结果,再根据该分析结果去测算每个权重集下的测试结果的有效值,进而,根据每个权重集下的测试结果的有效值确定索引字段的最优权重集,对索引字段的权重值进行更新,在搜索系统上线之后,可以根据搜索日志持续实现对搜索结果的优化,相较于无法持续对搜索结果进行优化的方式,可以实现不断优化搜索结果,从而,提高了用户的搜索体验。

在一种可能的设计中,以搜索词集合中的搜索词在索引字段的不同权重集下进行测试搜索包括:通过调整索引字段的权重值来得到索引字段的不同权重集;在每次调整后,以搜索词集合中的搜索词在调整后的权重集下进行测试搜索,得到不同权重集下的测试结果。在调整过程中,可以是以遍历索引字段的权重集空间的方法来进行调整。该实现方式可以高效地得到不同权重集下的测试结果。

在一种可能的设计中,有效性分析包括:对每个搜索词所产生的搜索结果中的文档的有效性进行分析;相应的,得到关于有效性的分析结果包括:得到每个搜索词的有效文档集以及有效文档集中每个有效文档的有效值。则利用从搜索日志得到的关于有效性的分析结果测算每个权重集下的测试结果的有效值,具体包括:从各权重集的测试结果中提取用于进行测算的测算文档集;确定测试搜索中搜索到测算文档集的搜索词,从测算文档集中识别出包括在测算文档集对应的搜索词的有效文档集中的文档;从关于有效性的分析结果中获取识别出的测算文档的有效值;根据每个权重集下识别出的测算文档的有效值计算权重集下的测试结果的有效值。实现了简便快捷地进行有效性分析,提高了优化搜索结果的效率。

在一种可能的设计中,对每个搜索词所产生的搜索结果中的文档的有效性进行分析,包括:确定每个搜索词的有效文档集;根据公式Rix=r*Di*Fi2确定有效文档集中第x个有效文档相对第i个搜索词的有效值,其中,r为预设的参数,Di为第x个有效文档被用户选中的次数,Fi为用户选中第x个有效文档之前的翻页次数。

在一种可能的设计中,根据每个权重集下识别出的测算文档的有效值计算权重集下的测试结果的有效值,具体包括:根据公式确定第i个搜索词对应的测算文档集相对第i个搜索词的测试搜索有效值,其中,z为测算文档集中测算文档的总个数,R'ix为测算文档集中第x个测算文档相对第i个搜索词的测试搜索有效值,当第x个测算文档为识别出的测算文档时,R'ix=Rix,当第x个测算文档不是识别出的测算文档时,R'ix=0;根据公式确定第x个权重集下的测试结果的有效值。

该实现方式限定了具体的对文档的有效性进行分析以及确定不同的权重集下的测试结果的有效值的公式,实现了定量地进行分析,提高了优化搜索结果的准确率。

在一种可能的设计中,有效性分析还包括:对每个搜索词的重要性进行分析;相应的,得到关于有效性的分析结果还包括:得到每个搜索词的重要性权重值;相应地,根据每个权重集下识别出的测算文档的有效值计算权重集下的测试结果的有效值,具体包括:根据公式确定第i个搜索词对应的测算文档集相对第i个搜索词的测试搜索有效值,其中,Ti为第i个搜索词的重要性权重值,z为测算文档集中测算文档的总个数,R'ix为测算文档集中第x个测算文档相对第i个搜索词的测试搜索有效值,当第x个测算文档为识别出的测算文档时,R'ix=Rix,当第x个测算文档不是识别出的测算文档时,R'ix=0;根据公式确定第x个权重集下的测试结果的有效值。

在一种可能的设计中,对每个搜索词的重要性进行分析,具体包括:根据公式确定第i个搜索词的重要性权重值,其中,n为搜索词集合中搜索词的总个数,Ci表示搜索词集合中第i个搜索词被搜索的次数。

该实现方式中,在进行有效性分析时,对每个搜索词的重要性进行了分析,并且,限定了具体的确定搜索词的重要性权重值的公式,以及,在计算权重集下的测试结果的有效值时考虑到了搜索词的重要性权重值,进一步提高了优化搜索结果的准确率。

另一方面,本发明实施例提供一种优化搜索结果的装置,该装置具有实现上述方法实施例中搜索分析系统的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的部件(比如,获取模块,有效性分析模块,测试搜索模块,测算模块,确定模块,更新模块)。

再一方面,本发明实施例提供一种计算机存储介质,用于储存为上述搜索分析系统所用的计算机软件指令,其包含用于执行上述方面为搜索分析系统所设计的程序。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的搜索分析系统及搜索系统的架构图;

图2为本发明实施例提供的优化搜索结果的方法实施例的流程示意图;

图3为本发明实施例提供的优化搜索结果的装置实施例一的结构示意图;

图4为本发明实施例提供的优化搜索结果的装置实施例二的结构示意图。

具体实施方式

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”及“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1为本发明实施例提供的搜索分析系统及搜索系统的架构图。如图1所示,本发明实施例提供的优化搜索结果的方法,可以应用于对搜索系统11进行分析的搜索分析系统12中。搜索系统11提供不同的索引字段。在搜索系统11中,当用户输入搜索词发起信息搜索时,搜索系统11在索引库111中根据搜索词及索引字段检索目标物品信息,并反馈给用户。并在搜索日志112中记录搜索词、搜索结果及用户对该搜索结果的操作信息。这里的信息搜索可以是商品搜索或文献搜索等。在此过程中,各索引字段的权重值会影响最终搜索结果中的商品或文献的排序,而该排序是影响用户搜索体验的重要因素。为方便起见,将搜索结果中的商品和文献都称为文档。因此,在搜索系统11的运行过程中,调整并确定各索引字段的权重集非常重要。搜索分析系统12可以在搜索系统的运行过程中,采用本发明实施例提供的优化搜索结果的方法,对搜索系统中的索引字段的权重值进行更新,从而优化搜索结果,提高用户体验。

本发明实施例提供的优化搜索结果的方法可以由搜索分析系统获取搜索系统的搜索日志,搜索日志中包括发生过的搜索中的搜索词信息、搜索结果信息及用户的操作信息,从搜索词信息中确定出用于测试的搜索词集合,并根据搜索词信息、搜索结果信息及用户的操作信息对搜索词集合中每个搜索词的搜索进行有效性分析,得到关于有效性的分析结果,以搜索词集合中的搜索词在索引字段的不同权重集下进行测试搜索,得到各搜索词在不同权重集下的测试结果,权重集是由各索引字段的权重值组合而成的集合,利用从搜索日志得到的关于有效性的分析结果测算每个权重集下的测试结果的有效值,确定各测试结果的有效值中满足预设条件的有效值,将满足预设条件的有效值对应的权重集作为索引字段的最优权重集,以最优权重集对搜索系统中的索引字段的权重值进行更新。也就是说,本发明实施例提供的优化搜索结果的方法是由搜索分析系统根据搜索日志对历史上的搜索进行有效性分析,然后利用该分析结果来评估在索引字段的不同权重集下进行测试搜索的搜索结果,从而找出最优的权重集。由于搜索分析系统是基于历史的客观数据来对测试搜索的搜索结果进行评估的,因此,由此找出的最优权重集比人为经验具有更高的可靠性。另外,该方法可以在搜索系统的运行过程中执行,因此,在搜索系统上线之后,可以根据搜索日志持续实现对搜索结果的优化,相较于无法持续对搜索结果进行优化的方式,可以实现不断优化搜索结果,从而,提高了用户的搜索体验。

下面以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本发明实施例提供的优化搜索结果的方法实施例的流程示意图。如图2所示,本发明实施例提供的优化搜索结果的方法包括如下步骤:

S101:搜索分析系统获取搜索系统的搜索日志。

其中,搜索日志中包括发生过的搜索中的搜索词信息、搜索结果信息及用户的操作信息。

具体地,搜索系统中可以包括索引库和搜索日志。索引库中以索引字段的形式存储有搜索系统中的物品信息。举例来说,当搜索系统为在线购物网站的搜索系统时,商品的索引字段可以是:商品名称、商品编码、商品价格、商品简介及商品图片等字段;当搜索系统为科技文献检索系统的搜索系统时,文献的索引字段可以是:文献名称、文献简介及文献类型等字段。

搜索系统中的搜索日志可以包括发生过的搜索中的搜索词信息、搜索结果信息及用户的操作信息。搜索系统可以将用户进行搜索时的搜索词及搜索词被搜索的次数作为搜索词信息存储在搜索日志中。将搜索系统根据搜索词及索引字段搜索出的搜索结果中的文档作为搜索结果信息存储在搜索日志中。将用户对搜索出的文档的操作的信息作为操作信息存储在搜索日志中。可选的,搜索词信息可以是搜索词以及每个搜索词被搜索的次数,搜索结果信息可以是搜索出的文档集,操作信息可以是用户选中文档集中的某个文档的次数,以及,选中该文档之前的翻页次数。

在第一种可能的实现方式中,搜索分析系统可以以预设的频率获取搜索系统的搜索日志。该获取过程可以是搜索分析系统以预设的周期向搜索系统发送搜索日志获取请求,搜索系统在接收到搜索日志获取请求之后,向搜索分析系统发送搜索日志。该获取过程还可以是搜索系统以预设的周期向搜索系统搜索分析系统主动发送搜索日志。示例性的,该预设的周期可以是24小时。

在第二种可能的实现方式中,可以是搜索分析系统在确定搜索系统的搜索的当前有效值小于预设的有效值阈值时,说明此时需要对搜索结果进行优化,则搜索分析系统确定获取搜索系统的搜索日志以进行搜索结果的优化。对于搜索系统的搜索的当前有效值的确定方式,将在下文进行详细说明。

S102:搜索分析系统从搜索词信息中确定出用于测试的搜索词集合,并根据搜索词信息、搜索结果信息及用户的操作信息对搜索词集合中每个搜索词的搜索进行有效性分析,得到关于有效性的分析结果。

具体地,在从搜索词信息中确定出用于测试的搜索词集合时,可以是按照搜索次数对搜索词排序,选出搜索次数最高的n个搜索词(Q1,...,Qn)作为用于测试的搜索词集合。当然,也可以从搜索日志中随机选出n个搜索词作为用于测试的搜索词集合,本发明实施例对此不做限制。

可选的,对搜索词集合中每个搜索词的搜索进行有效性分析,可以包括:对每个搜索词所产生的搜索结果中的文档的有效性进行分析,以及,对每个搜索词的重要性进行分析。相应地,得到关于有效性的分析结果包括:得到每个搜索词的有效文档集、有效文档集中每个有效文档的有效值,以及,每个搜索词的重要性权重值。

在一种更具体的实现方式中,对每个搜索词所产生的搜索结果中的文档的有效性进行分析,包括:确定每个搜索词的有效文档集;根据公式Rix=r*Di*Fi2确定有效文档集中第x个有效文档相对第i个搜索词的有效值,其中,r为预设的参数,Di为第x个有效文档被用户选中的次数,Fi为用户选中第x个有效文档之前的翻页次数。

可以根据搜索日志中,用户对每个搜索词对应的搜索结果文档集中每个文档的点击次数,确定点击次数靠前的m份文档(Wi1,...,Wim)作为搜索词Qi的有效文档集。当然,也可以从每个搜索词的搜索结果文档集中任意取m份文档作为每个搜索词的有效文档集。在确定出每个搜索词的有效文档集之后,针对一个搜索词Qi,可以根据公式Rix=r*Di*Fi2确定该搜索词的有效文档集中第x个有效文档相对该搜索词的有效值。需要说明的是,针对每一个搜索词,都有具有m个有效文档的有效文档集,有效文档集中的每一个有效文档都具有相对该搜索词的有效值。

在一种更具体的实现方式中,对每个搜索词的重要性进行分析,具体包括:根据公式确定第i个搜索词的重要性权重值,其中,n为搜索词集合中搜索词的总个数,Ci表示搜索词集合中第i个搜索词被搜索的次数。可以理解的是,这里是用一个搜索词被搜索的次数与搜索词集合中所有搜索词被搜索的总次数的比值来表征该搜索词的重要性权重值。也即,如果一个搜索词被搜索的次数越多,表示该搜索词的重要性权重值越大,即该搜索词越重要。

需要说明的是,有效文档的有效值以及搜索词的重要性权重值的计算公式中的参数中,除预设参数外,其他参数都可以从搜索日志中获取。

S103:搜索分析系统以搜索词集合中的搜索词在索引字段的不同权重集下进行测试搜索,得到各搜索词在不同权重集下的测试结果。

其中,权重集是由各索引字段的权重值组合而成集合。

具体地,在本发明实施例中,索引字段的不同权重集指的是索引字段的权重集空间中的各个权重集。也即,以搜索词集合中的搜索词遍历索引字段的权重空间中的每个权重集进行测试搜索,以获取各搜索词在不同权重集下的测试结果。

可选的,可以通过以下方法进行测试搜索:通过调整索引字段的权重值来得到索引字段的不同权重集;在每次调整后,以搜索词集合中的搜索词在调整后的权重集下进行测试搜索,得到不同权重集下的测试结果。这里的测试结果可以包括:在索引字段的不同权重集下,以每一个搜索词进行测试搜索后得到的由测试文档组成的测试文档集。

需要说明的是,在进行测试搜索时,为了不影响搜索系统的正常运行,可以设置一个用于测试搜索的索引库。该用于测试搜索的索引库与搜索系统中的索引库完全一样,再在该用于测试搜索的索引库中以搜索词集合中的搜索词在不同的权重集进行测试搜索。

S104:搜索分析系统利用从搜索日志得到的关于有效性的分析结果测算每个权重集下的测试结果的有效值。

具体地,在得到各搜索词在不同权重集下的测试结果后,可以根据S102中得到的有效性的分析结果测算每个权重集下的测试结果的有效值。

可选的,可以采用以下过程测算每个权重集下的测试结果的有效值:从各权重集的测试结果中提取用于进行测算的测算文档集;确定测试搜索中搜索到测算文档集的搜索词,从测算文档集中识别出包括在测算文档集对应的搜索词的有效文档集中的文档;从关于有效性的分析结果中获取识别出的测算文档的有效值;根据每个权重集下识别出的测算文档的有效值计算权重集下的测试结果的有效值。

在从各权重集的测试结果中提取用于进行测算的测算文档集时,可以是从由测试文档组成的测试文档集中选取位于前z个的测试文档作为测算文档集。再确定该测算文档集对应的搜索词。测算文档集中,有的测算文档包括在该测算文档集对应的搜索词的有效文档集中,有的测算文档不包括在该测算文档集对应的搜索词的有效文档集中。识别出包括在测算文档集对应的搜索词的有效文档集中的文档。

在一种更具体的实现方式中,可以根据公式确定第i个搜索词对应的测算文档集相对第i个搜索词的测试搜索有效值,其中,Ti为第i个搜索词的重要性权重值,z为测算文档集中测算文档的总个数,R'ix为测算文档集中第x个测算文档相对第i个搜索词的测试搜索有效值,当第x个测算文档为识别出的测算文档时,R'ix=Rix,当第x个测算文档不是识别出的测算文档时,R'ix=0;根据公式确定第x个权重集下的测试结果的有效值。即,在计算每个权重集下的测试结果的有效值时,先确定出在该权重集下,每一个搜索词的测试搜索有效值,再将n个搜索词的测试搜索有效值相加,即可得到该权重集下的测试结果的有效值。采用此实现方式可以获取每个权重集下的测试结果的有效值。

S105:搜索分析系统确定各测试结果的有效值中满足预设条件的有效值,将满足预设条件的有效值对应的权重集作为索引字段的最优权重集。

具体地,这里的预设条件可以为各测试结果的有效值中最大的有效值,也可以是各测试结果的有效值中大于预设阈值的有效值。本发明实施例对此不做限制。

当预设条件为各测试结果的有效值中最大的有效值时,首先确定出测试结果的有效值中最大的有效值,再将该最大的有效值对应的权重集作为索引字段的最优权重集。当预设条件为各测试结果的有效值中大于预设阈值的有效值时,首先确定出测试结果的有效值中大于预设阈值的有效值,如果有多个测试结果的有效值大于预设阈值,则从这些多个有效值中随机选取一个有效值,再将该有效值对应的权重集作为索引字段的最优权重集。

S106:搜索分析系统以最优权重集对搜索系统中的索引字段的权重值进行更新。

具体地,在确定出最优权重集后,用该权重集更新搜索系统中的索引字段的当前的权重值。当更新完成后,用户在进行搜索时,搜索结果会更满足用户的需求。

下面对S101中,确定获取搜索系统的搜索日志的时机的第二种可能的实现方式中,计算搜索系统的搜索的当前有效值的实现过程作一详细说明:可以根据已经确定的搜索词集合,对搜索词集合中每个搜索词的搜索进行有效性分析,即,得到每个搜索词的有效文档集、有效文档集中每个有效文档的有效值以及搜索词的重要性权重值。需要说明的是,该过程与S102的区别在于,搜索词集合可能不同,也可能相同。该过程中的搜索词集合为上一次进行优化搜索结果的方法时根据搜索日志选取的搜索词集合。而S102中,搜索词集合为在搜索系统的当前权重集下,根据搜索日志重新选取的搜索词集合。类似地,根据S102中计算搜索词有效值的公式确定当前权重集下有效文档的有效值,以及,搜索词的重要性权重值。之后,根据S104中计算测算文档集相对第i个搜索词的测试搜索有效值的公式计算有效文档集的测试搜索有效值,再根据计算第x个权重集下的测试结果的有效值的公式计算当前权重集下的当前有效值。在获取到当前有效值后,比较当前有效值与预设的有效值阈值,在当前有效值小于预设的有效值阈值,确定执行优化搜索结果的方法。即,开始执行S101。

本发明实施例提供的优化搜索结果的方法,通过获取搜索系统的搜索日志,搜索日志中包括发生过的搜索中的搜索词信息、搜索结果信息及用户的操作信息,从搜索词信息中确定出用于测试的搜索词集合,并根据搜索词信息、搜索结果信息及用户的操作信息对搜索词集合中每个搜索词的搜索进行有效性分析,得到关于有效性的分析结果,以搜索词集合中的搜索词在索引字段的不同权重集下进行测试搜索,得到各搜索词在不同权重集下的测试结果,权重集是由各索引字段的权重值组合而成的集合,利用从搜索日志得到的关于有效性的分析结果测算每个权重集下的测试结果的有效值,确定各测试结果的有效值中满足预设条件的有效值,将满足预设条件的有效值对应的权重集作为索引字段的最优权重集,以最优权重集对搜索系统中的索引字段的权重值进行更新,实现了在搜索系统的运行过程中,可以根据搜索日志得到每个搜索词的有效性的分析结果,再根据该分析结果去测算每个权重集下的测试结果的有效值,进而,根据每个权重集下的测试结果的有效值确定索引字段的最优权重集,对索引字段的权重值进行更新,在搜索系统上线之后,可以根据搜索日志持续实现对搜索结果的优化,相较于无法持续对搜索结果进行优化的方式,可以实现不断优化搜索结果,从而,提高了用户的搜索体验。

可选的,在另一种实现方式中,针对上述实施例的S102,进行有效性分析时,还可以是以下过程:搜索分析系统对每个搜索词所产生的搜索结果中的文档的有效性进行分析,相应地,得到关于有效性的分析结果包括:得到每个搜索词的有效文档集以及有效文档集中每个有效文档的有效值。该种实现方式中与上述实施例中S102的区别在于,在进行有效性分析时,不对每个搜索词的重要性进行分析。

则基于该实现方式,利用从搜索日志得到的关于有效性的分析结果测算每个权重集下的测试结果的有效值中的过程与上述实施例中的S104区别在于,在根据每个权重集下识别出的测算文档的有效值计算权重集下的测试结果的有效值时,在本实现方式中,是根据公式确定第i个搜索词对应的测算文档集相对第i个搜索词的测试搜索有效值,其中,z为测算文档集中测算文档的总个数,R'ix为测算文档集中第x个测算文档相对第i个搜索词的测试搜索有效值,当第x个测算文档为识别出的测算文档时,R'ix=Rix,当第x个测算文档不是识别出的测算文档时,R'ix=0;根据公式确定第x个权重集下的测试结果的有效值。

该实现过程相较于上述实施例,在进行有效性分析时更加简便快捷,同时,在确定测试结果的有效值时更加简便快捷,提高了优化搜索结果的效率。

图3为本发明实施例提供的优化搜索结果的装置实施例一的结构示意图。本发明实施例提供的优化搜索结果的装置可以是方法实施例中的搜索分析系统,用于对搜索系统进行分析,搜索系统提供不同的索引字段。如图3所示,本发明实施例提供的优化搜索结果的装置包括如下模块:

获取模块31,用于获取搜索系统的搜索日志。

其中,搜索日志中包括发生过的搜索中的搜索词信息、搜索结果信息及用户的操作信息。

具体地,获取模块31的实现过程和技术原理与图2所示实施例中的S101的实现过程和技术原理类似,此处不再赘述。

有效性分析模块32,用于从搜索词信息中确定出用于测试的搜索词集合,并根据搜索词信息、搜索结果信息及用户的操作信息对搜索词集合中每个搜索词的搜索进行有效性分析,得到关于有效性的分析结果。

在第一种可能的实现方式中,有效性分析模块32可以包括:有效性分析子模块321和重要性分析子模块322。其中,有效性分析子模块321,用于对每个搜索词所产生的搜索结果中的文档的有效性进行分析。重要性分析子模块322,用于对每个搜索词的重要性进行分析。相应地,得到关于有效性的分析结果包括:得到每个搜索词的有效文档集、有效文档集中每个有效文档的有效值以及得到每个搜索词的重要性权重值。

在第二种可能的实现方式中,有效性分析模块32包括:有效性分析子模块321。有效性分析子模块321,用于对每个搜索词所产生的搜索结果中的文档的有效性进行分析。相应地,得到关于有效性的分析结果包括:得到每个搜索词的有效文档集以及有效文档集中每个有效文档的有效值。

可选的,有效性分析子模块321具体用于:确定每个搜索词的有效文档集;根据公式Rix=r*Di*Fi2确定有效文档集中第x个有效文档相对第i个搜索词的有效值,其中,r为预设的参数,Di为第x个有效文档被用户选中的次数,Fi为用户选中第x个有效文档之前的翻页次数。

重要性分析子模块322具体用于:根据公式确定第i个搜索词的重要性权重值,其中,n为搜索词集合中搜索词的总个数,Ci表示搜索词集合中第i个搜索词被搜索的次数。

有效性分析模块32的实现过程和技术原理与图2所示实施例中的S102的实现过程和技术原理类似,此处不再赘述。

测试搜索模块33,用于以搜索词集合中的搜索词在索引字段的不同权重集下进行测试搜索,得到各搜索词在不同权重集下的测试结果。

其中,权重集是由各索引字段的权重值组合而成集合。

可选的,测试搜索模块33具体用于:通过调整索引字段的权重值来得到索引字段的不同权重集;在每次调整后,以搜索词集合中的搜索词在调整后的权重集下进行测试搜索,得到不同权重集下的测试结果。

测试搜索模块33的实现过程和技术原理与图2所示实施例中的S103的实现过程和技术原理类似,此处不再赘述。

测算模块34,用于利用从搜索日志得到的关于有效性的分析结果测算每个权重集下的测试结果的有效值。

具体地,测算模块34包括:提取子模块341,用于从各权重集的测试结果中提取用于进行测算的测算文档集;识别子模块342,用于确定测试搜索中搜索到测算文档集的搜索词,从测算文档集中识别出包括在测算文档集对应的搜索词的有效文档集中的文档;获取子模块343,用于从关于有效性的分析结果中获取识别出的测算文档的有效值;计算子模块344,用于根据每个权重集下识别出的测算文档的有效值计算权重集下的测试结果的有效值。

针对有效性分析模块32的第一种可能的实现方式,计算子模块344具体用于:根据公式确定第i个搜索词对应的测算文档集相对第i个搜索词的测试搜索有效值,其中,Ti为第i个搜索词的重要性权重值,z为测算文档集中测算文档的总个数,R'ix为测算文档集中第x个测算文档相对第i个搜索词的测试搜索有效值,当第x个测算文档为识别出的测算文档时,R'ix=Rix,当第x个测算文档不是识别出的测算文档时,R'ix=0;根据公式确定第x个权重集下的测试结果的有效值。

针对有效性分析模块32的第二种可能的实现方式,计算子模块344具体用于:根据公式确定第i个搜索词对应的测算文档集相对第i个搜索词的测试搜索有效值,其中,z为测算文档集中测算文档的总个数,R'ix为测算文档集中第x个测算文档相对第i个搜索词的测试搜索有效值,当第x个测算文档为识别出的测算文档时,R'ix=Rix,当第x个测算文档不是识别出的测算文档时,R'ix=0;根据公式确定第x个权重集下的测试结果的有效值。

测算模块34的实现过程和技术原理与图2所示实施例中的S104的实现过程和技术原理类似,此处不再赘述。

确定模块35,用于确定各测试结果的有效值中满足预设条件的有效值,将满足预设条件的有效值对应的权重集作为索引字段的最优权重集。

确定模块35的实现过程和技术原理与图2所示实施例中的S105的实现过程和技术原理类似,此处不再赘述。

更新模块36,用于以最优权重集对搜索系统中的索引字段的权重值进行更新。

更新模块36的实现过程和技术原理与图2所示实施例中的S106的实现过程和技术原理类似,此处不再赘述。

本发明实施例提供的优化搜索结果的装置,通过设置获取模块,用于获取搜索系统的搜索日志,有效性分析模块,用于从搜索词信息中确定出用于测试的搜索词集合,并根据搜索词信息、搜索结果信息及用户的操作信息对搜索词集合中每个搜索词的搜索进行有效性分析,得到关于有效性的分析结果,测试搜索模块,用于以搜索词集合中的搜索词在索引字段的不同权重集下进行测试搜索,得到各搜索词在不同权重集下的测试结果,测算模块,用于利用从搜索日志得到的关于有效性的分析结果测算每个权重集下的测试结果的有效值,确定模块,用于确定各测试结果的有效值中满足预设条件的有效值,将满足预设条件的有效值对应的权重集作为索引字段的最优权重集,更新模块,用于以最优权重集对搜索系统中的索引字段的权重值进行更新,实现了在搜索系统的运行过程中,可以根据搜索日志得到每个搜索词的有效性的分析结果,再根据该分析结果去测算每个权重集下的测试结果的有效值,进而,根据每个权重集下的测试结果的有效值确定索引字段的最优权重集,对索引字段的权重值进行更新,在搜索系统上线之后,可以根据搜索日志持续实现对搜索结果的优化,相较于无法持续对搜索结果进行优化的方式,可以实现不断优化搜索结果,从而,提高了用户的搜索体验。

图4为本发明实施例提供的优化搜索结果的装置实施例二的结构示意图。本发明实施例提供的优化搜索结果的装置是对搜索分析系统的硬件结构进行介绍。如图4所示,本发明实施例提供的优化搜索结果的装置包括:存储器41和处理器42。存储器41用于存储处理器42的可执行指令。

处理器42可以是一个中央处理器(Central Processing Unit,CPU),或者是特定集成电路(Application Specific Integrated Circuit,ASIC),或者是完成实施本发明实施例的一个或多个集成电路。当优化搜索结果的程序运行时,处理器42与存储器41之间通信,处理器42调用可执行指令,用于执行以下操作:

获取搜索系统的搜索日志,搜索日志中包括发生过的搜索中的搜索词信息、搜索结果信息及用户的操作信息;从搜索词信息中确定出用于测试的搜索词集合,并根据搜索词信息、搜索结果信息及用户的操作信息对搜索词集合中每个搜索词的搜索进行有效性分析,得到关于有效性的分析结果;以搜索词集合中的搜索词在索引字段的不同权重集下进行测试搜索,得到各搜索词在不同权重集下的测试结果;权重集是由各索引字段的权重值组合而成集合;利用从搜索日志得到的关于有效性的分析结果测算每个权重集下的测试结果的有效值;确定各测试结果的有效值中满足预设条件的有效值,将满足预设条件的有效值对应的权重集作为索引字段的最优权重集;以最优权重集对搜索系统中的索引字段的权重值进行更新。

具体地,在以搜索词集合中的搜索词在索引字段的不同权重集下进行测试搜索的方面,处理器42具体用于:通过调整索引字段的权重值来得到索引字段的不同权重集;在每次调整后,以搜索词集合中的搜索词在调整后的权重集下进行测试搜索,得到不同权重集下的测试结果。

在一种可能的实现方式中,在有效性分析的方面,处理器42用于:对每个搜索词所产生的搜索结果中的文档的有效性进行分析;相应的,得到关于有效性的分析结果包括:得到每个搜索词的有效文档集以及有效文档集中每个有效文档的有效值。

在利用从搜索日志得到的关于有效性的分析结果测算每个权重集下的测试结果的有效值的方面,处理器42具体用于:从各权重集的测试结果中提取用于进行测算的测算文档集;确定测试搜索中搜索到测算文档集的搜索词,从测算文档集中识别出包括在测算文档集对应的搜索词的有效文档集中的文档;从关于有效性的分析结果中获取识别出的测算文档的有效值;根据每个权重集下识别出的测算文档的有效值计算权重集下的测试结果的有效值。

在对每个搜索词所产生的搜索结果中的文档的有效性进行分析的方面,处理器42具体用于:确定每个搜索词的有效文档集;根据公式Rix=r*Di*Fi2确定有效文档集中第x个有效文档相对第i个搜索词的有效值,其中,r为预设的参数,Di为第x个有效文档被用户选中的次数,Fi为用户选中第x个有效文档之前的翻页次数。

在根据每个权重集下识别出的测算文档的有效值计算权重集下的测试结果的有效值的方面,处理器42具体用于:根据公式确定第i个搜索词对应的测算文档集相对第i个搜索词的测试搜索有效值,其中,z为测算文档集中测算文档的总个数,R'ix为测算文档集中第x个测算文档相对第i个搜索词的测试搜索有效值,当第x个测算文档为识别出的测算文档时,R'ix=Rix,当第x个测算文档不是识别出的测算文档时,R'ix=0;根据公式确定第x个权重集下的测试结果的有效值。

在另一种可能的实现方式中,在有效性分析的方面,处理器42还用于:对每个搜索词的重要性进行分析;相应的,得到关于有效性的分析结果还包括:得到每个搜索词的重要性权重值。相应地,在根据每个权重集下识别出的测算文档的有效值计算权重集下的测试结果的有效值的方面,处理器42具体用于:根据公式确定第i个搜索词对应的测算文档集相对第i个搜索词的测试搜索有效值,其中,Ti为第i个搜索词的重要性权重值,z为测算文档集中测算文档的总个数,R'ix为测算文档集中第x个测算文档相对第i个搜索词的测试搜索有效值,当第x个测算文档为识别出的测算文档时,R'ix=Rix,当第x个测算文档不是识别出的测算文档时,R'ix=0;根据公式确定第x个权重集下的测试结果的有效值。

可选的,在对每个搜索词的重要性进行分析的方面,处理器42具体用于:根据公式确定第i个搜索词的重要性权重值,其中,n为搜索词集合中搜索词的总个数,Ci表示搜索词集合中第i个搜索词被搜索的次数。

本发明实施例提供的优化搜索结果的装置中,处理器42执行的详细的处理过程可参考方法实施例中图2所示的S102~S106,此处不再赘述。

本发明实施例提供的优化搜索结果的装置,实现在搜索系统的运行过程中,可以根据搜索日志得到每个搜索词的有效性的分析结果,再根据该分析结果去测算每个权重集下的测试结果的有效值,进而,根据每个权重集下的测试结果的有效值确定索引字段的最优权重集,对索引字段的权重值进行更新,在搜索系统上线之后,可以根据搜索日志持续实现对搜索结果的优化,相较于无法持续对搜索结果进行优化的方式,可以实现不断优化搜索结果,从而,提高了用户的搜索体验。

本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1