一种基于查询日志的数据处理方法和系统的制作方法_6

文档序号:8472963阅读:来源:国知局
种基于查询日志的数据处理方法,其特征在于,对于所述多元共现片段的频次进行修正,包括: 按照元数从高到低的顺序依次对元数小于N的多元共现片段的频次进行修正,所述N为查询日志中查询请求的多元共现片段的最大片段元数。
7.如权利要求6所述的一种基于查询日志的数据处理方法,其特征在于,对所述多元共现片段的频次进行修正,包括: 将统计的k元共现片段的频次减去包含k元共现片段内容的k+Ι元共现片段的频次,作为k元共现片段修正后的频次;所述k为整数,2彡k ( (N-1)。
8.如权利要求1所述的一种基于查询日志的数据处理方法,其特征在于,所述根据多元共现片段的元数及频次选取一个或一个以上多元共现片段,包括: 根据第一预设值,将共现片段的元数小于或等于所述第一预设值的设置为低元共现片段,将共现片段的元数大于所述第一预设值的设置为高元共现片段; 根据共现片段的元数及频次选取所述低元共现片段和高元共现片段。
9.如权利要求8所述的一种基于查询日志的数据处理方法,其特征在于,所述根据共现片段的元数及频次选取低元共现片段和高元共现片段,包括: 选取所述高元共现片段; 采用下列方式A-C中的一种或几种的组合选取所述低元共现片段: A:对共现片段的频次设置一个阈值进行过滤;当共现片段的频次大于或者等于设置的阈值时,该共现片段被选中; B:设定在低元共现片段中需要选取的总数目P,将所有的低元共现片段按照频次进行降序排列,然后选取排列的共现片段中前面的P个多元共现片段;所述P为正整数,P的取值小于低元共现片段的总个数; C:按照共现片段元数的不同,分别进行排序,排序后再分别选取每个元数的共现片段中排在前q%的共现片段,所述q的范围包括:0〈q〈100。
10.如权利要求1所述的一种基于查询日志的数据处理方法,其特征在于,所述将选取的多元共现片段及其查询结果存储起来,包括: 将选取的多元共现片段及其查询结果存放在内存中或高速缓冲存储器中; 或, 对选取的多元共现片段建立倒排索引,产生倒排列表,将所述倒排列表及共现片段的查询结果存放在相同的或者不同的存储器中,所述的存储器包括内存、高速缓冲存储器、磁盘。
11.如权利要求3、5、6、7中任意一项所述的一种基于查询日志的数据处理方法,其特征在于,所述查询日志中查询请求的多元共现片段的最大片段元数的确定方法,包括: 将查询日志中每个查询请求中检索词和检索条件的总个数作为每个查询请求对应的最小粒度的片段数,将最小粒度的片段数中的最大值作为多元共现片段的最大片段元数。
12.一种基于查询日志的数据处理系统,其特征在于,包括:查询日志获取模块、共现片段频次统计模块、共现片段频次修正模块、多元共现片段选取模块和存储模块;其中, 所述查询日志获取模块,用于获取预定时间段搜索引擎的部分或全部的查询日志;所述共现片段频次统计模块,用于对所述查询日志中查询请求的多元共现片段的频次进行统计; 所述共现片段频次修正模块,用于对共现片段频次统计模块中每一统计好频次的多元共现片段,利用该多元共现片段在元数更高的共现片段中的出现频次对所述多元共现片段的频次进行修正; 所述多元共现片段选取模块,用于对共现片段频次修正模块得到的多元共现片段根据多元共现片段的元数和频次选取一个或一个以上多元共现片段; 所述存储模块,用于将多元共现片段选取模块选取的多元共现片段及其对应的查询结果存储起来。
13.如权利要求12所述的一种基于查询日志的数据处理系统,其特征在于,所述多元共现片段频次统计模块包括:标识设置模块、频次计数模块; 所述标识设置模块,用于对每一查询请求设置标识,所述的标识具有唯一性; 所述频次计数模块,用于根据所述标识统计各个共现片段出现的频次。
14.如权利要求12所述的一种基于查询日志的数据处理系统,其特征在于,所述多元共现片段的元数小于N,所述N为查询日志中查询请求的多元共现片段的最大片段元数。
15.如权利要求12所述的一种基于查询日志的数据处理系统,其特征在于,所述多元共现片段频次修正模块包括:排序模块、减法模块; 所述排序模块,用于将元数小于N的多元共现片段按照元数从高到低的顺序进行排列,并依次输入到减法模块中进行处理; 所述减法模块,用于将统计的k元共现片段的频次减去包含k元共现片段内容的k+1元共现片段的频次,作为k元共现片段修正后的频次;所述k为整数,2彡k彡(N-1); 所述N为查询日志中查询请求的多元共现片段的最大片段元数。
16.如权利要求12所述的一种基于查询日志的数据处理系统,其特征在于,所述多元共现片段选取模块包括:第一设置模块、第一选取模块; 所述第一设置模块,用于根据第一预设值将共现片段的元数小于或等于所述第一预设值的设置为低元共现片段,并根据所述第一预设值将共现片段的元数大于所述第一预设值的设置为高元共现片段; 所述第一选取模块,用于根据多元根据共现片段的元数及频次选取所述低元共现片段和所述高元共现片段。
17.如权利要求16所述的一种基于查询日志的数据处理系统,其特征在于,所述第一选取模块包括:低元共现片段选取模块、高元共现片段选取模块; 所述低元共现片段选取模块,采用下列方式A-C中的一种或几种的组合选取低元共现片段: A:对共现片段的频次设置一个阈值进行过滤;当共现片段的频次大于或者等于设置的阈值时,该共现片段被选中;当共现片段的频次小于设定的阈值时,该共现片段不被选中; B:设定在低元共现片段中需要选取的总数目P,将所有的低元共现片段按照频次进行降序排列,然后选取排列的共现片段中前面的P个多元共现片段;所述P为正整数,P的取值小于低元共现片段的总个数; C:按照共现片段元数的不同,分别进行排序,排序后再分别选取每个元数的共现片段中排在前q%的共现片段,所述q的范围包括:0〈q〈100 ; 所述高元共现片段选取模块,用于选取所述高元共现片段。
18.如权利要求12所述的一种基于查询日志的数据处理系统,其特征在于,所述存储模块采用下述存储方法存储选取的多元共现片段及其对应的结果: 将选取的多元共现片段及其对应的查询结果存放在内存中或高速缓冲存储器中; 或, 对多元共现片段建立倒排索引,产生倒排列表;将所述倒排列表及共现片段对应的查询结果存放在相同的或者不同的存储器中,所述的存储器包括内存、高速缓冲存储器或磁盘。
19.一种利用权利要求1?11中任一项所述方法获得的数据进行查询的方法,其特征在于,包括: 将查询请求的内容和存储的多元共现片段进行匹配,并筛选匹配成功的多元共现片段; 为所述筛选的匹配成功的多元共现片段查找存储的查询结果; 为查询请求返回所述查询结果。
20.如权利要求19所述的查询方法,其特征在于,当所述筛选的匹配成功的多元共现片段包括2个或2个以上时,所述为查询请求返回查询结果包括: 将查找到的查询结果进行求交集运算; 为查询请求返回所述求交集运算得到的结果。
21.如权利要求19所述的查询方法,其特征在于,当存在没有与存储的多元共现片段匹配成功的片段时,所述查询方法还包括: 对所述没有匹配成功的片段执行查询过程; 相应地,所述为查询请求返回查询结果包括: 将筛选的匹配成功的多元共现片段对应的查询结果与根据所述没有匹配成功片段执行查询过程的结果进行求交集运算;为查询请求返回所述求交集运算得到的查询结果;所述筛选的匹配成功的多元共现片段包括一个多元共现片段或一个以上多元共现片段。
22.如权利要求19所述的查询方法,其特征在于,所述将查询请求的内容和存储的多元共现片段进行匹配,包括: 根据接收到的查询请求,列举出所述查询请求中的多元共现片段; 将所述多元共现片段从低元到高元依次与存储的多元共现片段进行匹配,若能匹配成功,则将所述匹配成功的多元共现片段扩展至包含了该多元共现片段内容的更高元共现片段,将所述的更高元共现片段与存储的多元共现片段进行匹配;若不能匹配成功,则匹配中止,再将下一个多元共现片段与存储的共现片段进行匹配,直至查询请求的多元共现片段匹配完毕。
23.如权利要求19所述的查询方法,其特征在于,所述筛选匹配成功的多元共现片段,包括: 根据第二预设值,将所述匹配成功的共现片段的元数小于或等于所述第二预设值的设置为匹配成功的低元共现片段,将所述匹配成功的共现片段的元数大于所述第二预设值的设置为匹配成功的高元共现片段; 筛选的策略包括: 选取高元共现片段策略,所述选取高元共现片段策略包括选取所述匹配成功的高元共现片段; 或, 选取低元共现片段策略,所述选取低元共现片段策略包括选取所述匹配成功的低元共现片段。
24.一种利用权利要求12?18中任一项所述系统获得的数据进行查询的系统,其特征在于,包括:查询请求匹配模块、查询结果查找模块、查询结果返回模块;其中, 所述查询请求匹配模块,用于将接收到的查询请求的内容与存储的多元共现片段进行匹配,并筛选匹配成功的多元共现片段; 所述查询结果查找模块,用于为查询请求匹配模块中筛选的匹配成功的多元共现片段根据存储模块中存储的多元共现片段和对应的查询结果,查找到存储的查询结果; 所述查询结果返回模块,用于为查询请求返回所述查询结果。
25.如权利要求24所述的一种查询系统,其特征在于,所述查询结果返回模块,包括返回模块,用于返回所述查询请求的查询结果。
26.如权利要求25所述的一种查询系统,其特征在于,当所述查询请求匹配模块中,筛选的匹配成功的多元共现片段包括2个或2个以上时,所述查询结果返回模块还包括:运算模块; 所述运算模块,用于将查询结果查找模块中查找到2个或2个以上多元共现片段对应的查询结果进行求交集运算; 相应地,所述返回模块,用于为查询请求返回所述求交集运算得到的结果。
27.如权利要求25所述的一种查询系统,其特征在于,当所述查询请求匹配模块中,存在没有匹配成功的片段时,所述查询系统还包括查询执行模块; 所述查询执行模块,用于对所述查询请求匹配模块中没有匹配成功的片段执行查询过程; 相应地, 所述运算模块,用于将查询结果查找模块中查找到的匹配成功的多元共现片段对应的查询结果与查询执行模块中执行查询过程的结果进行求交集运算; 所述返回模块,用于为查询请求返回所述交集运算得到的结果; 所述匹配成功的多元共现片段包括一个多元共现片段或一个以上多元共现片段。
28.如权利要求24所述的一种查询系统,其特征在于,所述查询请求匹配模块,包括:匹配模块、筛选模块; 所述匹配模块,用于将查询请求的共现片段与存储的共现片段进行匹配,得到匹配成功的多元共现片段; 所述筛选模块,用于筛选所述匹配成功的多元共现片段。
29.如权利要求28所述的一种查询系统,其特征在于,所述匹配模块包括:片段列举模块、片段排序模块、片段匹配模块、片段扩展模块; 所述片段列举模块,用于根据所述查询请求,列举出所述查询请求中的多元共现片段; 所述片段排序模块,用于将所述多元共现片段从低元到高元依次排序,并输入至片段匹配模块; 所述片段匹配模块,用于将所述多元共现片段与存储的多元共现片段进行匹配,若能匹配成功,则将所述匹配成功的多元共现片段输入至片段扩展模块;若不能匹配成功,则匹配中止,将下一个多元共现片段与存储的共现片段进行匹配,直至查询请求的多元共现片段匹配完毕; 所述片段扩展模块,用于将所述匹配成功的多元共现片段扩展至包含了该多元共现片段内容的更高元共现片段,并将所述的更高元共现片段返回至片段匹配模块。
30.如权利要求28所述的一种查询系统,其特征在于,所述筛选模块包括:第二设置模块、第二选取模块; 所述第二设置模块,用于根据第二预设值,将匹配成功的共现片段的元数小于或等于所述第二预设值的设置为匹配成功的低元共现片段,将匹配成功的共现片段的元数大于所述第二预设值的设置为匹配成功的高元共现片段; 所述第二选取模块采用下述策略对匹配成功的多元共现片段进行选取: 选取高元共现片段策略,所述选取高元共现片段策略包括选取所述匹配成功的高元共现片段; 或, 选取低元共现片段策略,所述选取低元共现片段策略包括选取所述匹配成功的低元共现片段。
【专利摘要】本申请提供一种基于查询日志的数据处理方法和系统。基于查询日志的数据处理方法包括:获取预定时间段搜索引擎的部分或全部的查询日志;对所述查询日志中查询请求的多元共现片段进行频次的统计;对每一多元共现片段,利用该多元共现片段在元数更高的共现片段中的出现频次对所述多元共现片段的频次进行修正;根据多元共现片段的元数及频次选取一个或一个以上多元共现片段;将选取的多元共现片段及其对应的查询结果存储起来。本申请基于查询日志的数据处理系统实施例,可以实现本申请基于查询日志的数据处理方法。利用本申请提供的数据处理方法和系统,可以提高存储内容的查询请求命中率,提升搜索引擎的性能。
【IPC分类】G06F17-30
【公开号】CN104794129
【申请号】CN201410026245
【发明人】杨国东, 朱张斌, 李群
【申请人】阿里巴巴集团控股有限公司
【公开日】2015年7月22日
【申请日】2014年1月20日
当前第6页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1