通过离线查询提高在线实时搜索质量的方法与系统的制作方法

文档序号:6444593阅读:223来源:国知局
专利名称:通过离线查询提高在线实时搜索质量的方法与系统的制作方法
技术领域
本发明涉及网络通信领域,主要是一种通过离线查询提高在线实时搜索质量的方法与系统。
背景技术
随着信息技术的发展和互联网的不断普及,网络搜索引擎不仅成为人们在互联网上获取知识的重要平台,也成为解决人们生活中各类问题的有效渠道。人们可以通过搜索引擎查询所需的资料和信息,也可以通过搜索引擎寻求生活中遇到的各方面问题的答案。 在现有的搜索技术和方法中,搜索引擎能过检索的信息源依赖于互联网在线资源,如果用户查询的结果掌握在一部分离线提供者手中,用户需要通过各种方式获取这些离线数据提供者的联系方式,并通过线下的方式向这些提供者进行询问,按个询问结果。但是在现有的技术和方法中,用户提出查询后,如果在线搜索返回的在线结果不能满足用户的要求,而真正能够满足用户要求的解答掌握在部分线下人员或者机构手中, 这种情形下,用户首先需要手动通过各种方式取得这些线下人员或者机构的联系方式,进行筛选后分别联系这些线下数据提供者并发出询问,然后等待线下数据提供者回应。对于这种情况,用户往往需要耗费巨大的精力获得有效的数据提供者名单和联系方式,精准度很低;而且分别通过线下联系方法进行联系的效率非常低。这样容易导致用户未能定位到真正掌握满足自己需求的离线数据提供者,同时又浪费巨大的时间和精力,最终仍未能获得自己满意的结果。

发明内容
本发明的目的正是要克服上述技术的不足,而提供一种通过离线查询提高在线实时搜索质量的方法与系统,当用户通过网络平台触发一个查询请求时,如果在缓存数据平台(记录一定时间窗口内的在线和离线查询的结果)和在线实时搜索系统中都未能找到满意的结果,该系统可以快速高效地帮助用户定位到一组掌握问题相关领域知识或资源并且愿意接受查询的离线数据提供者,向这些用户推送查询请求并收集答案,然后展现给提问者,由提问的用户提名一个最满意的查询结果。本发明解决其技术问题采用的技术方案这种通过离线查询提高在线实时搜索质量的方法,包括以下步骤步骤Si,系统接受用户查询请求;步骤S2,通过数据缓存平台,搜索一定时间窗口 Wl内满足要求的结果集,如果有, 排序后返回给用户;步骤S3,如果未找到满足要求的结果,将请求送至在线数据实时查询平台,获取实时结果集;步骤S4,实时结果集按照时间和关键值排序后返回给用户,用户如果从中找到满
4意结果,则完成;步骤S5,如果没有满意结果,从离线数据提供者集合中按分类选取一组或者全部, 将用户查询请求以及部分在线结果送出查询;步骤S6,从数据提供者接收结果;步骤S7,在用户可接受的时间窗口 W2内,将数据提供者返回的结果和在线实时结果集合并,排序作为结果集,离线送给用户。前述的通过离线查询提高在线实时搜索质量的方法中,步骤S2中所述的通过数据缓存平台,获取一定时间周期内满足要求的结果集包括提取初始查询的领域类别信息、 初始查询中的关键词列表、初始查询中的条件信息,初始查询的类型信息;统计数据缓存中相似查询的领域类别信息、相似查询的关键词列表,相似查询中的条件信息,相似查询的类型信息;其中所述的缓存数据平台指的是在一定时间周期内被用户挑选为满意结果的查询和结果组合,比如数分钟或数小时乃至数天内曾被用户选作满意结果,超出时间窗口的查询和结果组合会从数据缓存平台中清除。前述的通过离线查询提高在线实时搜索质量的方法中,步骤S2还包括若结果集存在,则根据统计结果成绩由高到低排列结果,根据排序结果成绩由高到低分页返回给用户。前述的通过离线查询提高在线实时搜索质量的方法中,步骤S3所述的将查询请求送至在线数据实时查询平台包括根据查询请求的领域类别、查询请求的关键词列表、查询请求的条件、查询请求的类型,从在线实时查询平台中选择合适的在线数据源,进行在线实时搜索,并获取实时搜索结果集。前述的通过离线查询提高在线实时搜索质量的方法中,步骤S4中所述的对在线实时搜索结果集按照时间和值排序包括根据在线实时搜索结果集中结果的返回时间和结果值进行排序。排序后的结果集返回给用户,若用户从中选择了满意结果,则搜索完成。前述的通过离线查询提高在线实时搜索质量的方法中,步骤S5中所述的从离线数据提供者集合中按分类选取一组或者全部的选择依据包括初始查询的领域类别、初始查询的关键词列表、离线数据提供者的领域类别、离线数据提供者的关键词标记列表、离线数据提供者的在线信息、离线数据提供者的历史数据提供成绩。其中所述的离线数据提供者的历史数据提供成绩包括离线数据提供者总共回答过的问题数量和质量(在搜索结果中的排名统计),离线数据提供者在一定周期内回答过的问题数量,如一周或一个月。前述的通过离线查询提高在线实时搜索质量的方法中,步骤S6中所述的在用户可接受的时间窗口内,从数据提供者接收结果包括由用户设定时间作为从离线数据提供者接收查询结果的时间窗口 ;若用户未设定时间,则取系统默认值。前述的通过离线查询提高在线实时搜索质量的方法中,步骤S7中所述的将数据提供者返回的结果和在线实时结果集合并,排序作为结果集,离线送给用户包括在允许的时间窗口内接收到的离线查询结果和在线实时查询结果集合并,并进行排序。排序依据包括各结果返回的时间、各结果值;对于离线查询结果,排序依据还包括离线结果提供者的历史活跃度、离线结果提供者的历史数据提供成绩。排序后的结果,通过离线的方式送回给用户。用户选中的来自离线的满意结果将会保存至缓存数据平台,包括查询请求内容,查询请求的领域类型信息,查询请求关键词列表,查询请求的类型信息,查询请求的提交时间,用户账号,满意结果的内容,满意结果的回答时间,满意结果的有效期限。本发明所述的这种通过离线查询提高在线实时搜索质量的系统,它包括触发模块,用于用户触发查询请求;搜索模块一,用于从数据缓存平台获取满足要求的结果集并排序;显示模块一,用于显示排好序的缓存结果集;搜索模块二,用于搜索在线数据实时查询平台,获取实时结果集并排序;显示模块二,用于显示排好序的实时结果集;选择模块,用于选择一组或全部离线数据提供者作为查询的离线数据源;传送模块,用于将查询请求传送至离线数据提供者,收集离线结果,将离线结果和在线实时结果合并后排序;显示模块三,用于离线显示合并后的结果集;存储模块,用于将离线结果集保存至数据缓存平台。前述的通过离线查询来提高实时搜索质量的系统中,所述的搜索模块一还包括统计模块一,用于提取初始查询的领域类别信息、初始查询中的关键词列表、初始查询中的条件信息,初始查询的类型信息;统计数据缓存中相似查询的领域类别信息、相似查询的关键词列表,相似查询中的条件信息,相似查询的类型信息。其中所述的缓存数据平台指的是在一定时间周期内被用户挑选为满意结果的查询和结果组合,比如数小时或者数天内曾被用户选作满意结果,超出时间周期的查询和结果组合会从数据缓存平台中清除。前述的通过离线查询来提高实时搜索质量的系统中,所述的搜索模块一还包括排序模块一,用于根据统计成绩由高到低排列从缓存数据平台找到的结果集,其中所述的结果集是根据查询请求和缓存数据平台上保存的查询请求相似度选出的候选结果集,从而保证候选结果集的命中率。前述的通过离线查询来提高实时搜索质量的系统中,所述的搜索模块二还包括统计模块二,用于提取和统计查询请求的领域类别、查询请求的关键词列表、查询请求的条件、查询请求的类型。前述的通过离线查询来提高实时搜索质量的系统中,所述的搜索模块二还包括排序模块二,用于对实时搜索结果集根据结果的返回时间和结果值进行排序。前述的通过离线查询来提高实时搜索质量的系统中,所述的选择模块,还包括统计模块三,用于从离线数据提供者集合中按分类选取一组或者全部作为离线查询的源;统计依据包括初始查询的领域类别、初始查询的关键词列表、离线数据提供者的领域类别、离线数据提供者的关键词标记列表、离线数据提供者的在线信息、离线数据提供者的历史数据提供成绩。其中所述的离线数据提供者的历史数据提供成绩包括离线数据提供者总共回答过的问题数量和质量,离线数据提供者在一定周期内回答过的问题数量, 如一周或一个月。前述的通过离线查询来提高实时搜索质量的系统中,所述的传送模块,还包括排序模块三,用于对将离线数据提供者返回的结果集和在线在线实时搜索结果集所形成的合并结果集进行排序。排序依据包括各结果返回的时间、各结果值;对于离线查询结果,排序依据还包括离线结果提供者的历史数据提供成绩。其中所述的离线数据提供者的历史数据提供成绩包括离线数据提供者总共回答过的问题数量和质量,离线数据提供者在一定周期内回答过的问题数量,如一周或一个月。 本发明有益的效果是与现有技术相比,首先,本发明通过搜索显示缓存数据平台,它同时记录了过去的,在线和离线查询的结果,在线实时搜索和定位查询相关的离线数据提供者的方法,当用户提出一个时间相关的问题时,如果用户在缓存数据中找不到满足要求的结果,则将请求实时查询平台,获取实时结果集,若用户从实时查询平台返回的结果集中仍未找到期望的满意结果,系统将从离线数据提供者群组中选取一组或全部,并向他们提交用户查询和搜集结果,使得用户从中挑选满意结果,并将选中的满意结果保存至缓存,以备后来的用户查询。其次,本发明提取和统计初始查询的领域类别信息、初始查询中的关键词列表、初始查询中的条件信息,初始查询的类型信息、数据缓存中相似查询的领域类别信息、相似查询的关键词列表,相似查询中的条件信息,相似查询的类型信息,其中所述的关键词列表包括该查询包含的所对应领域类别相关的属性名称和属性值,根据全面统计各种因素作为查询相似度的分值,实现在缓存数据平台中准确地定位同样的或者相似的查询和结果的集合。再次,本发明根据统计结果成绩由高到低排列从缓存数据平台中找到的查询和结果,其中所述的根据统计结果成绩排列的查询和结果的集合是在初始查询和缓存数据中的查询的相似度分值满足一定系统阀值的前提下,选出的缓存结果集的子集, 从而确保这些挑选出来的缓存结果集能够满足用户查询需求的命中率;其中所述的缓存数据平台指的是在一定时间周期内被用户挑选为满意结果的查询和结果组合,比如数小时或者数天内曾被用户选作满意结果,超出时间周期的查询和结果组合会从数据缓存平台中清除。还有,本发明将查询请求送至在线数据实时查询平台包括根据查询请求的领域类别、 查询请求的关键词列表、查询请求的条件、查询请求的类型,从在线实时查询平台中选择合适的在线数据源,进行在线实时搜索,并获取实时搜索结果集;然后对在线实时搜索结果集按照时间和值排序包括根据在线实时搜索结果集中结果的返回时间和结果值进行排序; 排序后的结果集返回给用户。另外,本发明在用户从在线实时搜索结果中仍未能找到满意结果的情况下,从离线数据提供者集合中按分类选取一组或者全部的选择依据包括初始查询的领域类别、初始查询的关键词列表、离线数据提供者的领域类别、离线数据提供者的关键词标记列表、离线数据提供者的在线信息、离线数据提供者的历史数据提供成绩。其中所述的离线数据提供者历史活跃度包括离线数据提供者在一定周期内的登录次数,如一周或一个月,离线数据提供者最后一次登录时间;其中所述的离线数据提供者的历史数据提供成绩包括离线数据提供者总共回答过的问题数量,离线数据提供者在一定周期内回答过的问题数量和质量,如一周或一个月。最后,本发明在用户可接受的时间窗口内,从数据提供者接收结果;在允许的时间窗口内接收到的离线查询结果和在在线实时查询结果集合并,并进行排序。排序依据包括各结果返回的时间、各结果值;对于离线查询结果,排序依据还包括离线结果提供者的历史活跃度、离线结果提供者的历史数据提供成绩。排序后的结果,通过离线的方式送回给用户。用户选中的来自离线的满意结果将会保存至缓存数据平台,包括查询请求内容,查询请求的领域类型信息,查询请求关键词列表,查询请求的类型信息,查询请求的提交时间,用户账号,满意结果的内容,满意结果的回答时间,满意结果的有效期限。


图1为本发明的方法流程图;图2为本发明实施例的系统结构示意图。附图标记1-触发模块,2-搜索模块一,3-显示模块一,4-搜索模块二,5-显示模块二,6-选择模块,7-传送模块,8-显示模块三,9-存储模块,10-统计模块一,11-排序模块一,12-统计模块二,13-排序模块二,14-统计模块三,15-排序模块三。
具体实施例方式为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图及举例,对本发明进行进一步详细说明。应当理解,此处所描述的举例仅仅用以解释本发明,并不用于限定本发明。
具体实施例方式一种通过离线查询提高在线实时搜索质量的方法,如图1所示, 包括以下步骤步骤Si,系统接受用户查询请求;步骤S2,通过数据缓存平台,获取一定时间窗口 Wl内满足要求的结果集,如果有, 排序后返回给用户;步骤S3,如果未找到满足要求的结果,将请求送至在线数据实时查询平台,获取实时结果集;步骤S4,实时结果集按照时间和值排序后返回给用户,用户如果从中找到满意结果,则完成;步骤S5,如果没有满意结果,从离线数据提供者集合中按分类选取一组或者全部, 将用户查询请求以及部分在线结果送出查询;步骤S6,从数据提供者接收结果;步骤S7,在用户可接受的时间窗口 W2内,将数据提供者返回的结果和在线实时结果集合并,排序作为结果集,离线送给用户。上述方法中,步骤S2中所述的通过数据缓存平台,获取一定时间周期内满足要求的结果集包括提取初始查询的领域类别信息、初始查询中的关键词列表、初始查询中的条件信息,初始查询的类型信息;统计数据缓存中相似查询的领域类别信息、相似查询的关键词列表,相似查询中的条件信息,相似查询的类型信息;其中所述的缓存数据平台指的是在一定时间周期内被用户挑选为满意结果的查询和结果组合,比如数小时或者数天内曾被用户选作满意结果,超出时间周期的查询和结果组合会从数据缓存平台中清除。上述方法中,步骤S2还包括若结果集存在,则根据统计结果成绩由高到低排列结果,根据排序结果成绩由高到低分页返回给用户。上述方法中,步骤S3所述的将查询请求送至在线数据实时查询平台包括根据查询请求的领域类别、查询请求的关键词列表、查询请求的条件、查询请求的类型,从在线实时查询平台中选择合适的在线数据源,进行在线实时搜索,并获取在线实时搜索结果集。上述方法中,步骤S4中所述的对在线实时搜索结果集按照时间和值排序包括根据在线实时搜索结果集中结果的返回时间和结果值进行排序。排序后的结果集返回给用户,若用户从中选择了满意结果,则搜索完成。
8
上述方法中,步骤S5中所述的从离线数据提供者集合中按分类选取一组或者全部的选择依据包括初始查询的领域类别、初始查询的关键词列表、离线数据提供者的领域类别、离线数据提供者的关键词标记列表、离线数据提供者的在线信息、离线数据提供者的历史数据提供成绩。其中所述的离线数据提供者的历史数据提供成绩包括离线数据提供者总共回答过的问题数量和质量,离线数据提供者在一定周期内回答过的问题数量,如一周或一个月。上述方法中,步骤S6中所述的在用户可接受的时间窗口内,从数据提供者接收结果包括由用户设定时间作为从离线数据提供者接收查询结果的时间窗口 ;若用户未设定时间,则取系统默认值。上述方法中,步骤S7中所述的将数据提供者返回的结果和在线实时结果集合并, 排序作为结果集,离线送给用户包括在允许的时间窗口内接收到的离线查询结果和在线实时查询结果集合并,并进行排序。排序依据包括各结果返回的时间、各结果值;对于离线查询结果,排序依据还包括离线结果提供者的历史数据提供成绩。排序后的结果,通过离线的方式送回给用户。用户选中的来自离线的满意结果将会保存至缓存数据平台,包括 查询请求内容,查询请求的领域类型信息,查询请求关键词列表,查询请求的类型信息,查询请求的提交时间,用户账号,满意结果的内容,满意结果的回答时间,满意结果的有效期限。一种实现上述方法的通过离线查询来提高在线实时搜索质量的系统,如图2所示,包括触发模块1,用于用户触发查询请求;搜索模块一 2,用于从数据缓存平台获取满足要求的结果集并排序;显示模块一 3,用于显示排好序的缓存结果集;搜索模块二 4,用于搜索在线数据实时查询平台,获取实时结果集并排序;显示模块二 5,用于显示排好序的实时结果集;选择模块6,用于选择一组或全部离线数据提供者作为查询的离线数据源;传送模块7,用于将查询请求传送至离线数据提供者,收集离线结果,将离线结果和在线实时结果合并后排序;显示模块三8,用于离线显示合并后的结果集;存储模块9,用于将离线结果集保存至数据缓存平台。上述系统中,所述的搜索模块一还包括统计模块一 10,用于提取初始查询的领域类别信息、初始查询中的关键词列表、初始查询中的条件信息,初始查询的类型信息;统计数据缓存中相似查询的领域类别信息、相似查询的关键词列表,相似查询中的条件信息,相似查询的类型信息。其中所述的缓存数据平台指的是在一定时间周期内被用户挑选为满意结果的查询和结果组合,比如数小时或者数天内曾被用户选作满意结果,超出时间周期的查询和结果组合会从数据缓存平台中清除。上述系统中,所述的搜索模块一还包括排序模块一 11,用于根据统计成绩由高到低排列从缓存数据平台找到的结果集, 其中所述的结果集是根据查询请求和缓存数据平台上保存的查询请求相似度选出的候选结果集,从而保证候选结果集的命中率。上述系统中,所述的搜索模块二还包括统计模块二 12,用于提取和统计查询请求的领域类别、查询请求的关键词列表、查询请求的条件、查询请求的类型。上述系统中,所述的搜索模块二还包括排序模块二 13,用于对实时搜索结果集根据结果的返回时间和结果值进行排序。上述系统中,所述的选择模块,还包括统计模块三14,用于从离线数据提供者集合中按分类选取一组或者全部作为离线查询的源;统计依据包括初始查询的领域类别、初始查询的关键词列表、离线数据提供者的领域类别、离线数据提供者的关键词标记列表、离线数据提供者的在线信息、离线数据提供者的历史数据提供成绩。其中所述的离线数据提供者的历史数据提供成绩包括离线数据提供者总共回答过的问题数量,离线数据提供者在一定周期内回答过的问题数量,如一周或一个月。上述系统中,所述的传送模块,还包括排序模块三15,用于对将离线数据提供者返回的结果集和在线实时搜索结果集所形成的合并结果集进行排序。排序依据包括各结果返回的时间、各结果值;对于离线查询结果,排序依据还包括离线结果提供者的历史数据提供成绩。其中所述的离线数据提供者历史活跃度包括其中所述的离线数据提供者的历史数据提供成绩包括离线数据提供者总共回答过的问题数量和质量,离线数据提供者在一定周期内回答过的问题数量,如一周或一个月。本发明的一种实施例的工作流程S20,系统接受用户查询请求;S30,Web服务器根据用户查询请求的类型信息、关键词信息和查询条件信息从数据缓存平台搜索与用户查询匹配的结果,获取一定时间窗口 Wi内满足要求的结果集,如果有,排序后在客户端显示排好序的结果列表;S40,如果在数据缓存平台未找到满足用户要求的结果,则将请求送至在线数据实时查询平台,获取实时结果集;S50,将在线实时获取的结果集按照时间和值排序后返回并在用户客户端显示,用户如果从中找到满意结果,则完成此次查询请求;S60,如果在线实时结果集中仍然没有令用户满意的结果,从离线数据提供者集合中按分类选取一组或者全部,将用户查询请求以及部分在线结果送出至这些选取的数据提供者进行查询;S70,接收从数据提供者返回的结果;S80,在用户可接受的时间窗口 W2内,将数据提供者返回的结果和在线实时结果集合并,排序作为结果集,离线送给用户。实例说明实例一,用户“天行者”提交一个查询请求“11月30日从上海飞往纽约的机票价格”,该问题类别为“机票”,关键词为“机票搜索”,查询条件为“上海至纽约”,“11月30日”, “单程”。系统收到该查询之后,立即开始在缓存数据平台搜索M小时之内由离线数据提供者回应同样或相似问题的结果。缓存数据平台返回结果“11月30日,国航CA1832,人民币四80元”,结果返回给用户,用户认为该结果可以接受。实例二,用户“天涯游子”提交查询请求“10月28日入住,10月30日退房,杭州4 星级标准间”,该问题类别为“酒店搜索”,关键词为“酒店”,查询条件为“入住日期10月观日”,“退房日期10月30日”,“标准间”,“杭州”。系统收到该查询后,立即开始在缓存数据平台搜索M小时之内由离线数据提供者回应同样或相似问题的结果。缓存数据平台未找到匹配的结果,则系统进行在线实时搜索,在和“酒店”相关的在线数据源中进行实时查询。 在线实时查询返回一组结果,其中有一条“10月观日入住,10月30日退房,杭州西湖四季酒店,标准间,298每晚”,用户认为该结果可以接受。实例三,用户“天涯游子”提交查询请求"10月28日入住,10月30日退房,杭州 4星级标准间”,该问题类别为“酒店搜索”,关键词为“酒店”,查询条件为“入住日期10月 28日”,“退房日期10月30日”,“标准间”,“杭州”。系统收到该查询后,立即开始在缓存数据平台搜索M小时之内由离线数据提供者回应同样或相似问题的结果。缓存数据平台未找到匹配的结果,则系统进行在线实时搜索,在和“酒店”相关的在线数据源中进行实时查询。在线实时查询返回一组结果,用户都不觉得满意,触发离线查询。系统离线查询模块收到用户请求,根据问题类别“酒店搜索”从离线数据提供者列表中定位一组或者全部与“酒店搜索”相关的离线数据提供者,并将查询条件“入住日期10月观日”,“退房日期10月30 日”,“标准间”,“杭州”传送至这些离线数据提供者。在M小时之内接受离线提供者提交的报价结果并通知用户,用户通过客户端查看离线数据提供者返回的结果集和当时在线实时结果集,通过比较选取满意的结果。可以理解的是,对本领域技术人员来说,对本发明的技术方案及发明构思加以等同替换或改变都应属于本发明所附的权利要求的保护范围。
权利要求
1.一种通过离线查询提高在线实时搜索质量的方法,其特征在于包括以下步骤步骤Si,系统接受用户查询请求;步骤S2,通过数据缓存平台,搜索有效时间窗口内满足要求的结果集,如果有,排序后返回给用户;步骤S3,如果未找到满足要求的结果,将请求送至在线数据实时查询平台,获取实时结果集并存入数据缓存平台;步骤S4,实时结果集按照时间和关键值排序后返回给用户,用户如果从中找到满意结果,则完成;步骤S5,如果没有满意结果,从离线数据提供者集合中按分类选取一组或者全部, 将用户查询请求以及部分在线结果送出查询;步骤S6,从数据提供者接收结果并存入数据缓存平台;步骤S7,在用户可接受的时间窗口 W2内,将数据提供者返回的结果和在线实时结果集合并,排序作为结果集,离线送给用户。
2.根据权利要求1所述的通过离线查询提高在线实时搜索质量的方法,其特征在于 步骤S2中所述的通过数据缓存平台,获取一定时间周期内满足要求的结果集包括提取初始查询的领域类别信息、初始查询中的关键词列表、初始查询中的条件信息,初始查询的类型信息;统计数据缓存中相似查询的领域类别信息、相似查询的关键词列表,相似查询中的条件信息,相似查询的类型信息;其中所述的缓存数据平台指的是在一定时间周期内被用户挑选为满意结果的查询和结果组合,超出时间周期的查询和结果组合会从数据缓存平台中自动清除。
3.根据权利要求1所述的通过离线查询提高在线实时搜索质量的方法,其特征在于 步骤S3所述的将查询请求送至在线数据实时查询平台包括根据查询请求的领域类别、查询请求的关键词列表、查询请求的条件、查询请求的类型,从在线实时查询平台中选择合适的在线数据源,进行在线实时搜索,并获取实时搜索结果集。
4.根据权利要求1所述的通过离线查询提高在线实时搜索质量的方法,其特征在于 步骤S4中所述的对在线实时搜索结果集按照时间和关键值排序包括根据在线实时搜索结果集中结果的返回时间和结果值进行排序;排序后的结果集返回给用户,若用户从中选择了满意结果,则搜索完成。
5.根据权利要求1所述的通过离线查询提高在线实时搜索质量的方法,其特征在于 步骤S5中所述的从离线数据提供者集合中按分类选取一组或者全部的选择依据包括初始查询的领域类别、初始查询的关键词列表、离线数据提供者的领域类别、离线数据提供者的关键词标记列表、离线数据提供者的历史活跃度、离线数据提供者的在线信息、离线数据提供者的历史数据提供成绩。
6.根据权利要求1所述的通过离线查询提高在线实时搜索质量的方法,其特征在于 步骤S6中所述的从数据提供者接收结果包括由用户设定时间作为从离线数据提供者接收查询结果的时间窗口 ;若用户未设定时间,则取系统默认值。
7.根据权利要求1所述的通过离线查询提高在线实时搜索质量的方法,其特征在于 步骤S7中所述的在用户可接受的时间窗口 W2内,将数据提供者返回的结果和在线实时结果集合并,排序作为结果集,离线送给用户包括在允许的时间窗口内接收到的离线查询结果和在在线实时查询结果集合并,并进行排序;排序依据包括各结果返回的时间、各结果值;对于离线查询结果,排序依据还包括离线结果提供者的历史活跃度、离线结果提供者的历史数据提供成绩;排序后的结果,通过离线的方式送回给用户。
8.一种实现如权利要求1所述方法的通过离线查询提高在线实时搜索质量的系统,其特征在于它包括触发模块(1),用于用户触发查询请求;搜索模块一(2),用于从数据缓存平台搜索满足要求的结果集并排序;显示模块一(3),用于显示排好序的缓存结果集;搜索模块二(4),用于搜索在线数据实时查询平台,获取实时结果集并排序;显示模块二(5),用于显示排好序的实时结果集;选择模块(6),用于选择一组或全部离线数据提供者作为查询的离线数据源;传送模块(7),用于将查询请求传送至离线数据提供者,收集离线结果,将离线结果和在线实时结果合并后排序;显示模块三(8),用于离线显示合并后的结果集;存储模块(9 ),用于将离线结果集保存至数据缓存平台。
9.根据权利要求8所述的通过离线查询提高在线实时搜索质量的系统,其特征在于 所述的搜索模块一(2)还包括统计模块一(10),用于提取初始查询的领域类别信息、初始查询中的关键词列表、初始查询中的条件信息,初始查询的类型信息;统计数据缓存中相似查询的领域类别信息、相似查询的关键词列表,相似查询中的条件信息,相似查询的类型信息;还包括排序模块一(11),用于根据统计成绩由高到低排列结果;所述的搜索模块二(4) 还包括统计模块二(12),用于提取和统计查询请求的领域类别、查询请求的关键词列表、查询请求的条件、查询请求的类型;所述的搜索模块二(4)还包括排序模块二(13),用于对实时搜索结果集根据结果的返回时间和结果值进行排序。
10.根据权利要求8所述的通过离线查询提高在线实时搜索质量的系统,其特征在于 所述的选择模块(6),还包括统计模块三(14),用于从离线数据提供者集合中按分类选取一组或者全部作为离线查询的源;统计依据包括初始查询的领域类别、初始查询的关键词列表、离线数据提供者的领域类别、离线数据提供者的关键词标记列表、离线数据提供者的在线信息、离线数据提供者的历史数据提供成绩;所述的传送模块(7)还包括排序模块三(15),用于对将离线数据提供者返回的结果集和在线实时搜索结果集所形成的合并结果集进行排序;排序依据包括各结果返回的时间、各结果值;对于离线查询结果,排序依据还包括离线结果提供者的历史数据提供成绩。
全文摘要
本发明公开了一种通过离线查询提高在线实时搜索质量的方法与系统,系统接受用户查询请求;通过数据缓存平台,搜索有效时间窗口W1内满足要求的结果集;如果未找到满足要求的结果,将请求送至在线数据实时查询平台,获取在线实时结果集;实时结果集按照时间和关键值排序后返回给用户;如果没有满意结果,从离线数据提供者集合中按分类选取一组或者全部,将用户查询请求以及部分在线结果送出查询;从数据提供者接收结果并存入数据缓存平台;在用户可接受的时间窗口W2内,将数据提供者返回的结果和在线实时结果集合并。本发明的优点是本发明对于用户在线提交和时间相关的查询,在一定的时间窗口内能够快速高效地帮助用户找到满意的解答。
文档编号G06F17/30GK102436510SQ201110456330
公开日2012年5月2日 申请日期2011年12月30日 优先权日2011年12月30日
发明者刘庆生, 史何富, 曹学军, 曹智清 申请人:浙江乐得网络科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1