一种结构化数据搜索的方法和装置的制作方法

文档序号:6353016阅读:466来源:国知局
专利名称:一种结构化数据搜索的方法和装置的制作方法
一种结构化数据搜索的方法和装置
技术领域
本发明涉及互联网技术领域,特别涉及一种结构化数据搜索的方法和装置。背景技术
结构化数据搜索也称作垂直搜索,是相对于通用搜索的信息量大、查询不准确、深 度不够等提出的新的搜索引擎服务模式,其通过针对某一特定领域、某一特定人群或者某 一特定需求提供的有一定价值的信息和相关服务。其特点就是专、精、深,且具有行业色 彩。结构化数据搜索和普通的页面搜索最大的区别是对网页信息进行了结构化信息 提取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,然后将这些数据存储 到数据库,进行进一步的加工处理,如去重、分类等,最后分词、索引,以供搜索。但现有结构化数据搜索的搜索结果往往是互联网上已经存在的页面,搜索结果中 的页面十分零散,需要用户逐一浏览和识别是否是满足需要的页面,搜索效果较差。

发明内容有鉴于此,本发明提供了一种结构化数据搜索的方法和装置,以便于提高结构化 数据搜索的搜索效果。具体技术方案如下—种结构化数据搜索的方法,该方法包括A、接收具备结构化数据搜索需求的搜索请求,解析所述搜索请求中的URI,确定所 述URI对应的策略包;B、根据所述策略包中的服务属性信息,分别从各服务属性信息对应的结构化数据 库中获取搜索请求对应的搜索结果集合;C、如果步骤B从多于1个结构化数据库中获取搜索结果集合,则按照所述策略包 中的结果归并机制,对获取到的搜索结果集合进行归并处理;D、将归并处理后得到的搜索结果集合提供给用户。其中,步骤A中所述接收具备结构化数据搜索需求的搜索请求具体包括接收到来自浏览器的搜索请求后,对搜索请求中包含的搜索词进行语义分析后, 判断该搜索词是否命中预设的结构化需求词典,如果是,则确定所述搜索请求具备结构化 数据搜索需求;或者,接收到来自浏览器的搜索请求后,判断所述搜索请求是否为中间页的搜索请求, 如果是,则确定所述搜索请求具备结构化数据搜索需求;其中,所述中间页的搜索请求是浏 览器在用户点击垂直搜索结果时发送来的。另外,步骤A中确定所述URI对应的策略包具体包括对所述URI进行解析,获取所述URI中携带的服务类型信息;确定所述服务类型信息对应的策略包;所述策略包是根据所述服务类型的行业特点预先配置的。更进一步地,所述策略包中还包括调度策略信息;所述调度策略信息包括以下所列之一或任意组合服务超时控制策略、丢结果的 跨数据库重查策略以及搜索结果的数量控制策略;其中,所述服务超时控制策略包括当搜索时长超过服务属性对应的最大搜索时 长时,从同一服务属性对应的同一结构化数据库或同一服务属性对应的其他结构化数据库 中重新搜索,直至重新搜索次数达到预设的重查次数阈值或者搜索时长在所述最大搜索时 长内;或者,当搜索时长超过服务属性对应的最大搜索时长时,直接向用户返回搜索超时的 通知;所述丢结果的跨数据库重查策略包括当针对某服务属性连续N次在同一结构化 数据库中的搜索结果丢失状况达到预设的程度时,重新在所述某服务属性对应的其他结构 化数据库中重新进行搜索,直至重新搜索次数达到预设的重查次数阈值或者搜索结果丢 失状况在预设的程度内;其中,N为预设的正整数;所述搜索结果的数量控制策略用于控制从每一个结构化数据库中获得的搜索结 果数量,或者控制返回给用户的搜索结果集合中的搜索结果数量。较优地,所述策略包中还包括屏蔽等级信息;在所述步骤B中还包括根据所述屏蔽等级信息,在获取的各搜索结果集合中进 行屏蔽处理,屏蔽的内容包括以下所列之一或组合具有黄色内容的搜索结果以及具有反 动内容的搜索结果。具体地,步骤C中按照所述策略包中的结果归并机制,对获取到的搜索结果集合 进行归并处理可以包括将步骤B获取的各搜索结果集合归并成一个搜索结果集合;或者,分别保持步骤B获取的各搜索结果集合但归并为一个数据包。其中,步骤B中所述分别从各服务属性信息对应的结构化数据库中获取搜索请求 对应的搜索结果集合具体包括利用从所述URI中解析出的关键词构建查询表达式,利用构建的查询表达式分别 在各服务属性信息对应的结构化数据库中进行搜索,获得各服务属性信息对应的搜索结果
皇A
朱口 ο利用从所述URI中解析出的关键词构建查询表达式具体包括将所述解析出的关键词进行逻辑拼装和优化后,形成所述查询表达式;其中,所述优化包括以下所列之一或任意组合同义词扩展、地域扩展、关键词细 化。所述地域扩展所使用的地域信息为从所述URI中解析出的用户IP所对应的地域 信息,或者,cookie记录的地域信息。更进一步地,在所述步骤B中还包括在获取的各搜索结果集合中,对搜索结果进 行排序;其中采用的排序策略包括按照搜索结果与所述搜索请求的相关性从高到低的顺 序对搜索结果进行排序。另外,所述排序策略可以进一步包括
根据所述获取的各搜索结果集合中各搜索结果的特征状况结合预先设置的特征 排序权值,对搜索结果进行排序,其中所述特征包括以下所列之一或任意组合搜索结果的 资源热度、搜索结果来源的权威性、搜索结果的时效性;或者,按照预设的聚类策略,对所述获取的各搜索结果集合中的搜索结果进行聚类,在 聚类后得到的各组搜索结果中对排序进行打散处理。更进一步地,在所述步骤C中还包括对归并处理后得到的搜索结果集合进行优化处理,具体包括以下所列之一或任意 组合基于摘要判断的过滤、搜索结果的摘要飘红以及搜索结果的内容聚类;其中,所述基于摘要判断的过滤为判断所述归并处理后得到的搜索结果集合中 搜索结果的摘要信息是否满足预设要求,将摘要信息不满足预设要求的搜索结果从所述归 并处理后得到的搜索结果集合中删除;所述搜索结果的摘要飘红为将所述归并处理后得到的搜索结果集合中搜索结果 的摘要信息的颜色属性设置为红色;所述搜索结果的内容聚类为基于预设的聚类策略,将所述归并处理后得到的搜 索结果集合中的搜索结果进行聚类。其中,所述聚类策略包括按照搜索结果与搜索请求的相关度、搜索结果的来源或 搜索结果的发布时间进行聚类。更优地,该方法还包括对步骤B获取的各搜索结果集合中搜索结果的指定属性 字段进行统计,得到各搜索结果集合对应的统计结果。所述策略包中还包括用户引导策略;如果所述用户引导策略指示需要进行用户引导,则在执行所述步骤D之前还包 括利用各搜索结果集合对应的统计结果,对所述归并处理后得到的搜索结果集合中 的搜索结果进行分类,形成用户引导优化数据;该用户引导优化数据中包含分类后得到的 一个以上的归类区信息。在此基础上,所述步骤D具体包括将所述归并处理后得到的搜索结果集合以及所述用户引导优化数据,利用预设的 展现模板进行渲染后,形成超文本标记语言HTML数据返回给所述用户使用的浏览器。一种结构化数据搜索的装置,该装置包括用户交互模块、服务调度模块、通用检 索模块和基本检索模块;所述用户交互模块,用于接收具备结构化数据搜索需求的搜索请求,解析所述搜 索请求中的统一资源标识符URI,确定所述URI对应的策略包;将所述服务调度模块发送来 的搜索结果集合提供给用户;所述服务调度模块,用于根据所述策略包中的服务属性信息,确定所述服务属性 信息对应的结构化数据库,将所述搜索请求的关键词包含在垂直服务请求中发送给确定的 结构化数据库所对应的通用检索模块;如果确定的结构化数据库所对应的通用检索模块多 于1个,则按照所述策略包中的结果归并机制,将所述通用检索模块发送来的各搜索结果 集合进行归并处理,将归并处理后得到的搜索结果集合发送给所述用户交互模块;所述通用检索模块,用于接收到垂直服务请求后,请求对应的基本检索模块;将所述通用检索模块返回的搜索结果集合发送给所述服务调度模块;所述基本检索模块,用于被所述通用检索模块请求时,在结构化数据库中进行搜 索,并将搜索结果集合返回给所述通用检索模块。其中,所述用户交互模块具体包括用户交互子模块、需求识别子模块、解析子模 块和策略包确定子模块;所述用户交互子模块,用于接收来自浏览器的搜索请求,将该搜索请求发送给需 求识别子模块;将所述服务调度模块发送来的搜索结果集合发送给所述浏览器;所述需求识别子模块,用于识别所述搜索请求是否具备结构化数据搜索需求;所述解析子模块,用于对所述搜索请求中的URI进行解析,获取所述URI中携带 的服务类型信息;所述策略包确定子模块,用于在所述需求识别子模块识别出所述搜索请求具备结 构化数据搜索需求时,确定所述解析子模块获取的所述服务类型信息对应的策略包,所述 策略包是根据所述服务类型的行业特点预先配置的。具体地,所述需求识别子模块对所述搜索请求中包含的搜索词进行语义分析后, 判断所述搜索词是否命中预设的结构化需求词典,如果是,则确定所述搜索请求具备结构 化数据搜索需求,否则,确定所述搜索请求不具备结构化数据搜索需求;或者,判断所述搜索请求是否为中间页的搜索请求,如果是,则确定所述搜索请求具备 结构化数据搜索需求,否则,确定所述搜索请求不具备结构化数据搜索需求;其中,所述中 间页的搜索请求是浏览器在用户点击垂直搜索结果时发送来的。更进一步地,所述策略包中还包括调度策略信息;所述服务调度模块,还用于根据所述策略包中的调度策略信息,对搜索过程进行 调度控制;所述调度策略信息包括以下所列之一或任意组合服务超时控制策略、丢结果的 跨数据库重查策略以及搜索结果的数量控制策略;其中,所述服务超时控制策略包括当搜索时长超过服务属性对应的最大搜索时 长时,将所述垂直服务请求重新发送给同一通用检索模块,或者重新发送给同一服务属性 对应的其他通用检索模块以进行重新搜索,直至重新搜索次数达到预设的重查次数阈值或 者搜索时长在所述最大搜索时长内;或者,当搜索时长超过服务属性对应的最大搜索时长 时,直接向用户返回搜索超时的通知;所述丢结果的跨数据库重查策略包括当针对某服务属性连续N次在同一结构化 数据库中的搜索结果丢失状况达到预设的程度时,将所述垂直服务请求重新发送给所述某 服务属性对应的其他通用检索模块以进行重新搜索,直至重新搜索次数达到预设的重查次 数阈值或者搜索结果丢失状况在预设的程度内;其中,N为预设的正整数;所述搜索结果的数量控制策略用于控制从每一个结构化数据库中获得的搜索结 果数量,或者控制返回给用户的搜索结果集合中的搜索结果数量。另外,所述策略包中还包括屏蔽等级信息;所述基本检索模块,还用于在结构化数据库中进行搜索后,根据所述屏蔽等级信 息,在搜索结果集合中进行屏蔽处理,屏蔽的内容包括以下所列之一或组合具有黄色内容 的搜索结果以及具有反动内容的搜索结果。
具体地,所述服务调度模块按照所述策略包中的结果归并机制,将各通用检索模 块发送来的搜索结果集合归并成一个搜索结果集合发送给用户交互模块;或者,分别保持 所述通用检索模块发送来的各搜索结果集合但合并为一个数据包发送给所述用户交互模 块。其中,所述通用检索模块接收到垂直服务请求后,利用所述用户交互模块从所述 URI中解析出的关键词构建查询表达式,将构建的查询表达式发送给对应的基本检索模 块;所述基本检索模块利用所述查询表达式在结构化数据库中进行检索。具体地,所述通用检索模块具体将所述用户交互模块从所述URI中解析出的关键 词进行逻辑拼装和优化后,形成所述查询表达式;其中,所述优化包括以下所列之一或任意组合同义词扩展、地域扩展、关键词细 化。较优地,所述用户交互模块,还用于从所述URI中解析出用户IP,或者获取所述搜 索请求对应的cookie ;所述通用检索模块在进行所述地域扩展时使用的地域信息为所述用户IP对应 的地域信息,或者,所述cookie记录的地域信息。具体地,所述基本检索模块可以包括搜索子模块、排序子模块和反馈子模块;所述搜索子模块,用于在所述基本检索模块被所述通用检索模块请求时,利用所 述搜索请求的关键词在结构化数据库中进行搜索;所述排序子模块,用于在所述搜索子模块获得的搜索结果集合中,对搜索结果进 行排序,将排序后的搜索结果集合提供给所述反馈子模块;其中采用的排序策略包括按 照搜索结果与所述搜索请求的相关性从高到低的顺序对搜索结果进行排序;所述反馈子模块,用于将搜索结果集合返回给所述通用检索模块。更进一步地,所述排序策略还可以包括根据所述获取的各搜索结果集合中各搜索结果的特征状况结合预先设置的特征 排序权值,对搜索结果进行排序,其中所述特征包括以下所列之一或任意组合搜索结果的 资源热度、搜索结果来源的权威性、搜索结果的时效性;或者,按照预设的聚类策略,对所述获取的各搜索结果集合中的搜索结果进行聚类,在 聚类后得到的各组搜索结果中对排序进行打散处理。更进一步地,所述通用检索模块,还用于对归并处理后得到的搜索结果集合进行 优化处理,发送给所述用户交互模块的搜索结果集合为优化处理后的搜索结果集合;所述 优化处理具体包括以下所列之一或任意组合基于摘要判断的过滤、搜索结果的摘要飘红 以及搜索结果的内容聚类;其中,所述基于摘要判断的过滤为判断所述归并处理后得到的搜索结果集合中 搜索结果的摘要信息是否满足预设要求,将摘要信息不满足预设要求的搜索结果从所述归 并处理后得到的搜索结果集合中删除;所述搜索结果的摘要飘红为将所述归并处理后得到的搜索结果集合中搜索结果 的摘要信息的颜色属性设置为红色;所述搜索结果的内容聚类为基于预设的聚类策略,将所述归并处理后得到的搜索结果集合中的搜索结果进行聚类。其中,所述聚类策略包括按照搜索结果与搜索请求的相关度、搜索结果的来源或 搜索结果的发布时间进行聚类。更优地,所述基本检索模块还包括统计子模块,用于对所述搜索子模块获得的搜索结果集合中搜索结果的指定属性 字段进行统计,得到搜索结果集合对应的统计结果。所述策略包中还可以包括用户引导策略;该装置还包括用户引导模块,用于如果所述用户弓I导策略指示需要进行用户弓丨 导,则利用各统计子模块的统计结果,将所述服务调度模块发送给所述用户交互模块的搜索 结果集合进行搜索结果的分类,形成用户引导优化数据,将形成的用户引导优化数据发送给 所述用户交互模块;其中所述用户引导优化数据包含分类后得到的一个以上的归类区信息。在此基础上,所述用户交互模块,还用于将所述服务调度模块发送来的搜索结果 集合以及所述用户引导模块发送来的用户引导数据,利用预设的展现模板进行渲染后,形 成超文本标记语言HTML数据返回给所述用户使用的浏览器。由以上技术方案可以看出,在本发明中通过策略包的设置,能够在对搜索请求进 行结构化搜索过程中,更加准确且有针对性的基于搜索请求的服务属性在对应的结构化数 据库中获取搜索结果,并将获取的搜索结果进行归并后返回给用户。通过本发明能够将结 构化数据搜索的搜索结果以更加整合和有针对性的方式展现给用户,提高了结构化数据搜 索的搜索效果,更加方便用户获取需要的信息。

图1为本发明实施例一提供的主要方法流程图;图2为本发明实施例二提供的详细方法流程图;图3为本发明实施例二提供的渲染后的用户引导优化数据的实例图;图4为本发明实施例三提供的装置结构示意图
图5为本发明实施例三提供的基本检索模块的结构示意图。
具体实施方式为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对 本发明进行详细描述。实施例一、图1为本发明实施例一提供的主要方法流程图,如图1所示,该方法可以包括以 下步骤步骤101 接收具备结构化数据搜索需求的搜索请求,解析该搜索请求中的统一 资源标识符(URI),确定该URI对应的策略包。本实施例中所提供的方法可以在搜索引擎的服务器端执行。本步骤中搜索引擎的 服务器端接收到具备结构化数据搜索需求的搜索请求可以包括但不限于以下情况1)用户在搜索框中输入具备结构化数据搜索需求的搜索词后,浏览器根据用户输 入的搜索词向搜索引擎的服务器端发送搜索请求。搜索引擎的服务器端接收到该搜索请求后,可以对该搜索请求中包含的搜索词进行语义分析后,判断该搜索词是否命中预设的结 构化需求词典,如果是,则可以确定该搜索请求具备结构化数据搜索需求;否则,确定该搜 索请求不具备结构化数据搜索需求,则对该搜索请求执行普通的页面搜索(即非结构化数 据搜索)。其中,结构化需求词典可以是基于数据挖掘或者人工配置的词典,该词典可以映 射到搜索引擎所使用的结构化数据库中的索引。其中,该结构化需求词典中可以包含结构 化数据库中的索引,或者结构化数据库中索引的同义词或扩展词等。例如,在关于招聘的结构化数据库中包含索引“高级工程师”,则预设的结构化需 求词典中可以包含“高级工程师”,还可以包含其同义词“高工”或者扩展词“高级研发工程 师”。当用户输入的搜索词为“高工”时,浏览器向搜索引擎的服务器端发送包含该搜索词 的搜索请求,搜索引擎的服务器端将该搜索词与预设的结构化需求词典进行匹配时,确定 命中词典中的词语,则可以确定该搜索请求为具备结构化数据搜索需求的搜索请求。2)用户从搜索页面中点击垂直搜索结果,浏览器根据用户的点击结果向搜索引擎 的服务器端发起中间页的搜索请求。搜索引擎的服务器端在针对用户输入的搜索词向用户返回的搜索结果中,可以嵌 入一个垂直搜索结果框,该垂直搜索结果框标识垂直搜索结果。当用户点击该垂直搜索结 果框时,浏览器会向搜索引擎的服务器端发起中间页的搜索请求,该搜索请求中包含用户 输入的搜索词以及中间页服务标识。其中,中间页服务标识可以通过域名进行区分。例如,关于招聘的中间页的搜索请 求可以米用域名:open. baidu. com/zhaopin。当搜索引擎的服务器端接收到浏览器发送来的搜索请求后,如果确认该搜索请求 包含中间页服务标识,则可以识别出该搜索请求具备结构化数据搜索需求。在本发明实施例中,可以预先针对各服务类型分别设置对应的策略包,该策略包 中可以包括服务属性信息和结果归并机制信息。还可以进一步以下中的一种或任意组合 调度策略信息、屏蔽等级信息、用户引导策略信息等。其中,不同服务类型对应的策略包是根据各服务类型的行业特点进行配置的,可 以是人工配置也可以是机器学习的。服务属性信息、结果归并机制信息、调度策略信息和用 户引导策略通常是人工进行配置的,屏蔽等级信息可以是人工配置的也可以是机器学习实 现的。策略包中各信息的具体内容和用途将在实施例二中具体描述。搜索引擎的服务器端识别出接收到的搜索请求具备结构化数据搜索需求后,可以 对搜索请求中的URI进行解析,从而获取URI中携带的服务类型信息,该服务类型信息可以 为服务号或者其他形式。然后,确定该服务类型信息所对应的策略包。步骤102 根据策略包中的服务属性信息,分别从各服务属性信息对应的结构化 数据库中获取搜索请求对应的搜索结果集合。由于不同服务属性往往对应不同的结构化数据库,当策略包中包含多个服务属性 信息,即搜索请求具备多种服务属性时,可以分别根据搜索请求中的搜索词从各服务属性 信息对应的结构化数据库中进行搜索,获取对应的搜索结果集合。例如,如果策略包中的服 务属性信息对应N个服务属性,可以根据搜索请求中的搜索词分别从N个服务属性对应的 N个结构化数据库中进行搜索,获取对应的N个搜索结果集合。
13
步骤103 如果步骤102从多于1个结构化数据库中获取搜索结果集合,则按照策 略包中的结果归并机制,对获取到的搜索结果集合进行归并处理。步骤104 将归并处理后得到的搜索结果集合提供给用户。在按照结果归并机制对获取到的搜索结果集合进行归并处理后,搜索引擎的服务 器端就可以将归并处理后得到的搜索结果集合发送给浏览器,由浏览器展现给用户。至此实施例一所示流程结束,下面通过实施例二对本发明所提供的上述方法进行 详细描述。实施例二、图2为本发明实施例二提供的方法流程图,在该实施例中以用户从搜索页面中点 击垂直搜索结果从而发起中间页的搜索请求为例,如图2所示,该方法详细包括以下步骤步骤201 接收浏览器发送来的中间页的搜索请求,确定该搜索请求具备结构化 数据搜索需求。步骤202 对该搜索请求中的URI进行解析,确定URI中携带的服务类型信息所对 应的策略包。如实施例一中所述,策略包中可以包括服务属性信息和结果归并机制信息。还可 以进一步包括以下所列的一种或任意组合调度策略信息、屏蔽等级信息、用户引导策略信
肩、^^ ο其中调度策略可以包括但不限于以下中的一种或任意组合服务超时控制策略、 丢结果的跨数据库重查策略、搜索结果的数量控制策略。服务超时控制策略是在搜索时长超过对应服务的最大搜索时长的情况,执行控制 策略。包括但不限于以下策略对搜索时长超过服务属性对应的最大搜索时长时,从同一服 务属性对应的同一结构化数据库或其他结构化数据库(一种服务属性可能对应多个结构 化数据库,如果在一个结构化数据库中的搜索超时,可以在同一服务属性对应的其他结构 化数据库中重新搜索)中进行重新搜索,直至重新搜索次数达到预设的重查次数阈值或者 搜索时长在对应服务的最大搜索时长内;或者,对搜索时长超过服务属性对应的最大搜索 时长时,直接向用户返回搜索超时的通知。丢结果的跨数据库重查策略用于在搜索结果丢失状况达到预设的程度的情况下, 执行的控制策略。包括但不限于以下策略针对某服务属性连续N次在同一结构化数据库 中的搜索结果丢失状况达到预设的程度时,重新在同一服务属性对应的其他结构化数据库 中重新进行搜索,直至重新搜索次数达到预设的重查次数阈值或者搜索结果丢失状况在预 设的程度内。其中,N为预设的正整数。搜索结果的数量控制策略用于控制从每一个结构化数据库中获得搜索结果数量, 以及用于控制返回给用户的搜索结果数量。屏蔽等级可以根据不同服务类型的行业特点进行设置,例如,招聘、商品等服务类 型可以设置较低的屏蔽等级,学术等服务类型可以设置较高的屏蔽等级。屏蔽的内容可以 包括但不限于具有黄色内容的搜索结果以及具有反动内容的搜索结果。结果归并机制用于将多个服务属性对应的搜索结果集合进行归并处理,可以包含 归并处理的粒度信息,例如具体是将各服务属性对应的搜索结果集合归并成一个搜索结 果集合返回给用户,还是分别保持各服务属性对应搜索结果集合但归并为一个数据包返回给用户。用户引导策略主要是是否对提供给用户的搜索结果进行用户弓I导。所谓用户弓丨导 是为了提高用户体验,减少用户输入成本,对搜索结果的各种属性字段进行统计后,根据统 计结果对搜索结果进行的分类。举一个例子,假设用户输入的query为“Nokia智能手机”,当用户点击针对该 query的垂直搜索结果后,浏览器针对该query发起中间页的搜索请求,该搜索请求的URI 假设为http://open. baidu. com/shopping/s ? wd = Nokia+% D6% C7% C4% DC% CA% D6% BB% FA &tn = shopping & rn = 20&p = mini对该URI进行解析,解析出搜索请求携带的关键词为“Nokia智能手机”,服务类 型信息为shopping,确定该服务类型信息对应的策略包为shop.pkg。假设,该策略包中包 含的服务属性信息为商家内容和商品内容;调度策略为从每一个结构化数据库中获得 搜索结果的数量不超过100条,提供给用户的搜索结果数量不超过50条;屏蔽等级为普 通级别;结果归并机制为将各服务属性对应的搜索结果集合归并成一个搜索结果集合返 回给用户;用户引导策略为对提供给用户的搜索结果集合进行用户引导。另外,搜索引擎的服务器端还会解析出URI携带的其他参数,例如用户的IP信息、 cookie信息等。这些IP信息以及cookie信息可以用于在后续搜索表达式的构建过程中, 利用地域信息对关键词进行地域扩展,从而对搜索结果集合中的搜索结果进行调整。当用户所输入query包含的关键词中不涉及地域特征,则可以利用从URI中解析 出的IP信息对搜索结果集合中的搜索结果进行基于地域信息的调整排序权值处理。例如, 关键词为“Nokia智能手机”的query,如果解析出的IP信息指示地域为北京,则可以提高 地域“北京”在搜索结果集合中的排序权重。由于有些用户的行为信息cookie会进行记录,因此,通过从URI中解析出的 cookie信息,可以基于用户行为在创建查询表达式的过程中对关键词进行扩展,最终可用 于对搜索结果集合中的搜索结果进行排序的调整。例如,用户在搜索过程中涉及了地域信 息“北京”,则cookie会记录该地域信息,在下次用户进行搜索时,可以在搜索表达式的构 建过程中利用该地域信息进行地域扩展(该部分内容将在步骤204中涉及)。步骤203 根据策略包中的服务属性信息,确定各服务属性信息对应的结构化数 据库。仍以上述为例,该策略包中包含的服务属性信息为商家内容和商品内容,则需要 确定搜索引擎中针对商家内容的数据库和针对商品内容的数据库。步骤204:对解析出的关键词进行查询表达式的构建,然后利用构建的查询表达 式分别在步骤203中确定的结构化数据库中进行搜索,从各结构化数据库中分别获得搜 索结果集合,并对各搜索结果集合中的搜索结果进行统计。本步骤中对解析出的关键词进行查询表达式的构建具体是将解析出的关键词进 行逻辑拼装和优化后,形成最终的查询表达式。其中,进行的优化可以包括但不限于同义 词扩展、地域扩展、关键词细化等。仍以上述例子说明,提取关键词为“Nokia”和“智能手机”,进行逻辑拼装后,形 成“EE_Nokia&FF_智能手机”。对“Nokia”进行同义词扩展,可以扩展为“诺基亚”。对“智能手机”可以细化为“智能&手机”。基于URI中携带的用户IP信息或者基于cookie所记 录的地域信息,可以进行地域扩展,加入地域信息“北京”。最终形成的查询表达式可以为 ((EE_Nokia) I (EE_ 诺基亚))& ((FF_ 智能 &FF_ 手机)| (FF_ 智能手机))& ( ? CC_ 北京)。 其中,“EE_”标识品牌,“FF_”标识分类,“CC_”标识地域,其中“?”标识该扩展项可选,即 “北京”这一地域扩展是可选项,可以用于后续对搜索结果进行Rank时提高该地域扩展项的 排序权值使用。利用构建的表达式,采用递归查询的方式分别在步骤203确定的结构化数据库中 进行搜索,即分别在针对商家内容的数据库和针对商品内容的数据库中执行查询表达式的 搜索。在获取搜索结果集合时,可以进一步按照策略包中的屏蔽等级对搜索结果进行屏 蔽处理,屏蔽处理后得到的搜索结果构成搜索结果集合。具体地,可以预先针对不同的屏蔽 等级设置屏蔽词表,在进行屏蔽处理时,利用对应屏蔽等级的屏蔽词表对搜索结果进行屏 蔽处理,可以屏蔽掉搜索结果中存在的诸如黄色或反动等内容。更进一步地,对获取的搜索结果集合中进行搜索结果的Rank,可以采用相关性排 序方式,即按照搜索结果集合中各搜索结果与搜索请求的相关性从高到低的顺序进行的排 序,这是搜索领域常用的排序方式,不再详细赘述。更优地,在相关性排序方式的基础上,可以进一步采用多特征融合排序方式,即预 先设定各特征的排序权值,根据搜索结果集合中各搜索结果的特征状况结合对应的排序 权值对搜索结果进行排序。上述特征可以包括但不限于搜索结果的资源热度、搜索结果来 源的权威性、搜索结果的时效性等,也可以是某些资源所特有的特征,例如商品的存货状态 (即是否缺货)、软件版本、软件下载速度等。具体选取那些特征进行排序以及特征所在的 排序权重均可以根据不同的服务属性灵活设置。更优地,为了使搜索结果更加多样,以能够满足不同用户的需求,可以在相关性排 序方式的基础上,或者多特征融合排序方式的基础上,对搜索结果进行多样性调整。具体 为按照预设的聚类策略对各搜索结果集合中对搜索结果进行聚类,在聚类后得到的各组 搜索结果中对排序进行打散处理。其中,聚类策略可以包括但不限于按照搜索结果与搜索 请求的相关度、按照搜索结果来源、发布时间进行聚类等。例如,在搜索结果集合中,将各搜索结果按照搜索结果与搜索请求的相关度进行 聚类,形成不同相关度区间对应的各组搜索结果;然后在各组搜索结果中将各搜索结果的 顺序打散。这样能够使得近似相关度的搜索结果在显示给用户时具有多样化的特点,例如 使得各品牌或各商家的产品在各组搜索结果中分布更加均勻。在获取各搜索结果集合后,为了满足用户引导的需求,可以对各搜索结果集合中 搜索结果的各种属性字段进行统计,具体为获取搜索结果后,遍历结果拉链,根据配置文 件对指定的属性字段进行统计。例如,按品牌统计、按商家统计、按价格分段统计等。其中, 可以预先针对各服务属性指定进行统计的字段,并形成配置文件。例如,对于商品这种服务 属性,可以按品牌统计、按商家统计、按价格分段统计等。得到的统计信息可以用于后续的 用户引导。步骤205 按照策略包中的结果归并机制,对从各结构化数据库中分别获得的搜 索结果集合进行归并处理。
16
在进行结果归并处理时,由于上述实例中策略包的结果归并机制为将各服务属 性对应的搜索结果集合归并成一个搜索结果集合返回给用户对归并处理后的搜索结果集 合进行整体Rank将各服务属性对应的搜索结果结合归并成一个搜索结果集合返回给用 户,因此,将搜索结果集合进行归并处理后,统一进行Rank,因此,在本步骤中,将从各结构 化数据库中分别获得的搜索结果集合归并成一个搜索结果集合。在归并成一个搜索结果集合后,更进一步地,在将搜索结果集合进行归并后,还可 以进一步对归并后得到的搜索结果集合进行优化处理。其中,优化处理包括但不限于以下 所列之一或任意组合基于摘要判断的过滤、搜索结果的摘要飘红以及搜索结果的内容聚 类。其中,基于摘要判断的过滤可以为判断搜索结果集合中搜索结果的摘要信息是 否满足预设要求,将摘要信息不满足预设要求(例如摘要信息缺失或者摘要信息质量很 差)的搜索结果从搜索结果集合中删除。搜索结果的摘要飘红可以为将搜索结果集合中搜索结果的摘要信息的颜色属性 设置为红色。搜索结果的内容聚类可以为基于预设的聚类策略,将搜索结果集合中的搜索结 果进行聚类。其中,聚类策略包括但不限于基于搜索结果与搜索请求的相关性的聚类,基 于搜索结果来源的聚类,基于搜索结果的发布时间的聚类。步骤206 利用步骤204中的统计结果,生成用户引导优化数据。需要说明的是,步骤205和步骤206并没有固定的先后顺序,可以以任意的顺序先 后执行,也可以同时执行。利用统计分析的结果生成用户引导优化数据的过程可以为利用统计结果对归并 处理得到的搜索结果集合中的搜索结果进行分类,得到一个以上的归类区。具体分类为哪 些归类区,即采用的分类策略,可以根据具体的服务类型预先确定。仍以“Nokia智能手机”的query为例,生成的归类区可以包括功能归类区、品 牌归类区、商家归类区、价格归类区。其中,功能归类区中可以进一步包括各种具体功能的 区域,例如gsm手机区、直板手机区、拍照手机区、导航手机区、商务手机区。品牌归类区 中可以进一步包括各种品牌的区域,例如诺基亚区。商家归类区中可以进一步包括各种 商家的区域,例如卓越亚马逊区、优优手机商城区、中关村商城区、百信手机商城区、北斗 手机网区、欧酷区。价格归类区中可以进一步包括各种价格区间的区域,例如1000以下、 1000-1600、1600-2000、2000-3000 以及 3000 以上。其中,各归类区进一步包含的区域可以预先人工配置,也可以根据搜索结果的属 性内容自动筛选形成。例如,在形成商家归类区中的各区域时,可以根据对搜索结果中商家的统计结果, 将达到设定条数搜索结果的商家确定为一个区域,该商家对应的搜索结果归属于该区域。再例如,在形成价格归类区中的各区域时,可以依据对价格的数量和每个价格出 现的次数进行统计的结果,对价格进行排序。如果价格的数量小于或等于预先设置的最小 区间价格数量,则不形成价格归类区中的区域;如果价格的数量大于预先设置的最小区间 价格数量,则按照预设的分割策略将所有价格分为M个区间,如果M值小于预先设置的最小 区间数量,则不形成价格归类区中的区域;否则,将划分的M个区间作为价格归类区中的区域。其中,上述分割策略可以灵活设置,例如,保证每个区间的价格数目在特定的范围内,或 者,保证每个区间的最大价格差异在设定的范围内,等等。步骤207 将归并处理得到的搜索结果集合以及用户引导优化数据利用预先设置 的展现模板进行渲染,形成超文本标记语言(HTML)数据发送给浏览器。在本步骤中,可以使用预先在搜索引擎服务器端设置的展现模板,对归并处理得 到的搜索结果集合以及用户引导优化数据进行渲染,形成浏览器能够理解和展示的HTML 数据。其中,渲染后形成的标准HTML数据中,用户引导优化数据对应的部分可以如图3 所示。该实施例中,在进行上述结构化搜索的同时,并不妨碍对搜索请求进行普通的页 面搜索,较优地,通过上述结构化数据搜索获得的搜索结果集合最终可以以中间页的形式 展现给用户,并可以进一步引入用户引导功能,从而更加方便于用户的信息获取。以上是对本发明所提供的方法进行的详细描述,下面通过实施例三对本发明所提 供的装置进行详细描述。实施例三、图4为本发明实施例三提供的装置结构示意图,如图4所示,该装置可以具体包 括用户交互模块400、服务调度模块410、通用检索模块420和基本检索模块430。用户交互模块400,用于接收具备结构化数据搜索需求的搜索请求,解析搜索请求 中的URI,确定URI对应的策略包;将服务调度模块410发送来的搜索结果集合提供给用 户。不同服务类型对应的策略包是根据各服务类型的行业特点进行配置的,可以是人 工配置也可以是机器学习的。在本发明实施例中策略包中可以包括服务属性信息和结果归 并机制信息。还可以进一步以下中的一种或任意组合调度策略信息、屏蔽等级信息、用户 引导策略信息等(将在该实施例的后续描述中涉及)。其中,服务属性信息、结果归并机制 信息、调度策略信息和用户引导策略通常是人工进行配置的,屏蔽等级信息可以是人工配 置的也可以是机器学习实现的。服务调度模块410,用于根据策略包中的服务属性信息,确定服务属性信息对应的 结构化数据库,将搜索请求的关键词包含在垂直服务请求中发送给确定的结构化数据库所 对应的通用检索模块420 ;如果确定的结构化数据库所对应的通用检索模块420多于1个, 则按照策略包中的结果归并机制,将通用检索模块420发送来的各搜索结果集合进行归并 处理,将归并处理后得到的搜索结果集合发送给用户交互模块400。对于某些搜索请求来说,其用户交互模块确定该搜索请求所对应的策略包中,该 搜索请求的服务属性可能为多个,例如对于“Nokia智能手机”的query,其对应的服务属 性为商品和商家。通常一个结构化数据库由一个通用检索模块420统一管理,因此,对于服 务属性为多个的搜索请求,服务调度模块410会在分析出本次搜索需要多个通用检索模块 420时,会向该多个通用检索模块420发送垂直服务请求,以调度该多个通用检索模块420 针对该搜索请求在对应服务属性的结构化数据库中进行搜索。对应地,如果服务调度模块410请求了多个通用检索模块420,那么在该多个通用 检索模块420返回搜索结果集合时,需要按照策略包中包含的结果归并机制,对多个通用检索模块420返回的搜索结果进行归并处理。通用检索模块420,用于接收到垂直服务请求后,请求对应的基本检索模块430 ; 将通用检索模块420返回的搜索结果集合发送给服务调度模块410。基本检索模块430,用于被通用检索模块420请求时,在结构化数据库中进行搜 索,并将搜索结果集合返回给通用检索模块420。需要说明的是,一个结构化数据库可以仅对应一个基本检索模块430,由该基本检 索模块430完成一个结构化数据库的搜索。但在有的情况下,为了实现对一个结构化数据 库的负载分担或容错处理,可能会存在一个结构化数据库对应多个基本检索模块430,并能 够由多个基本检索模块430共同完成对一个结构化数据库的搜索,在这种情况下,一个通 用检索模块420可能会请求多个基本检索模块430实现对一个结构化数据库的检索,并且 对该多个基本检索模块430返回的搜索结果集合进行整合。具体地,上述用户交互模块400可以包括用户交互子模块401、需求识别子模块 402、解析子模块403和策略包确定子模块404。用户交互子模块401,用于接收来自浏览器的搜索请求,将该搜索请求发送给需求 识别子模块402 ;将服务调度模块410发送来的搜索结果集合发送给浏览器。需求识别子模块402,用于识别搜索请求是否具备结构化数据搜索需求。解析子模块403,用于对搜索请求中的URI进行解析,获取URI中携带的服务类型 fn息ο该服务类型信息可以为服务号或其他形式。解析子模块403会将对URI解析得到 的参数(该参数主要是搜索请求携带的关键词)以及策略包的信息以查询参数的形式继续 向服务调度模块410传递。策略包确定子模块404,用于在需求识别子模块402识别出搜索请求具备结构化 数据搜索需求时,确定解析子模块403获取的服务类型信息对应的策略包,策略包是根据 服务类型的行业特点预先配置的。具体地,需求识别子模块识别搜索请求是否具备结构化数据搜索需求的方式可以 采用以下两种第一种方式对搜索请求中包含的搜索词进行语义分析后,判断搜索词是否命中 预设的结构化需求词典,如果是,则确定搜索请求具备结构化数据搜索需求。第二种方式判断搜索请求是否为中间页的搜索请求,如果是,则确定搜索请求具 备结构化数据搜索需求;其中,中间页的搜索请求是浏览器在用户点击垂直搜索结果时发 送来的。基于上述结构,服务调度模块410,还可以用于根据策略包中的调度策略信息,对 搜索过程进行调度控制。具体的调度策略信息可以包括以下所列之一或任意组合服务超时控制策略、丢 结果的跨数据库重查策略以及搜索结果的数量控制策略。其中,服务超时控制策略包括当搜索时长超过服务属性对应的最大搜索时长时, 将垂直服务请求重新发送给同一通用检索模块420,或者重新发送给同一服务属性对应的 其他通用检索模块420以进行重新搜索,直至重新搜索次数达到预设的重查次数阈值或者 搜索时长在最大搜索时长内;或者,当搜索时长超过服务属性对应的最大搜索时长时,直接向用户返回搜索超时的通知。也就是说,当服务调度模块410确定搜索时长超限时,可以直接返回搜索超时的 通知,也可以采用一定的容错机制,即调度同一通用检索模块420重新进行搜索,或者调度 同一服务属性对应的其他通用检索模块420重新进行搜索。上述丢结果的跨数据库重查策略可以具体包括当针对某服务属性连续N次在 同一结构化数据库中的搜索结果丢失状况达到预设的程度时,将垂直服务请求重新发送给 某服务属性对应的其他通用检索模块420以进行重新搜索,直至重新搜索次数达到预设的 重查次数阈值或者搜索结果丢失状况在预设的程度内;其中,N为预设的正整数。搜索结果的数量控制策略用于控制从每一个结构化数据库中获得的搜索结果数 量,或者控制返回给用户的搜索结果集合中的搜索结果数量。在此实现搜索结果的数量控制时,为了保证搜索结果的数量要求,可以对基本检 索模块430发送给通用检索模块420的搜索结果集合中的搜索数量以及通用检索模块420 发送给服务调度模块410的搜索结果集合中的搜索结果数量进行冗余的控制。例如,如果 设定返回给用户的搜索结果集合中的搜索结果数量为每页10条搜索结果,则通用检索模 块420可以返回两倍数目的搜索结果给服务调度模块410,供服务调度模块410在对搜索结 果集合进行归并和优化处理时,选择其中10条返回给用户交互模块400。为了实现对搜索结果中不法信息的屏蔽,策略包中还可以包括屏蔽等级信息。此 时,基本检索模块430,还可以用于在结构化数据库中进行搜索后,根据屏蔽等级信息,在搜 索结果集合中进行屏蔽处理,屏蔽的内容包括但不限于以下所列之一或组合具有黄色内 容的搜索结果以及具有反动内容的搜索结果。另外,服务调度模块410在对通用检索模块420发送来的搜索结果集合进行归并 处理时,可以采用以下两种方式第一种方式按照策略包中的结果归并机制,将各通用检索模块420发送来的搜 索结果集合归并成一个搜索结果集合发送给用户交互模块400。第二种方式按照策略包中的结果归并机制,分别保持通用检索模块420发送来 的各搜索结果集合但合并为一个数据包发送给用户交互模块400。这种方式中,仍保持各搜 索结果集合的独立性,但将各搜索结果集合合并成一个数据包,用户交互模块400接收到 该数据包后,呈现搜索结果的形式仍是各搜索结果集合分别独立呈现。具体地,通用检索模块420接收到垂直服务请求后,可以利用用户交互模块400 从URI中解析出的关键词构建查询表达式,将构建的查询表达式发送给对应的基本检索模 块 430。基本检索模块430利用查询表达式在结构化数据库中进行检索。其中,构建查询表达式时,通用检索模块420具体将用户交互模块400从URI中解 析出的关键词进行逻辑拼装和优化后,形成查询表达式。其中,优化包括以下所列之一或任 意组合同义词扩展、地域扩展、关键词细化。为了实现地域扩展,用户交互模块400,还可以用于从URI中解析出用户IP,或者 获取搜索请求对应的cookie。通用检索模块420在进行地域扩展时使用的地域信息为用户IP对应的地域信 息,或者,cookie记录的地域信息。
为了实现基本检索模块430的检索功能,其中,基本检索模块430的结构可以如图 5所示,具体包括搜索子模块431、排序子模块432和反馈子模块433。搜索子模块431,用于在基本检索模块430被通用检索模块420请求时,利用搜索 请求的关键词在结构化数据库中进行搜索。排序子模块432,用于在搜索子模块431获得的搜索结果集合中,对搜索结果进行 排序,将排序后的搜索结果集合提供给反馈子模块433 ;其中采用的排序策略可以包括按 照搜索结果与搜索请求的相关性从高到低的顺序对搜索结果进行排序。这种策略即为方法 实施例中描述的相关性排序方式。反馈子模块433,用于将搜索结果集合返回给通用检索模块420。在上述相关性排序方式的基础上,排序策略可以进一步包括根据获取的各搜索 结果集合中各搜索结果的特征状况结合预先设置的特征排序权值,对搜索结果进行排序, 其中特征包括以下所列之一或任意组合搜索结果的资源热度、搜索结果来源的权威性、搜 索结果的时效性。这种策略即为方法实施例中描述的多特征融合排序方式。在上述相关性排序方式的基础上,或者在多特征融合排序方式的基础上,排序策 略还可以包括按照预设的聚类策略,对获取的各搜索结果集合中的搜索结果进行聚类, 在聚类后得到的各组搜索结果中对排序进行打散处理。使用的聚类策略可以包括按照搜 索结果与搜索请求的相关度、搜索结果的来源或搜索结果的发布时间进行聚类。更优地,通用检索模块420,还可以用于对归并处理后得到的搜索结果集合进行优 化处理,发送给用户交互模块400的搜索结果集合为优化处理后的搜索结果集合;优化处 理具体包括以下所列之一或任意组合基于摘要判断的过滤、搜索结果的摘要飘红以及搜 索结果的内容聚类。其中,基于摘要判断的过滤具体为判断归并处理后得到的搜索结果集合中搜索 结果的摘要信息是否满足预设要求,将摘要信息不满足预设要求的搜索结果从归并处理后 得到的搜索结果集合中删除。搜索结果的摘要飘红具体为将归并处理后得到的搜索结果集合中搜索结果的摘 要信息的颜色属性设置为红色。搜索结果的内容聚类具体为基于预设的聚类策略,将归并处理后得到的搜索结 果集合中的搜索结果进行聚类。使用的聚类策略可以包括按照搜索结果与搜索请求的相 关度、搜索结果的来源或搜索结果的发布时间进行聚类。除此之外,基本检索模块430还可以包括统计子模块434,用于对搜索子模块431获得的搜索结果集合中搜索结果的指定 属性字段进行统计,得到搜索结果集合对应的统计结果。上述统计结果可以用于用户引导,此时,策略包中还可以包括用户引导策略。该装 置还包括用户引导模块440,用于如果用户引导策略指示需要进行用户引导,则利用各基 本检索模块430的统计结果,将服务调度模块410发送给用户交互模块400的搜索结果集 合进行搜索结果的分类,形成用户引导优化数据,将形成的用户引导优化数据发送给用户 交互模块400 ;其中用户引导优化数据包含分类后得到的一个以上的归类区信息。在此基础上,用户交互模块400,还可以用于将服务调度模块410发送来的搜索结 果集合以及用户引导模块发送来的用户引导数据,利用预设的展现模板进行渲染后,形成HTML数据返回给用户使用的浏览器,该渲染的功能可以通过图4中用户交互模块400中的 渲染子模块405实现。上述的用户引导模块440可以设置为一个独立的模块,也可以设置在高级通用检 索模块420、通用检索模块410或用户交互模块400中,在图4中以用户引导模块440设置 为一个独立的模块为例。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精 神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
权利要求
1.一种结构化数据搜索的方法,其特征在于,该方法包括A、接收具备结构化数据搜索需求的搜索请求,解析所述搜索请求中的统一资源标识符 URI,确定所述URI对应的策略包;B、根据所述策略包中的服务属性信息,分别从各服务属性信息对应的结构化数据库中 获取搜索请求对应的搜索结果集合;C、如果步骤B从多于1个结构化数据库中获取搜索结果集合,则按照所述策略包中的 结果归并机制,对获取到的搜索结果集合进行归并处理;D、将归并处理后得到的搜索结果集合提供给用户。
2.根据权利要求1所述的方法,其特征在于,步骤A中所述接收具备结构化数据搜索需 求的搜索请求具体包括接收到来自浏览器的搜索请求后,对搜索请求中包含的搜索词进行语义分析,判断该 搜索词是否命中预设的结构化需求词典,如果是,则确定所述搜索请求具备结构化数据搜 索需求;或者,接收到来自浏览器的搜索请求后,判断所述搜索请求是否为中间页的搜索请求,如果 是,则确定所述搜索请求具备结构化数据搜索需求;其中,所述中间页的搜索请求是浏览器 在用户点击垂直搜索结果时发送来的。
3.根据权利要求1所述的方法,其特征在于,步骤A中确定所述URI对应的策略包具体 包括对所述URI进行解析,获取所述URI中携带的服务类型信息; 确定所述服务类型信息对应的策略包;所述策略包是根据所述服务类型的行业特点预 先配置的。
4.根据权利要求1所述的方法,其特征在于,所述策略包中还包括调度策略信息; 所述调度策略信息包括以下所列之一或任意组合服务超时控制策略、丢结果的跨数据库重查策略以及搜索结果的数量控制策略;其中,所述服务超时控制策略包括当搜索时长超过服务属性对应的最大搜索时长时, 从同一服务属性对应的同一结构化数据库或同一服务属性对应的其他结构化数据库中重 新搜索,直至重新搜索次数达到预设的重查次数阈值或者搜索时长在所述最大搜索时长 内;或者,当搜索时长超过服务属性对应的最大搜索时长时,直接向用户返回搜索超时的通 知;所述丢结果的跨数据库重查策略包括当针对某服务属性连续N次在同一结构化数据 库中的搜索结果丢失状况达到预设的程度时,重新在所述某服务属性对应的其他结构化数 据库中重新进行搜索,直至重新搜索次数达到预设的重查次数阈值或者搜索结果丢失状况 在预设的程度内;其中,N为预设的正整数;所述搜索结果的数量控制策略用于控制从每一个结构化数据库中获得的搜索结果数 量,或者控制返回给用户的搜索结果集合中的搜索结果数量。
5.根据权利要求1所述的方法,其特征在于,所述策略包中还包括屏蔽等级信息; 在所述步骤B中还包括根据所述屏蔽等级信息,在获取的各搜索结果集合中进行屏蔽处理,屏蔽的内容包括以下所列之一或组合具有黄色内容的搜索结果以及具有反动内 容的搜索结果。
6.根据权利要求1所述的方法,其特征在于,步骤C中按照所述策略包中的结果归并机 制,对获取到的搜索结果集合进行归并处理具体包括将步骤B获取的各搜索结果集合归并成一个搜索结果集合;或者,分别保持步骤B获取的各搜索结果集合但归并为一个数据包。
7.根据权利要求1所述的方法,其特征在于,步骤B中所述分别从各服务属性信息对应 的结构化数据库中获取搜索请求对应的搜索结果集合具体包括利用从所述URI中解析出的关键词构建查询表达式,利用构建的查询表达式分别在 各服务属性信息对应的结构化数据库中进行搜索,获得各服务属性信息对应的搜索结果集合。
8.根据权利要求7所述的方法,其特征在于,利用从所述URI中解析出的关键词构建查 询表达式具体包括将所述解析出的关键词进行逻辑拼装和优化后,形成所述查询表达式;其中,所述优化包括以下所列之一或任意组合同义词扩展、地域扩展、关键词细化。
9.根据权利要求8所述的方法,其特征在于,所述地域扩展所使用的地域信息为从所 述URI中解析出的用户IP所对应的地域信息,或者,cookie记录的地域信息。
10.根据权利要求1所述的方法,其特征在于,在所述步骤B中还包括在获取的各搜 索结果集合中,对搜索结果进行排序;其中采用的排序策略包括按照搜索结果与所述搜索请求的相关性从高到低的顺序对 搜索结果进行排序。
11.根据权利要求10所述的方法,其特征在于,所述排序策略进一步包括根据所述获取的各搜索结果集合中各搜索结果的特征状况结合预先设置的特征排序 权值,对搜索结果进行排序,其中所述特征包括以下所列之一或任意组合搜索结果的资源 热度、搜索结果来源的权威性、搜索结果的时效性;或者,按照预设的聚类策略,对所述获取的各搜索结果集合中的搜索结果进行聚类,在聚类 后得到的各组搜索结果中对排序进行打散处理。
12.根据权利要求1所述的方法,其特征在于,在所述步骤C中还包括对归并处理后得到的搜索结果集合进行优化处理,具体包括以下所列之一或任意组 合基于摘要判断的过滤、搜索结果的摘要飘红以及搜索结果的内容聚类;其中,所述基于摘要判断的过滤为判断所述归并处理后得到的搜索结果集合中搜索 结果的摘要信息是否满足预设要求,将摘要信息不满足预设要求的搜索结果从所述归并处 理后得到的搜索结果集合中删除;所述搜索结果的摘要飘红为将所述归并处理后得到的搜索结果集合中搜索结果的摘 要信息的颜色属性设置为红色;所述搜索结果的内容聚类为基于预设的聚类策略,将所述归并处理后得到的搜索结 果集合中的搜索结果进行聚类。
13.根据权利要求11或12所述的方法,其特征在于,所述聚类策略包括按照搜索结 果与搜索请求的相关度、搜索结果的来源或搜索结果的发布时间进行聚类。
14.根据权利要求1所述的方法,其特征在于,该方法还包括对步骤B获取的各搜索 结果集合中搜索结果的指定属性字段进行统计,得到各搜索结果集合对应的统计结果。
15.根据权利要求14所述的方法,其特征在于,所述策略包中还包括用户引导策略;如果所述用户弓I导策略指示需要进行用户弓I导,则在执行所述步骤D之前还包括利用各搜索结果集合对应的统计结果,对所述归并处理后得到的搜索结果集合中的搜 索结果进行分类,形成用户引导优化数据;该用户引导优化数据中包含分类后得到的一个 以上的归类区信息。
16.根据权利要求15所述的方法,其特征在于,所述步骤D具体包括将所述归并处理后得到的搜索结果集合以及所述用户引导优化数据,利用预设的展现 模板进行渲染后,形成超文本标记语言HTML数据返回给所述用户使用的浏览器。
17.一种结构化数据搜索的装置,其特征在于,该装置包括用户交互模块、服务调度 模块、通用检索模块和基本检索模块;所述用户交互模块,用于接收具备结构化数据搜索需求的搜索请求,解析所述搜索请 求中的统一资源标识符URI,确定所述URI对应的策略包;将所述服务调度模块发送来的搜 索结果集合提供给用户;所述服务调度模块,用于根据所述策略包中的服务属性信息,确定所述服务属性信息 对应的结构化数据库,将所述搜索请求的关键词包含在垂直服务请求中发送给确定的结构 化数据库所对应的通用检索模块;如果确定的结构化数据库所对应的通用检索模块多于1 个,则按照所述策略包中的结果归并机制,将所述通用检索模块发送来的各搜索结果集合 进行归并处理,将归并处理后得到的搜索结果集合发送给所述用户交互模块;所述通用检索模块,用于接收到垂直服务请求后,请求对应的基本检索模块;将所述通 用检索模块返回的搜索结果集合发送给所述服务调度模块;所述基本检索模块,用于被所述通用检索模块请求时,在结构化数据库中进行搜索,并 将搜索结果集合返回给所述通用检索模块。
18.根据权利要求17所述的装置,其特征在于,所述用户交互模块具体包括用户交互 子模块、需求识别子模块、解析子模块和策略包确定子模块;所述用户交互子模块,用于接收来自浏览器的搜索请求,将该搜索请求发送给需求识 别子模块;将所述服务调度模块发送来的搜索结果集合发送给所述浏览器;所述需求识别子模块,用于识别所述搜索请求是否具备结构化数据搜索需求;所述解析子模块,用于对所述搜索请求中的URI进行解析,获取所述URI中携带的服务 类型信息;所述策略包确定子模块,用于在所述需求识别子模块识别出所述搜索请求具备结构化 数据搜索需求时,确定所述解析子模块获取的所述服务类型信息对应的策略包,所述策略 包是根据所述服务类型的行业特点预先配置的。
19.根据权利要求18所述的装置,其特征在于,所述需求识别子模块对所述搜索请求 中包含的搜索词进行语义分析后,判断所述搜索词是否命中预设的结构化需求词典,如果 是,则确定所述搜索请求具备结构化数据搜索需求;或者,判断所述搜索请求是否为中间页的搜索请求,如果是,则确定所述搜索请求具备结构 化数据搜索需求;其中,所述中间页的搜索请求是浏览器在用户点击垂直搜索结果时发送 来的。
20.根据权利要求17所述的装置,其特征在于,所述策略包中还包括调度策略信息;所述服务调度模块,还用于根据所述策略包中的调度策略信息,对搜索过程进行调度 控制;所述调度策略信息包括以下所列之一或任意组合服务超时控制策略、丢结果的跨数 据库重查策略以及搜索结果的数量控制策略;其中,所述服务超时控制策略包括当搜索时长超过服务属性对应的最大搜索时长时, 将所述垂直服务请求重新发送给同一通用检索模块,或者重新发送给同一服务属性对应的 其他通用检索模块以进行重新搜索,直至重新搜索次数达到预设的重查次数阈值或者搜索 时长在所述最大搜索时长内;或者,当搜索时长超过服务属性对应的最大搜索时长时,直接 向用户返回搜索超时的通知;所述丢结果的跨数据库重查策略包括当针对某服务属性连续N次在同一结构化数据 库中的搜索结果丢失状况达到预设的程度时,将所述垂直服务请求重新发送给所述某服务 属性对应的其他通用检索模块以进行重新搜索,直至重新搜索次数达到预设的重查次数阈 值或者搜索结果丢失状况在预设的程度内;其中,N为预设的正整数;所述搜索结果的数量控制策略用于控制从每一个结构化数据库中获得的搜索结果数 量,或者控制返回给用户的搜索结果集合中的搜索结果数量。
21.根据权利要求17所述的装置,其特征在于,所述策略包中还包括屏蔽等级信息;所述基本检索模块,还用于在结构化数据库中进行搜索后,根据所述屏蔽等级信息,在搜索结果集合中进行屏蔽处理,屏蔽的内容包括以下所列之一或组合具有黄色内容的搜 索结果以及具有反动内容的搜索结果。
22.根据权利要求17所述的装置,其特征在于,所述服务调度模块按照所述策略包中 的结果归并机制,将各通用检索模块发送来的搜索结果集合归并成一个搜索结果集合发送 给用户交互模块;或者,分别保持所述通用检索模块发送来的各搜索结果集合但合并为一 个数据包发送给所述用户交互模块。
23.根据权利要求17所述的装置,其特征在于,所述通用检索模块接收到垂直服务请 求后,利用所述用户交互模块从所述URI中解析出的关键词构建查询表达式,将构建的查 询表达式发送给对应的基本检索模块;所述基本检索模块利用所述查询表达式在结构化数据库中进行检索。
24.根据权利要求23所述的装置,其特征在于,所述通用检索模块具体将所述用户交 互模块从所述URI中解析出的关键词进行逻辑拼装和优化后,形成所述查询表达式;其中,所述优化包括以下所列之一或任意组合同义词扩展、地域扩展、关键词细化。
25.根据权利要求24所述的装置,其特征在于,所述用户交互模块,还用于从所述URI 中解析出用户IP,或者获取所述搜索请求对应的cookie ;所述通用检索模块在进行所述地域扩展时使用的地域信息为所述用户IP对应的地 域信息,或者,所述cookie记录的地域信息。
26.根据权利要求17所述的装置,其特征在于,所述基本检索模块具体包括搜索子模 块、排序子模块和反馈子模块;所述搜索子模块,用于在所述基本检索模块被所述通用检索模块请求时,利用所述搜 索请求的关键词在结构化数据库中进行搜索;所述排序子模块,用于在所述搜索子模块获得的搜索结果集合中,对搜索结果进行排序,将排序后的搜索结果集合提供给所述反馈子模块;其中采用的排序策略包括按照搜 索结果与所述搜索请求的相关性从高到低的顺序对搜索结果进行排序;所述反馈子模块,用于将搜索结果集合返回给所述通用检索模块。
27.根据权利要求26所述的装置,其特征在于,所述排序策略进一步包括根据所述获取的各搜索结果集合中各搜索结果的特征状况结合预先设置的特征排序 权值,对搜索结果进行排序,其中所述特征包括以下所列之一或任意组合搜索结果的资源 热度、搜索结果来源的权威性、搜索结果的时效性;或者,按照预设的聚类策略,对所述获取的各搜索结果集合中的搜索结果进行聚类,在聚类 后得到的各组搜索结果中对排序进行打散处理。
28.根据权利要求17所述的装置,其特征在于,所述通用检索模块,还用于对归并处理 后得到的搜索结果集合进行优化处理,发送给所述用户交互模块的搜索结果集合为优化处 理后的搜索结果集合;所述优化处理具体包括以下所列之一或任意组合基于摘要判断的 过滤、搜索结果的摘要飘红以及搜索结果的内容聚类;其中,所述基于摘要判断的过滤为判断所述归并处理后得到的搜索结果集合中搜索 结果的摘要信息是否满足预设要求,将摘要信息不满足预设要求的搜索结果从所述归并处 理后得到的搜索结果集合中删除;所述搜索结果的摘要飘红为将所述归并处理后得到的搜索结果集合中搜索结果的摘 要信息的颜色属性设置为红色;所述搜索结果的内容聚类为基于预设的聚类策略,将所述归并处理后得到的搜索结 果集合中的搜索结果进行聚类。
29.根据权利要求27或28所述的装置,其特征在于,所述聚类策略包括按照搜索结 果与搜索请求的相关度、搜索结果的来源或搜索结果的发布时间进行聚类。
30.根据权利要求26所述的装置,其特征在于,所述基本检索模块还包括统计子模块,用于对所述搜索子模块获得的搜索结果集合中搜索结果的指定属性字段 进行统计,得到搜索结果集合对应的统计结果。
31.根据权利要求30所述的装置,其特征在于,所述策略包中还包括用户引导策略;该装置还包括用户引导模块,用于如果所述用户引导策略指示需要进行用户引导,则利用各统计子模块的统计结果,将所述服务调度模块发送给所述用户交互模块的搜索结果 集合进行搜索结果的分类,形成用户引导优化数据,将形成的用户引导优化数据发送给所 述用户交互模块;其中所述用户引导优化数据包含分类后得到的一个以上的归类区信息。
32.根据权利要求31所述的装置,其特征在于,所述用户交互模块,还用于将所述服务 调度模块发送来的搜索结果集合以及所述用户引导模块发送来的用户引导数据,利用预设 的展现模板进行渲染后,形成超文本标记语言HTML数据返回给所述用户使用的浏览器。
全文摘要
本发明提供了一种结构化数据搜索的方法和装置,其中方法包括A、接收具备结构化数据搜索需求的搜索请求,解析所述搜索请求中的统一资源标识符(URI),确定所述URI对应的策略包;B、根据所述策略包中的服务属性信息,分别从各服务属性信息对应的结构化数据库中获取搜索请求对应的搜索结果集合;C、如果步骤B从多于1个结构化数据库中获取搜索结果集合,则按照所述策略包中的结果归并机制,对获取到的搜索结果集合进行归并处理;D、将归并处理后得到的搜索结果集合提供给用户。通过本发明能够提高结构化数据搜索的效果,更加方便用户获取需要的信息。
文档编号G06F17/30GK102117320SQ20111000481
公开日2011年7月6日 申请日期2011年1月11日 优先权日2011年1月11日
发明者陈凯, 马远珍 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1