数据库构建装置和方法、搜索应用整合系统和方法

文档序号:6435186阅读:167来源:国知局
专利名称:数据库构建装置和方法、搜索应用整合系统和方法
技术领域
本发明总体上涉及Web应用领域,更具体地,本发明涉及一种用于构建搜索应用信息数据库的数据库构建装置和方法、以及搜索应用整合系统和方法。
背景技术
Web应用的整合(Mashup)是一种用来将几个Web应用组合起来创建新功能的技术。整合可以定义为通过从不同的Web应用中提取和合并数据与功能来向Web应用添加新的功能,以支持用户的需要和任务。搜索应用整合是将来自几个不同Web搜索应用的搜索功能和/或搜索结果组合起来以支持用户的搜索需要和任务的整合技术。在传统的方法中,已经研究了对一组特定的搜索应用的整合。例如,诸如MetaCrawler的元搜索引擎(www.metacrawler.com)组合了Google (谷歌)、Yahoo !(雅虎)、Bing和Ask等几个常用搜索应用的搜索结果,以向终端用户提供这几个搜索应用的经整合的搜索结果。在传统的搜索应用整合方法和系统中,通常针对较为流行的、使用广泛的几个搜索应用人工地进行整合,而且不同的终端用户总是使用相同的搜索应用整合数据库,不能根据用户的需求、使用偏好等对搜索应用整合进行个性化定制。

发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
`
鉴于现有技术的上述缺陷,本发明的目的之一是提供一种用于构建搜索应用信息数据库的数据库构建装置和方法以及搜索应用整合系统和方法,以至少克服在现有技术中存在的不能同时满足不同用户的使用偏好及需求的问题。为了实现上述目的,根据本发明的一个方面,提供了一种用于构建搜索应用信息数据库的数据库构建装置,包括浏览会话识别单元,其被配置用于基于用户的浏览历史记录及其发生时间来识别浏览历史中的浏览会话;搜索会话判定单元,其被配置用于根据浏览会话中的记录的参数特征以及记录间的关联性来判定浏览会话是否为搜索会话;以及数据库构建单元,其被配置用于根据判定的搜索会话来获得搜索会话中的搜索应用信息,并基于所获得的搜索应用信息来构建搜索应用信息数据库。根据本发明的另一个方面,还提供了一种搜索应用整合系统,包括如上所述的数据库构建装置,还包括应用整合单元,其被配置用于利用数据库构建装置所构建的搜索应用信息数据库中涉及的所有搜索应用对用户输入的关键词进行搜索,得到将所有搜索应用的搜索结果组合起来的整合搜索结果;以及接口单元,其被配置用于显示输入界面,接收用户输入的关键词,以及显示上述整合搜索结果。
根据本发明的另一个方面,还提供了一种用于构建搜索应用信息数据库的数据库构建方法,包括基于用户的浏览历史记录及其发生时间来识别浏览历史中的浏览会话;根据浏览会话中的记录的参数特征以及记录间的关联性来判定浏览会话是否为搜索会话;以及根据判定的搜索会话来获得搜索会话中的搜索应用信息,并基于所获得的搜索应用信息来构建搜索应用信息数据库。根据本发明的另一个方面,还提供了一种搜索应用整合方法,包括如上所述的数据库构建方法,还包括接收用户输入的关键词,并利用通过数据库构建方法所构建的搜索应用信息数据库中涉及的所有搜索应用对用户输入的关键词进行搜索,得到将所有搜索应用的搜索结果组合起来的整合搜索结果。依据本发明的其它方面,还提供了相应的计算机可读存储介质,该计算机可读存储介质上存储有能够由计算设备执行的计算机程序,所述程序在执行时能够使所述计算设备执行上述数据库构建方法或者上述搜索应用整合方法。根据上述本发明实施例的数据库构建装置和方法以及搜索应用整合装置和方法,以能够实现至少以下益处之一通过挖掘用户的浏览历史形成一个整合型的搜索应用信息数据库,该数据库可以不仅能够包含流行的网络搜索引擎,还可以包括具有很少用户的搜索应用;而且,由于该数据库及整合是基于用户的浏览历史的,因此该数据库、以及整合后的搜索结果均能够充分地匹配用户的使用偏好和需求;此外,数据库的创建过程不需用户的参与,使得用户容易开始使用。通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。


本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中图1是示意性地示出根据本发明实施例的、用于构建搜索应用信息数据库的数据库构建装置的结构的方框图。图2是示意性地示出了根据本发明实施例的数据库构建装置的另一种结构的方框图。图3是示出了从网络代理日志中获得的、已滤除了无用记录的浏览历史记录的一个示例的示意图。图4是示意性地示出根据本发明实施例的如图1和图2中所示的浏览会话识别单元110的结构的框图。图5是示出用户在一段时间内的浏览历史记录的时间分布的示意图。图6是示意性地示出根据本发明实施例的如图1和图2中所示的搜索会话判定单元120的结构的框图。图7是是示意性地示出根据本发明实施例的如图1和图2中所示的数据库构建单元130的结构的框图。
图8是示意性地示出根据本发明实施例的图7中所示的搜索应用信息提取子单元710的结构(省略了搜索应用信息提取子单元710除点击条目统计模块800之外的部件)的框图。图9是示出了在根据本发明实施例的数据库构建装置的一个示例中获得的一组搜索应用信息的示意图。图10是是示意性地示出根据本发明实施例的数据库构建装置的另一种结构的框图。图11是示意性地示出根据本发明实施例的搜索应用整合系统的结构的框图。图12是示意性示出了根据本发明实施例的整合系统的另一种结构的框图。图13是在根据本发明的实施例的整合系统的一个应用示例中,利用第二种排序方式对整合搜索结果进行排序后的显示界面。图14是示意性地示出根据本发明实施例的用于构建搜索应用信息数据库的数据库构建方法的处理流程的示意图。图15示意性地示出根据本发明实施例的搜索应用整合方法的处理流程的示意图。图16是示出了可用来实现根据本发明实施例的数据库构建装置和方法(或搜索应用整合装置和整合方法)的一种可能的信息处理设备的硬件配置的结构简图。本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的,而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其他元件放大了,以便有助于提高对本发明实施例的理解。
具体实施例方式在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。图1是示意性地示出根据本发明实施例的、用于构建搜索应用信息数据库的数据库构建装置的结构的方框图。如图1所示,数据库构建装置100包括浏览会话识别单元110、搜索会话判定单元120和数据库构建单元130。其中,浏览会话识别单元110基于用户的浏览历史记录及其发生时间来识别用户浏览历史中的浏览会话,搜索会话判定单元120根据浏览会话中的记录的参数特征以及记录间的关联性来判定浏览会话是否为搜索会话,数据库构建单元130根据所判定的搜索会话来获得该搜索会话中的搜索应用信息,并基于所获得的搜索应用信息来构建搜索应用信息数据库。目前,Web浏览器作为用户使用Web应用的平台已被广泛使用,当用户通过浏览器浏览网页或者是使用某个Web应用的时候,用户的每个动作(比如访问某个链接,或者向远程服务器提交一些数据等等)都会被记录成为一条用户的浏览历史记录。在一个例子中,用户的浏览历史记录可以是直接获得的原始浏览历史记录。原始浏览历史记录可以通过用户端计算机来获得,例如,通过安装在用户端计算机上的浏览器插件或网络嗅探器等技术来获得。此外,在用户使用网络代理上网的情况下,原始浏览历史记录也可以通过网络代理的日志来获得。在另一个例子中,用户的浏览历史记录也可以是按预定过滤条件对上述原始浏览历史记录进行过滤后得到的结果。例如,图2示意性地示出了根据本发明实施例的数据库构建装置的另一种结构。如图2所示,数据库构建装置200除包括浏览会话识别单元110、搜索会话判定单元120和数据库构建单元130外,还包括过滤单元140。过滤单元140用于从获得的用户的原始浏览历史记录中滤除掉无用记录,并将过滤后的浏览历史记录发送至浏览会话识别单元进行处理。其中,无用记录是指在本发明实施例的实际应用中不重要的那些记录条目、数据等。利用过滤单元140,可以得到例如如图3所示的浏览历史记录。图3是示出了从网络代理日志中获得的、已滤除了无用记录的浏览历史记录的一个示例的示意图。在如图3所示出的浏览历史记录中可以包括访问时间(time)、访问方法(method)、正被访问的URL(统一资源定位符)、指向本链接URL的网页的URL(以下简称为参照页)(referer)、从远程主机返回的数据内容的类型(content-type)等信息,另外,还包括了从远程服务器得到的原始的HTML(超文本标记语言)页面。可以通过使用规则表达式或者其它公知的技术把URL分解成远程服务器的域名(hostname)、请求路径(S卩,远程服务器上的执行脚本路径)(requestpath)以及本次请求的参数(parameters)。由此,一条浏览历史记录可以表示为如下形式SR = (time, method, hostname, requestpath,parameters, content-type, referer, body)其中,上式中的“body”是记录中的正文部分,表示来自远程服务器的应答内容,通常是HTML源代码的形式。为了简洁与清楚起见,图3所示出的浏览历史记录中省略了“body”的内容。另外,访问方法可以包括GET、POST、PUT、DELETE等。此外,referer即HTTP Referer,当浏览器向web服务器发送请求的时候,一般会带上referer,告诉服务器是从哪个页面链接过来的,服务器借此可以获得一些信息用于处理。例如,从A的主页上链接到B的网站,则B的服务器能够根据HTTP Referer统计出每天有多少用户通过点击A的主页上的链接来访问B的网站。 图3中所示出的浏览历史记录可以是根据基于规则的方法从原始浏览历史记录中滤除掉无用记录后获得的剩余记录。具体地,可以将过滤单元140配置成能够实现基于规则的方法来滤除无用记录的功能,上述规则可以是若记录的内容类型不是文本或html,则去除该记录;若记录的访问方式不是GET或POST,则去除该记录;若记录的请求路径包含后缀css”、“.1co”或js”中的一个,则去除该记录;以及若记录的body为空,则去除该记录。只要记录满足上述规则中的任何一个,过滤单元140就将该记录滤除。由此,可以从用户的浏览历史记录中滤除对于本发明而言不重要的、可被看作是搜索应用的噪声记录的那些记录,从而可以减少要由浏览会话识别单元110处理的记录的数量,因此有助于提供整个装置的处理效率。下面结合图4 图9对浏览会话识别单元110、搜索会话判定单元120和数据库构建单元130的具体处理操作进行描述。在用户通过浏览器进行浏览时,可能有若干个活跃的浏览期,也即,用户可能并非一直连续地通过浏览器进行浏览。例如,用户可能通过浏览器使用了 5分钟的Web应用,然后用户停止了浏览,转而以其他的方式使用电脑,例如使用Microsoft office进行了 10分钟的文档操作,然后又开始通过浏览器进行网页浏览等。因此,需要利用浏览会话识别单元110从用户的浏览历史中识别出活跃的浏览期、即浏览会话,然后才能利用搜索会话判定单元从浏览会话中找出包含搜索应用的活跃浏览期、即搜索会话。图4是示意性地示出根据本发明实施例的如图1和图2中所示的浏览会话识别单元110的结构的框图。如图4所示,浏览会话识别单元110可以进一步包括第一判定子单元410和识别子单元420。第一判定子单元410可以被配置用于判定用户的浏览历史记录中的相邻浏览历史记录是否属于同一浏览会话。例如,第一判定子单元410可以通过判定用户的浏览历史记录中的相邻浏览历史记录之间的时间间隔是否大于或等于预设时间间隔,来判定所述相邻浏览历史记录是否属于同一浏览会话。具体来说,在用户的浏览历史记录中的相邻浏览历史记录之间的时间间隔大于或等于预设时间间隔的情况下,第一判定子单元410判定所述相邻浏览历史记录分别属于不同的浏览会话,否则,第一判定子单元410判定所述相邻浏览历史记录属于同一个浏览会话。当然,也可以通过其他的方式来判断相邻浏览历史记录是否属于同一浏览会话。图5示出了用户在一段时间内的浏览历史记录的时间分布图。在图5中,横坐标表示历史记录发生的时间(假设沿横坐标轴方向的时间单位为I分钟),纵坐标表示在每个时间单位内产生的历史记录的数量。识别子单元420可以被配置用于根据第一判定子单元410的判定结果在用户的浏览历史记录中识别出多个浏览会话。由此,可以把用户的大量浏览历史记录分为多个组,每组即一个浏览会话,其中,每个浏览会话中可以包括一个或多个浏览历史记录。对于如图5所示的用户浏览历史记录而言,假设预设时间间隔为5分钟,则第一判定子单元410把彼此间的时间间隔大于或等于5分钟的两个相邻历史记录判定为属于不同的浏览会话,而把彼此间的时间间隔小于5分钟的两个相邻历史记录判定为同一浏览会话。这样的话,识别子单元420可以从如图5所示的用户浏览历史中识别出3个浏览会话。但是,本发明并不局限于该结构,其他能够根据浏览历史记录及其发生时间来识别浏览会话的类似结构也应当包括在本发明的范围中。例如,通过配置浏览会话识别单元110,使其能够通过识别用户浏览历史中的空白时间期来对浏览历史进行分割,从而获得多个浏览会话,换句话说,将每相邻两个空白时间期之间的浏览历史记录判定为一个浏览会话。如上所述,在用户的浏览历史中,不仅包括使用搜索应用的历史记录,还可能包括其他的历史记录,例如使用诸如用于读新闻或查收邮件等功能的各种网络Web应用的历史记录。因此,需要从识别出的浏览会话中进一步地识别出那些包含搜索应用信息的会话、即搜索会话。
通过观察可以发现,搜索结果的body中通常包含突出显示的搜索关键词,并且用户可能经常点击搜索结果,在用户点击搜索结果之前和之后产生的记录之间存在一定关联性(即,所点击的记录的referer是搜索操作记录的URL),因此可以根据浏览会话中的记录的参数特征(例如,搜索关键词的出现频率、高亮显示特征等)以及记录间的关联性来判定浏览会话中的搜索会话。图6是示意性地示出根据本发明实施例的如图1和图2中所示的搜索会话判定单元120的结构的框图。如图6所示,搜索会话判定单元120可以进一步包括第二判定子单元610、第三判定子单元620和第四判定子单元630。第二判定子单元610可以被配置用于判定在所识别的浏览会话中是否存在搜索操作记录,其中搜索操作记录是在正文、即body中具有出现次数超过预设值且被突出显示的参数值的记录,假设用SILsearch表示。第三判定子单元620可以被配置用于在第二判定子单元610的判定结果为肯定、即在所识别的浏览会话中存在搜索操作记录的情况下,判定在该浏览会话中是否存在这样的记录发生在搜索操作记录SR_search之后的、并以搜索操作记录的URL为参照页referer的记录。第四判定子单元630可以被配置用于在第三判定子单元620的判定结果为肯定的情况下,将该浏览会话判定为搜索会话。由此,通过具有如图6所示的结构的搜索会话判定单元,可以在所识别出的浏览会话中进一步识别出哪些浏览会话是搜索会话。图7是示意性地示出根据本发明实施例的如图1和图2中所示的数据库构建单元130的结构的框图。如图7所示,数据库构建单元130可以包括搜索应用信息提取子单元710和数据库建立子单元720。其中,搜索应用信息提取子单元710可以被配置用于从所判定的搜索会话中包括的记录中提取搜索应用信息,该搜索应用信息至少可以包括以下的信息搜索应用的域名(即,搜索操作记录中包含的hostname);与该搜索应用的域名相对应的请求路径(即,所述搜索操作记录中包含的request path);与所述域名和所述请求路径相对应的搜索关键词参数;与所述域名、所述请求路径和所述搜索关键词参数相对应的搜索时间;以及与所述域名、所述请求路径、所述搜索关键词参数和所述搜索时间相对应的搜索结果中被点击过的条目数。其中,与所述域名和所述请求路径相对应的搜索关键词参数是在所述搜索操作记录的正文(即body)中的出现次数超过预定阈值且被突出显示的参数值。通常,一组搜索应用的域名和请求路径可对应于至少一个关键词,这表明用户可以在同一域名、同一请求路径下先后进行多次搜索,而且每次搜索可以使用相同的或不同的搜索关键词。由于用户可能在同一域名、同一路径下对同一关键词进行了一次或多次的搜索,所以相应地,与同一域名、同一请求路径以及同一搜索关键词参数相对应的搜索时间也可以为一个或多个。此外,由于与确定的域名、请求路径、搜索关键词及搜索时间相对应的搜索结果是唯一的,因此该搜索结果中被点击过的条目数也是唯一确定的。在根据本发明实施例的数据库构建装置的另一个具体实现方式中,可以通过在搜索应用信息提取子单元710中设置一个如图8所示的点击条目统计模块800,来确定在搜索结果中被点击过的条目数。即,点击条目统计模块800被配置用于统计与上述域名、上述请求路径、上述搜索关键词参数和上述搜索时间相对应的搜索结果中被点击过的条目数。具体地,如图8所示,点击条目统计模块800可以包括确定子模块810和统计子模块820。其中,确定子模块810被配置用于确定在所判定的搜索会话中的、具有在正文中出现次数超过预设值且被突出显示的参数值的搜索操作记录。统计子模块820被配置用于在所述搜索会话中统计在所述搜索操作记录之后发生的、以所述搜索操作记录的URL为参照页的记录的条数,并将该条数确定为与所述域名、所述请求路径、所述搜索关键词参数和所述搜索时间相对应的搜索结果中被点击过的条目数。由此,可以确定在搜索结果中被点击过的条目数。此外,如图7所示的数据库建立子单元720可被配置用于根据搜索应用信息提取子单元710所提取的搜索应用信息来建立搜索应用信息数据库。在所述搜索应用信息数据库中,搜索应用信息可以是按照所述域名和所述请求路径进行分组的,即,可以将与同一域名和同一请求路径有关的搜索应用信息分为同一组信息。例如,图9示出了在根据本发明实施例的数据库构建装置的一个示例中获得的一组搜索应用信息。如图9所示,搜索应用的域名为“www. baidu. com”,请求路径为“s”,用户在2010年12月24日16:38:35对关键词“富士通”进行了搜索,并且在相应的搜索结果中点击了 3个条目,用户在2010年12月27日15:22:12对关键词“日本”进行了搜索,并且在相应的搜索结果中点击了 6个条目,等等。此外,除上面举例所说明的信息之外,例如通过公知技术获得的诸如搜索应用标题、标识图等信息也可以被包括在本发明实施例所涉及的“搜索应用信息”中。图10是示意性地示出根据本发明实施例的数据库构建装置的另一种结构的框图,其中,在图10中使用实线框描绘的单元为必选部件,而使用虚线框描绘的单元为非必要的可选部件,在实际应用中可根据需要选用。如图10所示,在根据本发明实施例的数据库构建装置1000中,装置1000除包括浏览会话识别单元110、搜索会话判定单元120和数据库构建单元130以及可选的过滤单元140外,还可以包括更新单元150。其中,更新单元150被配置用于定期地启动包括在装置1000中的浏览会话识别单元110、搜索会话判定单元120和数据库构建单元130以及可选的过滤单元140以重新构建搜索应用信息数据库,并用新构建的搜索应用信息数据库来替换原来的搜索应用信息数据库。具体地,例如,更新单元150可以按照预设的时间间隔周期启动浏览会话识别单元110、搜索会话判定单元120、数据库构建单元130以及可选的过滤单元140进行各自相应的处理,以重新构建搜索应用信息数据库,并用该新构建的搜索应用信息数据库替代原来的数据库。由此,可以实现装置1000的定期更新功能,使得由该装置获得的搜索应用信息数据库能够与用户的最新浏览历史相匹配,并且能够更符合用户当前的搜索习惯以及需求。通过以上的描述可以看出,在根据本发明实施例的数据库构建装置中,能够通过挖掘用户的上网浏览历史,创建一个包括与用户浏览历史有关的搜索应用的相关信息的数据库,即搜索应用信息数据库,从而实现对用户浏览历史中包含的搜索应用相关信息的整合。所创建的搜索应用信息数据库可支持用户的个性化搜索,这是因为,该搜索应用信息数据库中的搜索应用及信息是通过基于对特定用户的浏览历史进行挖掘而获得的,因此能够充分地匹配用户的使用偏好与需求。传统的搜索应用整合中构建的数据库通常是对几个固定的搜索应用的相关信息的整合,其中通常只包括网络上较为流行的、使用广泛的若干个搜索应用的相关信息,因此不能同时满足不同用户的各种不同的使用偏好及需求;而由根据本发明实施例的装置创建的数据库中可以包括用户曾经使用过的所有搜索应用的相关信息,或用户在最近一段时间内使用过的所有搜索应用的相关信息,因此其中可以包含网络上较不流行、鲜少使用的某些搜索应用的相关信息,而这些非主流的搜索应用却有可能恰好是最适合某类用户的需求及习惯的搜索应用,因此,由根据本发明实施例的装置创建的数据库可以支持不同用户的不同搜索需求。根据本发明的实施例,还提供了一种搜索应用整合系统,该整合系统包括以上所描述的用于构建搜索应用信息数据库的数据库构建装置,下面结合图11来进行描述。图11是示意性地示出根据本发明实施例的搜索应用整合系统的结构的框图。如图11所示,整合系统1100包括以上结合图1-10所描述的用于构建搜索应用信息数据库的数据库构建装置1110、应用整合单元1120和接口单元1130。其中,数据库构建装置1110可以具有例如如图1、2和10所示的结构和功能,为了避免重复,在此省略了对数据库构建装置1110的结构和功能的描述。此外,数据库构建装置1110中各组成部件的结构也可以具有例如如图4、6、7及8所示的结构和功能,例如,数据库构建装置1110中包括的数据库构建单元可以具有与以上结合图7所描述的数据库构建单元130相同的结构和功能,即,数据库构建装置1110中包括的数据库构建单元可以包括搜索应用信息提取子单元和数据库建立子单元,其中,搜索应用信息提取子单元和数据库建立子单元的功能可参见以上结合图7所描述的搜索应用信息提取子单元710和数据库建立子单元720的功能,等等,在此省略其具体描述。参见图11,应用整合单元1120可以被配置用于利用数据库构建装置1110所构建的搜索应用信息数据库中涉及的所有搜索应用对用户输入的关键词进行搜索,得到将所有搜索应用的搜索结果组合起来的整合搜索结果。接口单元1130可以被配置用于显示输入界面,接收用户输入的关键词,以及显示上述整合搜索结果。在利用根据本发明实施例的搜索应用整合系统进行搜索的一个应用实例中,当用户通过接口单元1130输入一个关键词开始搜索时,应用整合单元1120利用由数据库构建装置1110已创建的搜索应用信息数据库中的所涉及到的各个搜索应用,来分别对用户所输入的关键词在网络上进行搜索,然后应用整合单元1120将各个搜索应用的搜索结果整合到一起,并通过接口单元1130显示当前得到的整合搜索结果。此外,接口单元1130可以按照一定的顺序显示上述整合搜索结果。例如,图12示意性示出了根据本发明实施例的整合系统的另一种结构。如图12所示,整合系统1200除包括数据库构建装置1110、应用整合单元1120和接口单元1130之外,还包括排序单元1140。排序单元1140被配置用于按照以下三种方式之一对整合搜索结果进行排序,并将排序后的整合搜索结果发送至接口单元1130,之后由接口单元1130显示该排序后的整合搜索结果。第一种排序方式是按照与整合搜索结果相关的搜索应用被使用过的次数进行排序。具体地,可以计算与整合搜索结果相关的搜索应用的域名各自对应的搜索应用信息的组数,将各个搜索应用的域名对应的搜索应用信息的组数作为对应的搜索应用被使用过的次数。第二种排序方式是按照与整合搜索结果相关的搜索应用的域名各自对应的搜索结果中被点击过的条目数的多少进行排序。第三种排序方式是按照与整合搜索结果相关的搜索应用的域名各自对应的最新的搜索时间的先后进行排序,也即,根据其最后一次的使用时间来排序。其中,上述所有的排序方式可以是将同一应用对应的搜索结果作为整体来进行排序的,也即,排序的目的是对各个应用之间进行排序,而一个应用对应的若干搜索结果则采用该应用本身的排序方式。例如,以第二种排序方式为例来说明,在根据本发明的实施例的整合系统的一个应用示例中,在根据用户的浏览历史构建的搜索应用信息数据库中,共涉及Google、某公司内部管理部网站、Nifty以及百度四个搜索应用,也即上述“与整合搜索结果相关的搜索应用的域名”包括以上四个搜索应用各自的域名。例如,在Google中搜索“富士通”的结果cn. fujitsu. com和detail, zol. com. cn这两个结果被点击过,而在Google中搜索“NEC”,又有nec. com和nec. jp两个结果被点击过,则Google所对应的史搜索结果中被点击过的条目数为4。同样地,可以获得某公司内部管理部网站、Nifty以及百度三个搜索应用对应的搜索结果中被点击过的条目数,在本示例中,该3个条目数依次分别为2、1和3。则根据上述第二种排序方式对整合搜索结果进行排序的结果为G00gle、百度、某公司内部管理部网站和Nifty。如图13所示,图13是在根据本发明的实施例的整合系统的一个应用示例中,利用第二种排序方式对整合搜索结果进行排序后的显示界面。其中,在图13中,每个应用以及其对应的搜索结果是位于同一行的。本发明的实施例还提供了一种用于构建搜索应用信息数据库的数据库构建方法,图14示出了该方法的处理流程。如图14所示,该数据库构建方法的处理流程1400开始于步骤S1410,然后执行步骤 S1420。在步骤S1420中,基于用户的浏览历史记录及其发生时间来识别浏览历史中的浏览会话,然后执行步骤S1430。在一个例子中,用户的浏览历史记录可以是直接获得的原始浏览历史记录。其中,原始浏览历史记录可以通过在上文中描述的获得原始浏览历史记录的方式而获得,具体可参见上文描述。在另一个例子中,用户的浏览历史记录也可以是通过从获得的用户的原始浏览历史记录中滤除掉无用记录后获得的过滤后的浏览历史记录此外,在处理流程1400的一个具体实现方式中,步骤S1420中的识别浏览历史中的浏览会话的步骤可以包括判定用户的浏览历史记录中的相邻浏览历史记录是否属于同一浏览会话;以及根据判定的结果在用户的浏览历史记录中识别出多个浏览会话。其中,上述判定用户的浏览历史记录中的相邻浏览历史记录是否属于同一浏览会话的具体判定过程可与上文中结合图4所描述的利用第一判定子单元410的判定过程相同,具体描述不再重复。在步骤S1430中,根据浏览会话中的记录的参数特征以及记录间的关联性,来判定上述浏览会话是否为搜索会话,然后执行步骤S1440。例如,在处理流程1400的一个具体实现方式中,在步骤S1430中可以通过以下方式来判定搜索会话在浏览会话同时满足以下两个条件的情况下,将该浏览会话判定为搜索会话。其中,一个条件是在所识别的浏览会话中存在搜索操作记录,其中,搜索操作记录是具有在正文中出现次数超过预设值且被突出显示的参数值的记录。另一个条件是在浏览会话中存在这样的记录发生在搜索操作记录之后、并以搜索操作记录的URL为参照页的记录。由此,基于以上两个条件即可在已识别的浏览会话中判断出哪些会话是搜索会话。在步骤S1440中,根据判定的搜索会话来获得搜索会话中的搜索应用信息,并由该搜索应用信息构建搜索应用信息数据库,然后执行步骤S1450。其中,在处理流程1400的一个具体实现方式中,可以在已判定的搜索会话中包括的浏览记录中提取搜索应用信息,进而来构建搜索应用信息数据库,其中,提取的搜索应用信息可以至少包括以下信息搜索应用的域名,与上述域名相对应的请求路径,与上述域名和上述请求路径相对应的搜索关键词参数,与上述域名、上述请求路径和上述搜索关键词参数相对应的搜索时间,以及与上述域名、上述请求路径、上述搜索关键词参数和上述搜索时间相对应的搜索结果中被点击过的条目数;其中,上述搜索应用信息是按照所述域名和所述请求路径进行分组后的信息。此外,除上面举例所说明的信息类型,例如通过公知技术获得的诸如搜索应用标题、标识图等信息也可以包括在本发明实施例所涉及的“搜索应用信息”中。在此说明,这里所提及的搜索应用信息与上文中结合图7所描述的搜索应用信息提取子单元710所提取的搜索应用信息相同,其具体意义参见上文描述。此外,这里所提及的搜索应用信息中包括的各个信息的获取方法也可与上文中描述的各个对应信息的获得方法相同。例如,在处理流程1400的一个具体实现方式中,“与上述域名、上述请求路径、上述搜索关键词参数和上述搜索时间相对应的搜索结果中被点击过的条目数”可以通过以下方式获得确定在所判定的搜索会话中的、具有在正文中出现次数超过预设值且被突出显示的参数值的搜索操作记录;以及在上述搜索会话中统计在上述搜索操作记录之后发生的、以上述搜索操作记录的URL为参照页的记录的条数,并将该条数确定为与上述域名、上述请求路径、上述搜索关键词参数和上述搜索时间相对应的搜索结果中被点击过的条目数。处理流程1400结束于步骤S1450。此外,在处理流程1400的另一个具体实现方式中,处理流程1400还可以包括更新步骤定期地重新构建搜索应用信息数据库,并使用新构建的搜索应用信息数据库替换原来的搜索应用信息数据库。例如,在根据处理流程1400的该另一个具体实现方式图中,可以预设一个时间间隔,并使处理流程1400每经过该时间间隔便重新执行一次步骤S1420-1440,从而对搜索应用信息数据库进行了更新。更新步骤能够更符合用户最近的浏览历史,也从而更满足用户当前的使用偏好和习惯。根据本发明实施例的数据库构建方法创建的数据库,其中可以包括用户使用过的所有搜索应用及信息或用户在最近一段时间内使用过的所有搜索应用及信息,因此其中可以包括网络上较不流行、鲜为使用的某些搜索应用及信息,而有可能这些非主流的搜索应用却恰恰是最适合某类用户的需求及习惯的,因此,根据本发明实施例的数据库构建方法创建的数据库可以支持不同用户的不同搜索需求。本发明的实施例还提供了一种搜索应用整合方法,该整合方法包括上述数据库构建方法,图15示出了该整合方法的处理流程。如图15所示该整合方法的处理流程1500开始于步骤S1510,然后在步骤S1520中基于用户的浏览历史记录及其发生时间,识别浏览历史中的浏览会话,在步骤S1530中根据浏览会话中的记录的参数特征以及记录间的关联性,判定上述浏览会话是否为搜索会话,在步骤S1540中根据判定的搜索会话,获得搜索会话中的搜索应用信息,并由搜索应用信息构建搜索应用信息数据库,在步骤S1550中,使用与构建的搜索应用信息数据库有关的所有搜索应用对用户输入的关键词进行搜索,并得到整合搜索结果,上述整合方法结束于步骤S1560。其中,该处理流程1500中所包括的步骤S1520 S1540分别对应于上文描述的处理流程1400中包括的步骤S1420 S1440,其具体实现过程可参见上文描述,亦可获得类似的技术效果,在此不再赘述。上述根据本发明实施例的数据库构建装置(或搜索应用整合装置)中的各个组成单元、子单元等可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下,可从存储介质或网络向具有专用硬件结构的机器(例如图16所示的通用机器1600)安装构成该软件或固件的程序,该机器在安装有各种程序时,能够执行上述各组成单元、子单元的各种功能。图16是示出了可用来实现根据本发明实施例的数据库构建装置和方法(或搜索应用整合装置和整合方法)的一种可能的信息处理设备的硬件配置的结构简图。在图16中,中央处理单元(CPU) 1601根据只读存储器(ROM) 1602中存储的程序或从存储部分1608加载到随机存取存储器(RAM) 1603的程序执行各种处理。在RAM 1603中,还根据需要存储当CPU 1601执行各种处理等等时所需的数据。CPU 160KROM 1602和RAM1603经由总线1604彼此连接。输入/输出接口 1605也连接到总线1604。下述部件也连接到输入/输出接口 1605 :输入部分1606(包括键盘、鼠标等等)、输出部分1607(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分1608 (包括硬盘等)、通信部分1609 (包括网络接口卡例如LAN卡、调制解调器等)。通信部分1609经由网络例如因特网执行通信处理。根据需要,驱动器1610也可连接到输入/输出接口 1605。可拆卸介质1611例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器1610上,使得从中读出的计算机程序可根据需要被安装到存储部分1608中。在通过软件实现上述系列处理的情况下,可以从网络例如因特网或从存储介质例如可拆卸介质1611安装构成软件的程序。本领域的技术人员应当理解,这种存储介质不局限于图16所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1611。可拆卸介质1611的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(⑶-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1602、存储部分1608中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
此外,本发明还提出了 一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的数据库构建方法(或搜索应用整合方法)。相应地,用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本发明的公开中。根据本发明实施例的上述数据库构建装置和方法、以及搜索应用整合装置和方法,通过挖掘用户的浏览历史,能够通过挖掘用户的浏览历史来创建一个包括与用户浏览历史有关的搜索应用及相关信息的整合型数据库,使得该该数据库可以不仅能够包含流行的网络搜索引擎,还可以包括具有很少用户的搜索应用;而且,由于该数据库及整合是基于用户的浏览历史的,因此能够充分地匹配用户的使用偏好和需求;此外,数据库的创建过程不需用户的参与,使得用户容易开始使用。在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。涉及序数的术语“第一”,“第二”等并不表示这些术语所限定的特征、要素、步骤或组件的实施顺序或者重要性程度,而仅仅是为了描述清楚起见而被配置用于在这些特征、要素、步骤或组件之间进行标识。此外,本发明的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。此外,显然,根据本发明的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。而且,本发明的目的也可以通过下述方式实现将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。此时,只要该系统或者设备具有执行程序的功能,则本发明的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。上述这些机器可读存储介质包括但不限于各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。另外,客户计算机通过连接到因特网上的相应网站,并且将依据本发明的计算机程序代码下载和安装到计算机中然后执行该程序,也可以实现本发明。最后,还需要说明的是,在本文中,诸如左和右、第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、
物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的
要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。综上,在根据本发明的实施例中,本发明提供了如下方案
附记1. 一种用于构建搜索应用信息数据库的数据库构建装置,包括浏览会话识别单元,其被配置用于基于用户的浏览历史记录及其发生时间来识别所述浏览历史中的浏览会话;搜索会话判定单元,其被配置用于根据所述浏览会话中的记录的参数特征以及记录间的关联性来判定所述浏览会话是否为搜索会话;以及数据库构建单元,其被配置用于根据判定的搜索会话来获得所述搜索会话中的搜索应用信息,并基于所获得的搜索应用信息来构建搜索应用信息数据库。附记2.根据附记I所述的数据库构建装置,其中,所述浏览会话识别单元包括 第一判定子单元,其被配置用于判定用户的浏览历史记录中的相邻浏览历史记录是否属于同一浏览会话;以及识别子单元,其被配置用于根据第一判定子单元410的判定结果在用户的浏览历史记录中识别出多个浏览会话。附记3.根据附记I所述的数据库构建装置,其中,所述搜索会话判定单元包括 第二判定子单元,其被配置用于判定在所识别的浏览会话中是否存在搜索操作记录,其中,所述搜索操作记录是具有在正文中具有出现次数超过预设值且被突出显示的参数值的记录;第三判定子单元,其被配置用于在所述第二判定子单元的判定结果为肯定的情况下,判定在所述浏览会话中是否存在这样的记录发生在所述搜索操作记录之后、并以所述搜索操作记录的URL为参照页的记录;以及第四判定子单元,其被配置用于在所述第三判定子单元的判定结果为肯定的情况下,将所述浏览会话判定为搜索会话。附记4.根据附记I所述的数据库构建装置,还包括过滤单元,其被配置用于从获得的用户的原始浏览历史记录中滤除掉无用记录,并将过滤后的浏览历史记录发送至浏览会话识别单元进行处理。附记5.根据附记I所述的数据库构建装置,还包括更新单元,其被配置用于定期地启动包括在所述数据库构建装置中的、除所述更新单元之外的其他部件,以重新构建搜索应用信息数据库,并用新构建的搜索应用信息数据库来替换原来的搜索应用信息数据库。附记6.根据附记1-5中任意一项所述的数据库构建装置,其中,所述数据库构建单元包括搜索应用信息提取子单元,其被配置用于从所判定的搜索会话中包括的记录中提取搜索应用信息,所述搜索应用信息至少包括以下信息搜索应用的域名,与所述域名相对应的请求路径,与所述域名和所述请求路径相对应的搜索关键词参数,与所述域名、所述请求路径和所述搜索关键词参数相对应的搜索时间,以及与所述域名、所述请求路径、所述搜索关键词参数和所述搜索时间相对应的搜索结果中被点击过的条目数;以及数据库建立子单元,其被配置用于根据搜索应用信息提取子单元所提取的所述搜索应用信息来建立搜索应用信息数据库,并且,在所述搜索应用信息数据库中,所述搜索应用信息是按照所述域名和所述请求路径进行分组的。附记7.根据附记6所述的数据库构建装置,其中,在所述搜索应用信息提取子单元中包括点击条目统计模块,所述点击条目统计模块被配置用于统计所述与所述域名、所述请求路径、所述搜索关键词参数和所述搜索时间相对应的搜索结果中被点击过的条目数,其中所述点击条目统计模块包括确定子模块,其被配置用于确定在所判定的搜索会话中的、具有在正文中出现次数超过预设值且被突出显示的参数值的搜索操作记录;以及统计子模块,其被配置用于在所述搜索会话中统计在所述搜索操作记录之后发生的、以所述搜索操作记录的URL为参照页的记录的条数,并将该条数确定为与所述域名、所述请求路径、所述搜索关键词参数和所述搜索时间相对应的搜索结果中被点击过的条目数。附记8. —种搜索应用整合系统,包括如附记1-5中的任意一种数据库构建装置,还包括应用整合单元,其被配置用于利用数据库构建装置所构建的搜索应用信息数据库中涉及的所有搜索应用对用户输入的关键词进行搜索,得到将所有搜索应用的搜索结果组合起来的整合搜索结果;以及接口单元,其被配置用于显示输入界面,接收用户输入的关键词,以及显示所述整合搜索结果。附记9.根据附记8所述的搜索应用整合系统,其中,所述数据库构建装置中包含的数据库构建单元包括搜索应用信息提取子单元,其被配置用于从所判定的搜索会话中包括的记录中提取搜索应用信息,所述搜索应用信息至少包括以下信息搜索应用的域名,与所述域名相对应的请求路径,与所述域名和所述请求路径相对应的搜索关键词参数,与所述域名、所述请求路径和所述搜索关键词参数相对应的搜索时间,以及与所述域名、所述请求路径、所述搜索关键词参数和所述搜索时间相对应的搜索结果中被点击过的条目数;以及数据库建立子单元,其被配置用于根据搜索应用信息提取子单元所提取的所述搜索应用信息来建立搜索应用信息数据库,并且,在所述搜索应用信息数据库中,所述搜索应用信息是按照所述域名和所述请求路径进行分组的。附记10.根据附记9所述的搜索应用整合系统,还包括排序单元,所述排序单元被配置用于按照以下三种方式之一对所述整合搜索结果进行排序,并将排序后的整合搜索结果发送至接口单元按照与所述整合搜索结果相关的搜索应用被使用过的次数进行排序;按照与所述整合搜索结果相关的搜索应用的域名各自对应的搜索结果中被点击过的条目数的多少进行排序;或者按照与所述整合搜索结果相关的搜索应用的域名各自对应的最新的搜索时间的先后进行排序。附记11. 一种用于构建搜索应用信息数据库的数据库构建方法,包括基于用户的浏览历史记录及其发生时间来识别所述浏览历史中的浏览会话;根据所述浏览会话中的记录的参数特征以及记录间的关联性来判定所述浏览会话是否为搜索会话;以及根据判定的搜索会话来获得所述搜索会话中的搜索应用信息,并基于所获得的搜索应用信息来构建搜索应用信息数据库。附记12.根据附记11所述的数据库构建方法,所述的识别所述浏览历史中的浏览会话包括判定用户的浏览历史记录中的相邻浏览历史记录是否属于同一浏览会话;以及根据判定的结果在用户的浏览历史记录中识别出多个浏览会话。附记13.根据附记11所述的数据库构建方法,其中,所述的判定所述浏览会话是否为搜索会话包括在所述浏览会话同时满足以下两个条件的情况下,判定所述浏览会话为搜索会话在所识别的浏览会话中存在搜索操作记录,其中,所述搜索操作记录是具有在正文中具有出现次数超过预设值且被突出显示的参数值的记录;以及判定在所述浏览会话中是否存在这样的记录发生在所述搜索操作记录之后、并以所述搜索操作记录的URL为参照页的记录。附记14.根据附记11所述的数据库构建方法,其中,所述的用户的浏览历史记录是通过从获得的用户的原始浏览历史记录中滤除掉无用记录后获得的过滤后的浏览历史记录。附记15.根据附记11所述的数据库构建方法,还包括定期地重新构建搜索应用信息数据库,并使用新构建的搜索应用信息数据库替换原来的搜索应用信息数据库。附记16.根据附记11-15中任意一项所述的数据库构建方法,其中,所述搜索应用信息至少包括以下信息搜索应用的域名,与所述域名相对应的请求路径,与所述域名和所述请求路径相对应的搜索关键词参数,与所述域名、所述请求路径和所述搜索关键词参数相对应的搜索时间,以及与所述域名、所述请求路径、所述搜索关键词参数和所述搜索时间相对应的搜索结果中被点击过的条目数;其中,所述搜索应用信息是按照所述域名和所述请求路径进行分组后的信息。附记17.根据附记16所述的数据库构建方法,其中所述与所述域名、所述请求路径、所述搜索关键词参数和所述搜索时间相对应的搜索结果中被点击过的条目数通过以下方式获得确定在所判定的搜索会话中的、具有在正文中出现次数超过预设值且被突出显示的参数值的搜索操作记录;以及在所述搜索会话中统计在所述搜索操作记录之后发生的、以所述搜索操作记录的URL为参照页的记录的条数,并将所述条数确定为与所述域名、所述请求路径、所述搜索关键词参数和所述搜索时间相对应的搜索结果中被点击过的条目数。附记18. —种搜索应用整合方法,包括如附记11-17中的任意一种数据库构建方法,还包括接收用户输入的关键词,并利用通过数据库构建方法所构建的搜索应用信息数据库中涉及的所有搜索应用对用户输入的关键词进行搜索,得到将所有搜索应用的搜索结果组合起来的整合搜索结果。附记19. 一种计算机可读存储介质,其上存储有能够由计算设备执行的计算机程序,所述程序在执行时能够使所述计算设备执行根据附记11-17中任意一项所述的数据库构建方法或者根据附记18所述的搜索应用整合方法。虽然已经详细说明了本发明及其优点,但是应当理解在不脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本申请的范围不仅限于说明书所描述的过程、设备、制造、物质的结构、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解,根据本发明可以使用执行与在此所述的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、制造、物质的结构、手段、方法或者步骤。因此,所附的权利要求旨在它们的范围内包括这样的过程、设备、制造、物质的结构、手段、方法或者步骤。以上虽然结合附图详细描述了本发明的实施例,但是应当明白,上面所描述的实施方式只是用于说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此,本发明的范围仅由所附的权利要求及其等效含义来限定。
权利要求
1.一种用于构建搜索应用信息数据库的数据库构建装置,包括 浏览会话识别单元,其被配置用于基于用户的浏览历史记录及其发生时间来识别所述浏览历史中的浏览会话; 搜索会话判定单元,其被配置用于根据所述浏览会话中的记录的参数特征以及记录间的关联性来判定所述浏览会话是否为搜索会话;以及 数据库构建单元,其被配置用于根据判定的搜索会话来获得所述搜索会话中的搜索应用信息,并基于所获得的搜索应用信息来构建搜索应用信息数据库。
2.根据权利要求1所述的数据库构建装置,还包括 过滤单元,其被配置用于从获得的用户的原始浏览历史记录中滤除掉无用记录,并将过滤后的浏览历史记录发送至浏览会话识别单元进行处理。
3.根据权利要求1所述的数据库构建装置,还包括 更新单元,其被配置用于定期地启动包括在所述数据库构建装置中的、除所述更新单元之外的其他部件,以重新构建搜索应用信息数据库,并用新构建的搜索应用信息数据库来替换原来的搜索应用信息数据库。
4.根据权利要求1-3中任意一项所述的数据库构建装置,其中,所述数据库构建单元包括 搜索应用信息提取子单元,其被配置用于从所判定的搜索会话中包括的记录中提取搜索应用信息,所述搜索应用信息至少包括以下信息搜索应用的域名;与所述域名相对应的请求路径;与所述域名和所述请求路径相对应的搜索关键词参数;与所述域名、所述请求路径和所述搜索关键词参数相对应的搜索时间;以及与所述域名、所述请求路径、所述搜索关键词参数和所述搜索时间相对应的搜索结果中被点击过的条目数;以及 数据库建立子单元,其被配置用于根据搜索应用信息提取子单元所提取的所述搜索应用信息来建立搜索应用信息数据库,并且,在所述搜索应用信息数据库中,所述搜索应用信息是按照所述域名和所述请求路径进行分组的。
5.根据权利要求4中所述的数据库构建装置,其中,在所述搜索应用信息提取子单元中包括点击条目统计模块,所述点击条目统计模块被配置用于统计所述与所述域名、所述请求路径、所述搜索关键词参数和所述搜索时间相对应的搜索结果中被点击过的条目数,其中 所述点击条目统计模块包括 确定子模块,其被配置用于确定在所判定的搜索会话中的、具有在正文中出现次数超过预设值且被突出显示的参数值的搜索操作记录;以及 统计子模块,其被配置用于在所述搜索会话中统计在所述搜索操作记录之后发生的、以所述搜索操作记录的URL为参照页的记录的条数,并将该条数确定为与所述域名、所述请求路径、所述搜索关键词参数和所述搜索时间相对应的搜索结果中被点击过的条目数。
6.一种搜索应用整合系统,包括如权利要求1-3中的任意一种数据库构建装置,还包括 应用整合单元,其被配置用于利用数据库构建装置所构建的搜索应用信息数据库中涉及的所有搜索应用对用户输入的关键词进行搜索,得到将所有搜索应用的搜索结果组合起来的整合搜索结果;以及接口单元,其被配置用于显示输入界面,接收用户输入的关键词,以及显示所述整合搜索结果。
7.根据权利要求6所述的搜索应用整合系统,其中,所述数据库构建装置中包含的数据库构建单元包括 搜索应用信息提取子单元,其被配置用于从所判定的搜索会话中包括的记录中提取搜索应用信息,所述搜索应用信息至少包括以下信息搜索应用的域名;与所述域名相对应的请求路径;与所述域名和所述请求路径相对应的搜索关键词参数;与所述域名、所述请求路径和所述搜索关键词参数相对应的搜索时间;以及与所述域名、所述请求路径、所述搜索关键词参数和所述搜索时间相对应的搜索结果中被点击过的条目数;和 数据库建立子单元,其被配置用于根据搜索应用信息提取子单元所提取的所述搜索应用信息来建立搜索应用信息数据库,并且,在所述搜索应用信息数据库中,所述搜索应用信息是按照所述域名和所述请求路径进行分组的。
8.根据权利要求7所述的搜索应用整合系统,还包括 排序单元,其被配置用于按照以下三种方式之一对所述整合搜索结果进行排序 按照与所述整合搜索结果相关的搜索应用被使用过的次数进行排序; 按照与所述整合搜索结果相关的搜索应用的域名各自对应的搜索结果中被点击过的条目数的多少进行排序;或者 按照与所述整合搜索结果相关的搜索应用的域名各自对应的最新的搜索时间的先后进行排序。
9.一种用于构建搜索应用信息数据库的数据库构建方法,包括 基于用户的浏览历史记录及其发生时间来识别所述浏览历史中的浏览会话; 根据所述浏览会话中的记录的参数特征以及记录间的关联性来判定所述浏览会话是否为搜索会话;以及 根据判定的搜索会话来获得所述搜索会话中的搜索应用信息,并基于所获得的搜索应用信息来构建搜索应用信息数据库。
10.一种搜索应用整合方法,包括如权利要求9所述的数据库构建方法,还包括 接收用户输入的关键词,并利用通过数据库构建方法所构建的搜索应用信息数据库中涉及的所有搜索应用对用户输入的关键词进行搜索,得到将所有搜索应用的搜索结果组合起来的整合搜索结果。
全文摘要
本发明提供了用于构建搜索应用信息数据库的数据库构建装置和方法、以及搜索应用整合装置和方法,以克服在现有技术中存在的不能同时满足不同用户的使用偏好及需求的问题。数据库构建装置包括被配置用于识别浏览历史中的浏览会话的浏览会话识别单元;被配置用于判定浏览会话是否为搜索会话的搜索会话判定单元;以及被配置用于获得搜索会话中的搜索应用信息、并基于所获得的搜索应用信息来构建搜索应用信息数据库的数据库构建单元。整合装置包括上述构建装置,还包括应用整合单元和接口单元,用于进行搜索、整合及显示。应用本发明的上述技术,能够更充分地匹配用户的使用偏好和需求。
文档编号G06F17/30GK103034662SQ20111030483
公开日2013年4月10日 申请日期2011年9月28日 优先权日2011年9月28日
发明者张军, 钟朝亮, 李邵明, 松尾昭彦, 邹纲 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1