关键词的联想信息生成系统和生成方法

文档序号:6610287阅读:427来源:国知局
专利名称:关键词的联想信息生成系统和生成方法
技术领域
本发明涉及网络信息搜索技术,尤其涉及在进行关键词搜索时,对关键 词的联想信息的生成系统和生成方法。
背景技术
在网络信息搜索技术的不断发展,出现了一种搜索关键词联想技术,就 是用户键入关键词的前一部分,根据前一部分关键词到相关数据库中查找匹 配的记录,返回与所述前一部分关键词相关的检索关键词。
目前,网络搜索公司谷歌(Google)已经公开了一种搜索引擎的关键词 联想技术。主要实现方案就是在搜索页面上通过异步Javascript和XML (AJAX, Asynchronous JavaScriptandXML)技术生成一个脚本工具,用于 在用户向搜索框中输入关键词的前一部分的同时获取用户输入的输入关键 词,并异步获取搜索网站后台的用户访问记录,所述访问记录中包括用户曾 经输入的搜索关键词信息,所述脚本工具从用户访问记录中查找是否有与所 述输入关键词匹配的关键词信息,如果有,则将匹配的关键词信息在搜索页 面上展示给用户,以供用户选择恰当的关键词进行后续的搜索。并且,在该 现有技术中还可以计算关键词被搜索的次数,并将每一返回的关键词对应的 搜索次数展示给用户,方便用户进行根据关键词的搜索次数判断搜索关键词 的热门程度。
但是,上述现有技术存在如下缺陷
1、搜索关键词的热门程度只考虑了该关键词被搜索的次数,没有考虑 搜索结果的数目。在目前对于搜索精度要求越来越高的需求下,目前的这种 现有技术的搜索关键词的搜索精度没有保障。例如在电子商务网站中,很可
能出现一些单词的搜索次数很多,但是实际搜索结果的商品数很少,无法满 足用户需要。
2、由于脚本工具的安全限制,所述脚本工具只能查询Google搜索网站
域名内的用户访问日志记录,不能实现跨域查询,因此现有的关键词联想功 能只能在本域名内实现,如果搜索页面和用户访问日志服务器处于不同的域 名内,则现有技术无法实现这种跨域名的关键词联想功能,从而影响搜索范 围,降低了搜索精度。

发明内容
有鉴于此,本发明所要解决的技术问题在于提供一种关键词的联想信息 生成系统,将关键词的搜索结果数作为联想信息的一部分返回给用户,使得 系统可以更加准确地自动联想用户的搜索意图,提高搜索精度。
本发明所要解决的另 一 技术问题在于提供 一 种关键词的联想信息生成 方法,将关键词的搜索结果数作为联想信息的一部分返回给用户,从而更加 准确地-自动联想用户的搜索意图,提高搜索精度。
为了实现上述发明目的,本发明的主要技术方案为 一种关键词的联想信息生成系统,该系统包括用户接口和联想信息服务 器,其中
用户接口用于实时获取用户的输入关键词,显示所述联想信息服务器返 回的联想信息;
联想信息服务器用于存储关键词及其搜索结果数的索引文件,并根据所 述实时获取的输入关键词查询所述索引文件,从中查到前部分与所述输入关 键词匹配的关键词及其搜索结果数,将所匹配的关键词及其搜索结果数作为 所述输入关键词的联想信息返回给所述用户接口。
优选的,所述联想信息服务器具体包括
索引服务器,用于搜集网络信息,并对搜集到的网络信息进行分词处理, 确定分词后每一关键词对应的搜索结果数,并建立关键词和对应搜索结果数
的索引文件,发送给查询服务器;
用户访问日志服务器,用于分析用户访问日志,从用户的访问记录中提 取用户输入的搜索关键词和对应搜到的搜索结果数,并建立所述关键词和对
应搜索结果数的索引文件,发送给查询服务器;
查询服务器,用于保存从所述索引服务器和用户访问日志服务器发来的 索引文件,根据所述用户接口实时获取的输入关键词查询所述索引文件,从 中查到前部分与所述输入关键词匹配的关键词及其搜索结果数,将所匹配的 关键词及其搜索结果数作为所述输入关键词的联想信息返回给所述用户接口 。
优选的,所述索引服务器和用户访问日志服务器设置有更新周期,在每 个更新周期到达后自动将自身建立的索引文件发送给所述查询服务器,所述 查询服务器收到后更新原有的索引文件。
优选的,所述系统中进一步包括异步数据获取服务器,釆用专用通讯协 议与所述联想信息服务器通讯,用于将所述用户接口实时获取的输入关键词 异步发送到所述联想信息服务器,从所述联想信息服务器中获取所述输入关 键词的联想信息并将所述联想信息发送给所述用户接口显示。
优选的,所述用户接口与异步数据获取服务器设置在同一个域名下;所 述联想信息服务器设置在与异步数据获取服务器不同的域名下。
一种关键词的联想信息生成方法,该方法预先建立关键词及其搜索结果 数的索引文件;并包括
A、 实时获取用户输入的输入关键词;
B、 根据所述输入关键词查询所述预先建立的索引文件,从中查到前部 分与所述输入关键词匹配的关键词及其搜索结果数;
C、 将所匹配的关键词及其搜索结果数作为所述输入关键词的联想信息 显示给用户。
优选地,所述预先建立关键词及其搜索结果的索引文件的具体方式为 a、搜集网络信息并对搜集到的网络信息进行分词处理,确定分词后每
一关键词对应的搜索结果数,并建立关键词及其对应搜索结果数的索引文 件;
b、分析用户访问曰志,从用户的访问记录中提取用户输入的搜索关键 词和对应搜到的搜索结果数,并建立所述关键词及其对应搜索结果数的索引 文件。
优选地,所述方法进一步包括设定更新周期,在每个更新周期内执行 所述步骤a和步骤b,并用新建立的索引文件更新原有的索引文件。
优选地,步骤a中,所述搜集网络信息具体为从电子商务网站搜集商 品的介绍信息。
优选地,步骤C中,进一步包括按照所述搜索结果数对所述联想信息 进行排序,并按照排序顺序显示给用户。
本发明相对于现有技术,在后台预先确定关键词对应搜索结果的数目, 按照关键词及其搜索结果数建立索引文件,将实时异步获取的输入关键词与 索引文件中的记录进行匹配,将匹配到的关键词和搜索结果数作为所述输入 关键词的联想信息显示给用户,从而更加准确地自动联想用户的搜索意图, 提高用户的搜索精度。
本发明还釆用索引服务器和用户访问日志服务器相结合的方式,不但按 照搜索引擎自身的索引技术对网络上的网页信息进行分词处理生成索引文 件,而且根据用户访问日志生成扩展索引文件,扩展索引文件自动提取用户 输入的关键词和搜索结果数,从而有效弥补了由于分词算法的限制,搜索引 擎本身的索引文件无法覆盖到所有的单词的缺陷,扩大了关键词的范围,更 进一步提高用户的搜索精度。
本发明还引入了异步数据获取服务器,设置在用户接口和联想信息服务 器之间,通过专有通讯协议与联想信息服务器交互,从而可以避免脚本工具 的安全限制,实现跨域查询联想信息的功能,进一步扩大搜索范围,提高搜 索精度。
本发明还可以按照搜索结果数的多少对联想信息进行排序,能避免根据
关键词被检索次数排序导致的搜索结果很少的情况。
本发明还可以定时(例如每天)自动更新所述索引文件,进而保证了联 想信息提示的搜索结果数和实际的搜索结果数的准确匹配。


图1为本发明所述关键词的联想信息生成系统的一种实施例的结构示 意图2为本发明的一种搜索页面示意图3为本发明所述关键词的联想信息生成系统的另一种具体实施例的 结构示意图4为本发明所述关键词的联想信息生成方法的一种实施流程图。
具体实施例方式
下面通过具体实施例和附图对本发明做进一步详细说明。
图1为本发明所述关键词的联想信息生成系统的一种实施例的结构示 意图。参见图l,该系统包括用户接口 101和联想信息服务器102,其中
用户接口 IOI用于实时获取用户的输入关键词,将实时获取到的输入关 键词发送给联想信息服务器102;并且,所述用户接口 IOI还用于显示所述 联想信息服务器102返回的联想信息。此处,用户接口 IOI可以是一个搜索 页面,其中包括关键词输入框,所述用户的输入关键词就是指用户实时输入 到所述输入框的字符、单字、或单词等文字信息,用户接口 IOI中包括一个 JavaScript脚本工具,用于从所述输入框中实时异步获取用户输入的关键词 内容,例如用户每输入一个关键词,该JavaScript脚本工具都会获取到该输 入的关键词,将该字符或关键词发送给联想信息服务器102。
联想信息服务器102用于存储关键词及其搜索结果数的索引文件,并根 据所述实时获取的输入关键词查询所述索引文件,从中查到前部分与所述输 入关键词匹配的关键词及其搜索结果数,将所匹配的关键词及其搜索结果数
作为所述输入关键词的联想信息返回给所述用户接口 101。
所述关键词的搜索结果是指按照该关键词进行搜索,能搜到的数据记录 的位置, 一个关键词的搜索结果可能会有O个、l个或l个以上,每个搜索 结果对应一个数据记录的位置,用户可以通过这个数据记录位置找到对应的 结果网页。
参见图l,所述联想信息服务器102具体包括
索引服务器122,用于搜集网络信息,并对搜集到的网络信息进行分词 处理,确定分词后每一关键词对应的搜索结果数,并建立关键词和对应搜索 结果数的索引文件,发送给查询服务器121。
例如,索引服务器122中可以釆用搜索引擎的蜘蛛软件从网络上的相应 网站搜集网络信息,对搜集到的网络信息进行分词处理,确定分词后每一关 键词对应的搜索结果数,例如本发明尤其适用于搜集电子商务网站上登记的 商品介绍信息,假设从某 一 电子商务网站上收集到共68300个关于手机商品 的介绍信息,其中都包括"国产手机"这个分词,则当"国产手机"作为关 键词时,则对应的搜索结果数为68300,将关键词"国产手机"及其对应的 搜索结果数"68300"设置到索引文件中。
用户访问曰志服务器123,其中设置有用户访问曰志,用户访问曰志用 于记录用户的搜索记录,包括用户输入哪些关键词,以及关键词对应搜索出 的搜索结果,用户访问曰志服务器123用于分析用户访问曰志,从用户的访 问记录中提取用户输入的搜索关键词和对应搜到的搜索结果数,并建立所述 关键词和对应搜索结果数的索引文件,发送给查询服务器121。在本文实施 例中为了与索引服务器122建立的索引文件相区分,将用户访问曰志服务器 123建立的索引文件称为扩展索引文件。
查询服务器121 ,用于保存从所述索引服务器122和用户访问日志服务 器123发来的索引文件,根据所述用户接口 101实时获取的输入关键词査询 所述索引文件,从中查到前部分与所述输入关键词匹配的关键词及其搜索结 果数,将所匹配的关键词及其搜索结果数作为所述输入关键词的联想信息返
回给所述用户接口 101。
图2为本发明的一种搜索页面示意图。参见图2,例如用户在输入框201 中输入的输入关键词为"国产",则用户接口获取该输入关键词发送给联想 信息服务器,由联想信息服务器查询存储的索引文件,从中查到前部分与"国 产"匹配的关键词及其搜索结果数,将所匹配的关键词及其搜索结果数作为 所述输入关键词的联想信息返回给所述用户接口,并在搜索页面中以下拉列 表202的方式显示所述联想信息。并且,本发明还可以按照所述搜索结果数 对所述联想信息进行排序,并按照排序顺序将前预定数目的联想信息显示给 用户,例如图2中为前IO个联想信息,从而使用户可以根据搜索结果数确 定对应的关键词是否有搜索价值。此后,用户可以从所述下拉列表202中选 择具体的关键词,将所选的关键词输入到输入框201中,再点击搜索按键 203进行实质的搜索。
本发明所述的索引服务器122和用户访问日志服务器123中还进一步设 置有更新周期,例如每天更新,在每个更新周期到达后自动将自身建立的索 引文件发送给所述查询服务器,所述查询服务器收到后更新原有的索引文 件。因此本发明可以及时更新索引文件,保证了联想信息中提示的搜索结果 数和实际搜索的结果数准确匹配。
图3为本发明所述关键词的联想信息生成系统的另一种具体实施例的 结构示意图。参见图3,为了实现跨域查询,在图l所述实施例的基础上, 在本实施例中进一步增加了异步数据获取服务器103。所述异步数据获取服 务器103釆用专用通讯协议与所述联想信息服务器102通讯,而不是釆用脚 本工具访问所述联想信息服务器102,该专用通讯协议可以不受脚本工具的 安全限制,从而实现跨域名访问联想信息服务器102。在本实施例中,所述 用户接口 101和异步数据获取服务器103可以设置在同 一个域名下,例如域 名A下;而联想信息服务器102的域名不必与异步数据获取服务器的域名 相同,例如可以设置在域名B下。
所述异步数据获取服务器103用于接收所述用户接口 IOI实时获取的输
入关键词,按照所述专用通讯协议进行组织封装,异步发送到所述联想信息 服务器102,具体是发送给所述查询服务器121,所述查询服务器121查询到所述输入关键词的联想信息后,也采用所述专用通讯协议将联想信息进行组织封装,返回给所述异步数据获取服务器103,异步数据获取服务器103 对返回的数据进行解析,并将解析出的联想信息发送给所述用户接口 101显 示。
所述专用通讯协议可以釆用多种实现方式,本发明中并不限定某一种, 只要使所述异步数据获取服务器103和所述查询服务器121之间能够相互跨域通讯即可。
与所述关键词的联想信息生成系统相对应,本发明还公开了一种关键词 的联想信息生成方法,该方法预先建立关键词及其搜索结果数的索引文件, 即分别利用所述索引服务器122和用户访问日志服务器123建立所述索引文 件,具体为
步骤a、利用所述索引服务器122搜集网络信息,例如可搜集电子商务 网站上登记的商品介绍信息,然后对搜集到的网络信息进行分词处理,确定 分词后每一关键词对应的搜索结果数,并建立关键词和对应搜索结果数的索 引文件。
步骤b、利用所述用户访问日志服务器123分析用户访问日志,从用户 的访问记录中提取用户输入的搜索关键词和对应搜到的搜索结果数,并建立 所述关键词和对应搜索结果数的索引文件。
在建立索引文件后,还可以设定更新周期,在每个更新周期内执行所述 步骤a和步骤b,并用新建立的索引文件更新原有的索引文件。
图4为本发明所述关键词的联想信息生成方法的一种实施流程图。参见 图4,该流程包括
步骤401、实时获取用户输入的输入关键词。例如通过所述JavaScript工具从搜索页面的输入框中实时获取用户的输入关键词。
步骤402、根据所述输入关键词查询所述预先建立的索引文件,从中查
到前部分与所述输入关键词匹配的关键词及其搜索结果数。
步骤403、将所匹配的关键词及其搜索结果数作为所述输入关键词的联 想信息显示给用户。在返回联想信息时,还可以进一步按照所述搜索结果数 对所述联想信息进行排序,并按照排序顺序将排在前预定数目的联想信息显 示给用户,例如参见图2,可以将前IO个联想信息显示给用户。
以上所述,仅为本发明较佳的具体实施方式
,但本发明的保护范围并不 局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到 的变化或替换,都应涵盖在本发明的保护范围之内。
权利要求
1、一种关键词的联想信息生成系统,其特征在于,该系统包括用户接口和联想信息服务器,其中用户接口用于实时获取用户的输入关键词,显示所述联想信息服务器返回的联想信息;联想信息服务器用于存储关键词及其搜索结果数的索引文件,并根据所述实时获取的输入关键词查询所述索引文件,从中查到前部分与所述输入关键词匹配的关键词及其搜索结果数,将所匹配的关键词及其搜索结果数作为所述输入关键词的联想信息返回给所述用户接口。
2、 根据权利要求1所述的系统,其特征在于,所述联想信息服务器具 体包括索引服务器,用于搜集网络信息,并对搜集到的网络信息进行分词处理, 确定分词后每一关键词对应的搜索结果数,并建立关键词和对应搜索结果数 的索引文件,发送给查询服务器;用户访问日志服务器,用于分析用户访问曰志,从用户的访问记录中提 取用户输入的搜索关键词和对应搜到的搜索结果数,并建立所述关键词和对 应搜索结果数的索引文件,发送给查询服务器;查询服务器,用于保存从所述索引服务器和用户访问日志服务器发来的 索引文件,根据所述用户接口实时获取的输入关键词查询所述索引文件,从 中查到前部分与所述输入关键词匹配的关键词及其搜索结果数,将所匹配的 关键词及其搜索结果数作为所述输入关键词的联想信息返回给所述用户接 卩。
3、 根据权利要求2所述的系统,其特征在于,所述索引服务器和用户 访问日志服务器设置有更新周期,在每个更新周期到达后自动将自身建立的 索引文件发送给所述查询服务器,所述查询服务器收到后更新原有的索引文 件。
4、 根据权利要求1所述的系统,其特征在于,所述系统中进一步包括 异步数据获取服务器,釆用专用通讯协议与所述联想信息服务器通讯,用于 将所述用户接口实时获取的输入关键词异步发送到所述联想信息服务器,从 所述联想信息服务器中获取所述输入关键词的联想信息并将所述联想信息 发送给所述用户接口显示。
5、 根据权利要求4所述的系统,其特征在于,所述用户接口与异步数 据获取服务器设置在同一个域名下;所述联想信息服务器设置在与异步数据 获取服务器不同的域名下。
6、 一种关键词的联想信息生成方法,其特征在于,该方法预先建立关 键词及其搜索结果数的索引文件;并包括A、 实时获取用户输入的输入关键词;B、 根据所述输入关键词查询所述预先建立的索引文件,从中查到前部 分与所述输入关键词匹配的关键词及其搜索结果数;C、 将所匹配的关键词及其搜索结果数作为所述输入关键词的联想信息 显示给用户。
7、 根据权利要求6所述的方法,其特征在于,所述预先建立关键词及 其搜索结果的索引文件的具体方式为a、 搜集网络信息并对搜集到的网络信息进行分词处理,确定分词后每 一关键词对应的搜索结果数,并建立关键词及其对应搜索结果数的索引文 件;b、 分析用户访问日志,从用户的访问记录中提取用户输入的搜索关键 词和对应搜到的搜索结果数,并建立所述关键词及其对应搜索结果数的索引 文件。
8、 根据权利要求7所述的方法,其特征在于,所述方法进一步包括 设定更新周期,在每个更新周期内执行所述步骤a和步骤b,并用新建立的 索引文件更新原有的索引文件。
9、 根据权利要求7所述的方法,其特征在于,步骤a中,所述搜集网络信息具体为从电子商务网站搜集商品的介绍信息。
10、根据权利要求6所述的方法,其特征在于,步骤C中,进一步包括:按照所述搜索结果数对所述联想信息进行排序,并按照排序顺序显示给用 户。
全文摘要
本发明公开了一种关键词的联想信息生成系统和方法,包括用户接口和联想信息服务器,通过用户接口实时获取用户的输入关键词,并显示所述联想信息服务器返回的联想信息;联想信息服务器中存储关键词及其搜索结果数的索引文件,可根据所述实时获取的输入关键词查询所述索引文件,从中查到前部分与所述输入关键词匹配的关键词及其搜索结果数,将所匹配的关键词及其搜索结果数作为所述输入关键词的联想信息返回给所述用户接口。利用本发明,可以将关键词的搜索结果数作为联想信息的一部分返回给用户,使得系统可以更加准确地自动联想用户的搜索意图,提高搜索精度。
文档编号G06F17/30GK101118555SQ200710121598
公开日2008年2月6日 申请日期2007年9月10日 优先权日2007年9月10日
发明者超 马 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1