搜索引擎系统及该搜索引擎系统的结构化数据引入方法

文档序号:6353017阅读:472来源:国知局
专利名称:搜索引擎系统及该搜索引擎系统的结构化数据引入方法
技术领域
本发明涉及搜索引擎技术,尤其涉及一种可搜索结构化数据的搜索引擎系统以及 该搜索引擎系统的结构化数据引入方法。
背景技术
互联网的飞速发展为人们提供了一个全新的信息存储、加工、传递和使用的载体, 网络信息也迅速成为了人们获取知识和信息的主要渠道之一。而如此规模的信息资源在将 人类占有的几乎所有知识纳入其中的同时,也给资源的使用者带来了如何充分开发和利用 的问题。搜索引擎正是在这一需求下应运而生,它协助网络用户在互联网上查找信息。具 体地,搜索引擎根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进 行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户。目前的搜索引擎在互联网上搜集信息时主要是通过网页之间的静态链接关系来 收集数据。然而,互联网上大部分内容信息是存储在网络数据库中的,也就是说,目前搜索 引难以通过网页抓取的方式获取其全部的信息内容,所以,当前的搜索引擎也不能索引到 或不能在返回的搜索结果中显示这些内容,因此对用户来说这部分内容是隐藏的。但是,这 部分隐藏的内容对于用户又是非常重要的,例如股票数据、人民币汇率、天气预报、电视节 目表等,可以看出,这些隐藏的内容大部分都是结构化的数据。所以,如何使搜索引擎能够 搜索到互联网上的各种信息,即包括结构化的和非结构化的信息,是搜索引擎技术发展所 面临的主要问题。有鉴于此,有必要对现有的搜索引擎予以改进,以解决上述问题。

发明内容
本发明的目的在于提供一种搜索引擎系统,其能够搜索不同特定领域的结构化数 据,从而为用户提供全面、准确的搜索结果。本发明的目的还在于提供一种上述搜索引擎系统的结构化数据引入方法,其能够 使搜索引擎系统快速地更新结构化数据,从而提高搜索引擎系统的工作效率。为实现上述发明目的之一,本发明的一种搜索引擎系统的结构化数据的引入方 法,其包括如下步骤通过预定的数据交互协议获取结构化数据;将所述结构化数据存储到结构化数据存储库中。作为本发明的进一步改进,所述数据交互协议包括站点地图(sitemap)协议。作为本发明的进一步改进,所述数据交互协议中包含抓取更新周期;所述获取结 构化数据的步骤包括根据所述抓取更新周期抓取结构化数据。作为本发明的进一步改进,所述获取结构化数据的步骤还包括把本次抓取的数 据与上一次抓取的数据进行比较,并将更新后的数据存入结构化数据存储库中。作为本发明的进一步改进,该方法还包括对结构化数据进行处理。
作为本发明的进一步改进,所述对结构化数据处理的步骤包括对数据进行摘要式处理。作为本发明的进一步改进,所述对结构化数据处理的步骤包括将数据统一成同一 数据格式。作为本发明的进一步改进,所述对结构化数据处理的步骤包括为数据建立索引库。作为本发明的进一步改进,所述索引库包括倒排索引文件。作为本发明的进一步改进,所述结构化数据存储库还包括网页库,所述网页库用 于备份数据。作为本发明的进一步改进,所述网页库还被用于定期全量更新所述索引库。作为本发明的进一步改进,该方法还包括确定数据的相关度权值。作为本发明的进一步改进,所述数据的相关度权值根据数据文本的基础知识的相 关性来确定。作为本发明的进一步改进,所述数据的相关度权值根据数据的特定特征的重要性 来确定。作为本发明的进一步改进,所述数据存储库中还存储有语义模板,所述语义模板 根据用户查询日志来确定。为实现上述另一目的,本发明的一种搜索引擎系统,其包括结构化数据存储库,用于存储结构化数据,所述结构化数据通过预定的数据交互 协议获取;分析器,用于处理获取的结构化数据,并将其存入所述存储库中。作为本发明的进一步改进,所述数据交互协议包括站点地图(sitemap)协议。作为本发明的进一步改进,所述数据交互协议中包含抓取更新周期;所述结构化 数据的获取包括根据所述抓取更新周期抓取结构化数据。作为本发明的进一步改进,所述结构化数据的获取包括把本次抓取的数据与上 一次抓取的数据进行比较,并将更新后的数据存入所述存储库中。作为本发明的进一步改进,所述分析器对结构化数据的处理包括将数据存入数据 存储库中的摘要库。作为本发明的进一步改进,所述分析器对结构化数据的处理包括将数据统一成同 一数据格式。作为本发明的进一步改进,所述分析器对结构化数据的处理包括为数据建立索引库。作为本发明的进一步改进,所述索引库包括倒排索引文件。作为本发明的进一步改进,所述结构化数据存储库还包括网页库,所述网页库用 于备份数据。作为本发明的进一步改进,所述网页库还被用于定期全量更新所述索引库。作为本发明的进一步改进,所述分析器还用于确定数据的相关度权值。作为本发明的进一步改进,所述数据的相关度权值根据数据文本的基础知识的相 关性来确定。
作为本发明的进一步改进,所述数据的相关度权值根据数据的特定特征的重要性 来确定。作为本发明的进一步改进,所述结构化数据包括与若干属性标签对应的属性值; 所述结构化数据存储库内还存储有语义模板,所述语义模板包括有属性标签。作为本发明的进一步改进,该系统还包括需求分析模块,用于接收来自于客户端的查询词表达式,根据所述查询词表达式 确定相应的语义模板,并根据所述语义模板分析该查询词表达式,以确定所要搜索的结构 化数据;搜索组件,用于搜索结构化数据存储库以获取所要搜索的结构化数据。作为本发明的进一步改进,所述需求分析模块对查询词表达式的分析包括分析 出和语义模板中的属性标签对应的属性值,从而确定包含有所述属性值的数据为所要搜索 的数据。作为本发明的进一步改进,所述需求分析模块对查询词表达式的分析还包括根据 语义模板分析出所要搜索的属性标签;所述搜索组件还用于从所述获取的数据中抽取与所 述所要搜索的属性标签对应的属性值,并将所述属性值返回给客户端。作为本发明的进一步改进,所述需求分析模块对查询词表达式的分析包括根据 语义模板确定和语义模板中的属性标签对应的词项,并给所述词项标注相应的属性标签。作为本发明的进一步改进,所述需求分析模块还用于对查询词表达式进行优化。作为本发明的进一步改进,所述需求分析模块对查询词表达式的优化包括区间筛 选操作、和/或语义扩展操作、和/或分词操作。作为本发明的进一步改进,所述搜索组件还用于根据数据的相关度权值来对搜索 获取的数据进行排序。作为本发明的进一步改进,所述搜索组件还用于对排序后的数据进行打散操作。作为本发明的进一步改进,该系统还包括网页存储库,用于存储通过访问互联网 链接结构而抓取的网页文档;所述搜索组件还用于搜索网页存储库以获取与所述查询词表 达式相关的网页文档。作为本发明的进一步改进,该系统还包括合成模块,用于将获取的网页文档和结 构化数据合成后返回给客户端。作为本发明的进一步改进,该系统还包括用户界面,用于记录用户查询日志,所述 语义模板根据用户查询日志而获得。与现有技术相比,本发明的有益效果是本发明的搜索引擎系统通过预定的数据 交互协议获取结构化数据,方便了结构化数据的抓取和更新,并提高了搜索引器系统的资 源覆盖面。此外,用户在使用通用搜索引擎时,系统能够识别潜在的结构化数据搜索的需 求,并对结构化数据和普通网页文档进行综合搜索,从而为用户提供全面、准确的搜索结果。


图1是本发明的搜索引擎系统搜索结构化数据的一具体实施方式
的工作原理框 图2是本发明的搜索引擎系统搜索通用网页的一具体实施方式
的工作原理框图;图3是本发明的搜索引擎系统搜索结构化数据和通用网页的一具体实施方式
的 工作原理框图;图4是本发明的搜索引擎系统的结构化数据存储库中摘要式数据的一具体实施 方式;图5是本发明的搜索引擎系统展现搜索结果的一具体实施方式
;图6是图1所示的搜索引擎系统的结构化数据引入的工作流程图;图7是图3所示的搜索引擎系统执行搜索的工作流程图;图8是图3所示的搜索引擎系统对查询表达式进行分析的一具体实施方式
中的工 作流程图;图9是图3所示的搜索引擎系统对查询表达式进行分析的另一具体实施方式
中的 工作流程图;图10是图3所示的搜索引擎系统对搜索结果进行排序和展现的工作流程图。
具体实施例方式以下将结合附图所示的各实施方式对本发明进行详细描述。但这些实施方式并不 限制本发明,本领域的普通技术人员根据这些实施方式所轻易做出的结构、方法、或功能上 的变换均包含在本发明的保护范围内。图1所示的是本发明的搜索引擎系统100在一具体实施方式
中搜集和检索结构化 数据的工作原理框图。本实施方式中,网站站长将结构化数据以规范的形式主动提交给搜 索引擎系统100,从而搜索引擎系统可响应客户端40的浏览器41请求而提供结构化数据搜 索的服务。其中,搜索引擎系统100可以包括一个或多个用来存储和管理结构化数据、并响 应搜索请求的网络服务器实体。客户端40可以包括一个或多个用户终端设备,如个人计算 机、笔记本电脑、无线电话、个人数字处理(PDA)、或其它计算机装置和通信装置。这些服务器和终端设备在架构上都包含一些基本组件,如总线、处理装置、存储装 置、一个或多个输入/输出装置、和通信接口等。总线可以包括一个或多个导线,用来实现 服务器或终端设备各组件之间的通信。处理装置包括各类型的用来执行指令、处理进程或 线程的处理器或微处理器。存储装置可以包括存储动态信息的随机访问存储器(RAM)等动 态存储器,和存储静态信息的只读存储器(ROM)等静态存储器,以及包括磁或光学记录介 质与相应驱动的大容量存储器。输入装置供用户输入信息到服务器或终端设备,如键盘、鼠 标、手写笔、声音识别装置、或生物测定装置等。输出装置包括用来输出信息的显示器、打印 机、扬声器等。通信接口用来使服务器或终端设备与其它系统或装置进行通信。通信接口 之间可通过有线连接、无线连接、或光连接连接到网络中,使搜索引擎系统100、客户端40 间能够通过网络实现相互间的通信。网络可以包括局域网(LAN)、广域网(WAN)、电话网络 如公共交换电话网(PSTN)、企业内部的互联网、因特网、或上述这些网络的结合等。服务器 和终端设备上均包含有用来管理系统资源、控制其它程序运行的操作系统软件,以及用来 实现特定功能模块的应用软件。如图1所示,搜索引擎系统100整体上可分为离线部分和在线部分。在离线部分, 系统会事先搜集一批结构化数据,并以某种方式存放在系统中,系统包括结构化数据推送
8平台15、对引入的结构化数据进行分析的分析器16、记录用户查询信息的用户查询日志数 据库、对用户查询日志进行分析的日志分析器18、和结构化数据存储库20。结构化数据的 提供者可以为任何人,在本实施方式中,数据的提供者为一些行业网站的站长,站长通过结 构化数据推送平台15将结构化数据包推送给搜索引擎系统100。这儿结构化数据平台15 是指站长和搜索引擎系统100之间可通过一份预定的数据交互协议来进行结构化数据的 交互。本实施方式中,该协议为sitemap (站点地图)协议。具体地,站长会按照sitemap 协议的规范将要提交的结构化数据拼装成一份xml (Extensible Markup Language,可扩展 置标语言)格式的文件,放到自己的服务器硬盘上,然后将存放地址提交给搜索引擎系统 100。
权利要求
1.一种搜索引擎系统的结构化数据的引入方法,其特征在于,该方法包括如下步骤 通过预定的数据交互协议获取结构化数据;将所述结构化数据存储到结构化数据存储库中。
2.根据权利要求1所述的引入方法,其特征在于,所述数据交互协议包括站点地图 (sitemap)协议。
3.根据权利要求1所述的引入方法,其特征在于,所述数据交互协议中包含抓取更新 周期;所述获取结构化数据的步骤包括根据所述抓取更新周期抓取结构化数据。
4.根据权利要求3所述的引入方法,其特征在于,所述获取结构化数据的步骤还包括 把本次抓取的数据与上一次抓取的数据进行比较,并将更新后的数据存入结构化数据存储 库中。
5.根据权利要求1所述的引入方法,其特征在于,该方法还包括对结构化数据进行处理。
6.根据权利要求5所述的引入方法,其特征在于,所述对结构化数据处理的步骤包括 对数据进行摘要式处理。
7.根据权利要求5所述的引入方法,其特征在于,所述对结构化数据处理的步骤包括 将数据统一成同一数据格式。
8.根据权利要求5所述的引入方法,其特征在于,所述对结构化数据处理的步骤包括 为数据建立索引库。
9.根据权利要求8所述的引入方法,其特征在于,所述索引库包括倒排索引文件。
10.根据权利要求8所述的引入方法,其特征在于,所述结构化数据存储库还包括网页 库,所述网页库用于备份数据。
11.根据权利要求10所述的引入方法,其特征在于,所述网页库还被用于定期全量更 新所述索引库。
12.根据权利要求1所述的引入方法,其特征在于,该方法还包括确定数据的相关度权值。
13.根据权利要求12所述的引入方法,其特征在于,所述数据的相关度权值根据数据 文本的基础知识的相关性来确定。
14.根据权利要求12所述的引入方法,其特征在于,所述数据的相关度权值根据数据 的特定特征的重要性来确定。
15.根据权利要求1所述的引入方法,其特征在于,所述数据存储库中还存储有语义模 板,所述语义模板根据用户查询日志来确定。
16.一种搜索引擎系统,其特征在于,该搜索引擎系统包括结构化数据存储库,用于存储结构化数据,所述结构化数据通过预定的数据交互协议 获取;分析器,用于处理获取的结构化数据,并将其存入所述存储库中。
17.根据权利要求16所述的搜索引擎系统,其特征在于,所述数据交互协议包括站点 地图(sitemap)协议。
18.根据权利要求16所述的搜索引擎系统,其特征在于,所述数据交互协议中包含抓 取更新周期;所述结构化数据的获取包括根据所述抓取更新周期抓取结构化数据。
19.根据权利要求18所述的搜索引擎系统,其特征在于,所述结构化数据的获取包括 把本次抓取的数据与上一次抓取的数据进行比较,并将更新后的数据存入所述存储库中。
20.根据权利要求16所述的搜索引擎系统,其特征在于,所述分析器对结构化数据的 处理包括将数据存入数据存储库中的摘要库。
21.根据权利要求16所述的搜索引擎系统,其特征在于,所述分析器对结构化数据的 处理包括将数据统一成同一数据格式。
22.根据权利要求16所述的搜索引擎系统,其特征在于,所述分析器对结构化数据的 处理包括为数据建立索引库。
23.根据权利要求22所述的搜索引擎系统,其特征在于,所述索引库包括倒排索引文件。
24.根据权利要求22所述的搜索引擎系统,其特征在于,所述结构化数据存储库还包 括网页库,所述网页库用于备份数据。
25.根据权利要求M所述的搜索引擎系统,其特征在于,所述网页库还被用于定期全 量更新所述索引库。
26.根据权利要求16所述的搜索引擎系统,其特征在于,所述分析器还用于确定数据 的相关度权值。
27.根据权利要求沈所述的搜索引擎系统,其特征在于,所述数据的相关度权值根据 数据文本的基础知识的相关性来确定。
28.根据权利要求沈所述的搜索引擎系统,其特征在于,所述数据的相关度权值根据 数据的特定特征的重要性来确定。
29.根据权利要求16所述的搜索引擎系统,其特征在于,所述结构化数据包括与若干 属性标签对应的属性值;所述结构化数据存储库内还存储有语义模板,所述语义模板包括 有属性标签。
30.根据权利要求四所述的搜索引擎系统,其特征在于,该系统还包括需求分析模块,用于接收来自于客户端的查询词表达式,根据所述查询词表达式确定 相应的语义模板,并根据所述语义模板分析该查询词表达式,以确定所要搜索的结构化数 据;搜索组件,用于搜索结构化数据存储库以获取所要搜索的结构化数据。
31.根据权利要求30所述的搜索引擎系统,其特征在于,所述需求分析模块对查询词 表达式的分析包括分析出和语义模板中的属性标签对应的属性值,从而确定包含有所述 属性值的数据为所要搜索的数据。
32.根据权利要求30或31的搜索引擎系统,其特征在于,所述需求分析模块对查询词 表达式的分析还包括根据语义模板分析出所要搜索的属性标签;所述搜索组件还用于从所 述获取的数据中抽取与所述所要搜索的属性标签对应的属性值,并将所述属性值返回给客 户端。
33.根据权利要求30所述的搜索引擎系统,其特征在于,所述需求分析模块对查询词 表达式的分析包括根据语义模板确定和语义模板中的属性标签对应的词项,并给所述词 项标注相应的属性标签。
34.根据权利要求30或33所述的搜索引擎系统,其特征在于,所述需求分析模块还用于对查询词表达式进行优化。
35.根据权利要求34所述的搜索引擎系统,其特征在于,所述需求分析模块对查询词 表达式的优化包括区间筛选操作、和/或语义扩展操作、和/或分词操作。
36.根据权利要求30所述的搜索引擎系统,其特征在于,所述搜索组件还用于根据数 据的相关度权值来对搜索获取的数据进行排序。
37.根据权利要求36所述的搜索引擎系统,其特征在于,所述搜索组件还用于对排序 后的数据进行打散操作。
38.根据权利要求30所述的搜索引擎系统,其特征在于,该系统还包括网页存储库,用 于存储通过访问互联网链接结构而抓取的网页文档;所述搜索组件还用于搜索网页存储库 以获取与所述查询词表达式相关的网页文档。
39.根据权利要求38所述的搜索引擎系统,其特征在于,该系统还包括合成模块,用于 将获取的网页文档和结构化数据合成后返回给客户端。
40.根据权利要求四所述的搜索引擎系统,其特征在于,该系统还包括用户界面,用于 记录用户查询日志,所述语义模板根据用户查询日志而获得。
全文摘要
本发明提供一种搜索引擎系统,其包括结构化数据存储库和分析器。其中结构化数据存储库用于存储结构化数据,结构化数据通过预定的数据交互协议获取。分析器用于处理获取的结构化数据,并将其存入存储库中。本发明的搜索引擎系统通过预定的数据交互协议获取结构化数据,方便了结构化数据的抓取和更新,并提高了搜索引器系统的资源覆盖面。此外,用户在使用通用搜索引擎时,系统能够识别潜在的结构化数据搜索的需求,并对结构化数据和普通网页文档进行综合搜索,从而为用户提供全面、准确的搜索结果。
文档编号G06F17/30GK102073726SQ20111000482
公开日2011年5月25日 申请日期2011年1月11日 优先权日2011年1月11日
发明者陈凯, 马远珍 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1