电子文档的搜索方法及系统的制作方法

文档序号:6482099阅读:174来源:国知局
专利名称:电子文档的搜索方法及系统的制作方法
电子文档的搜索方法及系统
技术领域
本发明涉及计算机网络技术,特别是涉及一种电子文档的搜索方法及系统。背景技术
计算机网络技术的发展极大的提高了人们获取信息的便利性。计算机网络 中存储了海量的信息,为了便于人们查找到自己所需的信息,搜索引擎被广泛 使用。人们通过输入关键词,即可找到包含该关键词的网页。
搜索引擎的工作过程大致可以分为如下三个步骤
抓取网页每个独立的搜索引擎都有自己的网页抓取程序(spider,称为网 络蜘蛛)。网页抓取程序顺着网页中的超链接,连续地4爪耳又网页。 一皮抓耳又的网页 被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,若网页上有 适当的超级链接,从一定范围的网页出发,就能搜集到绝大多数的网页。
整理信息搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检 索服务。搜索引擎整理信息的过程称为"建立索引"。搜索引擎不仅要保存搜集 起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎根本不用 重新翻查它所有保存的信息而迅速找到所要的资料。
提供检索服务用户输入关键词进行检索,搜索引擎从索引数据库中找到 匹配该关键词的网页;搜索引擎返回主要是以网页链接的形式提供的,这样通 过这些链接,用户4更能到达含有自己所需资料的网页。通常搜索引擎会在这些 链接下提供一 小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自 己需要的内容。
随着人们对搜索结果要求的提高,很多搜索引擎服务的提供商都提供了电 子文档的搜索服务。传统的电子文档搜索服务是根据用户输入的关键词查找相 应的电子文档,查找到的电子文档内通常包含用户输入的关键词,返回的搜索 结果页面会显示一部分该电子文档的文字,以方便用户了解该电子文档的内容。 然而,这种电子文档的搜索方法与一般的网页搜索方法完全一致,只是将搜索内容限制在某一单个的电子文档内,没有体现出电子文档的自身特点,导致搜 索到的电子文档数量少或者不符合用户的需求。

发明内容
基于此,有必要提供一种更好的满足用户需求的电子文档的搜索方法。 一种电子文档的搜索方法,包括以下步骤抓取电子文档及所述电子文档
的关联信息;建立包含所述关联信息的电子文档的索引;响应用户的搜索请求 返回包含所述关联信息的搜索结果。
在优选的实施例中,所述建立包含所述关联信息的电子文档的索引的步骤 包括判断是否已经为该电子文档建立索引;如果未为该电子文档建立索引则 为该电子文档建立索引;如果已经为该电子文档建立索引则将所述关联信息追 加存入索引中。
在优选的实施例中,所述建立包含所述关联信息的电子文档的索引的步骤 包括解析该电子文档的内容,并将所述电子文档的内容作为所述索引的一部 分。
在优选的实施例中,所述建立包含所述关联信息的电子文档的索引的步骤 包括根据所述电子文档的链接地址建立唯一的电子文档编号,并根据所述电 子文档编号组织所述索引。
在优选的实施例中,所述关联信息包括链接到该电子文档的链接文字信息 或提供链接到该电子文档的链接的网页页面内容信息。
在优选的实施例中,所述关联信息包括用户对该电子文档的评价信息。
此外,还有必要提供一种更好的满足用户需求的电子文档的搜索系统。 一种电子文档的搜索系统,包括数据抓取模块,用于抓取电子文档及所 述电子文档的关联信息;索引模块,与所述数据抓取模块相连建立包含所述关 联信息的电子文档的索引;存储模块,与所述索引模块相连以存储所述索引; 检索模块,与所述存储模块连接,响应用户的搜索请求返回包含所述关联信息 的搜索结果。在优选的实施例中,所述索引模块还用于查询所述存储模块判断是否已经 为该电子文档建立索引,如果未为该电子文档建立索引则为该电子文档建立索 引,如果已经为该电子文档建立索引则将所述关联信息追加存入索引中。
在优选的实施例中,还包括内容解析模块,所述内容解析模块与所述数据 抓取模块相连以解析该电子文档的内容,所述索引模块与所述内容解析模块相 连并将所述电子文档的内容作为所述索引的一部分。
在优选的实施例中,所述关联信息包括链接到该电子文档的链接文字信息、 提供链接到该电子文档的链接的网页页面内容信息、用户对该电子文档的评价 信息中的一种或两种以上。
上述电子文档的搜索方法和系统中,搜索引擎的索引包含有电子文档的关 联信息,通过电子文档的关联信息可以在不打开该电子文档的情况下了解电子 文档的内容,同时关联信息是对电子文档本身内容从不同文字或角度的描述, 从而增加用不同关键字搜索时搜索到该电子文档的可能性,可以更好的满足用 户的需求。


图1为一实施例的电子文档的搜索方法的流程图2为建立包含关联信息的电子文档的索引的具体流程图; 图3为一实施例的电子文档的搜索系统的模块图。
具体实施方式
如图1所示,其为一种电子文档的搜索方法流程图,该方法包括以下步骤 步骤S110,抓取电子文档及所述电子文档的关联信息。电子文档的抓取可 以通过网页搜索中查找到的链接进行。通过网络蜘蛛从网络中抓取电子文档, 并获取该电子文档的关联信息。关联信息是指除电子文档本身的内容外,对查 找该电子文档、快速掌握该电子文档的内容、了解该电子文档的应用等有用的 信息,例如链接到该电子文档的链接文字信息、提供链接到该电子文档的链接的网页页面内容信息、用户对该电子文档的评i^/H言息等。例如,有一件txt才各式 的电子文档"新宋,,,在互4关网上的地址为http:〃abc.a.com/b/xinsong.txt,有一 个网页页面,上面有链接文字信息"新宋的电子书",这个链接文字信息的链 接指向"http:〃abc.a.com/b/xinsong.txt",同时这个页面上有如下的页面内容信息 "《新宋》第二巻《权柄》,主要讲叙石越的改革与对西夏的战争。"此外,网页 页面中还包含用户对该电子文档的评价信息,比如170人给予了这个电子文档 好的评价,2人给予差的评价,这些评价可以作为返回搜索结果的排序依据,便 于用户找到有用的电子文档。
步骤S120,建立包含所述关联信息的电子文档的索引。将关联信息整理到 搜索引擎的索引中,便于在接收到用户的搜索请求时快速有效的返回搜索结果。 在建立包含关联信息的电子文档的索引的步骤中,可以解析该电子文档的内容, 并将电子文档的内容作为索引的一部分。电子文档的内容可以是电子文档的名 称、作者、出版社、摘要、关键词等,也可是电子文档内容的全本文本信息。 这样,当有用户搜索的信息是某个电子文档的内容的时候,就可以保证也命中 这些信息,从而提高用户的满意度。为了更好的管理电子文档,可以根据电子 文档的链接地址建立唯一的电子文档编号,并根据电子文档编号组织索引。
步骤S130,响应用户的搜索请求返回包含关联信息的搜索结果。将关联信 息显示在返回结果的页面上,通过该页面用户可以查看到关联信息,迅速了解 该电子文档的内容。关联信息可以和电子文档内的部分内容出现在下载该电子 文档的链接下。
上述电子文档的搜索方法中,搜索引擎的索引包含有电子文档的关联信息, 通过电子文档的关联信息可以在不打开该电子文档的情况下了解电子文档的内 容,例如链接到该电子文档的链接文字信息会高度概括电子文档的内容;同时 关联信息是对电子文档本身内容从不同文字或角度的描述,例如提供链接到该 电子文档的链接的网页页面内容信息会从读者的角度去描述电子文档的内容, 这些描述文字可能与电子文档中的文字不同,从而增加用不同关键字搜索时搜 索到该电子文档的可能性,可以更好的满足用户的需求。
如图2所示,其为步骤S120更具体的流程图。首先,步骤S210,判断是否已经为该电子文档建立索引。互联网中存在大 量相同的信息,同样也包括大量相同的电子文档,通过判断步骤SllO中抓取的 电子文档是否已经存在并建立索引了来避免对同样的电子文档建立多个索引, 浪费存储空间及避免用户在同样的电子文档上花费太多时间。是否为同样的电 子文档可以通过电子文档本身的内容来判断。如果未为该电子文档建立索引,
则进入步骤S220;如果已经为该电子文档建立索引,则进入步骤S230。
步骤S220,为该电子文档建立索引。没有为该电子文档建立索引说明该电 子文档是全新的文档,因此需要整理该电子文档的信息来建立新的索引。
步骤S230,将关联信息追加存入索引中。对于已经有该电子文档的情况, 可以将步骤SllO中抓取到的新的关联信息追加存入索引中。因为不同的网页页 面对相同的电子文档的关联信息是不同的,通过追加的方式存入,可以补充该 电子文档的关联信息,使得关联信息更加充实,便于用户更好的了解该电子文 档及增加该电子文档被搜索到的可能性。
如图3所示,还提供了一种电子文档的搜索系统。电子文档的搜索系统300 包括数据抓取模块310、索引模块320、存储模块330、检索模块340和内容解 析模块350。
数据抓取模块310用于抓取电子文档及电子文档的关联信息。数据抓取冲莫 块310通过网页搜索中查找到的链接抓取电子文档,并获取该电子文档的关联 信息。关联信息是指除电子文档本身的内容外,对查找该电子文档、快速掌握 该电子文档的内容、了解该电子文档的应用等有用的信息,例如链接到该电子 文档的链接文字信息、提供链接到该电子文档的链接的网页页面内容信息、用 户对该电子文档的评4介信息等。
索引模块320与数据抓取模块310相连以建立包含关联信息的电子文档的 索引。索引模块320将关联信息整理到搜索引擎的索引中,便于在接收到用户 的搜索请求时快速有效的返回搜索结果。
存储模块330与索引模块320相连以存储索引模块320为电子文档建立的 索引。另外,数据抓取模块310抓取的电子文档及其关联信息也可以先存储到
8存储模块330,再由索引模块320对存储的电子文档及其关联信息建立索引,在 提供该电子文档的服务器与互联网的连接断开的情况下,搜索引擎的服务器仍 然可以提供该电子文档。为了避免对同 一电子文档建立多个索引和重复存储相 同的电子文档,索引模块320还可以查询存储模块330判断是否已经为该电子 文档建立索引,如果未为该电子文档建立索引则为该电子文档建立索引,如果 已经为该电子文档建立索引则将关联信息追加存入索引中。
检索模块340与存储模块330连接,在接收到用户的搜索请求时,响应用 户的搜索请求返回包含关联信息的搜索结果。将关联信息显示在返回结果的页 面上,通过该页面用户可以查看到关联信息,迅速了解该电子文档的内容。
内容解析模块350连接在数据抓取模块310和索引模块320之间,对数据 抓取模块310抓取的电子文档的内容进行解析,索引模块320将解析获得的电 子文档的内容作为索引的一部分。检索模块340可以将关联信息和电子文档内 的部分内容显示在下载该电子文档的链接下方。
上述电子文档的搜索系统中,搜索引擎的索引包含有电子文档的关联信息, 通过电子文档的关联信息可以在不打开该电子文档的情况下了解电子文档的内 容,同时关联信息是对电子文档本身内容从不同文字或角度的描述,从而增加 用不同关键字搜索时搜索到该电子文档的可能性,可以更好的满足用户的需求。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细, 但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域 的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和 改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附 权利要求为准。
权利要求
1、一种电子文档的搜索方法,其特征在于,包括以下步骤抓取电子文档及所述电子文档的关联信息;建立包含所述关联信息的电子文档的索引;响应用户的搜索请求返回包含所述关联信息的搜索结果。
2、 根据权利要求1所述的电子文档的搜索方法,其特征在于,所述建立包 含所述关联信息的电子文档的索引的步骤包括判断是否已经为该电子文档建立索引;如果未为该电子文档建立索引则为该电子文档建立索引;如果已经为该电子文档建立索引则将所述关联信息追加存入索引中。
3、 根据权利要求1或2所述的电子文档的搜索方法,其特征在于,所述建 立包含所迷关联信息的电子文档的索引的步骤包括解析该电子文档的内容, 并将所述电子文档的内容作为所述索引的一部分。
4、 根据权利要求1或2所述的电子文档的搜索方法,其特征在于,所述建 立包含所述关联信息的电子文档的索引的步骤包括根据所述电子文档的链接 地址建立唯一的电子文档编号,并根据所述电子文档编号组织所述索引。
5、 根据权利要求1所述的电子文档的搜索方法,其特征在于,所述关联信 息包括链接到该电子文档的链接文字信息或提供链接到该电子文档的链接的网 页页面内容信息。
6、 根据权利要求1所述的电子文档的搜索方法,其特征在于,所述关联信 息包括用户对该电子文档的评价信息。
7、 一种电子文档的搜索系统,其特征在于,包括 数据抓取模块,用于抓取电子文档及所述电子文档的关联信息; 索引模块,与所述数据抓取模块相连建立包含所述关联信息的电子文档的索引;存储模块,与所述索引模块相连以存储所述索引;检索模块,与所述存储模块连接,响应用户的搜索请求返回包含所述关联 信息的搜索结果。
8、 根据权利要求7所述的电子文档的搜索系统,其特征在于,所述索引模 块还用于查询所述存储模块判断是否已经为该电子文档建立索引,如果未为该 电子文档建立索引则为该电子文档建立索引,如果已经为该电子文档建立索引 则将所述关联信息追加存入索引中。
9、 根据权利要求7或8所述的电子文档的搜索系统,其特征在于,还包括 内容解析模块,所述内容解析模块与所述数据抓取模块相连以解析该电子文档 的内容,所述索引模块与所述内容解析模块相连并将所述电子文档的内容作为 所述索引的一部分。
10、 根据权利要求7或8所述的电子文档的搜索系统,其特征在于,所述 关联信息包括链接到该电子文档的链接文字信息、提供链接到该电子文档的链 接的网页页面内容信息、用户对该电子文档的评价信息中的 一种或两种以上。
全文摘要
一种电子文档的搜索方法,包括以下步骤抓取电子文档及所述电子文档的关联信息;建立包含所述关联信息的电子文档的索引;响应用户的搜索请求返回包含所述关联信息的搜索结果。上述电子文档的搜索方法中,搜索引擎的索引包含有电子文档的关联信息,通过电子文档的关联信息可以在不打开该电子文档的情况下了解电子文档的内容,同时关联信息是对电子文档本身内容从不同文字或角度的描述,从而增加用不同关键字搜索时搜索到该电子文档的可能性,可以更好的满足用户的需求。此外,还提供了一种电子文档的搜索系统。
文档编号G06F17/30GK101599069SQ20091004102
公开日2009年12月9日 申请日期2009年7月10日 优先权日2009年7月10日
发明者顼 王 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1