分布式搜索方法和系统的制作方法

文档序号:6606623阅读:232来源:国知局
专利名称:分布式搜索方法和系统的制作方法
技术领域
本发明涉及信息检索领域,更具体地,涉及一种分布式搜索方法和系统。
背景技术
近年来,随着社会性网络服务(Social Networking Services,SNS)、博客等网站的盛行,大众对此类网站信息越来越感兴趣,而同时,网站出于宣传和盈利的目的,也非常愿意将信息及时地提供出去。这样就在搜索服务提供商(例如,googlhbaidu等)和SNS、 博客类网站之间形成了一种可信的合作关系,共同为用户提供及时的有价值的信息。但是,由于目前的搜索技术多是利用爬虫将互联网上的信息抓取之后,在搜索平台上进行信息分类并建立关系索引,最后入数据库供使用者查询搜索,所以这种方法存在如下几个问题(1)在信息抓取过程中,诸如信息分类、建立索引、入库等主要工作均在搜索平台上进行,极大地影响了搜索引擎的效率;(2)在信息抓取过程中,爬虫需要将所抓取的信息送回搜索引擎,以便引擎对信息进行分类、甄别、保留有用信息以及剔除无用信息。在这个过程中,需要进行全文搜索,同样地影响到搜索引擎的效率。

发明内容
本发明要解决的一个技术问题是提供一种分布式搜索方法,能够显著提高搜索引擎的效率。本发明提供了一种分布式搜索方法,包括网站建立关键词到包含关键词的内容源的通用资源定位器(Universal Resource Locator, URL)的索引;将索引返回给搜索平台。根据本发明方法的一个实施例,该方法还包括网站定期或不定期地从搜索平台获取关键词。根据本发明方法的另一实施例,该方法还包括判断网站中的内容源是否有内容更新,如果有内容更新,则准备建立索弓I。根据本发明方法的又一实施例,该方法还包括搜索平台利用排序规则对返回的索引进行排序,并将排序后的结果存入数据库以供检索使用。根据本发明方法的再一实施例,通过下述方式将索引返回给搜索平台爬虫主动抓取的方式;或网站主动上报的方式。本发明的分布式搜索方法,由内容源来自建索引,这样一方面将建立索引的工作移至内容源,另一方面内容源无需再返回内容源的完整信息给搜索平台,只需返回关键词同内容源的URL的索引关系,从而大大提升了搜索引擎的效率,并减少了对被搜索网站的过度干扰。本发明要解决的另一技术问题是提供一种分布式搜索系统,能够显著提高搜索引擎的效率。
本发明提供了一种分布式搜索系统,包括索引建立装置,用于建立关键词到包含关键词的内容源的URL的索引;索引发送装置,与索引建立装置相连,用于将索引返回给搜
糸卞口 ο根据本发明系统的一个实施例,该系统还包括关键词获取装置,与索引建立装置相连,用于定期或不定期地从搜索平台获取关键词。根据本发明系统的另一实施例,该系统还包括判断装置,与索引建立装置相连, 用于判断内容源是否有内容更新,如果有内容更新,则准备建立索引。根据本发明系统的又一实施例,该系统还包括搜索平台,与索引发送装置相连, 用于利用排序规则对返回的索引进行排序,并将排序后的结果存入数据库以供检索使用。根据本发明系统的再一实施例,索引发送装置通过下述方式将索引返回给搜索平台爬虫主动抓取的方式;或网站主动上报的方式。本发明的分布式搜索系统,由内容源来自建索引,这样一方面将建立索引的工作移至内容源,另一方面内容源无需再返回内容源的完整信息给搜索平台,只需返回关键词同内容源的URL的索引关系,从而大大提升了搜索引擎的效率,并减少了对被搜索网站的过度干扰。


此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分。在附图中图1是本发明方法的第一实施例的流程示意图。图2是本发明方法的第二实施例的流程示意图。图3是本发明方法的第三实施例的流程示意图。图4是本发明方法的第四实施例的流程示意图。图5是本发明方法的第五实施例的流程示意图。图6是本发明方法的第七实施例的流程示意图。图7是本发明系统的第一实施例的结构示意图。图8是本发明系统的第二实施例的结构示意图。图9是本发明系统的第三实施例的结构示意图。图10是本发明系统的第四实施例的结构示意图。图11是本发明系统的第五实施例的结果示意图。
具体实施例方式下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。本发明的示例性实施例及其说明用于解释本发明,但并不构成对本发明的不当限定。为了提高搜索引擎的效率,本发明针对可信任的网站信息,提出了一种基于内容源自建索引的分布式搜索方法和系统。其将建立索引的工作交由可信任的内容源,由内容源利用从搜索平台获取的关键词建立索引后,把关键词同内容源的URL索引返回给搜索平台,从而建立了分布式的搜索架构。图1是本发明方法的第一实施例的流程示意图。
如图1所示,该实施例可以包括以下步骤S102,网站建立关键词到包含关键词的内容源的URL的索引,其中,该关键词可以来自搜索平台的关键词词库;S104,将索引返回给搜索平台。可选地,该索引中还可以包括网页的标题、网页最后更新的时间、网页的类型、主要内容的长度以及网页的主要内容。该实施例由内容源来自建索引,这样一方面将建立索引的工作移至内容源,另一方面内容源无需再返回内容源的完整信息给搜索平台,只需返回关键词同内容源的URL的索引关系,从而大大提升了搜索引擎的效率。另外,传统意义上的搜索一般是利用爬虫对被搜索网站内容进行全文抓取,而不管所抓取的内容是否是搜索平台所关心的信息。而本发明只要求可信任网站根据协议要求提供满足条件的关键词到内容源的URL的索引,只是部分内容的有条件访问,所以可以减少对被搜索网站的过度干扰。图2是本发明方法的第二实施例的流程示意图。如图2所示,该实施例可以包括以下步骤S202,网站定期或不定期地从搜索平台获取关键词,其中,该网站是可信任的网站,其同搜索平台建立了互信关系,该类网站一方面可以被动地接受搜索平台的搜索请求, 另一方面也可以主动地将相关信息上传至搜索平台;S204,网站建立关键词到包含关键词的内容源的URL的索引;S206,将索引返回给搜索平台。该实施例可以根据搜索平台提供的关键词来匹配内容源,建立关键词到内容源的 URL的索引,从而可以满足搜索平台利用可信任网站建立关键词到内容源的索引的需求。图3是本发明方法的第三实施例的流程示意图。如图3所示,该实施例可以包括以下步骤S302,判断网站中的内容源是否有内容更新(增加了新内容或删除了内容),如果有,则准备建立索引,例如,可以采用一个散列表存储一个URL对应的一个网页内容经过 MD5算法之后的一个网页指纹,S卩,<url, md5 (content) >,然后,可以通过对md5 (content) 是否发生变化来判断该网页内容是否有改变,如果有改变,则用一个列表保存一组二元序列〈(indexl,lengthl),(index2, length2). . · · >,其中 indexl 为发生改变的位置,length 为发生改变的内容长度,这样可以来提取其中更新的内容;S304,网站建立关键词到包含关键词的内容源的URL的索引;S306,将索引返回给搜索平台。该实施例可以在内容源有更新时建立索引,从而在很大程度上降低网站的索引工作量。图4是本发明方法的第四实施例的流程示意图。如图4所示,该实施例可以包括以下步骤S402,网站建立关键词到包含关键词的内容源的URL的索引;S404,将索引返回给搜索平台;S406,搜索平台利用排序规则对返回的索引进行排序,并将排序后的结果存入数据库以供检索使用。其中,排序规则可以是关键词在URL中的匹配度。例如,可以通过关键词在内容源中的出现频率来表示该关键词在URL中的匹配度。在该实施例中,搜索平台对返回的索引进行排序后,有效提高了搜索平台未来检索的效率。图5是本发明方法的第五实施例的流程示意图。如图5所示,该实施例可以包括以下步骤S502,网站定期或不定期地从搜索平台获取关键词;S504,判断网站中的内容源是否有内容更新,如果有内容更新,则准备建立索引;S506,网站建立关键词到包含关键词的内容源的URL的索引;S508,将索引返回给搜索平台;S510,搜索平台利用排序规则对返回的索引进行排序,并将排序后的结果存入数据库以供检索使用。在本发明方法的第六实施例中,可以通过下述方式将索引返回给搜索平台爬虫主动抓取的方式;或网站主动上报的方式。不管采用哪种方式,最终到达搜索平台的信息均为关键词到内容源URL的索引,而不是具体的内容源全文。这样,返回给搜索平台的信息无需内容源的全文即可满足检索的需要。该实施例可以通过多种方式从可信任网站获取索引,提高了获取索引的灵活性。图6是本发明方法的第七实施例的流程示意图。如图6所示,基于内容源自建索引的分布式搜索框架主要包括信息分析、建立索引、信息处理和入库四大部分,以及关键词词库、排序规则库和信息库等三大数据库。内容源经信息整理和分类等信息分析过程后,利用搜索平台的关键词词库建立关键词到内容源 URL的索引表,在搜索平台中,对索引表经排序等信息处理后入库并存储在信息库中供用户检索使用。接下来,详细阐述一下各部分的功能(1)信息分析 内容源发现有更新内容,分析比对后,提取其中新增的内容。(2)建立索引此部分工作在可信任网站内进行,可信任网站从搜索平台获取关键词,对信息分析后的内容源建立关键词到内容源URL的索引。(3)信息处理搜索平台获取可信内容源的途径有两个一种是利用爬虫主动去抓取,另一种是可信任网站主动上报给搜索平台。不管哪种方式,最终到达搜索平台的信息均为关键词到内容源URL的索引,而不是具体的内容源全文。关键词到内容源URL的索引依照关键词在URL中的匹配度来排序处理。(4)入库将经过排序处理后的索引入信息库以供检索使用。该实施例有效地提高了搜索引擎的效率,并减少了对被搜索网站的过度干扰。其中,索引建立的过程在被搜索网站内进行,被搜索网站从搜索平台获取关键词,与自身的内容源进行匹配处理,形成关键词到内容源URL的索引,并返回给搜索平台。这样,返回给搜索平台的信息无需内容源的全文即可满足检索的需要。该实施例可以广泛地应用于对可信任网站的信息搜索系统的建设中。图7是本发明系统的第一实施例的结构示意图。如图7所示,该实施例的系统包括索弓I建立装置11,用于建立关键词到包含关键词的内容源的URL的索引,其中,该关键词可以来自搜索平台的关键词词库;索引发送装置12,与索引建立装置11相连,用于将索引返回给搜索平台。可选地,该索引中还可以包括网页的标题、网页最后更新的时间、网页的类型、主要内容的长度以及网页的主要内容。在该实施例中,内容源获取关键词,把建立索引的任务在内容源侧完成,再把关键词同内容源的链接URL关系返回给搜索平台,从而实现了分步式的搜索,此访求可降低搜索引擎及被搜索网站的负荷,提高了搜索效率。此外,该实施例提出的信息获取方法不是获取内容源的全文,而是获取关键词同内容源的链接URL关系,并且在搜索平台中无需再建索引,经过简单信息处理后即可入库供用户检索使用。这样一方面可以提升搜索引擎的效率,另一方面也避免了对被搜索网站的过度干扰。图8是本发明系统的第二实施例的结构示意图。如图8所示,与图7中的实施例相比,该实施例的系统还包括关键词获取装置21,与索引建立装置11相连,用于定期或不定期地从搜索平台获取关键词。该实施例可以根据搜索平台提供的关键词来匹配内容源,建立关键词到内容源的 URL的索引,从而可以满足搜索平台利用可信任网站建立关键词到内容源的索引的需求。图9是本发明系统的第三实施例的结构示意图。如图9所示,与图7中的实施例相比,该实施例的系统还包括判断装置31,与索引建立装置11相连,用于判断内容源是否有内容更新,如果有内容更新,则准备建立索引。例如,可以采用一个散列表存储一个URL对应的一个网页内容经过MD5算法之后的一个网页指纹,S卩,<url, md5 (content) >,然后,可以通过对 md5 (content)是否发生变化来判断该网页内容是否有改变,如果有改变,则用一个列表保存一组二元序列〈(indexl,lengthl),(index2,length2) · · · · >,其中 indexl 为发生改变的位置,length为发生改变的内容长度,这样可以来提取其中更新的内容。该实施例可以在内容源有更新时建立索引,从而在很大程度上降低网站的索引工作量。图10是本发明系统的第四实施例的结构示意图。如图10所示,与图7中的实施例相比,该实施例的系统还包括搜索平台41,与索引发送装置12相连,用于利用排序规则对返回的索引进行排序,并将排序后的结果存入数据库以供检索使用。其中,排序规则可以是关键词在URL中的匹配度。例如,可以通过关键词在内容源中的出现频率来表示该关键词在URL中的匹配度。该实施例对返回的索引进行排序后,有效提高了搜索平台未来检索的效率。图11是本发明系统的第五实施例的结果示意图。如图11所示,该实施例的系统包括索引建立装置11,用于建立关键词到包含关键词的内容源的URL的索引;
索引发送装置12,与索引建立装置11相连,用于将索引返回给搜索平台。关键词获取装置21,与索引建立装置11相连,用于定期或不定期地从搜索平台获取关键词。判断装置31,与索引建立装置11相连,用于判断内容源是否有内容更新,如果有内容更新,则准备建立索引。搜索平台41,与索引发送装置12相连,用于利用排序规则对返回的索引进行排序,并将排序后的结果存入数据库以供检索使用。在本发明系统的第六实施例中,索引发送装置可以通过下述方式将索引返回给搜索平台爬虫主动抓取的方式;或网站主动上报的方式。下面以中国电信内容监管系统为例进一步详细描述本发明。中国电信内容监管系统是对中国电信众多的门户网站和SNS、微博等用户原创内容类网站进行信息监管的系统。系统需分析相关网站的内容,并给出相应管制指令。在内容监管系统的关键词词库中,保存了大量的不良信息关键词以及舆情相关词,各门户网站或用户原创内容类网站定期或不定期地获取这些关键词,来匹配自身的内容源。每当本网站有内容更新时,即进行匹配操作。当存在匹配内容时,被监管网站就定时或不定时地把关键词与相应内容URL返回给内容监管系统,内容监管系统将根据内容源的危害程度下达不同的监管指令。本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
权利要求
1.一种分布式搜索方法,其特征在于,所述方法包括网站建立关键词到包含所述关键词的内容源的URL的索引; 将所述索引返回给搜索平台。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括 所述网站定期或不定期地从所述搜索平台获取所述关键词。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括判断所述网站中的内容源是否有内容更新,如果有内容更新,则准备建立所述索引。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括所述搜索平台利用排序规则对所述返回的索引进行排序,并将排序后的结果存入数据库以供检索使用。
5.根据权利要求1所述的方法,其特征在于,通过下述方式将所述索引返回给搜索平台爬虫主动抓取的方式;或所述网站主动上报的方式。
6.一种分布式搜索系统,其特征在于,所述系统包括索引建立装置,用于建立关键词到包含所述关键词的内容源的URL的索引; 索引发送装置,与所述索引建立装置相连,用于将所述索引返回给搜索平台。
7.根据权利要求6所述的系统,其特征在于,所述系统还包括关键词获取装置,与所述索引建立装置相连,用于定期或不定期地从所述搜索平台获取所述关键词。
8.根据权利要求6所述的系统,其特征在于,所述系统还包括判断装置,与所述索引建立装置相连,用于判断内容源是否有内容更新,如果有内容更新,则准备建立所述索引。
9.根据权利要求6所述的方法,其特征在于,所述系统还包括所述搜索平台,与所述索引发送装置相连,用于利用排序规则对所述返回的索引进行排序,并将排序后的结果存入数据库以供检索使用。
10.根据权利要求6所述的系统,其特征在于,所述索引发送装置通过下述方式将所述索引返回给搜索平台爬虫主动抓取的方式;或所述网站主动上报的方式。
全文摘要
本发明公开了一种分布式搜索方法和系统。其中,该方法包括网站建立关键词到包含关键词的内容源的URL的索引;将索引返回给搜索平台。本发明由内容源来自建索引,这样一方面将建立索引的工作移至内容源,另一方面内容源无需再返回内容源的完整信息给搜索平台,只需返回关键词同内容源的URL的索引关系,从而大大提升了搜索引擎的效率,并减少了对被搜索网站的过度干扰。
文档编号G06F17/30GK102339292SQ20101023781
公开日2012年2月1日 申请日期2010年7月27日 优先权日2010年7月27日
发明者张涛, 李屹, 杨德利, 王爱宝 申请人:中国电信股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1