一种基于云计算技术的搜索方法及系统的制作方法

文档序号:6602616阅读:389来源:国知局
专利名称:一种基于云计算技术的搜索方法及系统的制作方法
技术领域
本发明涉及计算机软件技术领域,尤其涉及一种基于云计算技术的搜索方法及系统。
背景技术
搜索引擎及对应搜索方法的出现,大大提高了人们对互联网信息检索的能力和效率,已经成为互联网的基础应用之一。据中国互联网络信息中心在2008年中期的统计,中国网民搜索引擎的使用率为69.2%,并处在高速增长之中,而在互联网高度普及的美国,网民对搜索引擎的使用率已达91%。可见,上网用户对搜索引擎及搜索方法产生了强烈的依赖。近年来,搜索引擎和搜索方法发展迅速。例如,美国专利(US20060106)提出了“用于生成搜索引擎搜索结果的方法和系统”,提供搜索引擎;将搜索查询输入到所述搜索引擎中;使用所述搜索引擎来对与所述搜索查询有关的联机文件进行定位;对驻留在客户端计算机上的与所述搜索查询有关的脱机文件进行定位;将所述联机文件与所述脱机文件合并以生成单一的搜索结果概览;以及在所述搜索引擎的显示中提供所述单一的搜索结果概览。中国专利(申请号CN200910020951)提出了 “基于用户兴趣的个性化元搜索引擎及搜索结果处理方法”,其搜索引擎包括用户注册/登录单元、元搜索结果收集单元和个性化处理单元,该个性化处理单元通过搜索结果预处理模块、个性化排序处理模块和用户兴趣更新模块,完成对搜索结果的筛选、个性化排序及对用户兴趣模型的建立和更新。其对搜索结果的处理为建立并初始化用户兴趣模型,存入服务器;将用户输入的搜索词语,按各搜索引擎要求的格式分发;将收集的返回结果转换成统一的格式,依次进行去除重复处理和个性化排序,并提交给用户;捕获用户点击的搜索结果,改变兴趣种类和权值大小,更新用户兴趣模型数据。
鉴于上述技术现状,本发明提出了一种基于云计算技术的搜索方法及系统,用以提高信息的安全性与资源管理便捷性。

发明内容
本发明的目的是提供一种基于云计算技术的搜索方法及系统,用以提高信息的安全性与资源管理便捷性。一种基于云计算技术的搜索方法,该搜索方法为提供搜索引擎;在搜索引擎中设定搜索内容;通过搜索引擎建立网页地图,记录互联网的链接结构;利用网页抓取程序,根据网页地图来抓取关联网页,并将被抓取的网页存储到网页快照数据库中;利用索引程序将网页快照数据库中的网页编号存储到网页索引数据库中,以及剔
4除作弊网页。进一步,所述的基于云计算技术的搜索方法,还具有如下技术特征运用搜索引擎进行搜索时,对搜索关键字的比重进行识别搜索,并对不同关键字的重要性程度进行区分。运用搜索引擎进行搜索时,对分散在不同存储介质上的数据信息进行搜集整合, 形成搜索云,并由关联软件自动管理。向服务器版用户和群组共享用户提供云搜索接口,群用户搜索关键词时候,其它组内用户的计算机在开机的情况下会帮助一起搜索,并把结果异步送回搜索端,形成搜索云。运用搜索引擎进行搜索时,预先将不同的关键词,设定分布到个人分片的内存区和计算机内,需要搜索的时候,调用各个片区的自动作业一起检索并将关联内容存储。利用蜘蛛程序根据网页地图来抓取质量好的网页,对结果进行分析,从中抽取出标题及内容信息存储到网页快照数据库中。索引程序将网页快照数据库中的网页编号存储到网页索引数据库中,在这个过程中利用去掉作弊网页,同时根据配置,程序可以在后台自动的发送请求,来获取数据。一种基于云计算技术的搜索系统,该系统包括前端发起支撑模块,即关键词管理模块,它是该搜索系统的前端发起支撑平台,它是通过搜索工具对用户提供专业化服务,给用户开辟数据库,让用户能够创建自己的搜索关键词、设置个性化关键词分类,以及设置群组关键词的功能模块;后台核心运作模块,它包括自动任务模块、云搜索模块以及数据存储模块,其中的自动任务模块是参照前述的关键词关联模块设定的关键词,调用自动搜索程序,把最新的数据信息发送至不同存储介质的功能模块,其中的云搜索模块是根据不同的关键词设定, 对分散在不同存储介质上的数据信息进行搜集整合,并将搜索结果同步保存至搜索端、个人分片的内存区和计算机内的功能模块,其中的数据存储模块是包括有公共大型数据库、 客户端个性化数据库及共享用户数据库,以实现不同用户的个性化搜索和操作为目的的功能模块;展示模块,它是与前述的前端发起支撑模块、后台核心运作模块相连接,将来自于客户端、服务器的数据库,结合现有的群组概念,在服务器上设置关联群组,进行搜索关键词和搜索结果共享的功能模块。进一步,所述的基于云计算技术的搜索系统,还具有如下技术特征在该搜索系统中,还包括接口设计模块,它是先设计完所有的接口和算法,确定各个功能模块间接口的功能模块。所述的数据存储模块,包括有分布式数据库子模块,它是采用分布式数据库技术, 对数据进行横向分片处理,以及对固定个性化的数据进行全内存化数据处理的功能模块。本发明的优点本发明所述的基于云计算技术的搜索方法及系统,主要包括前端发起支撑模块、 后台核心运作模块、展示模块,以及接口设计模块,其搜索方法为提供搜索引擎;在搜索引擎中设定搜索内容;通过搜索引擎建立网页地图,记录互联网的链接结构;利用网页抓取程序,根据网页地图来抓取关联网页,并将被抓取的网页存储到网页快照数据库中;利用索引程序将网页快照数据库中的网页编号存储到网页索引数据库中,以及剔除作弊网页。本技术和现有方案比较起来,主要的优点在于功能覆盖,系统配置能力强,覆盖范围,及具有极强的数据分析能力,提高了信息的安全性与资源管理便捷性。


下面结合附图,对本发明所述的基于云计算技术的搜索方法及系统,作进一步详细的说明图1是本发明所述的基于云计算技术的搜索方法的流程图。图2是本发明所述的基于云计算技术的搜索系统的原理框图。图3是本发明所述的基于云计算技术的搜索方法的一个实施例。图中的标号说明基于云计算的搜索系统-100,前端发起支撑模块-110,关键词管理模块-111,后台核心运作模块-120,自动任务模块-121,云搜索模块-122,数据存储模块-123,分布式数据库子模块-123a,展示模块-130,接口设计模块-140。
具体实施例方式首先参照图1所示的本发明所述的基于云计算技术的搜索方法的流程图,对本发明做一个介绍。本发明所述的基于云计算技术的搜索方法,包括如下步骤①提供搜索引擎;②在搜索引擎中设定搜索内容;③通过搜索引擎建立网页地图,记录互联网的链接结构;④利用网页抓取程序,根据网页地图来抓取关联网页,并将被抓取的网页存储到网页快照数据库中;⑤利用索引程序将网页快照数据库中的网页编号存储到网页索引数据库中,以及剔除作弊网页。针对“②在搜索引擎中设定搜索内容”,作为对本发明的一种创新,包括有如下情况中的至少一种其一,运用搜索引擎进行搜索时,对搜索关键字的比重进行识别搜索,并对不同关键字的重要性程度进行区分。例如,用不同字体的大小,粗细以及字型进行区分。其二,运用搜索引擎进行搜索时,对分散在不同存储介质(例如,计算服务器、存储服务器、宽带资源等)上的数据信息进行搜集整合,形成搜索云,并由关联软件自动管理。向服务器版用户和群组共享用户提供云搜索接口,群用户搜索关键词时候,其它组内用户的计算机在开机的情况下会帮助一起搜索,并把结果异步送回搜索端,形成搜索云。其三,运用搜索引擎进行搜索时,预先将不同的关键词,设定分布到个人分片的内存区和计算机内,需要搜索的时候,调用各个片区的自动作业一起检索并将关联内容存储。针对“④利用网页抓取程序,根据网页地图来抓取关联网页,并将被抓取的网页存储到网页快照数据库中”,作为举例而非限定,在本发明中,主要利用蜘蛛程序来实现这一功能。所述的蜘蛛程序是一种搜索引擎的“机器人”(Computer Robot)程序,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。利用网络蜘蛛(Web Spider)根据网页地图来抓取(Crawl)质量好的网页,对结果进行分析,从中抽取出标题及内容信息存储到网页快照数据库中。接下来,索引程序andexer)会将快照数据库中的网页编号存储到网页索引数据库中,在这个过程中去掉作弊网页(Spam),同时根据配置,程序可以在后台自动的发送请求,来获取数据。图2所示为本发明所述的基于云计算技术的搜索系统的原理框图,该基于云计算的搜索系统100主要包括前端发起支撑模块110、后台核心运作模块120、展示模块130,以及接口设计模块140。所述的前端发起支撑模块110,即关键词管理模块111,它是该搜索系统的前端发起支撑平台,它是通过搜索工具对用户提供专业化服务,给用户开辟数据库,让用户能够创建自己的搜索关键词、设置个性化关键词分类,以及设置群组关键词的功能模块。作为举例而非限定,所述的搜索工具为google、百度、雅虎等常用搜索工具。所述的后台核心运作模块120,是该发明的核心技术,它包括自动任务模块121、 云搜索模块122以及数据存储模块123。其中的自动任务模块121是参照前述的关键词关联模块111设定的关键词,调用自动搜索程序,把最新的数据信息发送至不同存储介质的功能模块。该自动任务模块121 主要用于设定关键词和自动JOB搜索在本发明中采用多线程技术和网络技术,在安全性上开1588端口,能够云端调用自动JOB,为自动异步多作业任务的自动搜索功能做准备,把最新的,未阅读过的文章自动发送到计算服务器、存储服务器、宽带资源等存储介质上(例如,主页,邮箱)让用户阅读。其中的云搜索模块122,是根据不同的关键词设定,对分散在不同存储介质上的数据信息进行搜集整合,并将搜索结果同步保存至搜索端、个人分片的内存区和计算机内的功能模块。本发明提供了一套算法,根据不同的关键词设定,分布到每个人分片的内存区和计算机内,需要搜索的时候,调用各个片区的自动作业一起检索存储。同时运用微软的 WINDOWS Live云搜索接口,将搜索结果保存到特殊数据区——“搜索云”。基于云计算的技术,提供算法接口,给服务器版用户和群组共享用户,群用户搜索关键词时候,其它组内用户的计算机在开机的情况下会帮助一起搜索,把结果异步送回搜索端。在以后可以的情况下,将会开放相关的搜索技术给云端anternet),互联网上的用户就可以使用相关的接口。其中的数据存储模块123,它是包括有公共大型数据库、客户端个性化数据库及共享用户数据库,以实现不同用户的个性化搜索和操作为目的的功能模块。在本发明中,为了提高搜索速度,和不同用户能够做更多的个性化搜索和操作,搭建了一套专门的数据库 C/S平台,有1多台的SQL大型数据库系统作为S端的数据总成,同时在每个客户端都装有 SQLITE的个性化数据库,用户既可以得到S端的数据,也可以只拿自己的数据,最后还可以在群组内得到共享用户数据库端的部分数据。作为本发明的创新之处,所述的数据存储模块123包括有分布式数据库子模块 123a,它是采用分布式数据库技术,对数据进行横向分片处理,以及对固定个性化的数据进行全内存化数据处理的功能模块。在本发明中,采用目前最稳定的分布式数据库技术,并且适当改进,对数据进行横向分片处理,对固定个性化的数据进行全内存化数据处理,这样有选择性的促优去缺的方法,大大提高了数据库的效率,同时又不破坏数据的稳定性和安全性。展示模块130,它是与前述的前端发起支撑模块110、后台核心运作模块120相连接,将来自于客户端、服务器的数据库,结合现有的群组概念,在服务器上设置关联群组,进行搜索关键词和搜索结果共享的功能模块。在本发明中,该展示模块使用了 HTML/XML技术网页界面,支持邮件传输功能。目前市场上的搜索技术,都是个人搜索,而且不能记忆,不能共享。而本发明中,客户端有SQLite数据库,服务器上有SQL数据库,结合QQ,MSN群组概念,在服务器上可以按个人喜好,开辟群组,在群组里面可以开辟共享的搜索关键词和搜索结果。对应着前述的前端发起支撑模块110、后台核心运作模块120、展示模块130,设置有接口设计模块140,它是先设计完所有的接口和算法,确定各个功能模块间接口的功能模块。具体为确定各个模块的接口,先设计完所有的接口和算法,经过严格测试,然后给各个模块设计UI界面,同时对关键词搜索模块111做动态可配置的设计,对关键词可以多层树状设计,对引擎可以配置,页面解析方法可以添加算法。自动异步任务JOB,采用单机多线程,多机共享多线程任务。对数据库平台的数据不光分机器,内部还对数据分区,切片。图3是本发明所述的基于云计算技术的搜索方法的一个实施例。某市创业园区的管委会之前一直采用半手工的方式,利用人力和常用的搜索网站每天收集关于园区的相关信息,每日信息收集人员重复地在搜索引擎中搜索关注的信息, 以该创业园区的部分企业对外招聘为例,如图(a)所示,负责人为了获取该创业园区哪些企业有招聘意向,通常在本创业园区的站内搜索输入关键词和关键词对应比重“招聘、专业”,将会显示“A公司...自动化;B公司...软件分析;C公司...材料工程”;针对该园区的招聘意向,为了给这些招聘的企业提供关联招聘信息,负责人将会分别在Google和百度搜索引擎中输入“某市招聘会、所在区、专业领域”,负责人必须自己判断哪些信息相互匹配和适用于该创业园区的招聘。几天之后,如果负责人需要再次检索相关信息时,必须重复操作上述步骤,使得搜索效率低下,而搜索结果无法自动保存到数据库中。在本发明中,利用该搜索系统和采用该搜索方法之后,负责人只需在相关搜索工具上设定搜索关键词和搜索引擎之后,就会自动进行搜索,并给出相应搜索结果。针对图 (a)所示的情况,如图(b)所示,负责人通过搜索关键词设定工具,设定搜索关键词为“某市创业园区招聘(50%)、招聘会(30%)、专业(20%)”,通过搜索引擎设定工具,设定搜索引擎为“站内搜索(50% ) ,Google (30%)、百度(20% ) ”,进一步,为了对搜索内容进行匹配分析,还可以通过个性化设定工具,设定搜索内容个性化匹配“公司专业招聘会详情”。负责人将相关内容设定完毕之后,经由本发明所述的搜索系统进行关联处理之后,会直接显示如下内容A公司自动化专业周五体育馆专场招聘会(Google、百度);B公司软件分析专业周五体育馆专场招聘会(Google、百度);C公司材料工程周六各区人才市场综合招聘会(Google、百度)。在本实施例中负责人由原先的被动收集转换为信息分析,提高信息的安全性与资源管理便捷性,使信息加工的工作迈上了一个新的台阶。以上是对本发明的描述而非限定,基于本发明思想的其它实施方式,均在本发明的保护范围之中。
权利要求
1.一种基于云计算技术的搜索方法,其特征在于,该搜索方法为提供搜索引擎;在搜索引擎中设定搜索内容;通过搜索引擎建立网页地图,记录互联网的链接结构;利用网页抓取程序,根据网页地图来抓取关联网页,并将被抓取的网页存储到网页快照数据库中;利用索引程序将网页快照数据库中的网页编号存储到网页索引数据库中,以及剔除作弊网页。
2.根据权利要求1所述的基于云计算技术的搜索方法,其特征在于运用搜索引擎进行搜索时,对搜索关键字的比重进行识别搜索,并对不同关键字的重要性程度进行区分。
3.根据权利要求1所述的基于云计算技术的搜索方法,其特征在于运用搜索引擎进行搜索时,对分散在不同存储介质上的数据信息进行搜集整合,形成搜索云,并由关联软件自动管理。
4.根据权利要求3所述的基于云计算技术的搜索方法,其特征在于向服务器版用户和群组共享用户提供云搜索接口,群用户搜索关键词时候,其它组内用户的计算机在开机的情况下会帮助一起搜索,并把结果异步送回搜索端,形成搜索云。
5.根据权利要求1所述的基于云计算技术的搜索方法,其特征在于运用搜索引擎进行搜索时,预先将不同的关键词,设定分布到个人分片的内存区和计算机内,需要搜索的时候,调用各个片区的自动作业一起检索并将关联内容存储。
6.根据权利要求1所述的基于云计算技术的搜索方法,其特征在于利用蜘蛛程序根据网页地图来抓取质量好的网页,对结果进行分析,从中抽取出标题及内容信息存储到网页快照数据库中。
7.根据权利要求1所述的基于云计算技术的搜索方法,其特征在于索引程序将网页快照数据库中的网页编号存储到网页索引数据库中,在这个过程中利用去掉作弊网页,同时根据配置,程序可以在后台自动的发送请求,来获取数据。
8.一种基于云计算技术的搜索系统,其特征在于,该系统包括前端发起支撑模块,即关键词管理模块,它是该搜索系统的前端发起支撑平台,它是通过搜索工具对用户提供专业化服务,给用户开辟数据库,让用户能够创建自己的搜索关键词、设置个性化关键词分类,以及设置群组关键词的功能模块;后台核心运作模块,它包括自动任务模块、云搜索模块以及数据存储模块,所述的自动任务模块是参照前述的关键词关联模块设定的关键词,调用自动搜索程序,把最新的数据信息发送至不同存储介质的功能模块,以及所述的云搜索模块,是根据不同的关键词设定,对分散在不同存储介质上的数据信息进行搜集整合,并将搜索结果同步保存至搜索端、个人分片的内存区和计算机内的功能模块,以及所述的数据存储模块,它是包括有公共大型数据库、客户端个性化数据库及共享用户数据库,以实现不同用户的个性化搜索和操作为目的的功能模块;展示模块,它是与前述的前端发起支撑模块、后台核心运作模块相连接,将来自于客户端、服务器的数据库,结合现有的群组概念,在服务器上设置关联群组,进行搜索关键词和搜索结果共享的功能模块。
9.根据权利要求8所述的基于云计算技术的搜索系统,其特征在于在该搜索系统中, 还包括接口设计模块,它是先设计完所有的接口和算法,确定各个功能模块间接口的功能模块。
10.根据权利要求8所述的基于云计算技术的搜索系统,其特征在于所述的数据存储模块,包括有分布式数据库子模块,它是采用分布式数据库技术,对数据进行横向分片处理,以及对固定个性化的数据进行全内存化数据处理的功能模块。
全文摘要
本发明提出了一种基于云计算技术的搜索方法及系统,属于计算机软件技术领域。该系统主要包括前端发起支撑模块、后台核心运作模块、展示模块,以及接口设计模块,其搜索方法为提供搜索引擎;在搜索引擎中设定搜索内容;通过搜索引擎建立网页地图,记录互联网的链接结构;利用网页抓取程序,根据网页地图来抓取关联网页,并将被抓取的网页存储到网页快照数据库中;利用索引程序将网页快照数据库中的网页编号存储到网页索引数据库中,以及剔除作弊网页。本技术和现有方案比较起来,主要的优点在于功能覆盖,系统配置能力强,覆盖范围,及具有极强的数据分析能力,提高了信息的安全性与资源管理便捷性。
文档编号G06F17/30GK102253939SQ201010177260
公开日2011年11月23日 申请日期2010年5月17日 优先权日2010年5月17日
发明者姚南, 蒋科伟 申请人:无锡艾斯科软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1