一种信息处理方法及装置的制造方法

文档序号:9810565阅读:194来源:国知局
一种信息处理方法及装置的制造方法
【技术领域】
[0001]本发明涉及电子技术,尤其涉及一种信息处理方法及装置。
【背景技术】
[0002]搜索引擎(Search Engine)是一种基于web平台的网络查找工具。因此,关于搜索引擎的概念可从不同的角度来理解。从信息组织的角度看,搜索引擎是一种网络信息资源的二次组织工具,它是将分布在不同网络服务器上的大量信息重新归类组织成易于查询的形式。从信息检索的角度看,搜索引擎是一种用以查询互联网中各类信息资源的在线检索平台,并以web网页的方式组织和呈现检索结果。但是对于开发者来说,搜索引擎是以Web相关技术为基础进行抓取与采集网页上的网络信息资源,建立索引数据库,然后依据用户的查找需求检索网络信息并将结果显示给用户,是为用户提供在线检索服务的web查找系统。
[0003]搜索引擎可以按搜索内容、检索机制等进行划分,按搜索内容划分实际上就是内容归并法,按搜索内容划分的方法是指基于搜索引擎所搜集信息的内容状况(如覆盖程度、所属专业或学科等),将现有的搜索引擎划分为水平搜索引擎和垂直搜索引擎。其中,垂直搜索引擎是针对某一个行业或领域的专业搜索引擎,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。目前通常有两种搜集信息的策略:
[0004]I)第一种策略,顺从一个起始统一资源定位器(URL, Uniform Resource Locator)集合开始,顺着这些URL中的链接以宽度优先、深度优先或启发式方式等循环地在互联网中发现新的信息。这些起始URL可以是任意的URL,也可以是一些非常流行、包含很多链接的站点。
[0005]2)第二种策略,将Web空间按照域名、网际协议(IP, Internet Protocol)地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。搜索器搜集的信息类型包括超文本标记语言(HTML, Hyper Text Mark-up Language)、可扩展标记语言(XML, ExtensibleMark-up Language)、文件传输协议(FTP, File Transfer Protocol)文件以及多媒体信息等。搜索器通常可采用分布式或并行计算技术,以提高信息发现和更新的速度。
[0006]搜索引擎作为一个系统,一方面,搜索引擎系统可以根据工作时效性的不同划分为离线子系统和在线子系统两部分。另一方面,如图1-1所示,搜索引擎系统还可以依据具体功能的差别将搜索引擎分解成四个关键模块:用户接口模块10、信息检索模块20、索引处理模块30和信息采集模块40。通常情况下索引处理模块30和信息搜集模块40属于离线子系统的范畴,而用户接口模块10、信息检索模块20则属于搜索引擎的在线子系统的范畴。从程序角度来看,一个搜索引擎一般包括采集器41、索引器31、检索器21和用户接口模块10四个部分组成:
[0007](I)采集器41,又称搜索器、蜘蛛(Spider)、机器人(Robot)、爬行者(Crawler)或蠕虫(Worm)等,搜索器实质是一种计算机程序,按照某种策略自动地在互联网中搜集和发现web信息,或者从其他文档43上搜索和发现信息资源,进而形成数据库42。搜索器需要尽可能多、尽可能快地搜集各种类型的新信息,同时由于网上的信息更新很快,需要定期更新已经搜集过的旧信息,以避免死链接和无效链接。
[0008](2)索引器31,索引器用于生成从关键词到统一资源定位器(URL,UniformResource Locator)地址的关系索引表。索引表一般使用某种形式的倒排表(Invers1nList)或顺排表,即由索引项查找相应的URL。一个搜索引擎的有效性在很大程序上取决于索引的质量。
[0009](3)检索器21,检索器的主要功能是根据用户输入的关键词,在索引器形成的倒排表或顺排表中进行查询,同时完成页面与查询之间的相关度评价,对将要输出的结果进行排序,并提供某种用户相关性的反馈机制。
[0010](4)用户接口模块10,用户接口模块的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。
[0011]用户11或12至IN提交要搜索的关键字(即发送搜索请求),然后搜索引擎就会经过查询处理与分词,然后由检索器21从索引数据库中找到符合该关键词的所有相关网页。最后综合相关信息和网页级别形成相关度数值,然后进行排序,相关度越高排名越靠前(即形成检索结果集22)。最后由用户接口模块10中的页面生成子模块将检索结果集的链接地址和页面内容摘要等内容组织起来返回给用户(返回搜索结果)。
[0012]在搜索引擎中索引数据的生成是提供检索服务的关键。索引数据生成是由索引处理模块30来实现的,目前离线索引数据生成大都是基于分布式计算的架构。对于涉及多个方面的信息服务提供商来说,例如某信息服务提供商涉及游戏业务、视频业务、音频业务、房产业务、即时通讯业务等,该信息服务提供商的各个业务部门都需要用到搜索引擎以便为各自的用户提供搜索服务,对于信息服务提供商而言,为每一个业务部门单独搭建一套独立的搜索引擎是不合理的,因为设备成本、设备维护费以及人员配比都会导致成本高的问题;因此,对于信息服务提供商而言,期望搭建一个搜索平台,该搜索平台能够满足不同的业务都使用搜索引擎。
[0013]目前,搜索平台中通常包括多个索引器,这是因为在搜索平台的数据生成过程中,每一个索引器大都是为某个搜索业务定制的,而且由于每一业务所涉及的业务数据规模、字段都存在很大的差异,因此,搜索平台为每一项搜索业务都搭建一个搜索器。当需要增加一种新的搜索业务时,信息服务提供商还需要为该业务搭建一个新的搜索器,可见,现有的搜索平台对于新的业务无法进行快速扩展;因此,对于信息服务提供商而言,一般各个业务部门就有几个对应于该业务部分的索引器,可见,现有的搜索平台虽然将各个业务的搜索业务放置在一起,但是并没有做到实际意义上的整合。还有,有些业务的用户量比较小或者用户的使用时段比较集中,那么相互独立的索引器或搜索器的使用率比较低,此外,当索引器在处理数据过程对用户(即业务部门)来说时不透明的,用户无法了解数据处理各个环节的状态。

【发明内容】

[0014]有鉴于此,本发明实施例为解决现有技术中存在的至少一个问题而提供一种信息处理方法及装置,能够增强搜索平台的可扩展性。
[0015]本发明实施例的技术方案是这样实现的:
[0016]第一方面,本发明实施例提供一种信息处理方法,所述方法包括:
[0017]获取多个来自于不同种类业务的且具有预设的第一数据格式的第一业务数据;
[0018]将每一种类的所述业务的第一业务数据生成待执行任务,并将所述待执行任务添加到任务队列中;
[0019]从所述任务队列中获取所述待执行任务进行处理,得到对应的顺排数据或倒排数据。
[0020]在本发明的一种实施例中,在从所述任务队列中获取所述待执行任务进行处理,得到对应的顺排数据或倒排数据之后,所述方法还包括:
[0021]获取每一种类的所述业务的顺排数据或倒排数据,根据每一种类的所述业务的顺排数据或倒排数据,生成从关键词到统一资源定位器URL地址的关系索引表。
[0022]在本发明的一种实施例中,所述待执行任务的结构信息至少包括业务配置信息;
[0023]对应地,所述从所述任务队列中获取所述待执行任务进行处理,得到对应的顺排数据或倒排数据,包括:检查数据的合法性、检查数据值的一致性和生成顺排数据或倒排数据,其中:
[0024]所述检查数据的合法性,包括:根据所述待执行任务获取第一业务数据,检查所述第一业务数据的数据格式的合法性;
[0025]所述检查数据值的一致性,包括:当所述数据格式合法时,检查所述待执行任务的结构信息中的业务配置信息与所述第一业务数据中数据值的一致性;
[0026]所述生成顺排数据或倒排数据,包括:当所述业务配置信息与所述数据值一致时,将所述第一业务数据进行处理生成对应的顺排数据或倒排数据。
[0027]在本发明的一种实施例中,所述从所述任务队列中获取所述待执行任务进行处理,得到对应的顺排数据或倒排数据,还包括:
[0028]当所述业务配置信息与所述数据值一致时,将所述第一业务数据的数据格式转换成预设的第二数据格式,所述第二数据格式与所述第一数据格式不同。
[0029]在本发明的一种实施例中,所述待执行任务的结构信息还包括任务状态和任务执行时间信息;
[0030]对应地,所述从所述任务队列中获取所述待执行任务进行处理,得到对应的顺排数据或倒排数据,还包括:
[0031]在执行检查数据的合法性、检查数据值的一致性和生成顺排数据或倒排数据中至少任一步骤时,至少更新所述任务状态和所述任务执行时间信息。
[0032]在本发明的一种实施例中,所述将每一种类的所述业务的业务数据生成待执行任务,包括:
[0033]根据每一种类的所述业务的第一业务数据的大小,将每一种类的所述业务的业务数据生成一个或多个待执行任务。
[0034]在本发明的一种实施例中,所述根据每一种类的所述业务的第一业务数据的数据量,将每一种类的所述业务的业务数据生成一个或多个待执行任务,包括:
[0035]获取每一种类的所述业务的第一业务数据的数据量;
[0036]将所述第一业务数据的数据量除以预设的第一阈值,得到第一倍数;
[0037]根据所述第一倍数将所述第一业务数据进行分割,得到一个或多个第二业务数据;
[0038]将每一所述第二业务数据生成一个待执行任务。
[0039]第二方面,本发明实施例提供一种信息处理装置,所述装置包括第一获取单元、第一生成单元、添加单元和处理单元,其中:
[0040]所述第一获取单元,用于获取多个来自于不同种类业务的且具有预设的第一数据格式的第一业务数据;
[0041]所述第一生成单元,用于将每一种类的所述业务的第一业务数据生成待执行任务;
[0042]所述添加单元,用于将所述待执行任务添加到任务队列中;
[0043]所述处理单元,用于从所述任务队列中获取所述待执行任务进行处理,得到对应的顺排数据或倒排数据。
[0044]在本发明的一种实施例中,所述装置还包括:第二获取单元和第二生成单元,其中:
[0045]所述第二获取单元,用于获取每一种类的所述业务的顺排数据或倒排数据;
[0046]所述第二生成单元,用于根据每一种类的所述业务的顺排数据或倒排数据,生成从关键词到统一资源定位器URL地址的关系索引表。
[0047]在本发明的一种实施例中,所述待执行任务的结构信息至少包括业务配置信息;
[0048]对应地,所述处理单元包
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1