互联网即时信息的共享订阅系统及共享订阅方法

文档序号:7663351阅读:143来源:国知局
专利名称:互联网即时信息的共享订阅系统及共享订阅方法
互联网即时信息的共享订阅系统及共享订阅方法技术领域木发明属于计算机网络技和信息处理技术,具休的涉及一种能够满足信息 订阅需求的互联网上即时信息的共享订阅系统及共享订阅方法。
背景技术
随着网络技术的发展,互联网上的信息日趋丰富,甚至可以说是爆炸式增长, 人们对互联网上信息的需求也越来越大。搜索引擎公司正是捕捉到了人们在这 一方面的需求应运而生,并且取得了令人瞩目的成绩。但是,目前的实际状况 是互联网上的信息不是太少了,而是太多了,从搜索引擎返回的信息屮包含了 大量重复、过时的信息,用户淹没在信息的海洋中。及时准确的信息获取技术 和有价值的资料已成信息获取技术的研究重点。即吋信息订阅为人们及时获取 信息提供了很好的模式,用户通过提交信息需求,订阅服务完成信息获取、分 析、过滤,并主动呈现给用户,很好的满足了对信息的准确、及时的需求。近 两年,在用户需求驱动下,信息订阅技术得到广泛地研究和应用。目前订阅系统可以大概分为两类, 一类是基于客户端方式,如RSS订阅; 一类基于服务器力'式,例如一些垂直搜索中的新闻搜索。基于服务器端订阅方式中,如图1所示,服务器3提供信息订阅入口, 一用户1、 另一用户2和其它用户4和按照服务器提供的信息订阅格式,填写信息需求和 信息来源网站。服务器3根据注册的用户需求,对其内置的索引数据库5进行 检索,并通过下载服务器组6从源数据服务器7进行原始信息的采集,提取和 过滤,并根据某一用户选定的方式提交给该用户,其中包括E-mail提醒、Rss (Really Simple Syndication,是某一站点用來和其它站点之间共享内容的一 种简易方式,也叫聚合内容。)查询方式、约定协议提示客户端下载等。该订阅 方式中服务器3和下载服务器组6承担了数据的下载、分析和过滤,以及实时 更新的全部工作。随着订阅数量的增加,服务器将承担更大量的K载和计算工 作,服务器将成为资源瓶颈,同时,服务器端IP资源有限,为了保证订阅信息
的时效性,服务器需要集中、频繁地访问信息源服务器7,致使信息源所在的防 火墙或者服务器拒绝访问,使信息订阅服务无法完成或者导致订阅信息的时效 性下降。基于用户端订阅方式中,用户通过安装用户端来完成信息的订阅服务。用 户端承担所有信息订阅的逻辑,包括数据下载、分析过滤、汇总、主动呈现等工作。订阅信息源包括RSS信息源、各搜索引擎检索入口或者网页信息。根据用户设定的更新周期,用户端定期扫描数据源网站,并根据用户需求对数据进行分析过滤。这些工作将耗费大量用户机器的带宽和CPU资源。该订阅方式区 别于服务器方式订阅,用户访问分散在不同的用户机器上完成,避免信息源服 务器屏蔽的问题。但随着订阅用户的增加,信息源服务器将承受大量来自用户 端的访问,致使服务器访问压力过大,服务性能恶化。发明内容本发明的目的是提供一种结构设计合理,充分结合用户端订阅和服务器端 订阅二种订阅方式的优点,能够较好的利用服务器和用户端的CPU资源和带宽资源,实现及时、有效的信息订阅的互联网即时信息的共享订阅系统, 本发明的另一目的是提供一种充分结合用户端订阅和服务器端订阅二种订阅方式的优点,能够较好的利用服务器和用户端的CPU资源和带宽资源,实现及时、有效的信息订阅的互联网即时信息的共享订阅方法,它满足用户实时性 的信息需求,并实现了对同类信息需求的共享,同时降低了对数据源网站的过 度压力。为实现上述发明目的,本发明采用的技术方案如下 一种互联网即时信息 的共享订阅系统,包括用户端,其特征在于该共享订阅系统还包括共享订阅数据处理模块,用户端通过该模块进行订阅信息的发送,订阅数 据的收集、分析、排重和上传;内容服务模块,负责订阅数据的接收、存储、检索及推送,并与调度服务 模块通信;调度服务模块,该模块与用户端通信,调配用户端的资源,分配订阅数据 下载任务。具体的讲,所述共享订阅系统还包括一下载服务器组模块,在用户端资源 有限时,进行订阅数据的抓取、处理和上传,所述下载服务器组模块与用户端
和调度服务模块通信,调度服务模块调配用户端和下载服务器组模块的资源, 分配订阅数据下载任务。该共享订阅系统的包括用户端、内容服务器、调度服务器和下载服务器组, 其中用户端和下载服务器组内配置有共享订阅数据处理模块,用户通过用户端 订阅信息,用户端根据订阅任务完成订阅数据的收集和分析,并主动呈现给用 户,同时将订阅数据上传给内容服务器,内容服务器向所有具有相同订阅信息 的用户端分发,实现订阅数据的共享;内容服务器为配置内容服务器模块,具有多阵列的硬盘存储数据及其容错 处理能力的数据存储发送服务器,内容服务器接收用户端的订阅信息,通过其 配置的索引数据库检索订阅信息,检索到结果时,向用户端推送订阅数据;没有检索到结果时,向调度服务器发送订阅数据缺失并要求提供订阅数据。调度服务器为配置调度服务模块的通用服务器,在订阅数据缺失或需定时 更新订阅信息时,调度服务器发出指令,向用户端或者下载服务器组分配数据 处理任务,当用户端或下载服务器组完成数据处理任务后,将数据处理结果发送至内容服务器,由内容服务器推送至用户端;下载服务器组为配置下载服务器组模块的普通PC机,在用户端资源有限时 进行订阅数据的抓取、处理和上传。所述用户端、内容服务器、调度服务器、下载服务器组间通过http协议建 立通信联系。一种互联网即时信息的共享订阅方法,其特征在于所述共享订阅方法包括 用户从服务器端下载用户端实现信息的订阅任务设定,用户端承担服务器 端的部分功能,根据订阅任务完成订阅数据的收集、分析和过滤,主动呈现给 客户;同时用户端将订阅数据上传给服务器端,服务器端向所有具有相同订阅任务的用户端分发,实现订阅数据的共享。该共享订阅方法中,所述服务器端对用户端的计算资源进行协调,在计算 资源紧张的情况下,参与完成订阅数据的收集、分析和过滤,并存储订阅数据, 向所有具有相同订阅任务的用户端分发。所述共享订阅方法中,用户端和服务器端配置有共享订阅数据处理模块、内容服务模块、调度服务模块和下载服务组模块,所述共享订阅方法包括用户从用户端发起订阅信息,所述订阅信息分为新订阅和已有订阅信息,
新订阅信息时,用户端会向调度服务模块发送消息,注册该用户的订阅,并为 调度服务模块调度时参考;内容服务模块接收订阅信息,然后从其后台的索引数据库检索订阅信息, 检索有结果则将订阅数据推送至用户端,否则,给调度服务器发送消息,请求订阅信息;调度服务模块接收到订阅信息请求后,分析用户端和下载服务器组模块的 计算资源,找到最合适的计算资源,然后通知用户端,将订阅任务分配至共享 订阅数据处理模块;共享订阅数据处理模块接收到订阅任务后执行,进行订阅数据的收集、分 析和排重,并将订阅数据上传至内容服务器;内容服务器接收到订阅数据后,存储索引结果供其它订阅该信息的用户共 享,同时推送该订阅数据至订阅用户端;用户端呈现订阅数据。更近一步的讲,所述服务器端包括内容服务器、调度服务器和下载服务器 组,所述共享订阅方法具体包括--用户通过用户端发起一新的订阅信息,用户端向内容服务器发送该订阅 信息,同时向调度服务器发送消息,注册该订阅信息;内容服务器接收到该订阅信息,如果检索到已存储的相应订阅数据,则把 订阅数据向该用户发送,如果没有检索到订阅数据,则向调度服务器发送请求;调度服务器接收请求后,进行订阅任务分配调度,如果发现其它客户端满 足条件,则向该客户端发送指令,该客户端执行调度服务器分配的订阅任务, 进行订阅数据的收集、分析和排重,并将订阅数据上传至内容服务器;如果其 它客户端计算资源不足,则向下载服务器组发送指令;下载服务器组接收到调度服务器的工作指令后,进行订阅数据的抓取与分 析,排重,并将订阅数据上传至内容服务器;内容服务器将订阅数据推送至所有订阅信息的客户端,实现共享订阅。所述共享订阅数据处理模块内设有一数据收集下载子模块,所述数据收集 下载子模块包括立即更新和普通更新两个URL队列,所述立即更新URL队列对应用户端添加的一个新订阅信息,此时无论内容 服务模块是否存储有该订阅数据都要立即响应用户端的新订阅信息;当内容服 务模块存储有所需订阅数据时,由内容服务模块推送该订阅数据,共享订阅数
据处理模块不启动;当内容服务模块没有所需订阅数据时,由内容服务模块请 求调度模块,调度模块选择用户端或下载服务器组模块的共享数据处理模块启 动,添加立即更新URL队列去下载数据;所述普通更新URL队列对应用户端已经存在的订阅信息,内容服务模块定时的收集源数据内容,分析处理后推送给用户端。该互联网即时信息的共享订阅系统和共享订阅方法结合用户端和服务器端 二种订阅方式的优点,借鉴网格计算技术,吸收网格计算中资源协同共享观点, 把具有相同订阅的用户看作一个虚拟组织,虚拟组织内部共享计算资源、存储 资源及其信息资源等。在上述共享订阅系统和共享订阅方法中,用户端可以是搜索引擎的个人门 户平台,它包含了一个共享订阅数据处理模块,共享订阅数据处理模块扮演执 行者角色,能够完成订阅数据的收集、分析、排重及其上传工作。个人门户平 台是一个通信纽带,把共享订阅数据处理模块和内容服务器及调度服务器有效 的链接起来。完成共享订阅的数据处理模块和调度服务器及内容服务器之间的 通信。因为用户端的机器配置情况因用户不同差异很大,而且其网络状况也不 尽相同,因此对用户的硬件配置不应要求过高,普通低配置的用户同样能满足 其需求。内容服务器作为一台数据存储发送服务器,负责用户订阅信息的存储、检 索、接收和推送等工作,是订阅信息共享的发布源,担当传球手的角色。它接 受用户端发送过来的订阅信息,得知用户的订阅需求后,通过检索索引数据库检索用户订阅信息。当检索到结果时,向用户推送订阅数据;当没有检索到结 果时,向调度服务器反映订阅信息缺失情况,积极要求提供订阅信息。该服务 器要求要有多阵列的硬盘存储数据及其容错处理,同时要求一定的计算能力。 同时,对带宽的要求也比较高,以便能够在短时间完成集中度很高的响应要求。 调度服务器是一台监督服务器,担当任务分配者角色。它时刻观察订阅信 息的缺失情况和资源情况,综合调配资源进行订阅数据处理。当有订阅信息缺 失发生或者需要定时更新订阅信息时,调度服务器发出指令,向用户端或者下 载服务器组分配订阅数据处理的任务。当用户端或者下载服务器组完成数据处 理任务后,将结果发送至内容服务器,由内容服务器推送至订阅用户。调度服 务器需要普通服务器的配置即可。下载服务器组可由一组主要用来下载数据的普通PC机组成,担当替补和支
持的角色,是对用户端资源的有益补充。下载服务器组内机器通过预装用户端 完成数据处理的所有功能。该组内的机器要求也比较低,类似用户端机器的配 置即可。通过上述四部分的紧密配合,使得用户端或者下载服务器组能够及时抓取 时间性比较强的订阅信息,并通过内容服务器及时的推送给每个相关的订阅用 户,实现了订阅信息和订阅数据据快速共享的目的。数据源和数据源服务器是指用户所需数据的提供网站,用户端就是向其抓 取数据然后处理的。数据源服务器多是一些互联网上的专门的信息门户或者垂 直搜索引擎。 一些信息提供门户网站,例如火车票网,本身提供站内搜索,有 些不提供站内搜索的功能。通过站内搜索,得到一个检索结果页,抓取每个检 索结果页,提取该页的内容得到用户所需的信息。该类网站若短时间内有集中 式的访问,可能对其造成巨大的流量压力。对垂直搜索而言,它们已经提前向 一些专业信息网站抓取数据并分析索引,用户查询便可得到所需的信息。垂直 搜索一般可以接收较高的请求压力,但是频繁的软件抓取方式也不是其能够接 受的。因此必须改变这种一人的集中频繁式请求为多人分散的频繁请求。本发明的有益效果在于,该互联网即时信息的共享订阅系统和共享订阅方 法充分结合用户端订阅和服务器端订阅二种订阅方式的优点,能够较好的利用 服务器和用户端的CPU资源和带宽资源,实现及时、有效的信息订阅的互联网 即时信息的共享订阅方法,它满足用户实时性的信息需求,并实现了对同类信 息需求的共享,同时降低了对数据源网站的过度压力。


图1是本发明中现有服务器端订阅方式的系统构架图;图2是本发明具体实施方式
的共享订阅系统构架图;图3是本发明具体实施方式
的共享订阅方法的处理方式示意图。
具体实施方式
如图1,基于系统架构分析和硬件需求分析,该互联网即时信息的共享订阅系统共有四部分组成,分别是用户端、内容服务器9、调度服务器8和下载服务 器组6,其中用户端为多个用户端,包括用户端l、用户端2和其它用户端4, 另外图中还示出用户所需数据的提供网站一数据源服务器7。这里采用的用户端
为中搜的IG用户端。用户端和调度服务器8内配置有共享订阅数据处理模块,用户通过用户端订阅信息,用户端根据订阅任务完成订阅数据的收集和分析,主动呈现在用户端,同时将订阅数据上传给内容服务器9,内容服务器向所有具有相同订阅信息 的用户端分发,实现订阅数据的共享;内容服务器9为配置内容服务器模块,具有多阵列的硬盘存储数据及其容 错处理能力的数据存储发送服务器,内容服务器接收用户端的订阅信息,通过 其配置的索引数据库检索订阅信息,检索到结果时,向用户端推送订阅数据; 没有检索到结果时,向调度服务器8发送订阅数据缺失并要求提供订阅数据。调度服务器8为配置调度服务模块和共享订阅数据处理模块的通用服务器, 在订阅数据缺失或需定时更新订阅信息时,调度服务器发出指令,向用户端或 者下载服务器组分配数据处理任务,当用户端或下载服务器组完成数据处理任 务后,将数据处理结果发送至内容服务器,由内容服务器推送至用户端;下载服务器组6为配置下载服务器组模块的普通PC机,在用户端资源有限 时进行订阅数据的抓取、处理和上传。组成该共享订阅系统的四个模块分别为共享订阅数据处理模块、内容服务模块、调度服务模块和下载服务器组模块。各个模块间按照如下流程进行工作 100: —用户从用户端1发起订阅。订阅分为新订阅和已有订阅,新订阅时, 用户端1会向调度服务模块发消息,注册该用户的订阅,供调度服务模块调度 时参考。200:内容服务模块接收订阅,然后从后台数据库检索订阅,检索有结果则 推送给用户,结束。否则,给调度服务模块发送消息,请求订阅信息。300:调度服务模块接到调度请求,分析用户端2、 3和下载服务器组的计 算资源情况,找到最合适的资源,如果用户端2的资源适合,然后通知用户端2, 把任务分配至用户端2的共享订阅数据处理模块。400:共享订阅数据处理模块接到任务后执行。共享订阅数据处理模块接到有两类任务,立即执行任务和周期性任务,分别对应无数据的新订阅和己有订 阅。任务完成后把结果发送至内容服务器。500:内容服务器9接收到结果后,存储索引结果供其他订阅,同时推送结果至订阅用户端l。600:用户端l展示结果。
以上流程中,100、 600是由用户端1的共享订阅数据处理模块完成,400 是由用户端2的数据处理模块完成,共享订阅数据处理模块为本架构系统的关 键模块之一,200和500为内容服务模块功能,300为调度模块功能。共享订阅模块是嵌入中搜IG用户端中的一个单独的功能模块,它只和用户 下载的IG用户端通信,等待分配任务并执行如下任务若用户发起某个订阅,IG用户端首先判断该订阅是新订阅还是已有订阅。 若为新订阅,IG用户端首先分别向调度服务器和内容服务器发送新订阅消息。 然后等待消息。若直接返回订阅结果,则由IG用户端直接展示;若返回的是承 担数据处理任务的消息,IG用户端把接收到的调度服务器指令传送至共享订阅 数据处理模块,共享订阅数据处理模块类似一个"傻终端",任劳任怨的完成各项指示,如下载,分析,排重,上传等工作。任务执行完毕后把结果发送至IG用户端,由用户端把结果的订阅数据上传至内容服务器。其数据下载方式采用分散下载源头进行,变"几点对一点方式"(几个下 载服务器对应一个数据源服务器)为"多点对一点方式"(很多用户端和少数 下载服务器对应一个数据源服务器)。采用几点对一点方式时,用户端向订阅服 务器请求订阅数据,内容服务器检索索引数据库,没有结果时报告用户端查不 到结果,若有结果则将结果返给用户端。当用户端需求的订阅信息的实时性比 较高的时候,此时后台下载服务器必须得频繁访问数据源服务器才能取得更新 的数据,会给源数据服务器在短时间内造成很大压力,可能被数据源服务器拒 绝服务。同时服务器响应模式都采用轮循制, 一个IP的N次请求响应时间肯定 要比N个IP的一次请求响应时间要长得多。当采用多点对一点方式的架构时, 因为用户端的数量比下载服务器组的数量要大的多,用户端在数据源服务器的 请求响应更能迅速的得到满足。同时,如若査不到结果,调度服务器立即会调 度资源为用户搜索其需求,并在尽可能短的时间内给用户端以回复。正是基于 这些因素的考虑,可以把具有数据收集下载功能的数据收集下载子模块放在共 享订阅数据处理模块里边,并打包到了用户端里。在数据收集下载子模块中,设置了两个URL队列立即更新URL队列和 普通更新URL队列。两个队列的区别就是响应优先级不同,立即更新URL队 列要求立即去响应用户的订阅需求,普通URL队列一般是周期性的下载订阅需 求。立即更新队列对应用户新添加的一个订阅需求,当用户发起此类订阅需求
时候,此时无论后台索引数据库有没有数据都要立即相应用户的需求。当后台索引数据库有用户所需订阅信息时,由内容服务模块负责返回用户所需订阅信息,共享订阅数据处理模块不会被启动。当后台索引数据库没有用户所需订阅信息时,由内容服务模块通知调度模块处理,调度服务模块按照一定的条件选择某个端口 (用户端或者下载服务器组)的共享订阅数据处理模块启动,添加立即更新URL内容去下载订阅数据。普通更新URL队列对应用户已经存在的订阅信息需求,为了满足用户对订 阅信息的实时性需求,需要定时的抓取源数据服务器内容,分析处理后推送给 用户。当某个用户端的共享订阅数据处理模块被选中时,定期的抓取普通更新 URL队列里的内容,供共享订阅数据处理模块的分析功能处理。下载的订阅数据按来源可以分为两类, 一类就是专业门户站点的站内检索 结果页, 一类就是专业垂直搜索引擎的检索结果页。专业门户站点一般专注于 某一领域,力求成为关心这一领域内容的用户上网的首选站点,因此其信息比 较专业丰富,是选择的主要目标之一。对于专业门户站点的站内检索结果页, 首先要对检索结果页分析,找出其中每个内容页面的地址,然后按照响应优先 级程度分别挂在立即更新URL队列和普通更新URL队列上,等待下载。垂直 搜索引擎多是抓取专业网站的信息,分析整理后索引至自己的数据库,以便用 户的查询。这样,数据来源的不一致造成了如格式不一的诸多问题,不同数据源的同 一化也是必不可少的。下载的原始网页数据不光包含了用户所需的信息,还包含了很多其他的信 息网站导航、版权声明、广告链接等等,这些是用户不关心的。因此从原始 网页分析出结构化的数据,整理出用户关心的内容是数据分析的重要职责。对来源于专业门户的内容数据,调用分析程序分析内容页面,把页面转化 为一条实际记录,发送给IG用户端。对于垂直搜索引擎的检索结果,可以直接解析出其结果,每一条形成-一个 记录,发送给IG用户端。因为搜索引擎一般是实现抓取大量的相关网站的信息 后,加工处理,形成自己的数据库以备用户检索,因此其结果可以直接拿来使 用,这样的做法类似原搜索引擎。在此可利用基于网页模板分析技术和正则匹配的技术来抽取结构化的记录 信息,它具有很高的准确性,同时具有极高的分析速度。从单一数据源上看,其数据是规范的,多按照某种模式自数据库中抽出展 示给用户。单一数据源的规范、 一致的数据集合在一起,就有了差别。多个数 据源的数据差异必须经过同一化处理,处理成同一的格式,否则发送到内容服 务器后,把相同的数据当成不同数据存储索引, 一方面浪费了存储空间,加L《 了查找时间,更重要的是严重影响了用户的感受。本发明方法在数据分析的时 候,把不同的数据同质化,使得数据具有可比较性。内容页面经过数据分析,整理成统一的格式后,此时可能存在来源于不同 的网站的相同数据记录,这对用户而言是多余的,此类数据记录需要排除掉, 只留一份提供服务。其保留策略可分为先到为主原则或者站点权重优先原则。 先到为主原则是以先分析出的数据记录为保留条目,后面有与其相同的数据记 录统统抛弃;站点权重优先原则是分析后的数据记录和其来源作为一个整体。 当后续分析数据记录有与先前相同时,两者比较后,保留站点权重较大的数据。经过下载、分析、排重后的数据,附着上其他信息形成一条记录,由共享 订阅数据处理模块发送至IG用户端,再由IG用户端发送到内容服务器,共享 给其他的用户。在实际情况中,发送的数据量不是很大,记录在发送时没有打 包压縮处理,压縮后可以更加节省空间。数据的存储要考虑到存储量和查询速度的需求。假设有IO万不同的订阅,每条订阅保存IOOO条历史记录,每条记录按1KB计算,大概有0.1MX 1000X 1KB为100 KMB即IOOG的数据量,显然这么大的数据量是不能完全存储在内 存中的。为此本发明借用了搜索引擎公司特有的大数据量的文件快速存取和查 询技术来处理用户查询记录,典型的技术有多级缓存、倒排索引等技术。调度服务模块与IG用户端和下载服务器组模块通信,负责调配资源,分配 任务。为了降低同一个站点对数据源服务器的集中大量式请求,本发明改"儿 点对一点方式"为"多点对一点方式"。在所谓的"多点"中,我们并不是调度 所有的点去执行数据处理任务,而是由调度服务模块在参考用户端和下载服务 器组端的计算资源情况下,选择较优的资源去执行数据处理任务。其中用户端考虑的因素主要有用户有该订阅的需求、用户端的主机的CPU 资源、用户端的带宽资源、没有承担过多的数据处理任务。调度模块主要体现两个原则信息共享来自于我的奉献和以用户为本,不干扰用户正常工作。调度服务模块接收内容服务器信息需求请求,然后根据订 阅信息注册情况,综合各种资源,向某一个或者一些用户端下达数据处理任务指令。下载服务器组模块是对原有框架的一个保留补充。当目前的用户端资源有 限时,调度服务模块会调度该模块控制的下载服务器组完成数据抓取、处理和 上传的任务,保证订阅信息服务的有效性,再者,该模块还将分析订阅信息请求,对拥有较多订阅请求者的订阅定期更新,并做Cache处理,以便及时快速 的相应用户需求。还可将下载任务分散均衡,可以在数据源服务器较空闲的时 间抓取分析数据。如图3,该共享订阅方法的具体处理方式和方法如下101:用户端2发起一个新订阅信息,向内容服务器9发送该订阅信息消息。 102:同时,用户端2向调度服务器8发送消息,注册该订阅信息。 201:内容服务器9检索到结果,则把结果推送给用户端2,订阅结束。 202:内容服务器9没有检索到结果,则向调度服务器8发送消息。 301:调度服务器8若发现一个用户端1满足条件,则向用户端1送指令。 401:用户端1执行调度服务器8发出指令的分配任务,其配置的共享订阅数据处理模块开始工作,从数据源服务器7收集、分析、排重订阅数据。 103:用户端1工作完成后把订阅数据上传至内容服务器9。 302:若用户端1和其它用户端4处理能力不够,则向下载服务器组6发送消息。402:下载服务器组6接收到调度服务器8的工作指令后,其共享订阅数据 处理模块开始工作,从数据源服务器7收集、分析、排重订阅数据。403:下载服务器组工作完成后把订阅数据传送内容服务器9,由内容服务 器将结果推送至所有客户端展示,订阅结束。104:其它用户端4发起一个新订阅信息,向内容服务器9发送该订阅信息 消息。203:内容服务器9检索到结果,则把结果推送给其它用户端4,订阅结束。
权利要求
1. 一种互联网即时信息的共享订阅系统,包括用户端,其特征在于该共享 订阅系统还包括共享订阅数据处理模块,用户端通过该模块进行订阅信息的发送,订阅数 据的收集、分析、排重和上传;内容服务模块,负责订阅数据的接收、存储、检索及推送,并与调度服务 模块通信;调度服务模块,该模块与用户端通信,调配用户端的资源,分配订阅数据 下载任务。
2. 根据权利要求l所述的互联网即时信息的共享订阅系统,其特征在于所 述共享订阅系统还包括一下载服务器组模块,在用户端资源有限时,进行订阅 数据的抓取、处理和上传,所述下载服务器组模块与用户端和调度服务模块通 信,调度服务模块调配用户端和下载服务器组模块的资源,分配订阅数据下载 任务。
3. 根据权利要求2所述的互联网即时信息的共享订阅系统,其特征在于该 共享订阅系统的包括用户端、内容服务器、调度服务器和下载服务器组,其中用户端和下载服务器组内配置有共享订阅数据处理模块,用户通过用户端 订阅信息,用户端根据订阅任务完成订阅数据的收集和分析,并主动呈现给用 户,同时将订阅数据上传给内容服务器,内容服务器向所有具有相同订阅信息 的用户端分发,实现订阅数据的共享;内容服务器为配置内容服务器模块,具有多阵列的硬盘存储数据及其容错 处理能力的数据存储发送服务器,内容服务器接收用户端的订阅信息,通过其 配置的索引数据库检索订阅信息,检索到结果时,向用户端推送订阅数据;没 有检索到结果时,向调度服务器发送订阅数据缺失并要求提供订阅数据。调度服务器为配置调度服务模块的通用服务器,在订阅数据缺失或需定时 更新订阅信息时,调度服务器发出指令,向用户端或者下载服务器组分配数据 处理任务,当用户端或下载服务器组完成数据处理任务后,将数据处理结果发 送至内容服务器,由内容服务器推送至用户端;下载服务器组为配置下载服务器组模块的普通PC机,在用户端资源有限时进行订阅数据的抓取、处理和上传。
4. 根据权利要求3所述的互联网即时信息的共享订阅系统,其特征在丁所 述用户端、内容服务器、调度服务器、下载服务器组间通过http协议建立通信 联系。
5. —种互联网即时信息的共享订阅方法,其特征在于所述共享订阅方法包括用户从服务器端下载用户端实现信息的订阅任务设定,用户端承担服务器端的部分功能,根据订阅任务完成订阅数据的收集、分析和过滤,牛:动呈现给客户;同时用户端将订阅数据上传给服务器端,服务器端向所有具有相同订阅 任务的用户端分发,实现订阅数据的共亨。
6. 根据权利耍求5所述的互联网即时信息的共享订阅方法,其特征在于所 述服务器端对用户端的计算资源进行协调,在计算资源紧张的情况下,参与完 成订阅数据的收集、分析和过滤,并存储订阅数据,向所有具有相同订阅任务 的用户端分发。
7. 根据权利要求5所述的互联网即时信息的共享订阅方法,其特征在于所 述共享订阅方法中,用户端和服务器端配置有共享订阅数据处理模块、内容服务模块、调度服务模块和下载服务组模块,所述共享订阅方法包括用户从用户端发起订阅信息,所述订阅信息分为新订阅和已有订阅信息, 新订阅信息时,用户端会向调度服务模块发送消息,注册该用户的订阅,并为调度服务模块调度时参考;内容服务模块接收订阅信息,然后从其后台的索引数据库检索订阅信息, 检索有结果则将订阅数据推送至用户端,否则,给调度服务器发送消息,请求 订阅信息;调度服务模块接收到订阅信息请求后,分析用户端和下载服务器组模块的 计算资源,找到最合适的计算资源,然后通知用户端,将订阅任务分配至共享 订阅数据处理模块;共享订阅数据处理模块接收到订阅任务后执行,进行订阅数据的收集、分 析和排重,并将订阅数据上传至内容服务器;内容服务器接收到订阅数据后,存储索引结果供其它订阅该信息的用户共 享,同时推送该订阅数据至订阅用户端;用户端呈现订阅数据。
8. 根据权利要求5所述的互联网即时信息的共享订阅方法,其特征在子所述服务器端包括内容服务器、调度服务器和下载服务器组,所述共享订阅方法 具体包括一用户通过用户端发起一新的订阅信息,用户端向内容服务器发送该订阅 信息,同时向调度服务器发送消息,注册该订阅信息;内容服务器接收到该订阅信息,如果检索到已存储的相应订阅数据,则把订阅数据向该用户发送,如果没有检索到订阅数据,则向调度服务器发送请求;调度服务器接收请求后,进行订阅任务分配调度,如果发现其它客户端满 足条件,则向该客户端发送指令,该客户端执行调度服务器分配的订阅任务,进行订阅数据的收集、分析和排重,并将订阅数据上传至内容服务器;如果其 它客户端计算资源不足,则向下载服务器组发送指令;下载服务器组接收到调度服务器的工作指令后,进行订阅数据的抓取与分 析,排重,并将订阅数据上传至内容服务器;内容服务器将订阅数据推送至所有订阅信息的客户端,实现共享订阅。
9. 根据权利要求7所述的互联网即时信息的共享订阅方法,其特征在于所 述共享订阅数据处理模块内设有一数据收集下载子模块,所述数据收集下载子 模块包括立即更新和普通更新两个URL队列,所述立即更新URL队列对应用户端添加的一个新订阅信息,此时无论内容 服务模块是否存储有该订阅数据都要立即响应用户端的新订阅信息;当内容服 务模块存储有所需订阅数据时,由内容服务模块推送该订阅数据,共享订阅数 据处理模块不启动;当内容服务模块没有所需订阅数据时,由内容服务模块请 求调度模块,调度模块选择用户端或下载服务器组模块的共享数据处理模块启 动,添加立即更新URL队列去下载数据;所述普通更新URL队列对应用户端已经存在的订阅信息,内容服务模块定 时的收集源数据内容,分析处理后推送给用户端。
全文摘要
互联网即时信息的共享订阅系统及共享订阅方法,该系统包括用户端、共享订阅数据处理模块、内容服务模块和调度服务模块。该方法包括用户从服务器端下载用户端,用户端根据订阅任务完成订阅数据的收集、分析和过滤,主动呈现给客户;同时用户端将订阅数据上传给服务器端,服务器端向所有具有相同订阅任务的用户端分发,实现订阅数据的共享。本发明充分结合用户端订阅和服务器端订阅二种订阅方式的优点,能够较好的利用服务器和用户端的CPU资源和带宽资源,实现及时、有效的信息订阅的互联网即时信息的共享订阅方法,它满足用户实时性的信息需求,并实现了对同类信息需求的共享,同时降低了对数据源网站的过度压力。
文档编号H04L12/58GK101146058SQ20071016617
公开日2008年3月19日 申请日期2007年11月13日 优先权日2007年11月13日
发明者许欢庆, 郭永福, 沛 陈 申请人:北京中搜在线软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1