可移植的网络信息共享方法

文档序号:7695347阅读:146来源:国知局
专利名称:可移植的网络信息共享方法
技术领域
本发明涉及一种可将互联网上的共享信息自由移植并同步至其它通信系统(如计算机局 域网、手机蜂窝无线通信系统等)的共享方法与网络结构,属于信息共享技术领域。
背景技术
互联网作为典型的复杂系统,其发展至今,为实现综合业务传送,各种技术和产品层出 不穷,网络研究项目越来越多,网络研究者队伍日益壮大。但是,从目前的网络主流业务及 其发展趋势特别是国家主导的网络信息共享发展要求来看,以全局对称IP结构为基础的面向 下一代网络的多种研究项目,超前于我国经济欠发达、民主政治与文化素质发展不均衡的国 情。未来五到十年,为了承载用户规模达到数亿甚至十数亿的共享信息业务,需要研究新的 共享信息网络结构。
自1969年美国Darpa发明互联网以来,用户需求和网络行为发生了巨大变化。 一方面, 人们看到,网络通信与业务量向着多样化、多媒体化、宽带化、移动化、融合化、个性化、 智能化、社区化等多种形式发展;另一方面,近几年来共享信息业务激增。根据网络流量的 实验测量数据,HTTP、P2P等形式的具有明显信息共享特点的业务已经占据了95%的网络流量。 这些网络业务的特点是,同样内容的信息在网络上成千上万次地重复传输(有学者称之为"无 功流量"),因而占据了网络带宽,造成巨大的浪费,成为网络公害。因此,减少甚至根本消 除网络的"无功"传输,是解决网络信息共享问题的一个关键。
简而言之,互联网应用己经从初期的信息交换,向信息共享转变,而且越来越加剧。而 因为当前IP网络承载共享信息存在的问题,网络出现了新的需求——共享信息网络服务。
现有的网络信息共享应用大致有以下七大类
1、 P2P
P2P是一种以非集中方式使用分布式资源来完成关键任务的一类系统和应用。它使用现 存的基础设施,削减和分布成本;使用低成本交互来聚合资源,并允许对等端自治控制其数据和资源,具有巨大的扩展力。
但是在P2P极大地提高了互联网终端用户的信息获取速度的同时,它的文件共享也产生 了目前因特网最大的单项流量,并且是同样内容的信息在网络上成千上万次地重复传输,给 网络带来了明显的拥堵,给网络运营商带来了更大的麻烦,也反过来作用于终端用户自身。
2、 IPTV
IPTV借助互联网开放性、客户自主选择性,提供DTV不能提供的互动和点播服务,提供 质量优于DTV的信息服务,也发挥了互联网无所不在的优势。
但是IPTV对于整个网络信息共享的服务而言,只实现了其中音视频部分的内容,并且也 受其编码、传输方式等因素制约,很难扩展至HTTP等方向的信息共享。
3、 Multicast Network
互联网的传播主要有单播、多播和广播、点对点、 一对多等方式。其中单播是强项,但 传输效率太低;广播不是IP技术的优势,并且不能跨越网段大量无用的数据包会降低网络 的可靠性,会被大多数设备隔离;多播(即Multicast Network)允许在网段之间传播且不 被隔离,但需要改造网络,将提高成本、降低通达性。目前因各种原因,可靠的多播也尚未 在大规模网络上实现。
4、 DTN
DTN即Delay Tolerant Networks,它的主要思想是通过将共享信息存储于移动介质(如 DVD光盘等),以高速公路代替信息网络通道,用传统交通工具将存储共享信息的DVD光盘等 送至需要此信息的地方,以达到信息共享的目的。
这种模式虽然基本上实现了信息共享的需求,但是由它的传输模式可明显看出,它的信 息延迟是比较大的,对于某些实时的信息需求,这种延迟甚至是不能容忍的。
5、 IPv6和新一代网络产业
IPv6是当前的另一个研究热点,它需要在现有的基础上改造互联网,对IP协议实施从 IPv4到IPv6升级,并引入复杂的网络管理与控制、开发支撑软件。IPv6对于信息共享方面, 与"光纤到户"相配合,在新的协议下,将光纤敷设到家庭,实现共享信息的高速传输。此 工程因为遍布全国各个角落,所以工程量巨大,成本也很高,并可能造成带宽浪费、信息冗 余等问题。
6、 RSSRSS (Really Simple Syndication),是一种用于共享新闻标题与Web内容的XML格式标 准,同时也是在互联网上被广泛釆用的内容包装和投递协议。网络用户可以在客户端借助于 支持RSS的新闻聚合工具软件,在不打开网站内容页面的情况下阅读支持RSS输出的网站内 容。
但是根据目前的RSS传输协议,RSS输出的内容是不包含该信息的全部完整内容的,而 在内容正文部分只有其"摘要"。对于大多数情况,终端用户仍然需要使用能连接互联网的计 算机逐个远程获取。
7、 BL0G/ BLOGGER
Blog是一种新兴的信息共享方式。它通常是一个由简短且经常更新的帖子Post所构成 的网页,这些张贴的文章按照日期倒序排列。Blog的内容主要是对其他网站的链接、评论、 个人日记、照片、诗歌、散文、小说等;也可以是一群人基于某个特定主题或共同利益领域 的集体创作、讨论。
由Blog本身就决定了这种方式是一种个性化的信息共享方式,不能传输全面的、大部分 用户都共同需要的网络信息;并且同样需要终端用户使用能连接互联网的计算机远程获取。
针对这些现有的网络信息共享应用的特点及其不足之处,本发明给出了一种新的网络信 息共享的共享方法、体系结构及其服务模式,它能将互联网上的共享信息自由移植并同步至 其它通信系统(如计算机局域网、手机蜂窝无线通信系统等),为终端用户提供一跳获取的便 捷、实时信息服务。
在现有的专利中,与本发明最为接近的是"互联网信息共享系统及其信息共享方法",公 开号CN1374603,专利申请人刘莎。它的主要内容是建立包括不同语言版本文件摘要信 息通用模板、文件摘要信息统一代码数据库、文本语义标注通用模板和摘要、文本信息的统
一语义代码多语转换浏览器的信息共享系统,并嵌入国际互联网系统中;用户利用不同语言
版本文件摘要信息通用模板,对任意数据文件进行摘要信息输入、存储与检索,在统一语义 代码多语转换浏览器上,实现共享信息浏览,和进一步访问存储于用户指定地址中的非文摘 信息存储服务器。此专利虽然也是针对网络信息共享,但它所专注的点与本发明完全不一致。

发明内容
根据实验测量结果,并基于网络研究学术界关于"小世界"相关理论的共同认识,本发明认为,大多数网民访问的是少数的网站。为了更有效地利用网络带宽,在本发明中所提到 的网络共享信息均指来源于这些多数人访问的主流互联网站点上的内容资源,但不仅仅是这
些网站上的网页资源,还包括其它诸如视频、音乐等形式的多媒体资源等。应当特别注明的 是,这些"主流互联网站点"并不是固定不变的,而是视情况发展以及实际需要可以随时增 加、删除、或修改的。
可移植的网络信息共享方法,其特征在于,该方法包括
(1) 共享信息获取方法;
(2) 共享信息解析方法;
(3) 共享信息同步及发布方法。 所述共享信息获取方法为以下两种方法中的任意一种
(1)共享信息获取方法按以下步骤进行
1) 设定信息来源 设定信息来源为来自聚合频道;
对于内容丰富的综合性门户网站,设定信息来源为来自聚合频道,使用RSS获取的方法 来完成对此类网站信息的获取;
2) 设置基本参数
将该网站RSS聚合频道首页设为爬虫爬行的基地址;
3) 网页获取预处理
采用多线程方式,每个线程从队列中取出一个链接进行处理或利用"正则表达式"实现 链接信息的提取;
为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地 址记录在数据库中,在每次从队列里得到一个新的链接地址时,需要首先査询该地址是否已
被记录在数据库中,如果已有记录则不再处理此链接;
4) 网页获取过程
启用内置的RSS阅读器,该阅读器会根据步骤l)中的设置加载对应网站的RSS频道列 表,得到了符合RSS规范的XML文件之后,将其中指示网页来源的链接信息提取出来并保存;
在更新完所有的RSS频道之后,得到了一个包含若千网页链接地址的队列(queue),这 些网页就是需要的有"实质"内容的网页,之后利用网页爬虫程序,依次处理该队列中的链信息,获取该链接指向的网页内容,保存至本地。或, (2)共享信息获取方法按以下步骤进行
1) 设定信息来源 设定信息来源为非来自聚合频道;
将该网站的首页或特定的索引页设为爬虫爬行的基地址;
在设定的过程中,强制验证该地址的有效性,并设法获取该网站的字符编码类型,如果 不能得到,则手动设置编码类型;
2) 设置基本参数
将该网站RSS聚合频道首页设为爬虫爬行的基地址;
3) 网页获取预处理
采用多线程方式,每个线程从队列中取出一个链接进行处理或利用"正则表达式"实现 链接信息的提取;
为了避免对网页内容的重复获取,对于那些己经保存在本地的网页资源,都将其链接地 址记录在数据库中,在每次从队列里得到一个新的链接地址时,需要首先査询该地址是否已 被记录在数据库中,如果已有记录则不再处理此链接;
4) 网页获取过程
向服务器发起请求,获取基地址网页,扫描网页,将其中的链接信息加入一个队列中; 之后从队列中取出一个链接,获取该网页,扫描网页,将其中的链接信息加入队列,判 断当前网页是否是所需的,如果符合条件,则将该网页保存至本地。 所述共享信息解析方法为以下两种方法中的任意一种 (1)共享信息解析方法按以下步骤进行
1) 获取"共享信息获取服务器"上的数据
网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中 读取后者自动获取后储存的网页文件;
2) 获取数据仓库存储规则及系统管理员设置的解析规则
由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取 时间;
根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得到用于实际解析的算法;
3) 分析源网页站点类型 由源站点名称分析源网页站点类型;
4) 执行解析规则并存储结果
针对常见的、较少数的网站,使用人工逐个编辑相应站点的正则匹配表达式来生成实际 用于解析的算法,此正则匹配表达式包含预处理表达式、主内容匹配表达式、格式化数据结 构表达式、后期处理表达式;
5) 解析结果后期处理
将上一步得到的结果其中的内容数据按照中文规则进行分词处理,并对结果进行实、虚 词划分进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键字/ 词并按重要性排序;
根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目 标网页所属的分类名称及其代码;
6) 解析结果界面显示
对于"单页面模式",将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮 标出;对于"多页面模式",则遍历网页数据的存储目录,对未解析过的网页重复进行上述解 析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务 器前端发布程序的实时更新。或,
(2)共享信息解析方法按以下步骤进行
1) 获取"共享信息获取服务器"上的数据
网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中 读取后者自动获取后储存的网页文件;
2) 获取数据仓库存储规则及系统管理员设置的解析规则
由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取 时间;
根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得 到用于实际解析的算法;
3) 分析源网页站点类型由源站点名称分析源网页站点类型;
4) 执行解析规则并存储结果,其步骤为-
第一步将原有的网页的HTML格式强制转化为更为规范的XML格式; 第二步对XML文件进行预处理,除去〈scrip〉、 〈style〉元素; 第三步通过网页属性读取此网页的标题,并进行分词;
第四步遍历XML文件,记录超链接元素,同时选择可能属于网页正文的结点,记录该 结点路径;
第五步统计候选正文结点路径,选择出现次数最多的路径作为最终正文结点路径; 第六步根据正文结点路径选择正文部分; 第七步对已获取的正文部分进行分词,统计词频;
第八步根据管理员的设置,进行正文的局部词频加权,产生此网页的关键词;
5) 解析结果后期处理
将上一步得到的结果其中的内容数据按照中文规则进行分词处理,并对结果进行实、虚 词划分进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键字/ 词并按重要性排序;
根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目 标网页所属的分类名称及其代码;
6) 解析结果界面显示
对于"单页面模式",将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮 标出;对于"多页面模式",则遍历网页数据的存储目录,对未解析过的网页重复进行上述解 析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务 器前端发布程序的实时更新。
所述共享信息同步及发布方法为以下三种方法中的任意一种 (1)共享信息同步及发布方法按以下步骤进行
第一步信息收集程序获取信息源站点列表配置,输出原始信息资源库;
第二步网页解析程序读取原始信息资源库以及解析规则配置,输出己解析的信息资源 数据库;
第三步主服务器启动WEB或WAP服务,包含后台管理、信息资源重组程序、信息检索服务程序、信息浏览服务、信息上载服务、用户定制服务模块;
第四步管理员通过后台管理服务,作用于用户与管理信息资源数据库;
第五步主服务信息资源重组程序和信息检索服务程序分别读取已解析的信息资源数据
库和用户与管理信息资源数据库,为用户提供信息共享服务;
第六步最终用户通过终端浏览器使用主服务器的WEB或WAP服务,获取所需的共享信
息,同时也同样作用于用户与管理信息资源数据库。或,
(2) 共享信息同步及发布方法按以下步骤进行
第一步共享信息主数据仓库将数据定时同步至共享信息镜像数据仓库;
第二步小站服务运行服务器启动WEB或WAP服务,包含小站后台管理、小站信息资源
重组程序、小站信息检索服务程序、小站信息浏览服务、小站信息上载服务、小站用户定制
服务模块;
第三步小站管理员通过后台管理服务,作用于小站信息资源数据库;
第四步小站信息资源重组程序和信息检索服务程序分别读取小站信息资源数据库和共
享信息镜像数据仓库,为用户提供信息共享服务;
第五步小站服务最终用户通过终端浏览器使用小站WEB或WAP服务,获取所需的共享
信息,同时也同样作用于小站信息资源数据库。或,
(3) 共享信息同步及发布方法按以下步骤进行
第一步共享信息主数据仓库将数据定时同步至共享信息镜像数据仓库;
第二步超级终端运行服务器启动自身WEB服务,包含超级用户个人配置、超级终端自
身服务信息资源重组程序、超级终端自身服务信息检索服务程序、超级终端自身服务信息浏
览服务、超级用户定制服务模块;
第三步信息检索服务程序和信息浏览服务读取共享信息镜像数据仓库,为超级用户提
供信息共享服务。
本发明还提供一种可移植的网络信息共享结构,该结构包括原始内容服务器、共享信息 获取服务器、共享信息解析服务器、共享信息镜像服务器;
"共享信息获取服务器"通过所述"共享信息获取方法"从"原始内容服务器"有选择 性地获取信息;"共享信息解析服务器"从"共享信息获取服务器"获取信息后,通过"共享 信息解析方法"将它们进行解析后按特定格式规范进行存储;"共享信息镜像服务器"从"共享信息解析服务器"通过所述"共享信息同步方法"获取共享信息;同时,将此共享信息加 上地域性的附加信息,为终端用户提供服务。
为了避开当前互联网的网络拥堵,本发明提出为这些网络共享信息专门搭建一个推送通 道,作为现有网络的辅助传输通道,建立一种新的共享网络结构,名称为非对称网络信息 共享结构。本发明所指的这种可移植的网络信息共享方法便基于此结构。图1是非对称网络 信息共享原理结构示意图。其中,1-共享信息来源网站,2-原始信息资源仓库,3-共享信息 主数据仓库,4-共享信息发布服务器("小站"),5-用户终端,6-超级用户终端,7-共享信息 获取方法,8-共享信息解析方法,9-共享信息数据同步方法,10-面向普通用户的共享信息发 布方法,11-面向超级用户的共享信息发布方法。如图l所示,通过使用共享信息获取方法(7), 从共享信息来源网站(1)获取源网页等数据,储存于原始信息资源仓库(2);再通过共享信 息解析方法(8)对这些原始信息数据进行解析处理,得到共享信息的主数据仓库(3);接着 通过使用共享信息数据同步方法(9),将此共享信息的主数据仓库同步到共享信息发布服务 器("小站")(4),或者通过面向超级用户的共享信息发布方法(11),直接同步到同时兼具 了 "小站"和用户终端功能的超级用户终端(6);在"小站"端,用户终端(5)便可通过面 向普通用户的共享信息发布方法(10)直接获取所需要的共享信息。以上述的非对称网络信 息共享结构为基础,下面叙述本发明技术方案的原理。不失代表性地,以下的原理说明以主 流互联网站点上的网页资源为例,而暂不涉及音、视频等内容。
一、首先是网页获取方法。下面按照获取的过程介绍本发明的网页获取技术方案原理。
依据网站的特点,将网页信息来源分为两大类
1、 来自聚合频道(RSS)
对于新浪、搜狐等内容丰富的综合性门户网站,若按照传统的爬虫(SPIDER)算法爬取 该网站的内容,则有很多资源(时间、程序运行开销)会浪费在大量"无用"的网页上—— 这里所说的"无用",是指索引页(index.html)等没有详细正文部分内容的网页。目前这种 综合性的门户网站基本上都提供了 RSS内容输出,所以可使用RSS获取的方法来完成对此类 网站信息的获取。
2、 来自网站
对于中国政府网、中国新闻网等网站,网页较为纯净,网站的结构设计也比较规范,容 易从网页的链接地址中判断出该网页是否是我们所需的有实质内容的网页。对于此类网页,就采用一般的爬虫算法进行网页信息的获取。
针对以上两大类的网页信息来源站点,网页获取步骤如下
1、 设定信息来源
对于l类的网站,将该网站RSS聚合频道首页设为爬虫爬行的基地址;对于2类的网站, 将该网站的首页或特定的索引页设为爬虫爬行的基地址。在设定的过程中,会强制验证该地 址的有效性,并设法获取该网站的字符编码类型,如果不能得到,可以手动设置编码类型。
2、 设置基本参数
主要包括镜像网页的存放地址,爬行任务信息的存放地址,网页类型的过滤,网页来源 的限制,可以使用的线程数等。
为了能够及时的获取网页信息,根据不同网站的特点设置不同的更新时间,定期对该网 站的内容进行获取。
3、 网页获取过程
(1) 对于l类的网站,启用内置的RSS阅读器,该阅读器会根据l中的设置加载对应网 站的RSS频道列表。与普通的RSS阅读器类似,通过更新频道列表可以得到各频道提供的内 容输出(xml文件)。不同之处在于,在得到了符合RSS规范的XML文件之后,需要进行一次 简单的解析,即将其中指示网页来源的链接信息(link元素)提取出来并保存。
在更新完所有的RSS频道之后,我们就得到了一个包含若干网页链接地址的队列 (queue),并且可以肯定的是,这些网页基本上就是我们需要的有"实质"内容的网页。之 后利用网页爬虫程序中的部分算法,依次处理该队列中的链接信息,获取该链接指向的网页 内容,保存至本地。
(2) 对于2类的网站,按照一般的爬虫算法进行爬取向服务器发起请求,获取基地址 网页,扫描网页,将其中的链接信息加入一个队列中。之后从队列中取出一个链接,获取该 网页,扫描网页,将其中的链接信息加入队列,判断当前网页是否是所需的(例如对于中国 政府网,只有链接地址中含有"content"字符串的网页才是所需的,并可结合2中的设置对 文件类型进行进一步的过滤),如果符合条件,则将该网页保存至本地。
在上述网页信息的获取过程中,未被处理过的网页地址保存在队列中。为了提高信息获 取的速度,采用多线程方式,每个线程从队列中取出一个链接进行处理。为了更加快速、有 效的对网页进行扫描,可利用"正则表达式"实现链接信息的提取。例如在一篇新闻报道的网页中,在其正文部分往往会有与该新闻相关的图片信息,但就网页整体而言, 一般还会有 其它与新闻内容无关的图片内容(如网站的logo图片,其它热点新闻、相关内容的图片,图 片广告等),这些内容对于我们的信息获取来说都属于干扰因素。因此对于某一特定网站,通 过分析其新闻网页的设计格式,可以归纳出用于匹配正文部分的正则表达式,在提取该网页 中的链接信息之前,先用该正则表达式匹配出网页的正文部分,然后再提取其中的链接信息, 这样基本可以保证下载下来的图片信息是与内容相关的,有效的减少了处理链接的数目,提 高了所获取内容的"纯净度"。
为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地 址记录在数据库中。这样,在每次从队列里得到一个新的链接地址时,需要首先査询该地址 是否已被记录在数据库中,如果已有记录则不再处理此链接,避免不必要的开销。
二、其次是网页解析方法。下面按照网页解析模块的工作步骤介绍其方案原理。
第一步网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从 该目录中读取后者自动获取后储存的网页文件;
第二步由约定好的数据仓库存储规则得到任一网页文件的源获取站点名称、原始URL 地址以及获取时间;
第三步根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应 条目,得到用于实际解析的算法;
第四步网页解析程序使用此解析算法从目标网页中解析得到所需要的网页"有效"内 容数据,包括标题、作者、发布时间、正文全文及图片等;
第五步对此"有效"内容数据按照中文规则进行分词处理,并对结果进行实、虚词划 分等进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键字(词) 并按重要性排序;
第六步根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则, 计算本目标网页所属的分类名称及其代码;
第七步对于"单页面模式",将以上结果显示于解析程序界面,并在当前的浏览网页中
直接高亮标出;对于"多页面模式",则遍历网页数据的存储目录,对未解析过的网页重复进
行上述解析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,
支持服务器前端发布程序(如网站)的实时更新。上述解析方法的第三步中所得到的用于实际解析的算法又可分为两种,根据其特点分为 针对两种源网页数据第一类是常见的、较少数的网站,使用人工逐个编辑相应站点的正则匹配表达式来生成 实际用于解析的算法。此正则匹配表达式包含预处理表达式、主内容匹配表达式、格式化数 据结构表达式、后期处理表达式等子表达式。第二类是除第一类之外的所有其它站点,即无法自动使用第一类中的算法解析的站点。 这种情况下,使用的解析方法步骤为-1) 将原有的网页的HTML格式强制转化为更为规范的XML格式;2) 对XML文件进行预处理,除去〈scrip〉、 〈style〉等元素;3) 通过网页属性读取此网页的标题,并进行分词;4) 遍历XML文件,添加必要的元素属性,记录超链接元素,同时选择可能属于网页正文 的结点,记录该结点路径;5) 统计候选正文结点路径,选择出现次数最多的路径作为最终正文结点路径;6) 根据正文结点路径选择正文部分;7) 对已获取的正文部分进行分词,统计词频;8) 根据管理员的设置,进行正文的局部词频加权,产生此网页的关键词。三、在使用上述共享信息获取方法(7)、共享信息解析方法(8)之后,已经得到了共享 信息主数据仓库(3),下面叙述本发明的共享信息发布方法。下面以主服务器基于WEB直接发布(图2)和信息小站基于WEB/WAP发布(图3)这两大 类为例说明本发明的共享信息发布方法。对于第一类(主服务器基于WEB直接发布),不需要使用共享信息数据库的镜像传输、同 步等方法,直接以WEB的形式提供给终端用户以及系统管理员用户获取所需的共享信息; 系统管理员系统管理维护包括共享信息数据库管理以及上文所述获取与解析方法的配置等。对于第二类(信息小站基于WEB/WAP发布),则需要使用共享信息的发布方法。它可以按 照发布方式分为基于WEB发布和基于WAP发布。前者是在例如计算机局域网中,建立非对称 网络信息共享结构的信息小站上,在"小站"上开放WEB访问服务,作为提供给用户获取共 享信息的接口;后者是基于手机蜂窝无线通信系统,在距离用户最近的手机基站或计算机上 开放WAP访问服务,作为提供给移动终端用户获取共享信息的接口 。另一方面,按照面向用户的不同,第二类(信息小站基于WEB/WAP发布)又可以分为面 向普通用户的共享信息发布方法(10)和面向超级用户的共享信息发布方法(11)。这两个方法的区别在于前者是面向较多的密集型的用户,例如计算机局域网用户或蜂窝无线通信系统中同一个基站服务范围内的手机用户;后者则终端自身具有较强的数据存储和计算能力,只为自己提供信息共享服务。而这两个方法的共同点有第一、使用传统的互联网镜像同步的方法,将共享信息主数据仓库(3)直接定时同步至共享信息发布服务器("小站")(4)中 的小站信息资源数据库(32)或超级用户终端(6)中类似的小站信息资源数据库。第二、信 息获取时可以通过小站或超级用户终端自身提供的WEB服务,也可以通过WAP服务。应当特别指出的是,除上述两种共享方法分别所用的两种发布方式外,超级用户终端(包 含计算机等有线用户和手机等无线用户)读取自身共享信息数据库的信息共享方式,也属于 本发明范畴。本发明的发布方法具体划分又分为按发布来源、终端类型、面向用户3种划分方式* 按发布来源划分■ 主服务器直接发布■ 基于信息小站发布* 按终端类型划分■ WEB方式,面向计算机等有线终端■ WAP方式,面向手机等无线终端* 按面向用户划分■ 普通用户■ 超级终端 例举三种典型的发布方式来进行介绍。方式一主服务器直接发布参阅附图2,图2是主服务器直接发布的原理结构示意图。其中,12-主服务器(比如www. 4ANet. com), 13-信息收集程序,14-网页解析程序,15-信息源站点列表配置,16-原始信息 资源库,17-解析规则配置,18-用户与管理信息资源数据库,19-已解析的信息资源数据库,20-主服务器WEB/WAP服务,21-主服务器后台管理,22-主服务信息资源重组程序,23-主服务信息 检索服务程序,24-主服务器信息浏览服务,25-主服务器信息上载服务,26-主服务器用户定制服务,27-主服务器管理员,28-主服务终端浏览器,29-主服务最终用户。连接关系为主服务 器(12)中包含信息源站点列表配置(15)、原始信息资源库(16)、解析规则配置(17)、信 息资源数据库(18)、已解析的信息资源数据库(19)、主服务器WEB/WAP服务(20)模块, 而主服务器WEB/WAP服务(20)又包含了后台管理(21)、信息资源重组程序(22)、信息检 索服务程序(23)、信息浏览服务(24)、信息上载服务(25)、用户定制服务(26)模块。在 这种包含关系中,被包含的模块之间不区分顺序。信息收集程序(13)从信息源站点列表配 置(15)中获取数据后,经处理输出数据至原始信息资源库(16);后者和解析规则配置(17) 共同为网页解析程序(14)提供数据,使其输出数据至已解析的信息资源数据库(19);后者 和用户与管理信息资源数据库(18)共同为主服务信息资源重组程序(22)和信息检索服务 程序(23)提供数据,以便让主服务器WEB/WAP服务(20)提供数据服务至终端浏览器(28), 从而为最终用户(29)提供数据,同时也作用于用户与管理信息资源数据库(18);同时,主 服务器WEB/WAP服务(20)中的后台管理(21)模块又为管理员(27)提供服务,反过来将 数据提交至信息源站点列表配置(15)、解析规则配置(17)模块,也作用于用户与管理信息 资源数据库(18)。 使用方法步骤为第一步信息收集程序(13)获取信息源站点列表配置(15),输出原始信息资源库(16); 第二步网页解析程序(14)读取原始信息资源库(16)以及解析规则配置(17),输出己解析的信息资源数据库(19);第三步主服务器(12)启动WEB或WAP服务(20),包含后台管理(21)、信息资源重 组程序(22)、信息检索服务程序(23)、信息浏览服务(24)、信息上载服务(25)、用户定 制服务(26)模块;第四步管理员(27)通过后台管理(21)服务,作用于用户与管理信息资源数据库(18);第五步主服务信息资源重组程序(22)和信息检索服务程序(23)分别读取已解析的 信息资源数据库(19)和用户与管理信息资源数据库(18),为用户提供信息共享服务;第六步最终用户(29)通过终端浏览器(28)使用主服务器的WEB或WAP服务(20), 获取所需的共享信息,同时也同样作用于用户与管理信息资源数据库(18);第七步重复反馈执行第四、五、六步,同时也不定时重复执行第一、二步。 方式二基于信息小站发布参阅附图3,图3是基于信息小站发布的原理结构示意图。其中,30-小站服务运行服务 器,31-共享信息主数据仓库,32-小站信息资源数据库,33-共享信息镜像数据仓库,34-小站 WEB/WAP服务,35-小站后台管理,36-小站信息资源重组程序,37-小站信息检索服务程序,38-小站信息浏览服务,39-小站信息上载服务,40-小站用户定制服务,41-小站管理员,42-小站服 务终端浏览器,43-小站服务最终用户。连接关系为小站服务运行服务器(30)中包含小站 信息资源数据库(32)、共享信息镜像数据仓库(33)、小站WEB/WAP服务(34)模块,而小 站服务运行服务器(30)又包含了小站后台管理(35)、小站信息资源重组程序(36)、小站 信息检索服务程序(37)、小站信息浏览服务(38)、小站信息上载服务(39)、小站用户定制 服务(40)模块。在这种包含关系中,被包含的模块之间不区分顺序。共享信息主数据仓库 (31)为共享信息镜像数据仓库(33)直接提供数据,后者与小站信息资源数据库(32)共 同为小站WEB/WAP服务(34)的信息检索服务程序(37)和信息浏览服务(38)提供数据, 以便让小站WEB或WAP服务(34)提供数据服务至终端浏览器(42),从而为最终用户(43) 提供数据,同时也作用于小站信息资源数据库(32);同时,小站WEB或WAP服务(34)中的 小站后台管理(35)模块又为管理员(41)提供服务,也作用于小站信息资源数据库(32)。 使用方法步骤为第一步共享信息主数据仓库(31)将数据定时同步至共享信息镜像数据仓库(33);第二步小站服务运行服务器(30)启动WEB或WAP服务(34),包含小站后台管理(35)、 小站信息资源重组程序(36)、小站信息检索服务程序(37)、小站信息浏览服务(38)、小站 信息上载服务(39)、小站用户定制服务(40)模块;第三步小站管理员(41)通过后台管理(35)服务,作用于小站信息资源数据库(32);第四步小站信息资源重组程序(36)和信息检索服务程序(37)分别读取小站信息资 源数据库(32)和共享信息镜像数据仓库(33),为用户提供信息共享服务;第五步小站服务最终用户(43)通过终端浏览器(42)使用小站WEB或WAP服务(34), 获取所需的共享信息,同时也同样作用于小站信息资源数据库(32);第六步重复反馈执行第三、四、五步,同时也不定时重复执行第一步。 方式三基于超级用户终端参阅附图4,图4是基于超级用户终端发布的原理结构示意图。其中,44-共享信息主数 据仓库,45-共享信息镜像数据仓库,46-超级终端运行服务器,47-超级终端自身WEB服务,48-超级用户个人配置,49-超级终端自身服务信息资源重组程序,50-超级终端自身服务信息检索 服务程序,51-超级终端自身服务信息浏览服务,52-超级用户定制服务,53-超级用户。连接关 系为超级终端运行服务器(46)中包含共享信息镜像数据仓库(45)、超级终端运行服务器
(46)、超级终端自身WEB服务(47)模块,而超级终端自身WEB服务(47)又包含了超级用 户个人配置(48)、超级终端自身服务信息资源重组程序(49)、超级终端自身服务信息检索 服务程序(50)、超级终端自身服务信息浏览服务(51)、超级用户定制服务(52)模块。在 这种包含关系中,被包含的模块之间不区分顺序。共享信息主数据仓库(44)为共享信息镜 像数据仓库(45)直接提供数据,后者为超级终端自身WEB服务(47)的信息检索服务程序
(49)和信息浏览服务(50)提供数据,以为超级用户(53)提供数据服务。 使用方法步骤为
第一步共享信息主数据仓库(44)将数据定时同步至共享信息镜像数据仓库(45);
第二步超级终端运行服务器(46)启动自身WEB服务(47),包含超级用户个人配置(48)、 超级终端自身服务信息资源重组程序(49)、超级终端自身服务信息检索服务程序(50)、超 级终端自身服务信息浏览服务(51)、超级用户定制服务(52)模块;
第三步信息检索服务程序(49)和信息浏览服务(50)读取共享信息镜像数据仓库(45), 为超级用户(53)提供信息共享服务;
第四步不定时重复执行第一步或第三步。
由上文可见,本发明所提出的这种新的网络信息共享的共享方法、体系结构及其服务模 式,能够将互联网上的共享信息自由移植并同步至其它通信系统(如计算机局域网、手机蜂 窝无线通信系统等),为终端用户提供一跳获取的便捷、实时信息服务。系统经实验验证,取 得了良好的效果。根据本发明所述的网络信息共享的共享方法、体系结构及其服务模式,命
名为4ANet (英文字母不区分大小写)。


图1是非对称网络信息共享原理结构示意图。 图2是主服务器直接发布的原理结构示意图。 图3是基于信息小站发布的原理结构示意图。 图4是基于超级用户终端发布的原理结构示意图。以上各图中的箭头表示信息数据流向。图5是本发明流程图。图6是本发明共享信息获取方法流程图。图7是本发明共享信息解析方法流程图。图8是本发明共享信息同步及发布方法主服务器直接发布流程图。 图9是本发明共享信息同步及发布方法基于信息小站发布流程图。图io是本发明共享信息同步及发布方法基于超级用户终端发布流程图。图11是一种可移植的网络信息共享结构逻辑结构示意图。
具体实施方式
下面结合附图和具体实施例介绍本发明。图5是本发明流程图。本发明包括步骤(1)共享信息获取方法;(2)共享信息解析方 法;(3)共享信息同步及发布方法。图6是本发明共享信息获取方法流程图。该方法包括步骤1)设定信息来源;2)设置 基本参数;3)网页获取预处理;4)网页获取过程。图7是本发明共享信息解析方法流程图。该方法包括步骤1)获取"共享信息获取服务 器"上的数据;2)获取数据仓库存储规则及系统管理员设置的解析规则;3)分析源网页站 点类型;4)执行解析规则并存储结果;5)解析结果后期处理;6)解析结果界面显示。图8是本发明共享信息同步及发布方法主服务器直接发布流程图。该方法包括步骤(1) 信息收集程序输出原始信息资源库;(2)网页解析程序输出己解析的信息资源数据库;(3)主服务器启动WEB或WAP服务;(4)管理员通过后台管理服务,作用于用户与管理信息资源 数据库;(5)主服务信息资源重组程序和信息检索服务程序分别读取已解析的信息资源数据 库和用户与管理信息资源数据库;(6)最终用户通过终端浏览器使用主服务器的WEB或WAP 服务,获取所需的共享信息,同时也同样作用于用户与管理信息资源数据库;及(7)重复反 馈执行步骤(4)、 (5)、 (6),同时也随时重复执行步骤(1)、 (2)。图9是本发明共享信息同步及发布方法基于信息小站发布流程图。该方法包括步骤(1)共享信息主数据仓库将数据定时同步至共享信息镜像数据仓库;(2)小站服务运行服务器启动WEB或WAP服务;(3)小站管理员通过后台管理服务,作用于小站信息资源数据库;(4)小站信息资源重组程序和信息检索服务程序分别读取小站信息资源数据库和共享信息镜像数据 仓库,为用户提供信息共享服务;(5)小站服务最终用户通过终端浏览器使用小站WEB或WAP 服务,获取所需的共享信息,同时也同样作用于小站信息资源数据库;及(6)重复反馈执行 步骤(3)、 (4)、 (5),同时也随时重复执行步骤(1)。
图IO是本发明共享信息同步及发布方法基于超级用户终端发布流程图。该方法包括步 骤(1)共享信息主数据仓库将数据定时同步至共享信息镜像数据仓库;(2)超级终端运行 服务器启动自身WEB服务;(3)信息检索服务程序和信息浏览服务读取共享信息镜像数据仓 库,提供信息共享服务;及(4)重复执行步骤(1)或步骤(3)。
图11是一种可移植的网络信息共享结构逻辑结构示意图。 一种网络共享信息共享结构, 该结构包括原始内容服务器、共享信息获取服务器、共享信息解析服务器、共享信息镜像服 务器。"共享信息获取服务器"通过"共享信息获取方法"从"原始内容服务器"有选择性地 获取信息。"共享信息解析服务器"从"共享信息获取服务器"获取信息后,通过"共享信息 解析方法"将它们进行解析后按特定格式规范进行存储。"共享信息镜像服务器"从"共享信 息解析服务器"通过"共享信息同步方法"获取共享信息;同时,将此共享信息加上地域性 的附加信息,为终端用户提供服务。
实施例1:
可移植的网络信息共享方法,该方法包括 (1)共享信息获取(A)
1) 设定信息来源
设定信息来源为来自聚合频道(RSS)
对于新浪、搜狐等内容丰富的综合性门户网站,若按照传统的爬虫(SPIDER)算法爬取 该网站的内容,则有很多资源(时间、程序运行开销)会浪费在大量"无用"的网页上—— 这里所说的"无用",是指索引页(index.html)等没有详细正文部分内容的网页。目前这种 综合性的门户网站基本上都提供了 RSS内容输出,所以可使用RSS获取的方法来完成对此类 网站信息的获取。
2) 设置基本参数
将该网站RSS聚合频道首页设为爬虫爬行的基地址。
3) 网页获取预处理为了提高信息获取的速度,采用多线程方式,每个线程从队列中取出一个链接进行处理。 为了更加快速、有效的对网页进行扫描,可利用"正则表达式"实现链接信息的提取。例如 在一篇新闻报道的网页中,在其正文部分往往会有与该新闻相关的图片信息,但就网页整体 而言, 一般还会有其它与新闻内容无关的图片内容(如网站的logo图片,其它热点新闻、相 关内容的图片,图片广告等),这些内容对于我们的信息获取来说都属于干扰因素。因此对于 某一特定网站,通过分析其新闻网页的设计格式,可以归纳出用于匹配正文部分的正则表达 式,在提取该网页中的链接信息之前,先用该正则表达式匹配出网页的正文部分,然后再提 取其中的链接信息,这样基本可以保证下载下来的图片信息是与内容相关的,有效的减少了 处理链接的数目,提高了所获取内容的"纯净度"。为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地 址记录在数据库中。这样,在每次从队列里得到一个新的链接地址时,需要首先查询该地址 是否已被记录在数据库中,如果已有记录则不再处理此链接,避免不必要的开销。4)网页获取过程启用内置的RSS阅读器,该阅读器会根据1中的设置加载对应网站的RSS频道列表。与 普通的RSS阅读器类似,通过更新频道列表可以得到各频道提供的内容输出(xml文件)。不 同之处在于> 在得到了符合RSS规范的XML文件之后,需要进行一次简单的解析,即将其中 指示网页来源的链接信息(link元素)提取出来并保存。在更新完所有的RSS频道之后,我们就得到了一个包含若干网页链接地址的队列 (queue),并且可以肯定的是,这些网页基本上就是我们需要的有"实质"内容的网页。之 后利用网页爬虫程序中的部分算法,依次处理该队列中的链接信息,获取该链接指向的网页 内容,保存至本地。(2)共享信息解析(B)1) 获取"共享信息获取服务器"上的数据网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中 读取后者自动获取后储存的网页文件。2) 获取数据仓库存储规则及系统管理员设置的解析规则由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取 时间;根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得 到用于实际解析的算法。3) 分析源网页站点类型 由源站点名称分析源网页站点类型。4) 执行解析规则并存储结果针对常见的、较少数的网站,使用人工逐个编辑相应站点的正则匹配表达式来生成实际 用于解析的算法。此正则匹配表达式包含预处理表达式、主内容匹配表达式、格式化数据结 构表达式、后期处理表达式等子表达式。5) 解析结果后期处理对上一步得到的结果,将其中的内容数据按照中文规则进行分词处理,并对结果进行实、 虚词划分等进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键 字(词)并按重要性排序。根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目 标网页所属的分类名称及其代码。6) 解析结果界面显示对于"单页面模式",将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮 标出;对于"多页面模式",则遍历网页数据的存储目录,对未解析过的网页重复进行上述解 析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务 器前端发布程序(如网站)的实时更新。 (3)共享信息同步及发布(C)第一步信息收集程序(13)获取信息源站点列表配置(15),输出原始信息资源库(16);第二步网页解析程序(14)读取原始信息资源库(16)以及解析规则配置(17),输出巳解析的信息资源数据库(19);第三步主服务器(12)启动WEB或WAP服务(20),包含后台管理(21)、信息资源重 组程序(22)、信息检索服务程序(23)、信息浏览服务(24)、信息上载服务(25)、用户定 制服务(26)模块;第四步管理员(27)通过后台管理(21)服务,作用于用户与管理信息资源数据库(18); 第五步主服务信息资源重组程序(22)和信息检索服务程序(23)分别读取已解析的信息资源数据库(19)和用户与管理信息资源数据库(18),为用户提供信息共享服务;
第六步最终用户(29)通过终端浏览器(28)使用主服务器的WEB或WAP服务(20), 获取所需的共享信息,同时也同样作用于用户与管理信息资源数据库(18)。
实施例2:
可移植的网络信息共享方法,该方法包括 (1)共享信息获取(A)
1) 设定信息来源
设定信息来源为来自聚合频道(RSS)
对于新浪、搜狐等内容丰富的综合性门户网站,若按照传统的爬虫(SPIDER)算法爬取 该网站的内容,则有很多资源(时间、程序运行开销)会浪费在大量"无用"的网页上—— 这里所说的"无用",是指索引页(index.html)等没有详细正文部分内容的网页。目前这种 综合性的门户网站基本上都提供了 RSS内容输出,所以可使用RSS获取的方法来完成对此类 网站信息的获取。
2) 设置基本参数
将该网站RSS聚合频道首页设为爬虫爬行的基地址。
3) 网页获取预处理
为了提高信息获取的速度,采用多线程方式,每个线程从队列中取出一个链接进行处理。 为了更加快速、有效的对网页进行扫描,可利用"正则表达式"实现链接信息的提取。例如 在一篇新闻报道的网页中,在其正文部分往往会有与该新闻相关的图片信息,但就网页整体 而言, 一般还会有其它与新闻内容无关的图片内容(如网站的logo图片,其它热点新闻、相 关内容的图片,图片广告等),这些内容对于我们的信息获取来说都属于干扰因素。因此对于 某一特定网站,通过分析其新闻网页的设计格式,可以归纳出用于匹配正文部分的正则表达 式,在提取该网页中的链接信息之前,先用该正则表达式匹配出网页的正文部分,然后再提 取其中的链接信息,这样基本可以保证下载下来的图片信息是与内容相关的,有效的减少了 处理链接的数目,提高了所获取内容的"纯净度"。
为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地 址记录在数据库中。这样,在每次从队列里得到一个新的链接地址时,需要首先査询该地址是否己被记录在数据库中,如果已有记录则不再处理此链接,避免不必要的开销。 4)网页获取过程启用内置的RSS阅读器,该阅读器会根据1中的设置加载对应网站的RSS频道列表。与 普通的RSS阅读器类似,通过更新频道列表可以得到各频道提供的内容输出(xml文件)。不 同之处在于,在得到了符合RSS规范的XML文件之后,需要进行一次简单的解析,即将其中 指示网页来源的链接信息(link元素)提取出来并保存。在更新完所有的RSS频道之后,我们就得到了一个包含若干网页链接地址的队列 (queue),并且可以肯定的是,这些网页基本上就是我们需要的有"实质"内容的网页。之 后利用网页爬虫程序中的部分算法,依次处理该队列中的链接信息,获取该链接指向的网页 内容,保存至本地。(2)共享信息解析(A)1) 获取"共享信息获取服务器"上的数据网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中 读取后者自动获取后储存的网页文件。2) 获取数据仓库存储规则及系统管理员设置的解析规则由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取 时间;根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得 到用于实际解析的算法。3) 分析源网页站点类型 由源站点名称分析源网页站点类型。4) 执行解析规则并存储结果针对常见的、较少数的网站,使用人工逐个编辑相应站点的正则匹配表达式来生成实际 用于解析的算法。此正则匹配表达式包含预处理表达式、主内容匹配表达式、格式化数据结 构表达式、后期处理表达式等子表达式。5) 解析结果后期处理对上一步得到的结果,将其中的内容数据按照中文规则进行分词处理,并对结果进行实、 虚词划分等进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键字(词)并按重要性排序。
根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目 标网页所属的分类名称及其代码。
6)解析结果界面显示
对于"单页面模式",将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮 标出;对于"多页面模式",则遍历网页数据的存储目录,对未解析过的网页重复进行上述解 析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务 器前端发布程序(如网站)的实时更新。
(3)共享信息同步及发布(B)
第一步共享信息主数据仓库(31)将数据定时同步至共享信息镜像数据仓库(33);
第二步小站服务运行服务器(30)启动WEB或WAP服务(34),包含小站后台管理(35)、 小站信息资源重组程序(36)、小站信息检索服务程序(37)、小站信息浏览服务(38)、小站 信息上载服务(39)、小站用户定制服务(40)模块;
第三步小站管理员(41)通过后台管理(35)服务,作用于小站信息资源数据库(32);
第四步小站信息资源重组程序(36)和信息检索服务程序(37)分别读取小站信息资 源数据库(32)和共享信息镜像数据仓库(33),为用户提供信息共享服务;
第五步小站服务最终用户(43)通过终端浏览器(42)使用小站WEB或WAP服务(34), 获取所需的共享信息,同时也同样作用于小站信息资源数据库。
实施例3:
可移植的网络信息共享方法,该方法包括
(l)共享信息获取(A)
l)设定信息来源
设定信息来源为来自聚合频道(RSS)
对于新浪、搜狐等内容丰富的综合性门户网站,若按照传统的爬虫(SPIDER)算法爬取 该网站的内容,则有很多资源(时间、程序运行开销)会浪费在大量"无用"的网页上—— 这里所说的"无用",是指索引页(index.html)等没有详细正文部分内容的网页。目前这种 综合性的门户网站基本上都提供了 RSS内容输出,所以可使用RSS获取的方法来完成对此类网站信息的获取。2) 设置基本参数将该网站RSS聚合频道首页设为爬虫爬行的基地址。3) 网页获取预处理为了提高信息获取的速度,釆用多线程方式,每个线程从队列中取出一个链接进行处理。 为了更加快速、有效的对网页进行扫描,可利用"正则表达式"实现链接信息的提取。例如 在一篇新闻报道的网页中,在其正文部分往往会有与该新闻相关的图片信息,但就网页整体而言, 一般还会有其它与新闻内容无关的图片内容(如网站的logo图片,其它热点新闻、相 关内容的图片,图片广告等),这些内容对于我们的信息获取来说都属于干扰因素。因此对于 某一特定网站,通过分析其新闻网页的设计格式,可以归纳出用于匹配正文部分的正则表达 式,在提取该网页中的链接信息之前,先用该正则表达式匹配出网页的正文部分,然后再提 取其中的链接信息,这样基本可以保证下载下来的图片信息是与内容相关的,有效的减少了 处理链接的数目,提高了所获取内容的"纯净度"。为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地 址记录在数据库中。这样,在每次从队列里得到一个新的链接地址时,需要首先査询该地址 是否已被记录在数据库中,如果已有记录则不再处理此链接,避免不必要的开销。4) 网页获取过程启用内置的RSS阅读器,该阅读器会根据1中的设置加载对应网站的RSS频道列表。与 普通的RSS阅读器类似,通过更新频道列表可以得到各频道提供的内容输出(xml文件)。不 同之处在于,在得到了符合RSS规范的XML文件之后,需要进行一次简单的解析,即将其中 指示网页来源的链接信息(link元素)提取出来并保存。在更新完所有的RSS频道之后,我们就得到了一个包含若干网页链接地址的队列 (queue),并且可以肯定的是,这些网页基本上就是我们需要的有"实质"内容的网页。之 后利用网页爬虫程序中的部分算法,依次处理该队列中的链接信息,获取该链接指向的网页 内容,保存至本地。(2)共享信息解析(A)l)获取"共享信息获取服务器"上的数据网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中读取后者自动获取后储存的网页文件。
2) 获取数据仓库存储规则及系统管理员设置的解析规则
由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取 时间;
根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得 到用于实际解析的算法。
3) 分析源网页站点类型 由源站点名称分析源网页站点类型。
4) 执行解析规则并存储结果
针对常见的、较少数的网站,使用人工逐个编辑相应站点的正则匹配表达式来生成实际 用于解析的算法。此正则匹配表达式包含预处理表达式、主内容匹配表达式、格式化数据结 构表达式、后期处理表达式等子表达式。
5) 解析结果后期处理
对上一步得到的结果,将其中的内容数据按照中文规则进行分词处理,并对结果进行实、 虚词划分等进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键 字(词)并按重要性排序。
根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目 标网页所属的分类名称及其代码。
6) 解析结果界面显示
对于"单页面模式",将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮 标出;对于"多页面模式",则遍历网页数据的存储目录,对未解析过的网页重复进行上述解 析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务 器前端发布程序(如网站)的实时更新。
(3)共享信息同步及发布(C)
第一步共享信息主数据仓库(44)将数据定时同步至共享信息镜像数据仓库(45);
第二步超级终端运行服务器(46)启动自身WEB服务(47),包含超级用户个人配置(48)、 超级终端自身服务信息资源重组程序(49)、超级终端自身服务信息检索服务程序(50)、超 级终端自身服务信息浏览服务(51)、超级用户定制服务(52)模块;第三步信息检索服务程序(49)和信息浏览服务(50)读取共享信息镜像数据仓库(45), 为超级用户(53)提供信息共享服务。实施例4:可移植的网络信息共享方法,该方法包括 (1)共享信息获取(A)1) 设定信息来源设定信息来源为来自聚合频道(RSS)对于新浪、搜狐等内容丰富的综合性门户网站,若按照传统的爬虫(SPIDER)算法爬取 该网站的内容,则有很多资源(时间、程序运行开销)会浪费在大量"无用"的网页上—— 这里所说的"无用",是指索引页(index.html)等没有详细正文部分内容的网页。目前这种 综合性的门户网站基本上都提供了 RSS内容输出,所以可使用RSS获取的方法来完成对此类 网站信息的获取。2) 设置基本参数将该网站RSS聚合频迨首页设为爬虫爬行的基地址。3) 网页获取预处理为了提高信息获取的速度,采用多线程方式,每个线程从队列中取出一个链接进行处理。 为了更加快速、有效的对网页进行扫描,可利用"正则表达式"实现链接信息的提取。例如 在一篇新闻报道的网页中,在其正文部分往往会有与该新闻相关的图片信息,但就网页整体 而言, 一般还会有其它与新闻内容无关的图片内容(如网站的logo图片,其它热点新闻、相 关内容的图片,图片广告等),这些内容对于我们的信息获取来说都属于干扰因素。因此对于 某一特定网站,通过分析其新闻网页的设计格式,可以归纳出用于匹配正文部分的正则表达 式,在提取该网页中的链接信息之前,先用该正则表达式匹配出网页的正文部分,然后再提 取其中的链接信息,这样基本可以保证下载下来的图片信息是与内容相关的,有效的减少了 处理链接的数目,提高了所获取内容的"纯净度"。为了避免对网页内容的重复获取,对于那些巳经保存在本地的网页资源,都将其链接地 址记录在数据库中。这样,在每次从队列里得到一个新的链接地址时,需要首先查询该地址 是否已被记录在数据库中,如果己有记录则不再处理此链接,避免不必要的开销。4)网页获取过程
启用内置的RSS阅读器,该阅读器会根据1中的设置加载对应网站的RSS频道列表。与 普通的RSS阅读器类似,通过更新频道列表可以得到各频道提供的内容输出(xml文件)。不 同之处在于,在得到了符合RSS规范的XML文件之后,需要进行一次简单的解析,即将其中 指示网页来源的链接信息(link元素)提取出来并保存。
在更新完所有的RSS频道之后,我们就得到了一个包含若干网页链接地址的队列 (queue),并且可以肯定的是,这些网页基本上就是我们需要的有"实质"内容的网页。之 后利用网页爬虫程序中的部分算法,依次处理该队列中的链接信息,获取该链接指向的网页 内容,保存至本地。
(2)共享信息解析(B)
1) 获取"共享信息获取服务器"上的数据
网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中 读取后者自动获取后储存的网页文件。
2) 获取数据仓库存储规则及系统管理员设置的解析规则
由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取 时间;
根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得 到用于实际解析的算法。
3) 分析源网页站点类型 由源站点名称分析源网页站点类型。
4) 执行解析规则并存储结果 步骤为-
第一步将原有的网页的HTML格式强制转化为更为规范的XML格式; 第二步对XML文件进行预处理,除去〈scrip〉、 〈style〉等元素; 第三步通过网页属性读取此网页的标题,并进行分词;
第四步遍历XML文件,添加必要的元素属性,记录超链接元素,同时选择可能属于网 页正文的结点,记录该结点路径;
第五步统计候选正文结点路径,选择出现次数最多的路径作为最终正文结点路径;第六步根据正文结点路径选择正文部分; 第七步对已获取的正文部分进行分词,统计词频;第八步根据管理员的设置,进行正文的局部词频加权,产生此网页的关键词。4) 解析结果后期处理对上一步得到的结果,将其中的内容数据按照中文规则进行分词处理,并对结果进行实、 虚词划分等进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键 字(词)并按重要性排序。根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目 标网页所属的分类名称及其代码。5) 解析结果界面显示对于"单页面模式",将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮标出;对于"多页面模式",则遍历网页数据的存储目录,对未解析过的网页重复进行上述解 析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务 器前端发布程序(如网站)的实时更新。 (3)共享信息同步及发布(A)第一步信息收集程序(13)获取信息源站点列表配置(15),输出原始信息资源库(16);第二步网页解析程序(14)读取原始信息资源库(16)以及解析规则配置(17),输出 已解析的信息资源数据库(19);第三步主服务器(12)启动WEB或WAP服务(20),包含后台管理(21)、信息资源重 组程序(22)、信息检索服务程序(23)、信息浏览服务(24)、信息上载服务(25)、用户定 制服务(26)模块;第四步管理员(27)通过后台管理(21)服务,作用于用户与管理信息资源数据库(18);第五步主服务信息资源重组程序(22)和信息检索服务程序(23)分别读取已解析的 信息资源数据库(19)和用户与管理信息资源数据库(18),为用户提供信息共享服务;第六步最终用户(29)通过终端浏览器(28)使用主服务器的WEB或WAP服务(20), 获取所需的共享信息,同时也同样作用于用户与管理信息资源数据库(18)。实施例5:可移植的网络信息共享方法,该方法包括 (1)共享信息获取(A)1) 设定信息来源设定信息来源为来自聚合频道(RSS)对于新浪、搜狐等内容丰富的综合性门户网站,若按照传统的爬虫(SPIDER)算法爬取 该网站的内容,则有很多资源(时间、程序运行开销)会浪费在大量"无用"的网页上—— 这里所说的"无用",是指索引页(index.html)等没有详细正文部分内容的网页。目前这种 综合性的门户网站基本上都提供了 RSS内容输出,所以可使用RSS获取的方法来完成对此类 网站信息的获取。2) 设置基本参数将该网站RSS聚合频道首页设为爬虫爬行的基地址。3) 网页获取预处理为了提高信息获取的速度,采用多线程方式,每个线程从队列中取出一个链接进行处理。 为了更加快速、有效的对网页进行扫描,可利用"正则表达式"实现链接信息的提取。例如 在一篇新闻报道的网页中,在其正文部分往往会有与该新闻相关的图片信息,但就网页整体 而言, 一般还会有其它与新闻内容无关的图片内容(如网站的logo图片,其它热点新闻、相 关内容的图片,图片广告等),这些内容对于我们的信息获取来说都属于干扰因素。因此对于 某一特定网站,通过分析其新闻网页的设计格式,可以归纳出用于匹配正文部分的正则表达 式,在提取该网页中的链接信息之前,先用该正则表达式匹配出网页的正文部分,然后再提 取其中的链接信息,这样基本可以保证下载下来的图片信息是与内容相关的,有效的减少了 处理链接的数目,提高了所获取内容的"纯净度"。为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地 址记录在数据库中。这样,在每次从队列里得到一个新的链接地址时,需要首先査询该地址 是否己被记录在数据库中,如果已有记录则不再处理此链接,避免不必要的开销。4) 网页获取过程启用内置的RSS阅读器,该阅读器会根据1中的设置加载对应网站的RSS频道列表。与 普通的RSS阅读器类似,通过更新频道列表可以得到各频道提供的内容输出(xml文件)。不 同之处在于,在得到了符合RSS规范的XML文件之后,需要进行一次简单的解析,即将其中指示网页来源的链接信息(link元素)提取出来并保存。
在更新完所有的RSS频道之后,我们就得到了一个包含若干网页链接地址的队列 (queue),并且可以肯定的是,这些网页基本上就是我们需要的有"实质"内容的网页。之 后利用网页爬虫程序中的部分算法,依次处理该队列中的链接信息,获取该链接指向的网页 内容,保存至本地。
(2)共享信息解析(B)
1) 获取"共享信息获取服务器"上的数据
网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中 读取后者自动获取后储存的网页文件。
2) 获取数据仓库存储规则及系统管理员设置的解析规则
由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取 时间;
根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得 到用于实际解析的算法。
3) 分析源网页站点类型 由源站点名称分析源网页站点类型。
4) 执行解析规则并存储结果 步骤为
第一步将原有的网页的HTML格式强制转化为更为规范的XML格式; 第二步对XML文件进行预处理,除去〈scrip〉、 〈style〉等元素;
第三步通过网页属性读取此网页的标题,并进行分词;
第四步遍历XML文件,添加必要的元素属性,记录超链接元素,同时选择可能属于网 页正文的结点,记录该结点路径;
第五步统计候选正文结点路径,选择出现次数最多的路径作为最终正文结点路径; 第六步根据正文结点路径选择正文部分; 第七步对已获取的正文部分进行分词,统计词频;
第八步根据管理员的设置,进行正文的局部词频加权,产生此网页的关键词。
5) 解析结果后期处理对上一步得到的结果,将其中的内容数据按照中文规则进行分词处理,并对结果进行实、 虚词划分等进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键
字(词)并按重要性排序。
根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目 标网页所属的分类名称及其代码。
6)解析结果界面显示
对于"单页面模式",将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮 标出;对于"多页面模式",则遍历网页数据的存储目录,对未解析过的网页重复进行上述解 析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务 器前端发布程序(如网站)的实时更新。 (3)共享信息同步及发布(b)
第一步共享信息主数据仓库(31)将数据定时同步至共享信息镜像数据仓库(33);
第二步小站服务运行服务器(30)启动web或wap服务(34),包含小站后台管理(35)、 小站信息资源重组程序(36)、小站信息检索服务程序(37)、小站信息浏览服务(38)、小站 信息上载服务(39)、小站用户定制服务(40)模块;
第三步小站管理员(41)通过后台管理(35)服务,作用于小站信息资源数据库(32);
第四步小站信息资源重组程序(36)和信息检索服务程序(37)分别读取小站信息资 源数据库(32)和共享信息镜像数据仓库(33),为用户提供信息共享服务;
第五步小站服务最终用户(43)通过终端浏览器(42)使用小站web或wap服务(34), 获取所需的共享信息,同时也同样作用于小站信息资源数据库。
实施例6:
可移植的网络信息共享方法,该方法包括
(1)共享信息获取(a)
1)设定信息来源
设定信息来源为来自聚合频道(rss)
对于新浪、搜狐等内容丰富的综合性门户网站,若按照传统的爬虫(spider)算法爬取 该网站的内容,则有很多资源(时间、程序运行开销)会浪费在大量"无用"的网页上——这里所说的"无用",是指索引页(index.html)等没有详细正文部分内容的网页。目前这种 综合性的门户网站基本上都提供了 RSS内容输出,所以可使用RSS获取的方法来完成对此类 网站信息的获取。
2) 设置基本参数
将该网站RSS聚合频道首页设为爬虫爬行的基地址。
3) 网页获取预处理
为了提高信息获取的速度,采用多线程方式,每个线程从队列中取出一个链接进行处理。 为了更加快速、有效的对网页进行扫描,可利用"正则表达式"实现链接信息的提取。例如 在一篇新闻报道的网页中,在其正文部分往往会有与该新闻相关的图片信息,但就网页整体 而言, 一般还会有其它与新闻内容无关的图片内容(如网站的logo图片,其它热点新闻、相 关内容的图片,图片广告等),这些内容对于我们的信息获取来说都属于干扰因素。因此对于 某一特定网站,通过分析其新闻网页的设计格式,可以归纳出用于匹配正文部分的正则表达 式,在提取该网页中的链接信息之前,先用该正则表达式匹配出网页的正文部分,然后再提 取其中的链接信息,这样基本可以保证下载下来的图片信息是与内容相关的,有效的减少了 处理链接的数目,提高了所获取内容的"纯净度"。
为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地 址记录在数据库中。这样,在每次从队列里得到一个新的链接地址时,需要首先査询该地址 是否已被记录在数据库中,如果已有记录则不再处理此链接,避免不必要的开销。
4) 网页获取过程
启用内置的RSS阅读器,该阅读器会根据1中的设置加载对应网站的RSS频道列表。与 普通的RSS阅读器类似,通过更新频道列表可以得到各频道提供的内容输出(xml文件)。不 同之处在于,在得到了符合RSS规范的XML文件之后,需要进行一次简单的解析,即将其中 指示网页来源的链接信息(link元素)提取出来并保存。
在更新完所有的RSS频道之后,我们就得到了一个包含若干网页链接地址的队列 (queue),并且可以肯定的是,这些网页基本上就是我们需要的有"实质"内容的网页。之 后利用网页爬虫程序中的部分算法,依次处理该队列中的链接信息,获取该链接指向的网页 内容,保存至本地。
(2)共享信息解析(B)1) 获取"共享信息获取服务器"上的数据网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中 读取后者自动获取后储存的网页文件。2) 获取数据仓库存储规则及系统管理员设置的解析规则由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取 时间;根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得 到用于实际解析的算法。3) 分析源网页站点类型 由源站点名称分析源网页站点类型。4) 执行解析规则并存储结果 步骤为第一步将原有的网页的HTML格式强制转化为更为规范的XML格式; 第二步对XML文件进行预处理,除去〈scrip〉、 〈style〉等元素;第三步通过网页属性读取此网页的标题,并进行分词;第四步遍历XML文件,添加必要的元素属性,记录超链接元素,同时选择可能属于网 页正文的结点,记录该结点路径;第五步统计候选正文结点路径,选择出现次数最多的路径作为最终正文结点路径; 第六步根据正文结点路径选择正文部分; 第七步对已获取的正文部分进行分词,统计词频;第八步根据管理员的设置,进行正文的局部词频加权,产生此网页的关键词。5) 解析结果后期处理对上一步得到的结果,将其中的内容数据按照中文规则进行分词处理,并对结果进行实、 虚词划分等进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键 字(词)并按重要性排序。根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目 标网页所属的分类名称及其代码。6) 解析结果界面显示对于"单页面模式",将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮 标出;对于"多页面模式",则遍历网页数据的存储目录,对未解析过的网页重复进行上述解 析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务 器前端发布程序(如网站)的实时更新。 (3)共享信息同步及发布(C)
第一步共享信息主数据仓库(44)将数据定时同步至共享信息镜像数据仓库(45);
第二步超级终端运行服务器(46 )启动自身WEB服务(47),包含超级用户.个人配置(48)、 超级终端自身服务信息资源重组程序(49)、超级终端自身服务信息检索服务程序(50)、超 级终端自身服务信息浏览服务(51)、超级用户定制服务(52)模块;
第三步信息检索服务程序(49)和信息浏览服务(50)读取共享信息镜像数据仓库(45), 为超级用户(53)提供信息共享服务。
实施例7:
可移植的网络信息共享方法,该方法包括 (1)共享信息获取(B)
1) 设定信息来源
设定信息来源为非来自聚合频道(RSS) 将该网站的首页或特定的索引页设为爬虫爬行的基地址。
在设定的过程中,强制验证该地址的有效性,并设法获取该网站的字符编码类型,如果 不能得到,则手动设置编码类型。
2) 设置基本参数
将该网站RSS聚合频道首页设为爬虫爬行的基地址。
3) 网页获取预处理
为了提高信息获取的速度,采用多线程方式,每个线程从队列中取出一个链接进行处理。 为了更加快速、有效的对网页进行扫描,可利用"正则表达式"实现链接信息的提取。例如 在一篇新闻报道的网页中,在其正文部分往往会有与该新闻相关的图片信息,但就网页整体 而言, 一般还会有其它与新闻内容无关的图片内容(如网站的logo图片,其它热点新闻、相 关内容的图片,图片广告等),这些内容对于我们的信息获取来说都属于干扰因素。因此对于某一特定网站,通过分析其新闻网页的设计格式,可以归纳出用于匹配正文部分的正则表达 式,在提取该网页中的链接信息之前,先用该正则表达式匹配出网页的正文部分,然后再提 取其中的链接信息,这样基本可以保证下载下来的图片信息是与内容相关的,有效的减少了 处理链接的数目,提高了所获取内容的"纯净度"。为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地 址记录在数据库中。这样,在每次从队列里得到一个新的链接地址时,需要首先査询该地址 是否已被记录在数据库中,如果已有记录则不再处理此链接,避免不必要的开销。4)网页获取过程按照一般的爬虫算法进行爬取向服务器发起请求,获取基地址网页,扫描网页,将其 中的链接信息加入一个队列中。之后从队列中取出一个链接,获取该网页,扫描网页,将其中的链接信息加入队列,判 断当前网页是否是所需的(例如对于中国政府网,只有链接地址中含有"content"字符串的 网页才是所需的,并可结合2中的设置对文件类型进行进一步的过滤),如果符合条件,则将 该网页保存至本地。(2)共享信息解析(A)1) 获取"共享信息获取服务器"上的数据网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中 读取后者自动获取后储存的网页文件。2) 获取数据仓库存储规则及系统管理员设置的解析规则由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取 时间;根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得 到用于实际解析的算法。3) 分析源网页站点类型 由源站点名称分析源网页站点类型。4) 执行解析规则并存储结果针对常见的、较少数的网站,使用人工逐个编辑相应站点的正则匹配表达式来生成实际 用于解析的算法。此正则匹配表达式包含预处理表达式、主内容匹配表达式、格式化数据结构表达式、后期处理表达式等子表达式。 5)解析结果后期处理
对上一步得到的结果,将其中的内容数据按照中文规则进行分词处理,并对结果进行实、 虚词划分等进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键 字(词)并按重要性排序。
根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目 标网页所属的分类名称及其代码。
7)解析结果界面显示
对于"单页面模式",将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮 标出;对于"多页面模式",则遍历网页数据的存储目录,对未解析过的网页重复进行上述解 析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务 器前端发布程序(如网站)的实时更新。 (3)共享信息同步及发布(A)
第一步信息收集程序(13)获取信息源站点列表配置(15),输出原始信息资源库(16);
第二步网页解析程序(14)读取原始信息资源库(16)以及解析规则配置(17),输出 已解析的信息资源数据库(19);
第三步主服务器(12)启动WEB或WAP服务(20),包含后台管理(21)、信息资源重 组程序(22)、信息检索服务程序(23)、信息浏览服务(24)、信息上载服务(25)、用户定 制服务(26)模块;
第四步管理员(27)通过后台管理(21)服务,作用于用户与管理信息资源数据库(18); 第五步主服务信息资源重组程序(22)和信息检索服务程序(23)分别读取已解析的
信息资源数据库(19)和用户与管理信息资源数据库(18),为用户提供信息共享服务;
第六步最终用户(29)通过终端浏览器(28)使用主服务器的WEB或WAP服务(20), 获取所需的共享信息,同时也同样作用于用户与管理信息资源数据库(18)。
实施例8:
可移植的网络信息共享方法,该方法包括 (1)共享信息获取(B)1) 设定信息来源设定信息来源为非来自聚合频道(RSS) 将该网站的首页或特定的索引页设为爬虫爬行的基地址。在设定的过程中,强制验证该地址的有效性,并设法获取该网站的字符编码类型,如果 不能得到,则手动设置编码类型。2) 设置基本参数将该网站RSS聚合频道首页设为爬虫爬行的基地址。3) 网页获取预处理为了提高信息获取的速度,采用多线程方式,每个线程从队列中取出一个链接进行处理。 为了更加快速、有效的对网页进行扫描,可利用"正则表达式"实现链接信息的提取。例如 在一篇新闻报道的网页中,在其正文部分往往会有与该新闻相关的图片信息,但就网页整体 而言, 一般还会有其它与新闻内容无关的图片内容(如网站的logo图片,其它热点新闻、相关内容的图片,图片广告等),这些内容对于我们的信息获取来说都属于干扰因素。因此对于 某一特定网站,通过分析其新闻网页的设计格式,可以归纳出用于匹配正文部分的正则表达 式,在提取该网页中的链接信息之前,先用该正则表达式匹配出网页的正文部分,然后再提 取其中的链接信息,这样基本可以保证下载下来的图片信息是与内容相关的,有效的减少了 处理链接的数目,提高了所获取内容的"纯净度"。为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地 址记录在数据库中。这样,在每次从队列里得到一个新的链接地址时,需要首先査询该地址 是否已被记录在数据库中,如果已有记录则不再处理此链接,避免不必要的开销。4) 网页获取过程按照一般的爬虫算法进行爬取向服务器发起请求,获取基地址网页,扫描网页,将其 中的链接信息加入一个队列中。之后从队列中取出一个链接,获取该网页,扫描网页,将其中的链接信息加入队列,判 断当前网页是否是所需的(例如对于中国政府网,只有链接地址中含有"content"字符串的 网页才是所需的,并可结合2中的设置对文件类型进行进一步的过滤),如果符合条件,则将 该网页保存至本地。(2)共享信息解析(A)1) 获取"共享信息获取服务器"上的数据网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中 读取后者自动获取后储存的网页文件。2) 获取数据仓库存储规则及系统管理员设置的解析规则由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取 时间;根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得 到用于实际解析的算法。3) 分析源网页站点类型 由源站点名称分析源网页站点类型。4) 执行解析规则并存储结果针对常见的、较少数的网站,使用人工逐个编辑相应站点的正则匹配表达式来生成实际 用于解析的算法。此正则匹配表达式包含预处理表达式、主内容匹配表达式、格式化数据结 构表达式、后期处理表达式等子表达式。5) 解析结果后期处理对上一步得到的结果,将其中的内容数据按照中文规则进行分词处理,并对结果进行实、 虚词划分等进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键 字(词)并按重要性排序。根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目 标网页所属的分类名称及其代码。6) 解析结果界面显示对于"单页面模式",将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮 标出;对于"多页面模式",则遍历网页数据的存储目录,对未解析过的网页重复进行上述解 析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务 器前端发布程序(如网站)的实时更新。 (3)共享信息同步及发布(B)第一步共享信息主数据仓库(31)将数据定时同步至共享信息镜像数据仓库(33);第二步小站服务运行服务器(30)启动WEB或WAP服务(34),包含小站后台管理(35)、小站信息资源重组程序(36)、小站信息检索服务程序(37)、小站信息浏览服务(38)、小站 信息上载服务(39)、小站用户定制服务(40)模块;
第三步小站管理员(41)通过后台管理(35)服务,作用于小站信息资源数据库(32);
第四步小站信息资源重组程序(36)和信息检索服务程序(37)分别读取小站信息资 源数据库(32)和共享信息镜像数据仓库(33),为用户提供信息共享服务;
第五步小站服务最终用户(43)通过终端浏览器(42)使用小站WEB或WAP服务(34), 获取所需的共享信息,同时也同样作用于小站信息资源数据库。
实施例9:
可移植的网络信息共享方法,该方法包括
(1)共享信息获取(B)
1) 设定信息来源
设定信息来源为非来自聚合频道(RSS) 将该网站的首页或特定的索引页设为爬虫爬行的基地址。
在设定的过程中,强制验证该地址的有效性,并设法获取该网站的字符编码类型,如果 不能得到,则手动设置编码类型。
2) 设置基本参数
将该网站RSS聚合频道首页设为爬虫爬行的基地址。
3) 网页获取预处理
为了提高信息获取的速度,采用多线程方式,每个线程从队列中取出一个链接进行处理。 为了更加快速、有效的对网页进行扫描,可利用"正则表达式"实现链接信息的提取。例如 在一篇新闻报道的网页中,在其正文部分往往会有与该新闻相关的图片信息,但就网页整体 而言, 一般还会有其它与新闻内容无关的图片内容(如网站的logo图片,其它热点新闻、相 关内容的图片,图片广告等),这些内容对于我们的信息获取来说都属于干扰因素。因此对于 某一特定网站,通过分析其新闻网页的设计格式,可以归纳出用于匹配正文部分的正则表达 式,在提取该网页中的链接信息之前,先用该正则表达式匹配出网页的正文部分,然后再提 取其中的链接信息,这样基本可以保证下载下来的图片信息是与内容相关的,有效的减少了 处理链接的数目,提高了所获取内容的"纯净度"。为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地 址记录在数据库中。这样,在每次从队列里得到一个新的链接地址时,需要首先查询该地址 是否已被记录在数据库中,如果已有记录则不再处理此链接,避免不必要的开销。4)网页获取过程按照一般的爬虫算法进行爬取向服务器发起请求,获取基地址网页,扫描网页,将其 中的链接信息加入一个队列中。之后从队列中取出一个链接,获取该网页,扫描网页,将其中的链接信息加入队列,判 断当前网页是否是所需的(例如对于中国政府网,只有链接地址中含有"content"字符串的 网页才是所需的,并可结合2中的设置对文件类型进行进一步的过滤),如果符合条件,则将 该网页保存至本地。(2)共享信息解析(A)1) 获取"共享信息获取服务器"上的数据网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中 读取后者自动获取后储存的网页文件。2) 获取数据仓库存储规则及系统管理员设置的解析规则由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取 时间;根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得 到用于实际解析的算法。3) 分析源网页站点类型 由源站点名称分析源网页站点类型。4) 执行解析规则并存储结果针对常见的、较少数的网站,使用人工逐个编辑相应站点的正则匹配表达式来生成实际 用于解析的算法。此正则匹配表达式包含预处理表达式、主内容匹配表达式、格式化数据结 构表达式、后期处理表达式等子表达式。5) 解析结果后期处理对上一步得到的结果,将其中的内容数据按照中文规则进行分词处理,并对结果进行实、 虚词划分等进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键字(词)并按重要性排序。
根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目 标网页所属的分类名称及其代码。
6)解析结果界面显示
对于"单页面模式",将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮 标出;对于"多页面模式",则遍历网页数据的存储目录,对未解析过的网页重复进行上述解 析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务 器前端发布程序(如网站)的实时更新。 (3)共享信息同步及发布(C)
第一步共享信息主数据仓库(44)将数据定时同步至共享信息镜像数据仓库(45);
第二步超级终端运行服务器(46)启动自身WEB服务(47),包含超级用户个人配置(48 )、 超级终端自身服务信息资源重组程序(49)、超级终端自身服务信息检索服务程序(50)、超 级终端自身服务信息浏览服务(51)、超级用户定制服务(52)模块;
第三步信息检索服务程序(49)和信息浏览服务(50)读取共享信息镜像数据仓库(45), 为超级用户(53)提供信息共享服务。
实施例10:
可移植的网络信息共享方法,该方法包括 (1)共享信息获取(B)
1) 设定信息来源
设定信息来源为非来自聚合频道(RSS) 将该网站的首页或特定的索引页设为爬虫爬行的基地址。
在设定的过程中,强制验证该地址的有效性,并设法获取该网站的字符编码类型,如果 不能得到,则手动设置编码类型。
2) 设置基本参数
将该网站RSS聚合频道首页设为爬虫爬行的基地址。
3) 网页获取预处理
为了提高信息获取的速度,采用多线程方式,每个线程从队列中取出一个链接进行处理。为了更加快速、有效的对网页进行扫描,可利用"正则表达式"实现链接信息的提取。例如 在一篇新闻报道的网页中,在其正文部分往往会有与该新闻相关的图片信息,但就网页整体 而言, 一般还会有其它与新闻内容无关的图片内容(如网站的logo图片,其它热点新闻、相 关内容的图片,图片广告等),这些内容对于我们的信息获取来说都属于干扰因素。因此对于 某一特定网站,通过分析其新闻网页的设计格式,可以归纳出用于匹配正文部分的正则表达 式,在提取该网页中的链接信息之前,先用该正则表达式匹配出网页的正文部分,然后再提 取其中的链接信息,这样基本可以保证下载下来的图片信息是与内容相关的,有效的减少了 处理链接的数目,提高了所获取内容的"纯净度"。
为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地 址记录在数据库中。这样,在每次从队列里得到一个新的链接地址时,需要首先査询该地址 是否已被记录在数据库中,如果已有记录则不再处理此链接,避免不必要的开销。
4)网页获取过程
按照一般的爬虫算法进行爬取向服务器发起请求,获取基地址网页,扫描网页,将其 中的链接信息加入一个队列中。
之后从队列中取出一个链接,获取该网页,扫描网页,将其中的链接信息加入队列,判
断当前网页是否是所需的(例如对于中国政府网,只有链接地址中含有"content"字符串的 网页才是所需的,并可结合2中的设置对文件类型进行进一步的过滤),如果符合条件,则将 该网页保存至本地。
(2)共享信息解析(B)
1) 获取"共享信息获取服务器"上的数据
网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中 读取后者自动获取后储存的网页文件。
2) 获取数据仓库存储规则及系统管理员设置的解析规则
由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取 时间;
根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得 到用于实际解析的算法。
3) 分析源网页站点类型由源站点名称分析源网页站点类型。4) 执行解析规则并存储结果 步骤为第一步将原有的网页的HTML格式强制转化为更为规范的XML格式;第二步对XML文件进行预处理,除去〈scrip〉、 〈style〉等元素;第三步通过网页属性读取此网页的标题,并进行分词;第四步遍历XML文件,添加必要的元素属性,记录超链接元素,同时选择可能属于网 页正文的结点,记录该结点路径;第五步统计候选正文结点路径,选择出现次数最多的路径作为最终正文结点路径;第六步根据正文结点路径选择正文部分;第七步对已获取的正文部分进行分词,统计词频;第八步根据管理员的设置,进行正文的局部词频加权,产生此网页的关键词。5) 解析结果后期处理对上一步得到的结果,将其中的内容数据按照中文规则进行分词处理,并对结果进行实、 虚词划分等进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键 字(词)并按重要性排序。根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目 标网页所属的分类名称及其代码。6) 解析结果界面显示对于"单页面模式",将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮 标出;对于"多页面模式",则遍历网页数据的存储目录,对未解析过的网页重复进行上述解 析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务 器前端发布程序(如网站)的实时更新。 (3)共享信息同步及发布(A)第一步信息收集程序(13)获取信息源站点列表配置(15),输出原始信息资源库(16);第二步网页解析程序(14)读取原始信息资源库(16)以及解析规则配置(17),输出已解析的信息资源数据库(19);第三步主服务器(12)启动WEB或WAP服务(20),包含后台管理(21)、信息资源重组程序(22)、信息检索服务程序(23)、信息浏览服务(24)、信息上载服务(25)、用户定 制服务(26)模块;
第四步管理员(27)通过后台管理(21)服务,作用于用户与管理信息资源数据库(18);
第五步主服务信息资源重组程序(22)和信息检索服务程序(23)分别读取己解析的 信息资源数据库(19)和用户与管理信息资源数据库(18),为用户提供信息共享服务;
第六步最终用户(29)通过终端浏览器(28)使用主服务器的WEB或WAP服务(20), 获取所需的共享信息,同时也同样作用于用户与管理信息资源数据库(18)。
实施例11:
可移植的网络信息共享方法,该方法包括 (1)共享信息获取(B)
1) 设定信息来源
设定信息来源为非来自聚合频道(RSS) 将该网站的首页或特定的索引页设为爬虫爬行的基地址。
在设定的过程中,强制验证该地址的有效性,并设法获取该网站的字符编码类型,如果 不能得到,则手动设置编码类型。
2) 设置基本参数
将该网站RSS聚合频道首页设为爬虫爬行的基地址。
3) 网页获取预处理
为了提高信息获取的速度,采用多线程方式,每个线程从队列中取出一个链接进行处理。 为了更加快速、有效的对网页进行扫描,可利用"正则表达式"实现链接信息的提取。例如 在一篇新闻报道的网页中,在其正文部分往往会有与该新闻相关的图片信息,但就网页整体 而言, 一般还会有其它与新闻内容无关的图片内容(如网站的logo图片,其它热点新闻、相 关内容的图片,图片广告等),这些内容对于我们的信息获取来说都属于干扰因素。因此对于 某一特定网站,通过分析其新闻网页的设计格式,可以归纳出用于匹配正文部分的正则表达 式,在提取该网页中的链接信息之前,先用该正则表达式匹配出网页的正文部分,然后再提 取其中的链接信息,这样基本可以保证下载下来的图片信息是与内容相关的,有效的减少了 处理链接的数目,提高了所获取内容的"纯净度"。为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地 址记录在数据库中。这样,在每次从队列里得到一个新的链接地址时,需要首先查询该地址 是否已被记录在数据库中,如果已有记录则不再处理此链接,避免不必要的开销。4)网页获取过程按照一般的爬虫算法进行爬取向服务器发起请求,获取基地址网页,扫描网页,将其 中的链接信息加入一个队列中。之后从队列中取出一个链接,获取该网页,扫描网页,将其中的链接信息加入队列,判 断当前网页是否是所需的(例如对于中国政府网,只有链接地址中含有"content"字符串的 网页才是所需的,并可结合2中的设置对文件类型进行进一步的过滤),如果符合条件,则将 该网页保存至本地。(2)共享信息解析(B)1) 获取"共享信息获取服务器"上的数据网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中 读取后者自动获取后储存的网页文件。2) 获取数据仓库存储规则及系统管理员设置的解析规则由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取 时间;根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得 到用于实际解析的算法。3) 分析源网页站点类型由源站点名称分析源网页站点类型。4) 执行解析规则并存储结果 步骤为第一步将原有的网页的HTML格式强制转化为更为规范的XML格式; 第二步对XML文件进行预处理,除去〈scrip〉、 〈style〉等元素;第三步通过网页属性读取此网页的标题,并进行分词;第四步遍历XML文件,添加必要的元素属性,记录超链接元素,同时选择可能属于网 页正文的结点,记录该结点路径;第五步统计候选正文结点路径,选择出现次数最多的路径作为最终正文结点路径;
第六步根据正文结点路径选择正文部分;
第七步对已获取的正文部分进行分词,统计词频;
第八步根据管理员的设置,进行正文的局部词频加权,产生此网页的关键词。
5) 解析结果后期处理
对上一步得到的结果,将其中的内容数据按照中文规则进行分词处理,并对结果进行实、 虚词划分等进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键 字(词)并按重要性排序。
根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目 标网页所属的分类名称及其代码。
6) 解析结果界面显示
对于"单页面模式",将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮
标出;对于"多页面模式",则遍历网页数据的存储目录,对未解析过的网页重复进行上述解 析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务 器前端发布程序(如网站)的实时更新。 (3)共享信息同步及发布(B) 第一步共享信息主数据仓库(31)将数据定时同步至共享信息镜像数据仓库(33);
第二步小站服务运行服务器(30)启动WEB或WAP服务(34),包含小站后台管理(35)、 小站信息资源重组程序(36)、小站信息检索服务程序(37)、小站信息浏览服务(38)、小站 信息上载服务(39)、小站用户定制服务(40)模块;
第三步小站管理员(41)通过后台管理(35)服务,作用于小站信息资源数据库(32);
第四步小站信息资源重组程序(36)和信息检索服务程序(37)分别读取小站信息资 源数据库(32)和共享信息镜像数据仓库(33),为用户提供信息共享服务;
第五步小站服务最终用户(43)通过终端浏览器(42)使用小站WEB或WAP服务(34), 获取所需的共享信息,同时也同样作用于小站信息资源数据库。
实施例12:
可移植的网络信息共享方法,该方法包括:(1)共享信息获取(B)1) 设定信息来源设定信息来源为非来自聚合频道(RSS) 将该网站的首页或特定的索引页设为爬虫爬行的基地址。在设定的过程中,强制验证该地址的有效性,并设法获取该网站的字符编码类型,如果 不能得到,则手动设置编码类型。2) 设置基本参数将该网站RSS聚合频道首页设为爬虫爬行的基地址。3) 网页获取预处理为了提高信息获取的速度,采用多线程方式,每个线程从队列中取出一个链接进行处理。 为了更加快速、有效的对网页进行扫描,可利用"正则表达式"实现链接信息的提取。例如 在一篇新闻报道的网页中,在其正文部分往往会有与该新闻相关的图片信息,但就网页整体 而言, 一般还会有其它与新闻内容无关的图片内容(如网站的logo图片,其它热点新闻、相 关内容的图片,图片广告等),这些内容对于我们的信息获取来说都属于干扰因素。因此对于 某一特定网站,通过分析其新闻网页的设计格式,可以归纳出用于匹配正文部分的正则表达 式,在提取该网页中的链接信息之前,先用该正则表达式匹配出网页的正文部分,然后再提 取其中的链接信息,这样基本可以保证下载下来的图片信息是与内容相关的,有效的减少了 处理链接的数目,提高了所获取内容的"纯净度"。为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地 址记录在数据库中。这样,在每次从队列里得到一个新的链接地址时,需要首先查询该地址 是否已被记录在数据库中,如果已有记录则不再处理此链接,避免不必要的开销。4) 网页获取过程按照一般的爬虫算法进行爬取向服务器发起请求,获取基地址网页,扫描网页,将其中的链接信息加入一个队列中。之后从队列中取出一个链接,获取该网页,扫描网页,将其中的链接信息加入队列,判断当前网页是否是所需的(例如对于中国政府网,只有链接地址中含有"content"字符串的 网页才是所需的,并可结合2中的设置对文件类型进行进一步的过滤),如果符合条件,则将 该网页保存至本地。(2)共享信息解析(B)
1) 获取"共享信息获取服务器"上的数据
网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中 读取后者自动获取后储存的网页文件。
2) 获取数据仓库存储规则及系统管理员设置的解析规则
由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取 时间;
根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得 到用于实际解析的算法。
3) 分析源网页站点类型 由源站点名称分析源网页站点类型。
4) 执行解析规则并存储结果 步骤为
第一步将原有的网页的HTML格式强制转化为更为规范的XML格式; 第二步对XML文件进行预处理,除去〈scrip〉、 〈style〉等元素; 第三步通过网页属性读取此网页的标题,并进行分词;
第四步遍历XML文件,添加必要的元素属性,记录超链接元素,同时选择可能属于网 页正文的结点,记录该结点路径;
第五步统计候选正文结点路径,选择出现次数最多的路径作为最终正文结点路径;
第六步根据正文结点路径选择正文部分;
第七步对已获取的正文部分进行分词,统计词频;
第八步根据管理员的设置,进行正文的局部词频加权,产生此网页的关键词。
5) 解析结果后期处理
对上一步得到的结果,将其中的内容数据按照中文规则进行分词处理,并对结果进行实、 虚词划分等进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键 字(词)并按重要性排序。
根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目 标网页所属的分类名称及其代码。6)解析结果界面显示对于"单页面模式",将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮 标出;对于"多页面模式",则遍历网页数据的存储目录,对未解析过的网页重复进行上述解 析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务 器前端发布程序(如网站)的实时更新。 (3)共享信息同步及发布(C)第一步共享信息主数据仓库(44)将数据定时同步至共享信息镜像数据仓库(45);第二步超级终端运行服务器(46)启动自身WEB服务(47),包含超级用户个人配置(48)、 超级终端自身服务信息资源重组程序(49)、超级终端自身服务信息检索服务程序(50)、超 级终端自身服务信息浏览服务(51)、超级用户定制服务(52)模块;第三步信息检索服务程序(49 )和信息浏览服务(50 )读取共享信息镜像数据仓库(45 ), 为超级用户(53)提供信息共享服务。本发明能够将互联网上的共享信息自由移植,为终端用户提供一跳获取的便捷、实时信息 服务,取得了良好的效果。
权利要求
1、可移植的网络信息共享方法,其特征在于,该方法包括(1)共享信息获取方法;(2)共享信息解析方法;(3)共享信息同步及发布方法。
2、 根据权利要求l所述的可移植的网络信息共享方法,其特征在于,所述共享信息获取 方法为以下两种方法中的任意一种(1) 共享信息获取方法按以下步骤进行1) 设定信息来源 设定信息来源为来自聚合频道;对于内容丰富的综合性门户网站,设定信息来源为来自聚合频道,使用RSS获取的方法 来完成对此类网站信息的获取;2) 设置基本参数将该网站RSS聚合频道首页设为爬虫爬行的基地址;3) 网页获取预处理采用多线程方式,每个线程从队列中取出一个链接进行处理或利用"正则表达式"实现 链接信息的提取;为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地 址记录在数据库中,在每次从队列里得到一个新的链接地址时,需要首先查询该地址是否已 被记录在数据库中,如果已有记录则不再处理此链接;4) 网页获取过程启用内置的RSS阅读器,该阅读器会根据步骤l)中的设置加载对应网站的RSS频道列 表,得到了符合RSS规范的XML文件之后,将其中指示网页来源的链接信息提取出来并保存;在更新完所有的RSS频道之后,得到了一个包含若干网页链接地址的队列(queue),这 些网页就是需要的有"实质"内容的网页,之后利用网页爬虫程序,依次处理该队列中的链 接信息,获取该链接指向的网页内容,保存至本地;或,(2) 共享信息获取方法按以下步骤进行1)设定信息来源 设定信息来源为非来自聚合频道;将该网站的首页或特定的索引页设为爬虫爬行的基地址;在设定的过程中,强制验证该地址的有效性,并设法获取该网站的字符编码类型,如果 不能得到,则手动设置编码类型;2) 设置基本参数将该网站RSS聚合频道首页设为爬虫爬行的基地址;3) 网页获取预处理采用多线程方式,每个线程从队列中取出一个链接进行处理或利用"正则表达式"实现 链接信息的提取;为了避免对网页内容的重复获取,对于那些已经保存在本地的网页资源,都将其链接地 址记录在数据库中,在每次从队列里得到一个新的链接地址时,需要首先査询该地址是否已 被记录在数据库中,如果巳有记录则不再处理此链接;4) 网页获取过程向服务器发起请求,获取基地址网页,扫描网页,将其中的链接信息加入一个队列中;之后从队列中取出一个链接,获取该网页,扫描网页,将其中的链接信息加入队列,判 断当前网页是否是所需的,如果符合条件,则将该网页保存至本地。
3、根据权利要求l所述的可移植的网络信息共享方法,其特征在于,所述共享信息解析 方法为以下两种方法中的任意一种(1)共享信息解析方法按以下步骤进行1) 获取"共享信息获取服务器"上的数据网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中 读取后者自动获取后储存的网页文件;2) 获取数据仓库存储规则及系统管理员设置的解析规则由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取 时间;根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得 到用于实际解析的算法;3) 分析源网页站点类型 由源站点名称分析源网页站点类型;4) 执行解析规则并存储结果针对常见的、较少数的网站,使用人工逐个编辑相应站点的正则匹配表达式来生成实际 用于解析的算法,此正则匹配表达式包含预处理表达式、主内容匹配表达式、格式化数据结 构表达式、后期处理表达式;5) 解析结果后期处理将上一步得到的结果其中的内容数据按照中文规则进行分词处理,并对结果进行实、虚 词划分进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键字/ 词并按重要性排序;根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目 标网页所属的分类名称及其代码;6) 解析结果界面显示对于"单页面模式",将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮 标出;对于"多页面模式",则遍历网页数据的存储目录,对未解析过的网页重复进行上述解 析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务 器前端发布程序的实时更新;或,(2)共享信息解析方法按以下步骤进行1) 获取"共享信息获取服务器"上的数据网页解析程序与网页获取程序共同访问服务器上网页数据的存储目录,前者从该目录中 读取后者自动获取后储存的网页文件;2) 获取数据仓库存储规则及系统管理员设置的解析规则由约定好的数据仓库存储规则得到网页文件的源获取站点名称、原始URL地址以及获取 时间;根据此源站点名称,读取服务器中由系统管理员设置的网页解析规则中的相应条目,得 到用于实际解析的算法;3) 分析源网页站点类型由源站点名称分析源网页站点类型;4) 执行解析规则并存储结果 其步骤为第一步将原有的网页的HTML格式强制转化为更为规范的XML格式; 第二步对XML文件进行预处理,除去〈scrip〉、 〈style〉元素; 第三步通过网页属性读取此网页的标题,并进行分词;第四步遍历XML文件,记录超链接元素,同时选择可能属于网页正文的结点,记录该 结点路径;第五步统计候选正文结点路径,选择出现次数最多的路径作为最终正文结点路径; 第六步根据正文结点路径选择正文部分; 第七步对已获取的正文部分进行分词,统计词频;第八步根据管理员的设置,进行正文的局部词频加权,产生此网页的关键词;5) 解析结果后期处理将上一步得到的结果其中的内容数据按照中文规则进行分词处理,并对结果进行实、虚 词划分进一步处理之后,按照各词在内容中出现的位置、频率进行权重分配,生成关键字/ 词并按重要性排序;根据上一步获得的关键词,读取服务器中由系统管理员设置的网页分类规则,计算本目 标网页所属的分类名称及其代码;6) 解析结果界面显示对于"单页面模式",将以上结果显示于解析程序界面,并在当前的浏览网页中直接高亮 标出;对于"多页面模式",则遍历网页数据的存储目录,对未解析过的网页重复进行上述解 析操作,并在用户授权的条件下,将解析后的数据按既定格式逐条上传至服务器,支持服务 器前端发布程序的实时更新。
4、根据权利要求l所述的可移植的网络信息共享方法,其特征在于,所述共享信息同 步及发布方法为以下三种方法中的任意一种(1)共享信息同步及发布方法按以下步骤进行 第一步信息收集程序获取信息源站点列表配置,输出原始信息资源库; 第二步网页解析程序读取原始信息资源库以及解析规则配置,输出已解析的信息资源数据库;第三步主服务器启动WEB或WAP服务,包含后台管理、信息资源重组程序、信息检索 服务程序、信息浏览服务、信息上载服务、用户定制服务模块;第四步管理员通过后台管理服务,作用于用户与管理信息资源数据库;第五步主服务信息资源重组程序和信息检索服务程序分别读取己解析的信息资源数据 库和用户与管理信息资源数据库,为用户提供信息共享服务;第六步最终用户通过终端浏览器使用主服务器的WEB或WAP服务,获取所需的共享信 息,同时也同样作用于用户与管理信息资源数据库;或,(2) 共享信息同步及发布方法按以下步骤进行第一步共享信息主数据仓库将数据定时同步至共享信息镜像数据仓库;第二步小站服务运行服务器启动WEB或WAP服务,包含小站后台管理、小站信息资源重组程序、小站信息检索服务程序、小站信息浏览服务、小站信息上载服务、小站用户定制服务模块;第三步小站管理员通过后台管理服务,作用于小站信息资源数据库;第四步小站信息资源重组程序和信息检索服务程序分别读取小站信息资源数据库和共 享信息镜像数据仓库,为用户提供信息共享服务;第五步小站服务最终用户通过终端浏览器使用小站WEB或WAP服务,获取所需的共享 信息,同时也同样作用于小站信息资源数据库;或,(3) 共享信息同步及发布方法按以下步骤进行第一步共享信息主数据仓库将数据定时同步至共享信息镜像数据仓库;第二步超级终端运行服务器启动自身WEB服务,包含超级用户个人配置、超级终端自身服务信息资源重组程序、超级终端自身服务信息检索服务程序、超级终端自身服务信息浏览服务、超级用户定制服务模块;第三步信息检索服务程序和信息浏览服务读取共享信息镜像数据仓库,为超级用户提供信息共享服务。
5、 一种可移植的网络信息共享结构,其特征在于,该结构包括原始内容服务器、共享信息获取服务器、共享信息解析服务器、共享信息镜像服务器;"共享信息获取服务器"通过所述"共享信息获取方法"从"原始内容服务器"有选择 性地获取信息;"共享信息解析服务器"从"共享信息获取服务器"获取信息后,通过"共享信息解析 方法"将它们进行解析后按特定格式规范进行存储;"共享信息镜像服务器"从"共享信息解析服务器"通过所述"共享信息同步方法"获 取共享信息;同时,将此共享信息加上地域性的附加信息,为终端用户提供服务。
全文摘要
可移植的网络信息共享方法,属于信息共享技术领域。该方法包括共享信息获取方法;共享信息解析方法;共享信息同步及发布方法。本发明提供两种共享信息获取方法;两种共享信息解析方法和3种共享信息同步及发布方法。本发明还提供一种可移植的网络信息共享结构,该结构共享信息获取服务器通过共享信息获取方法从原始内容服务器有选择性地获取信息;将它们进行解析、按格式存储;共享信息镜像服务器从共享信息解析服务器获取共享信息为终端用户提供服务。本发明能够将互联网上的共享信息自由移植并同步至其它通信系统,为终端用户提供一跳获取的便捷、实时信息服务。方法及结构经实验验证取得良好的效果。所述方法、结构及模式被命名为4ANet。
文档编号H04L12/58GK101291304SQ20081011491
公开日2008年10月22日 申请日期2008年6月13日 优先权日2008年6月13日
发明者勇 任, 叶王毅, 蕾 徐, 磊 王, 许晨敏, 鑫 马 申请人:清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1