基于owl语义分析的定向采集系统的制作方法

文档序号:6433960阅读:181来源:国知局
专利名称:基于owl语义分析的定向采集系统的制作方法
技术领域
本发明属于计算机技术领域,尤其涉及一种基于OWL语义分析的定向采集系统。
背景技术
定向采集系统是网络蜘蛛的一种,它是网络数据获取系统的核心部分。它通过对互联网上已知信息源(即网络链接,URL: Universal Resource Locator)的不断抓取海量网页内容,获取其中所有主题相关内容。这就要求计算机能够在全互联网的范围内识别、找到相应的网页,并能够“看懂”该网页,把有关的内容提取出来。但是,目前业界绝大部分厂家主要采用传统的关键词匹配和网页内容提取的数学算法,定向采集系统的智能化水平非常有限。到目前为止,计算机只能通过HTML、XML协议读懂网络文本的格式,文本究竟代表什么意思,计算机并不知晓。对网络内容最原始,但很有效的应用工具就是关键词匹配。为了进一步分析网页内容,科学家们发明了互联网资源描述框架(Resources Description Framework,即RDF)作为XML协议描述元数据的语言。RDF可以对网页内容做一些概念化的抽象,因此为计算机识别一些特定的网络内容提供了基础。沿着同样的思路发展到今天, 网络本体语言(Ontology Web Language,即0WL)诞生了,而且成为世界互联网组织W3C的标准。OWL是一个由简单到复杂的概念描述工具,计算机可以根据OWL完成各种推理,因此, 对于用OWL写的网页,计算机是“读得懂”的,即可以对该网页的内容进行分析推理。但是,使用OWL写的网页还很少,绝大部分海量信息都是HTML或XML格式的普通网页;另外,使用OWL构造一个复杂概念体系的成本很高,可操作性很差,远没有达到普通人平常写文章那样方便的操作水平;就算有一些OWL网页了,针对这些网页的计算机推理程序还需要一个一个的开发,因而,使用OWL构造一个新的海量信息互联网几乎不可能。不过,OWL毕竟为我们提供了一个世界标准的网络本体描述工具,以此做成内容过滤“网”对普通HTML、XML或RDF文本进行分析,提取网页内容还是可能的。如何利用OWL 使得定向采集主题(关键词组)有一个更概念化和延伸的描述,针对特定的信息源使用特定的OWL “过滤网”来实现去粗取精,去伪存真、由表及里、由此及彼的推理。这是传统定向采集系统所不具备的。

发明内容
本发明为解决上述问题,提供一种更加智能的基于OWL语义分析的定向采集系统。本发明的技术方案是提供一种基于OWL语义分析的定向采集系统,其包括采集配置客户端、任务调度管理模块、定向采集执行端和采集数据管理模块,所述采集配置客户端根据用户设定输出采集主题和初始URL,并将所述初始URL保存在URL种子数据库中,其特征在于所述定向采集执行端采集所述URL种子数据库中所有URL对应的网页,并将其输出到所述任务调度管理模块和采集数据管理模块,所述任务调度管理模块对该网页进行OWL 本体实例转换后获取其中所有的与所述采集主题相关的URL,并将其保存到所述URL种子数据库中。优选的,所述任务调度管理模块对网页进行OWL本体实例转换的工作流程为
1)将所述定向采集执行端采集到的网页转换成HTML格式或XML格式的格式文本;
2)对上一步骤中提取的格式文本进行过滤处理,提取其中的正文;
3)对上一步骤中提取的正文进行分词、排歧、去重和语法标注处理;
4)根据预先设计好的OWL转换规则将上一步骤中处理后的正文转换成OWL本体实例。优选的,其还包括OWL本体策略配置模块,所述OWL本体策略配置模块负责维护所述OWL转换规则。优选的,其还包括OWL内容提取模块,所述OWL内容提取模块对所述定向采集执行端采集的网页进行OWL本体实例转换后提取其中所有的与所述采集主题相关的内容,并将其保存到采集结果数据库中。优选的,所述OWL内容提取模块的工作流程为 DOffL本体转换将所述网页转换成OWL本体实例;
2)OffL语义分析分析步骤1)得到的OWL本体实例,提取其中与所述采集主题相关的内容;
3)文件重压缩将步骤2)中提取的内容进行压缩处理并保存到所述采集结果数据库
中;
4)网页导出将步骤2)中提取的内容以网页的形式输出。优选的,所述定向采集执行端包括网页定向采集器,所述网页定向采集器根据输入的URL采集互联网网页。优选的,所述采集数据管理模块包括原始网页数据库,所述采集数据管理模块将所述定向采集执行端采集的网页保存到所述原始网页数据库中。本发明的基于OWL语义分析的定向采集系统通过将采集到的原始网页进行OWL转换,以此作为OWL推理的基础。相比传统的定向采集系统,本发明充分利用OWL的先进思想, 先去读懂网页中的内容,然后在从中提取真正需要采集的内容。其具有精度高、智能化等优
点ο


图1是本发明的基于OWL语义分析的定向采集系统的总体框架图2是任务调度管理模块对网页进行OWL本体实例转换的功能结构示意图。
具体实施例方式下面对本发明的具体实施方式
作进一步详细的描述。如图1所示,本发明的基于OWL语义分析的定向采集系统包括采集管理平台和定向采集执行端。其中采集管理平台包括采集配置客户端、OWL本体策略配置模块,任务调度管理模块、采集数据管理模块和OWL内容提取模块。任务调度管理模块中包括任务测试与分配子模块和URL种子数据库。定向采集执行端包括若干个可以并行运行的网页采集器,每个网页采集器均包括网页定向采集器、网页分析模块和链接队列池。采集数据管理模块包括网页推送、站内搜索和内容安全等子模块,以及原始网页数据库。OWL内容提取模块中包括OWL本体转换、OffL语义分析、文件重压缩和网页导出等子模块。OffL本体策略配置模块提供人机交互界面,允许用户维护OWL转换规则、OffL辞典等。OffL辞典是在汉语大辞典的基础上,通过对每个词语进行OWL标注形成的OWL词汇数据库。采集配置客户端提供人机交互界面,允许用户设定自己感兴趣的采集主题,并指定自己感兴趣的网站地址,即初始URL。任务调度管理模块根据采集主题精选URL种子队列输出给定向采集执行端,保存在链接队列池中;同时,根据定向采集执行端反馈的采集成功率调整URL种子队列的策略。 其具体的工作流程是
1)任务调度管理模块首先将初始URL保存到URL种子数据库中,然后通过读取URL种子数据库中的数据向定向采集执行端分配URL列表。2)定向采集执行端接收到URL列表后,会通过网页定向采集器依次将URL列表中的URL对应网页采集回。3)任务调度管理模块会对采集回的网页进行OWL本体实例转换工作。如图2所示,OffL本体实例转换的工作流程为
3. 1)首先要建立一个OWL辞典库,将OWL的各种定义和概念与汉语在词一级对应起来, 即选取一本汉语大辞典中各个词的词性用OWL的语义所取代,形成一个新的数据库0WL 辞典库。3. 2)将互联网网页采集到系统中,提取其中HTML格式或XML格式的格式文本信息。然后,按照最通用的分词方法进行提取正文、分词、过滤、去重、排岐、语法标注等处理, 以便于提取OWL本体信息。然后利用OWL大辞典进行OWL标注,使文本带有基本的OWL语乂 fe息。3. 3)然后将预处理过的格式文本解析为OWL本体描述的OWL本体实例。这个过程需要依靠OWL模型库和OWL转换规则库来完成格式文本向OWL本体实例的转换。OWL转换中出现问题时,OffL转换模块将向OWL转换规则维护模块和OWL建模模块提供的人机交互界面提问,与操作者互动。操作者通过修改OWL模型和OWL转换规则以帮助OWL转换模块完成OffL转换的过程。4)任务调度管理模块通过对OWL本体实例转换后得到的OWL本体实例进行分析, 将其中新的URL会被提取出来,然后会判断这些URL是否有价值,如果有就把它们加入到 URL种子数据库中。这时,URL种子数据库中就不仅仅是初始URL。然后,任务测试与分配子模块不断将URL种子数据库中的URL分配给定向采集执行端,直到URL列表中所有URL都被分配完毕。定向采集执行端中包括若干个网页定向采集器,网页定向采集器执行具体的采集任务,经过网页分析模块分析后,把与采集主题相关的网页作为采集结果输出给采集数据管理模块。采集数据管理模块对采集的网页内容做安全扫描、去重、排岐、过滤、网页推送、站内搜索、内容安全等预处理后,将原始内容存入原始网页数据库,以备OffL语义分析模块调用。同时,采集数据管理模块将被采集成功的网页URL反馈给任务调度管理模块。OffL内容提取模块从原始网页库中调取预处理过的网页进行CWL本体转换、CWL语义分析后得到OffL本体实例。OffL本体实例经过文件重压缩后,网页导出并存入采集结果数据库。采集结果数据库中的OffL本体实例与原始网页数据库中的网页一一对应,绑定输出,以便后续智能化应用调用。OWL内容提取模块的工作流程为
DOffL本体转换将所述网页转换成OWL本体实例;
2)0ffL语义分析分析步骤1)得到的OWL本体实例,提取其中与所述采集主题相关的内容;
3)文件重压缩将步骤2)中提取的内容进行压缩处理并保存到所述采集结果数据库
中;
4)网页导出将步骤2)中提取的内容以网页的形式输出。以上实施例仅为本发明其中的一种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说, 在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
权利要求
1.基于OWL语义分析的定向采集系统,其包括采集配置客户端、任务调度管理模块、定向采集执行端和采集数据管理模块,所述采集配置客户端根据用户设定输出采集主题和初始URL,并将所述初始URL保存在URL种子数据库中,其特征在于所述定向采集执行端采集所述URL种子数据库中所有URL对应的网页,并将其输出到所述任务调度管理模块和采集数据管理模块,所述任务调度管理模块对该网页进行OWL本体实例转换后获取其中所有的与所述采集主题相关的URL,并将其保存到所述URL种子数据库中。
2.根据权利要求1所述的基于OWL语义分析的定向采集系统,其特征在于所述任务调度管理模块对网页进行OWL本体实例转换的工作流程为1)将所述定向采集执行端采集到的网页转换成HTML格式或XML格式的格式文本;2)对上一步骤中提取的格式文本进行过滤处理,提取其中的正文;3)对上一步骤中提取的正文进行分词、排歧、去重和语法标注处理;4)根据预先设计好的OWL转换规则将上一步骤中处理后的正文转换成OWL本体实例。
3.根据权利要求2所述的基于OWL语义分析的定向采集系统,其特征在于其还包括 OffL本体策略配置模块,所述OWL本体策略配置模块负责维护所述OWL转换规则。
4.根据权利要求1所述的基于OWL语义分析的定向采集系统,其特征在于其还包括 OffL内容提取模块,所述OWL内容提取模块对所述定向采集执行端采集的网页进行OWL本体实例转换后提取其中所有的与所述采集主题相关的内容,并将其保存到采集结果数据库中。
5.根据权利要求4所述的基于OWL语义分析的定向采集系统,其特征在于所述OWL内容提取模块的工作流程为DOffL本体转换将所述网页转换成OWL本体实例;2)0WL语义分析分析步骤1)得到的OWL本体实例,提取其中与所述采集主题相关的内容;3)文件重压缩将步骤2)中提取的内容进行压缩处理并保存到所述采集结果数据库中;4)网页导出将步骤2)中提取的内容以网页的形式输出。
6.根据权利要求1所述的基于OWL语义分析的定向采集系统,其特征在于所述定向采集执行端包括网页定向采集器,所述网页定向采集器根据输入的URL采集互联网网页。
7.根据权利要求1所述的基于OWL语义分析的定向采集系统,其特征在于所述采集数据管理模块包括原始网页数据库,所述采集数据管理模块将所述定向采集执行端采集的网页保存到所述原始网页数据库中。
全文摘要
本发明公开了一种基于OWL语义分析的定向采集系统,其包括采集配置客户端、任务调度管理模块、定向采集执行端和采集数据管理模块,所述采集配置客户端根据用户设定输出采集主题和初始URL,并将所述初始URL保存在URL种子数据库中,其特征在于所述定向采集执行端采集所述URL种子数据库中所有URL对应的网页,并将其输出到所述任务调度管理模块,所述任务调度管理模块对该网页进行OWL本体实例转换后获取其中所有的与所述采集主题相关的URL,并将其保存到所述URL种子数据库中。相比传统的定向采集系统,本发明的基于OWL语义分析的定向采集系统充分利用OWL的先进思想,先去读懂网页中的内容,然后在从中提取真正需要采集的内容。其具有精度高、智能化等优点。
文档编号G06F17/30GK102346772SQ201110285068
公开日2012年2月8日 申请日期2011年9月23日 优先权日2011年9月23日
发明者王楠 申请人:王楠
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1