基于owl的互联网语言本体学习系统的制作方法

文档序号:6433092阅读:183来源:国知局
专利名称:基于owl的互联网语言本体学习系统的制作方法
技术领域
本发明属于计算机技术领域,具体涉及一种学习型的互联网本体语言转换系统。
背景技术
今天,互联网已经深入人类社会的每个角落,而且可以预见其将在人类文明发展进程中扮演越来越重要的角色。让计算机“读懂”互联网,使得互联网更加智能化是人类的梦想。目前,计算机对互联网信息的处理方式大致可以分为如下几类
1)对互联网信息内容和格式不做分析,即把互联网信息作为信息流(字节)进行接收、 存储、查询、发送等等。在这种情况下,互联网信息主要是一些数据,包括数字、字符串、媒体流等;计算机按照软件工程师设计好的流程执行,每一步都在一个预先设计好的已知状态集中匹对和判断当前状态,并决定下一步的执行策略。所有的执行策略都是软件工程师设计好,并事先输入给计算机的。2)对互联网信息内容做关键词匹对分析,这时计算机对互联网文本的“理解”就是该文本可能包含一些用户指定的关键词。计算机并不真懂文章内容,只是在代码级别上的比较,而把所有的理解任务交给人来处理。仅仅在这个水平上,就产生了巨大的搜索引擎产业,并造就了 Google、百度等行业巨头。3)对互联网信息内容和格式做简单的语义识别。目前,主要采用RDF协议对词与词之间的语义做简单的定义和解析。对于计算机来说,所有的词仍然只是字符串,计算机并不知道其语义,但知道某些字符串与另外一些字符串有绑定(S卩结构)关系,由此可以根据这些绑定关系做简单的推理。而对于内容的理解工作,仍然是由使用计算机的人完成的。4)试图用知识结构重新构造互联网,S卩语义互联网,主要采用W3C的互联网本体语言(Ontology of Web Language,简称0WL)建立语义网络。如果所有人都按CWL创建互联网,互联网本身就成为一个计算机可以在一定程度上“理解”的知识结构。软件工程师们将为计算机设计一系列推理规则和引擎,在OWL语义网络上让计算机自己“理解”互联网信息内容,并做出正确的判断和操作。OffL的构思代表了未来的发展方向。这是人类对赋予计算机互联网知识结构,并为创造一个计算机能够读“懂”互联网信息内容的非常重要的尝试。但是,如果采用传统的编程方法来实现这一设想,即构建完整的OffL知识结构;进而建立完善的推理规则;然后,在此推理规则基础上构造一个强大的推理引擎,让计算机按照软件工程师预先构造的所有中间状态去做出推理过程中的每一步判断,从而读“懂”互联网信息内容。首先,这需要极高的智慧和技术技巧,再聪明的工程师也无法想象整个互联网知识的复杂性;所以,让所有的普通网站建设者按此方式构造OffL语义互联网几乎不可能;即便个别网站工程师可以做到, 也很难达到大规模应用的水平,更谈不上催生一个产业。其次,目前互联网上的数据已经巨大到无法估量,想将其转换成OffL形式,这无疑是基本上不可能完成的任务。因此,OffL走向实用的关键不是将整个互联网都变成OffL语言描述的互联网,而是对现有互联网以HTML 文本或XML文本为主的海量信息进行OWL分析、提取和转换。

发明内容
本发明提供了一种解决上述问题的方案,提供一种实用性强的基于OWL的互联网语言本体学习系统。本发明采用如下的设计思路让计算机在一定程度上读得“懂”互联网信息内容 第一,与OWL设计理念相同的是二者都将给计算机一个以OWL为基础的知识结构,但
是,本发明并不打算用OffL构造整个互联网,而是从普通互联网文本中提取OffL信息,即 将文本中隐含的本体信息转译为OWL形式。计算机利用自身基于OWL的知识结构与互联网 OffL隐含的本体信息进行比较和推理,从而实现读“懂”互联网的目的。第二,与传统编程方法不同的是,本发明并不打算一次性地给计算机输入知识结构、推理规则和推理引擎,而是采用机器学习的方式,包括与工程师反复互动,逐步自我完善,由简入繁,达到大规模应用的水平。第三,基于OffL的互联网语言学习系统不仅可以通过学习维护、更新、完善计算机的互联网本体知识模型,而且可以维护、更新、完善使用这个OffL互联网本体知识库的推理规则和推理引擎,以便灵活地运用于各类互联网智能化应用中。基于以上思路,本发明提供一种基于OWL的互联网语言本体学习系统,其特征在于其包括
网页采集子系统,负责采集互联网网页并将其转换成格式文本; OffL本体转换子系统,负责对所述互联网网页进行OWL本体转换,建立OWL本体实例; OffL推理引擎子系统,负责创建并维护OWL推理引擎,并根据所述OWL推理引擎对所述 OffL本体实例进行推理,建立所述互联网网页对应的OWL知识描述;
原始文档管理子系统,负责保存和维护所述网页采集子系统采集的所述互联网网页。优选的,所述网页采集子系统包括网页采集模块和文本预处理模块,所述网页采集模块采集所述互联网网页中的格式文本信息,所述文本预处理模块对所述格式文本信息中的数据进行提取正文、分词、排歧、去重处理和语法标注处理。其中,分词就是将中文句子中的词与词之间插入空格,向英文那样把词与词分开;排岐就是一句话或一个词可能有一个以上的意思,叫“歧义”,消除这种歧义叫“排岐”;去重即从不同的网站可能采集来相同的文章,把它们识别出来,只保留一份;语法注释就是在分词的基础上把每一个词的词性和语法属性标注的词上。优选的,所述网页采集模块采集所述互联网网页中的HTML格式或XML格式的格式文本信息。优选的,所述OWL本体转换子系统包括OWL转换模块、OWL转换规则库、OWL转换规则维护模块以及OWL本体实例库;其中,OffL转换规则维护模块通过人机交互来创建和维护 OffL转换规则;创建好的OWL转换规则存入OWL转换规则库;OWL转换模块根据OWL转换规则库中的OWL转换规则对所述格式文本进行OWL本体转换得到建立OWL本体实例,并将该 OffL本体实例存入OWL本体实例库。优选的,其还包括OWL建模子系统,所述OWL建模子系统包括OWL建模模块和OWL 模型库;所述OWL建模模块通过人机交互创建和维护各种领域的OffL本体模型,并将创建好的OWL本体模型存入OWL模型库。优选的,所述OWL转换模块首先在所述OWL模型库检索与所述互联网网页所处领域相近的OWL本体模型,然后根据所述OWL本体模型对所述格式文本进行OWL本体转换得到建立OWL本体实例。优选的,所述OWL推理引擎子系统包括OWL推理引擎模块、OffL推理引擎维护模块、 OffL推理引擎库、OffL推理规则维护模块和OWL推理规则库;所述OWL推理引擎维护模块通过人机交互创建和维护OffL推理引擎,其创建好的OffL推理引擎存入OffL推理引擎库;所述 OffL推理规则维护模块通过人机交互创建和维护OffL推理规则,其创建好的OffL推理规则存入OWL推理规则库;所述OWL推理引擎模块调用所述OWL推理引擎库中的所述OWL推理引擎,并根据所述OWL推理规则库中的OWL推理规则对所述OWL本体实例进行推理,按照推理命题获得所述互联网网页对应的OWL知识描述。优选的,所述原始文档管理子系统包括原始文档管理模块和原始文档库;所述原始文档管理模块将所述互联网网页存入原始文档库,并建立所述互联网网页与所述OWL知识描述之间的索引。本发明的基于OffL的互联网语言本体学习系统并不将整个互联网都变成OffL语言描述的互联网,而是对现有互联网以HTML或XML文本为主的海量信息进行OWL分析、提取和转换,将其转换成计算机可以理解的OffL信息内容,并在此过程中不断学习、完善。本发明为OWL互联网应用提供了一种全新的极具实用价值的思路,因此其具有非常高的实用价值和广阔的应用前景。


图1是本发明的基于OWL的互联网语言本体学习系统的原理框架图。
具体实施例方式下面对本发明的具体实施方式
作进一步详细的描述。如图1所示,本发明的基于OWL的互联网语言本体学习系统的工作流程如下
1、网页采集模块将互联网网页采集到系统中,提取其中HTML格式或XML格式的格式文本信息,然后经过文本预处理模块进行提取正文、分词、过滤、去重、排岐、语法标注等处理, 以便于提取OWL本体信息。网页采集模块把预处理过的格式文本输出给OWL转换模块,同时将原始文本通过原始文档管理模块存入互联网原始文档库,以备调用。2、OffL转换模块接收到预处理过的格式文本,将其解析为OWL本体描述的OWL本体实例,并将其存入OWL本体实例库。OWL转换模块需要依靠OWL模型库和OWL转换规则库来完成格式文本向OffL本体实例的转换。OffL转换中出现问题时,OffL转换模块将向OWL 转换规则维护模块和OWL建模模块提供的人机交互界面提问,与操作者互动。操作者通过修改OWL模型和OWL转换规则以帮助OWL转换模块完成OWL转换的过程。3、0ffL转换规则是可配置和维护的。操作者通过OffL转换规则人机交互界面创建、 修改OWL转换规则,不断完善该系统的OWL转换能力。OWL转换规则存入OWL转换规则库, 以备调用。4,OffL本体模型是OWL转换和OWL推理的核心依据。本系统设计了专门的OWL建模子系统来实现OWL本体模型的创建、维护。在OWL转换和OWL推理中产生的问题和需求都可以通过OWL建模提供的人机交互界面进行人工处理。OWL建模子系统将在OWL转换和推理的反复实践中不断学习和修正OWL本体模型。OWL本体模型存入OWL模型库以备调用。5、拥有OWL模型库和OWL本体实例库只是计算机系统获得了可被“理解”的内容, 而“理解”的行为要靠OWL本体推理。只有能够针对OWL本体进行推理,计算机才算真正读 “懂”了互联网。该系统的推理由OWL推理引擎完成,过程中要用到OWL本体模型、推理规则和互联网OWL本体实例;最后才能建立所述互联网网页对应的OWL知识描述,作为结果输出ο 6、OWL推理引擎和推理规则可以根据实际应用的需要创建和维护,从而使该系统可以灵活地用于广泛的互联网智能处理领域。推理引擎由推理引擎维护模块负责,其结果存入推理引擎库。推理规则又推理规则维护模块负责,其结果存入推理规则库。7、原始文档管理模块将所述互联网网页存入原始文档库,并建立互联网网页与 OffL知识描述之间的索引。由于推理引擎库、OWL模型库和OWL本体实例库等都在使用的过程中不断学习和增长,从而能够不断提高自己的转换效率和转换效果。以上实施例仅为本发明其中的一种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说, 在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
权利要求
1.基于OWL的互联网语言本体学习系统,其特征在于其包括网页采集子系统,负责采集互联网网页并将其转换成格式文本;OffL本体转换子系统,负责对所述格式文本进行OWL本体转换,建立OWL本体实例;OffL推理引擎子系统,负责创建并维护OWL推理引擎,并根据所述OWL推理引擎对所述 OffL本体实例进行推理,建立所述互联网网页对应的OWL知识描述;原始文档管理子系统,负责保存和维护所述网页采集子系统采集的所述互联网网页。
2.根据权利要求1所述的基于OWL的互联网语言本体学习系统,其特征在于所述网页采集子系统包括网页采集模块和文本预处理模块,所述网页采集模块采集所述互联网网页中的格式文本信息,所述文本预处理模块对所述格式文本信息中的数据进行提取正文、 分词、排歧、去重和语法标注处理。
3.根据权利要求2所述的基于OWL的互联网语言本体学习系统,其特征在于所述网页采集模块采集所述互联网网页中的文本信息。
4.根据权利要求1所述的基于OffL的互联网语言本体学习系统,其特征在于所述OWL 本体转换子系统包括OWL转换模块、OffL转换规则库、OffL转换规则维护模块以及OWL本体实例库;其中,所述OWL转换规则维护模块通过人机交互来创建和维护OWL转换规则;创建好的OWL转换规则存入OWL转换规则库;所述OWL转换模块根据OWL转换规则库中的OWL 转换规则对所述格式文本进行OWL本体转换得到建立OWL本体实例,并将该OWL本体实例存入OWL本体实例库。
5.根据权利要求4所述的基于OWL的互联网语言本体学习系统,其特征在于其还包括OWL建模子系统,所述OWL建模子系统包括OWL建模模块和OWL模型库;所述OWL建模模块通过人机交互创建和维护各种领域的OffL本体模型,并将创建好的OffL本体模型存入OWL 模型库。
6.根据权利要求5所述的基于OffL的互联网语言本体学习系统,其特征在于所述OWL 转换模块首先在所述CWL模型库检索与所述互联网网页所处领域相近的OffL本体模型,然后根据所述OWL本体模型对所述格式文本进行OWL本体转换得到建立OWL本体实例。
7.根据权利要求1所述的基于OffL的互联网语言本体学习系统,其特征在于所述OWL 推理引擎子系统包括OWL推理引擎模块、OffL推理引擎维护模块、OffL推理引擎库、OffL推理规则维护模块和OWL推理规则库;所述OWL推理引擎维护模块通过人机交互创建和维护 OffL推理引擎,其创建好的OWL推理引擎存入OWL推理引擎库;所述OWL推理规则维护模块通过人机交互创建和维护OWL推理规则,其创建好的OWL推理规则存入OWL推理规则库;所述OWL推理引擎模块调用所述OWL推理引擎库中的所述OWL推理引擎,并根据所述OWL推理规则库中的OffL推理规则对所述OffL本体实例进行推理,获得所述互联网网页对应的OWL 知识描述。
8.根据权利要求7所述的基于OWL的互联网语言本体学习系统,其特征在于所述原始文档管理子系统包括原始文档管理模块和原始文档库;所述原始文档管理模块将所述互联网网页存入原始文档库,并建立所述互联网网页与所述OWL知识描述之间的索引。
全文摘要
本发明公开了基于OWL的互联网语言本体学习系统,其特征在于其包括网页采集子系统,负责采集互联网网页并将其转换成格式文本;OWL本体转换子系统,负责对所述格式文本进行OWL本体转换,建立OWL本体实例;OWL推理引擎子系统,负责创建并维护OWL推理引擎,并根据所述OWL推理引擎对所述OWL本体实例进行推理,建立所述互联网网页对应的OWL知识描述;原始文档管理子系统,负责保存和维护所述网页采集子系统采集的所述互联网网页。本发明对现有互联网以HTML或XML文本为主的海量信息进行OWL分析、提取和转换。本发明为OWL互联网应用提供了一种全新的极具实用价值的思路,因此其具有非常高的实用价值和广阔的应用前景。
文档编号G06F17/30GK102332013SQ20111027078
公开日2012年1月25日 申请日期2011年9月14日 优先权日2011年9月14日
发明者王楠 申请人:王楠
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1