语义Web服务的自动生成系统的制作方法

文档序号:6441745阅读:523来源:国知局
专利名称:语义Web服务的自动生成系统的制作方法
技术领域
本发明涉及的是一种网络信息处理技术领域的系统,具体是一种语义Web服务的 自动生成系统。
背景技术
如今面对互联网中巨量的信息资源,其中要解决的一个关键问题是如何从漫无 边际的信息、资源的空间中,能够迅速精确地发现可以能够使用的信息资源。然而当前的 Web更多的提供的是面向用户的信息的展示,但它却不包含任何机器可理解的语义信息, 因此限制了计算机在信息检索过程中进行智能分析以及处理的能力。2000年12月Tim Berners-Lee在XML2000会议上正式提出了语义Web的概念。在语义Web中信息具有定义 良好的语 义,目标就是为了提供一种机器可以自动认知、管理、操作的手段。Web服务是近些年内兴起的另一种基于互联网的技术,并随着互联网的发展而出 现并不断发展、成熟的,在许多领域中都受到了极大的关注。Web服务作为一种新兴的Web 应用模式,基于它是松散耦合的、可复用的特性,它可以为在互联网上不同操作系统、硬件 平台和编程语言之间方便地进行集成提供良好的支持,所以不同应用的实现和发布Web服 务,是Web上数据和信息集成的有效机制。随着各个领域中的Web服务数量的飞速增长,依 靠人工去组织,分类,管理显然已经不切实际。对于如此大量的Web服务,如何使机器可以 自动认知、管理、使用Web服务,成了众多国家和组织解决的热点。为了解决此类问题,融合 了语义Web技术的语义Web服务开始发展起来。这种办法就是将Web服务的功能或者行为 等方面使用语义信息进行描述,使其对计算机在语义上是可理解的,使机器自动能够识别 web服务包含的功能性属性。语义Web服务是Web服务和语义Web技术的结合,它把语义 Web技术引入Web服务中,以此来解决自动化的服务发现、调用、组合、监视和恢复等问题, 提高Web服务的质量。经对现有文献检索发现,针对Web服务的语义描述,以欧洲部分团体为主开发了 语义Web服务技术构架WSMO (Web服务建模本体,http://www. wsmo. org/),该模型包括 Ontologies (本体),Goals (目标),Web Services (Web 服务)和 Mediators (中介)四大元 素,它使用一阶逻辑描述服务以及用户需求。WSMO Studio (http //www. wsmostudio. org/) 是针对该模型的一个集成建模环境,但是该工具对Web服务语义信息的标注主要是通过人 来手工完成的,当面对海量的Web服务的时候,完全依靠手工方式已经变得越来越不可行。经对现有文献检索还发现,近年来随着SAWSDL成为W3C的一个推荐标准,许多语 义Web服务模型开始涉及SAWSDL (Semantic Annotations for WSDL,基于语义标注的Web 服务描述语言),因为SAWSDL本身并没有为语义Web服务提供一个具体的模型,它假设其他 任何具体的模型可以通过语义标注的形式在WSDL (Web Services Description Language, Web服务描述语言)中进行表示,它使WSDL和具体的本体模型间保持一种松散的关系。在 此之前比较流行的 0WL-S(Web 服务本体语言,http //www. w3. org/Submission/OffL-S/), 是用0WL(Web0ntology Language,Web本体语言)来描述的Web服务的标记语言,但是由于OffL-S出现较早与SAWSDL之间存在很多无法整合的地方,这也限制了它进一步的发展。

发明内容
本发明的目的在于克服现有技术中存在的不足,提供一种语义Web服务的自动生 成系统。本系统提供了一个通用的语义模板实例自动生成框架,实现了机器自动生成各种 类型的语义模板实例,对Web服务进行自动语义标注,具有减少工作量以及不需要涉及过 多领域知识的优点,可以通过定制各种不同类型的语义模板对Web服务的每一方面进行 语义建模,并避免了大量语义信息的冗余和不一致性,且本系统所生成的本体模型可以被 SAWSDL所使用。本发明是通过以下技术方案实现的本发明包括语料库解析模块、原始信息预处理模块、自然语言处理模块、本体匹配模块,语义模板实例化模块和SAWSDL生成模块,其中语料库解析模块与原始信息预 处理模块相连传输从WSDL文档提取出的元信息,原始信息预处理模块与自然语言处理模 块相连传输经过预处理后的元信息,自然语言处理模块与本体匹配模块相连传输经过自 然语言处理后的信息,本体匹配模块与语义模板实例化模块相连传输匹配到的本体信息, SAffSDL生成模块与语义模板实例化模块相连输出SAWSDL文档。所述的语料库解析模块包括操作解析子模块和数据类型解析子模块,其中操 作解析子模块和数据类型解析子模块分别与原始信息预处理模块相连传输从WSDL文档中 提取出来的操作信息和数据类型信息。所述原始信息预处理模块用于把输入的文本转换成符合自然语言特征的输出,包 括单词分割子模块、噪声去除子模块和缩略词展开子模块,其中单词分割子模块与语料 库解析模块相连传输从WSDL文档提取出的元信息,单词分割子模块与噪声去除子模块子 模块相连传输分割完成的单词,噪声去除子模块与缩略词展开子模块相连接传输去除了噪 声的单词,缩略词展开子模块与自然语言处理模块相连传输经过预处理后的元信息。所述自然语言处理模块用于对输入进行自然语言分析,提取其中的成分,包括句 法分析子模块和模式匹配子模块,其中原始信息预处理模块与句法分析子模块相连传输 经过预处理的元信息,句法分析子模块与模式匹配子模块相连接传输经过句法结构解析和 词性标注的WSDL中操作和数据类型的信息,模式匹配子模块与本体匹配模块相连传输自 然语言处理后的信息。所述的本体匹配模块是基于SPARQL实现的,包括相似度提取子模块、相似度评 估子模块和相似度匹配子模块,其中相似度提取子模块与自然语言处理模块相连传输自 然语言处理后的信息,相似度提取子模块与相似度评估子模块相连传输相似度值信息,相 似度评估子模块与相似度匹配子模块相连传输相似度的评估结果信息,相似度匹配子模块 与语义模板实例化模块相连传输匹配到的本体信息。所述的语义模板实例化模块把本体匹配模块中匹配成功后的本体,根据语义模板 的定义来生成实例,并对其进行持久化,保存成文件或是存储到数据库中。所述的SAWSDL生成模块引用语义模板实例化模块所生成的语义模板实例对象作 为SAWSDL中所引用的语义模型,从而生成SAWSDL文档。本发明的工作过程针对一个WSDL文档,首先经过语料库解析模块的解析,从中提取操作名称,数据类型等元信息,再经过原始信息预处理去除一些无用的信息,得到规范 化的输出,再通过自然语言处理模块抽取语义信息,经过本体匹配模块,寻找本体化的表 示,并以此生成语义模板的实例,这些语义模板实例可用于SAWSDL的生成。与现有技术相比,本发明的有益效果是建立一个通用的,灵活的,可扩展性强的 框架,该框架使用机器通过各种与Web服务相关的语料库能够尽量自动化地生成对应的语 义模板实例,解决了对于大量已经存在和正在产生的Web服务完全采取人工方式手动建立 各种语义模板实例工作量大,专业领域知识要求高的问题,并且所生成的语义模板实例可 以作为SAWSDL所引用的本体模型,且查全率平均可以达到65%以上,查准率平均可以达到 75%以上。
具体实施例方式下面对本发明的实施例作详细说明本实施例在以本发明技术方案为前提下进行 实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施 例。 实施例本实施例包括语料库解析模块、原始信息预处理模块、自然语言处理模块、本体 匹配模块,语义模板实例化模块和SAWSDL生成模块,其中语料库解析模块与原始信息预 处理模块相连传输从WSDL文档提取出的元信息,原始信息预处理模块与自然语言处理模 块相连传输经过预处理后的元信息,自然语言处理模块与本体匹配模块相连传输经过自 然语言处理后的信息,本体匹配模块与语义模板实例化模块相连传输匹配到的本体信息, SAffSDL生成模块与语义模板实例化模块相连输出SAWSDL文档。所述的语料库解析模块包括操作解析子模块和数据类型解析子模块,其中操 作解析子模块和数据类型解析子模块分别与原始信息预处理模块相连传输从WSDL文档中 提取出来的操作信息和数据类型信息。所述的操作解析子模块提取WSDL中所有Operation的名称字符串信息。所述的数据类型解析子模块提取WSDL中Schema的内容和名称字符串信息。本实施例中语料库解析子模块采用WSDL4J作为解析的工具包,其解析的原则是 提取现实世界的实际的意义,而不提取软件世界的产物。如对WSDL文档进行输入输出的 数据项的提取,对于一个参数来说从软件意义上来说是表示一个ArrayOfAirport,其中强 调了这个参数时数组类型的,而从实际意义上来说更关心的是这个参数是表述的Airport, 所以从本质上来说,就需要提取Airport的信息,其中包含了各种基本属性。这样更能够让 机器在发现和组合服务时,理解参数真正代表的意义。所述原始信息预处理模块用于把输入的文本转换成符合自然语言特征的输出,包 括单词分割子模块、噪声去除子模块和缩略词展开子模块,其中单词分割子模块分别与 操作解析子模块和数据类型解析子模块相连传输从WSDL文档提取出的操作信息和数据类 型信息,单词分割子模块与噪声去除子模块子模块相连传输分割完成的单词,噪声去除子 模块与缩略词展开子模块相连接传输去除了噪声的单词,缩略词展开子模块与自然语言处 理模块相连传输经过预处理后的元信息。所述的单词分割子模块把原本揉合在一起的字符串进行分割,提取出独立的一个个单词。所述的噪声去除子模块去除没有实际意义的元素,为后续模块提供更好质量的输 入。所述的缩略词展开子模块把非完整的单词进行还原,以试图能够还原出一个有意 义的存在的单词。所述的自然语言处理模块用于对输入进行自然语言分析,提取其中的成分,包括 句法分析子模块和模式匹配子模块,其中缩略词展开子模块与句法分析子模块相连传输 经过预处理的元信息,句法分析子模块与模式匹配子模块相连接传输经过句法结构解析和 词性标注的WSDL中操作和数据类型的信息,模式匹配子模块与本体匹配模块相连传输自 然语言处理后的信息。所述的句法分析子模块用于分析句法结构和进行词性标注。所述的模式匹配子模块用于识别输入的WSDL中元信息的命名规则,并提取其中 的单词或者短语,从语义模板实例中的语义属性对应句法树中恰当的短语,本实施采用 是一种具有其独立语法匹配模式的表达式Tregex,它是对Tgr印2的一个实现和扩展的, 能够通过给出的节点与节点之间关系作为模式从句法树中进行匹配。当使用Tregex为 “Verb+Noim”型模式定义的一条检查规则为{ “厂VB/>>,(_ ! >_)$,,NP”},意为动 词开头并且具有名词短语兄弟节点的模式,以此来检查输入的输入是否符合这样的命名模 式。“Update Ticket Order ByOrder Number” 就能够匹配这个模式,而 “Student Id To Student Name”就不会匹配。一旦识别出了输入的模式,那么也就确定了输入的句法结构和 确定了短语之间的关系,那么就可以通过定制的Tregex表达式来从句法树中去匹配的符 合模式的子树,该子树的叶结点即为所需要提取的短语。本实施例中采用Perm Treebank II Tags对自然语言数据进行标注,以此来进行 句法分析。当WSDL中提取出的一个Operation名称为ResvHotelSoap,经过单词分割子模块 处理后成为三个词{Resv,Hotel, Soap},经过噪声去除子模块过滤掉无意义的词Soap,剩 下{Resv,Hotel},,经过缩略词展开子模块认出Resv为一个缩略词,进行展开为Reserve, 最后得到的输出为{Reserve,Hotel}。所述的本体匹配模块用于处理不同类型的数据源,解决文本、结构化或者半结构 化的数据的匹配问题,本实施例是基于扩展SPARQL实现的,包括相似度提取子模块、相似 度评估子模块和相似度匹配子模块,其中相似度提取子模块与模式匹配子模块相连传输 自然语言处理后的信息,相似度提取子模块与相似度评估子模块相连传输相似度值信息, 相似度评估子模块与相似度匹配子模块相连传输相似度的评估结果信息,相似度匹配子模 块与语义模板实例化模块相连传输匹配到的本体信息。所述语义模板实例化模块把本体匹配模块中匹配成功后的本体,根据语义模板的 定义来生成实例,并对其进行持久化,保存成文件或是存储到数据库中。本实施中采用0WL 作为构建语义模板的语言,对于语义模板实例的创建和持久化,采用了 Prot6g6_0WLAPI来 存取0WL。首先使用Prot6g6-0WL API读入语义模板结构定义,再使用匹配到的本体对 语义模板实例中各个语义属性进行填充,最后使用API生成0WL文件或者持久化到0WL Database 0所述SAWSDL生成模块引用语义模板实例化模块所生成的语义模板实例对象作为
6SAWSDL中所引用的语义模型,从而生成SAWSDL文档。本实施例能够自动对大批量的WSDL文档通过语料库解析模块进行解析,从中提 取操作名称,数据类型等元信息,再经过原始信息预处理去除一些无用的信息,得到规范化 的输出,进一步通过自然语言处理模块抽取语义信息,并使用本体匹配模块来寻找本体化 的表示,并以此生成语义模板的实例,这些语义模板实例作为本体语义模型可以进一步生 成SAWSDL文档。本实施例通过语义模板来语义Web服务提供,并通过的语义模板实例自动生成系 统,自动为WSDL文档产生语义标注,生成的语义模板实例可以无缝的进行SAWSDL建模。大 大降低从大量Web服务生成语义模板实例的工作量,且查全率平均可以达到65%以上,查 准率平均可以达到75%以上。
权利要求
一种语义Web服务的自动生成系统,其特征在于,包括语料库解析模块、原始信息预处理模块、自然语言处理模块、本体匹配模块,语义模板实例化模块和SAWSDL生成模块,其中语料库解析模块与原始信息预处理模块相连传输从WSDL文档提取出的元信息,原始信息预处理模块与自然语言处理模块相连传输经过预处理后的元信息,自然语言处理模块与本体匹配模块相连传输经过自然语言处理后的信息,本体匹配模块与语义模板实例化模块相连传输匹配到的本体信息,SAWSDL生成模块与语义模板实例化模块相连输出SAWSDL文档。
2.根据权利要求1所述的语义Web服务的自动生成系统,其特征是,所述的语料库解析 模块包括操作解析子模块和数据类型解析子模块,其中操作解析子模块和数据类型解 析子模块分别与原始信息预处理模块相连传输从WSDL文档中提取出来的操作信息和数据 类型信息。
3.根据权利要求1所述的语义Web服务的自动生成系统,其特征是,所述原始信息预处 理模块包括单词分割子模块、噪声去除子模块和缩略词展开子模块,其中单词分割子模 块与语料库解析模块相连传输从WSDL文档提取出的元信息,单词分割子模块与噪声去除 子模块子模块相连传输分割完成的单词,噪声去除子模块与缩略词展开子模块相连接传输 去除了噪声的单词,缩略词展开子模块与自然语言处理模块相连传输经过预处理后的元信 肩、ο
4.根据权利要求1所述的语义Web服务的自动生成系统,其特征是,所述自然语言处理 模块包括句法分析子模块和模式匹配子模块,其中原始信息预处理模块与句法分析子 模块相连传输经过预处理的元信息,句法分析子模块与模式匹配子模块相连接传输经过句 法结构解析和词性标注的WSDL中操作和数据类型的信息,模式匹配子模块与本体匹配模 块相连传输自然语言处理后的信息。
5.根据权利要求1所述的语义Web服务的自动生成系统,其特征是,所述的本体匹配模 块是基于SPARQL实现的,包括相似度提取子模块、相似度评估子模块和相似度匹配子模 块,其中相似度提取子模块与自然语言处理模块相连传输自然语言处理后的信息,相似度 提取子模块与相似度评估子模块相连传输相似度值信息,相似度评估子模块与相似度匹配 子模块相连传输相似度的评估结果信息,相似度匹配子模块与语义模板实例化模块相连传 输匹配到的本体信息。
6.根据权利要求1所述的语义Web服务的自动生成系统,其特征是,所述的语义模板实 例化模块把本体匹配模块中匹配成功后的本体,根据语义模板的定义来生成实例,并对其 进行持久化,保存成文件或是存储到数据库中。
7.根据权利要求1所述的语义Web服务的自动生成系统,其特征是,所述的SAWSDL生 成模块引用语义模板实例化模块所生成的语义模板实例对象作为SAWSDL中所引用的语义 模型,从而生成SAWSDL文档。
全文摘要
一种信息处理技术领域的语义Web服务的自动生成系统,包括语料库解析模块、原始信息预处理模块、自然语言处理模块、本体匹配模块,语义模板实例化模块和SAWSDL生成模块,其中语料库解析模块与原始信息预处理模块相连,原始信息预处理模块与自然语言处理模块相连,自然语言处理模块与本体匹配模块相连,本体匹配模块与语义模板实例化模块相连,SAWSDL生成模块与语义模板实例化模块相连。本发明可以无缝的进行SAWSDL建模,大大降低从大量Web服务生成语义模板实例的工作量,且查全率平均可以达到65%以上,查准率平均可以达到75%以上。
文档编号G06F17/30GK101853314SQ201010216339
公开日2010年10月6日 申请日期2010年7月2日 优先权日2010年7月2日
发明者曹健, 柴学智, 胡亮, 许飒爽 申请人:上海交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1