基于图挖掘技术的语义化业务生成系统和方法

文档序号:6518915阅读:187来源:国知局
基于图挖掘技术的语义化业务生成系统和方法
【专利摘要】一种基于图挖掘技术的语义化Web业务生成系统和方法,系统基于传统服务器构建而成,利用包括自然语言分词、图挖掘、聚类、语义化分析、服务流程化生成和服务执行的多项技术,对用户使用自然语言或文字描述的应用需求进行收集和分析后,自动提取关键词,并解析其服务需求,再在构造的Web服务树图中挖掘出可用的服务及其组合方式,最后在系统集成运行环境中,完成服务的自动执行,并反馈执行结果。本发明优点是:直接对用户自然语言或文字描述的需求进行操作,注重语义化特性,还集成了业务执行环境,直接得到业务运行结果,既贴近和符合用户的使用习惯与需求,有利于扩大用户范围,还实现了系统的整体自动化运行和维护,适用于分布式的执行环境。
【专利说明】基于图挖掘技术的语义化业务生成系统和方法
【技术领域】
[0001]本发明涉及一种基于图挖掘技术的语义化Web业务生成系统和方法,属于计算机和网络的【技术领域】。
【背景技术】
[0002]Web 服务(Web Service)是一种服务导向架构 SOA (Service-orientedarchitecture)的技术,通过标准的Web协议提供各种应用服务,目的是保证不同平台的应用服务可以互操作。Web服务是一种具有自包含、自描述、模块化特性和基于Internet的新型分布式计算模型。Web服务中的主从式架构(Client-server)之间根据简单对象访问协议SOAP (Simple Object Access Protocol)传递XML格式消息,在Web服务中,由服务器提供一个机器可读的描述(通常基于WSDL描述语言),以辨识服务器所提供的Web服务。由于每个Web服务往往用于完成单项或单独的任务,并不能迎合用户的多重需求,因此如何将多个Web服务进行组合执行已经成为学术界研究的热点。
[0003]现有技术中,有关Web服务组合技术问题主要有以下三种实现方式:
[0004]第一种现有技术:文献《Studyon Semantic Web Service Composition Basedon Petri Net》(干丨_|于 Journal of Hebei University of Engineering Natural ScienceEdition, 2009)实现了一种基于Petri网结构的Web服务生成方式:通过Petri网对语义层次上的Web服务组合进行描述与建模,并将Petri网形式化元素加入到Web服务中,然后对Petri网模型用XML进行描述,使之能在实际中应用。最后,给出了基于Petri网的Web服务组合应用实例。
[0005]该技术是基于Petri网的结构实现的,形式为模式化、流程化的输入输出串联,并借助Petri网的思想形成流程图的方式。这种模型更多地用于Web服务组合的验证和分析,而不适用于Web组合从无到有的构造过程。
[0006]第二种现有技术:文献《WebService Composition Algorithm Based on QoSRelation))(刊于 Computer Engineering, Vol.37, N0.18, 2011)提出一种基于 QoS 关联的Web服务生成方法,反映了 Web服务组合过程中服务类之间的关联性和客户对服务非功能属性的偏好,以及服务调用过程中不同服务质量QoS属性。在评价服务组合优劣程度过程中,考虑服务类在QoS属性上的关联关系,对QoS数据进行统一规格化和综合评估。实验证明,该方法具有较好的执行效率和稳定性。
[0007]该技术方法需要借助服务的QoS信息作为Web服务组合的主要参照对象。QoS为网络服务的质量参数,其衡量参数是服务网络的传输带宽、传送时延、数据丢包率等。因此该方案更适合于确定流程组合后,在功能相同的Web服务中,根据QoS属性选择优化的服务进行组合。对于流程设计和确定,帮助不大。
[0008]第三种现有技术:文献《AnApproach to Constructing WebService Workflow Based on Business Spanning Graph》(干丨 J 于 Journal ofSoftware, Vol.18,N0.8,August2007)与本发明装置与方法最为相近,它提出了一种基于业务生成图的Web服务工作流构造模型。该模型将功能相同或相似的服务聚集成一类服务集合,每类服务集合采用生成树的方式组织,并依据工作流的业逻辑关系形成业务生成图。同时,在重定义粒子群算法的位置、速度、加/减法和乘法的基础上,结合遗传算法中的交叉和变异操作。该模型能够有效地屏蔽组成工作流的Web服务物理上的变化与差异,较好地组合了 Internet中的Web服务资源,适合于虚拟计算环境的应用要求。
[0009]该技术的业务生成图中的Web服务生成构造方法,所使用的服务流程图是一种半自动服务组合方式:首先要由用户根据需求建立适合具体应用需求的工作流业务逻辑模型。对于Web服务的自动化生成应用来说,工作流的业务逻辑模型对于用户应该是透明的,并且该方法的适用范围有限,只适用于已具备相应基础知识的用户。而对于普通用户来说,其能够描述的只是自然语言上的需求,不可能也不会去构造逻辑模型。
[0010]总之,上述现有技术都不能够很好地解决Web服务生成技术的相关问题。

【发明内容】

[0011]有鉴于此,本发明的目的是提供一种基于图挖掘技术的语义化Web业务生成系统和方法,用于解决下述多个技术问题:1、为用户的自然语言或文字描述的需求提供自动化的服务生成模式支持,实现从自然语言或文字中提取关键字,进而分解需求,再通过需求执行服务查找,最终自动生成Web服务的过程。2、该系统的输入为广义上的自然语言或文字,因此适用于各种输入接口,网络终端和移动终端都可以进行适配。3、Web服务的业务生成注重自然语言或文字的语义化特性,而不是单一的借助服务定义中的输入输出匹配。4、在服务生成后,加入服务的直接执行部分,得到的反馈不是单一的服务组合流程,而是直接的执行结果的反馈。
[0012]为了达到上述目的,本发明提供了一种基于图挖掘技术的语义化Web业务生成系统,其特征在于:该系统是基于传统服务器构建而成,系统利用包括自然语言分词、图挖掘、聚类、语义化分析、服务流程化生成和服务执行的多项技术,对用户使用自然语言或文字描述的应用需求进行收集和分析后,自动提取关键词并解析其服务需求,再在构造的Web服务图中挖掘出可用的服务及其组合方式,最后在该系统集成运行环境中,完成服务的自动执行,并反馈返回执行结果;该系统设有下述五个组成构件:自然语言收集构件、自然语言分析构件、网络服务挖掘组织构件、网络服务生成构件和网络服务执行构件;其中:
[0013]自然语言收集构件,为具有通用接口和开发功能的网络终端,作为该系统的输入端,用于通过网页、安卓或IOS系统客户端软件获取用户自然语言或文字的输入信息:包括格式化字段和非格式化的自然语言或文字,以收集与获取用户的需求描述,并将语言或文字传递给自然语言分析构件;该自然语言收集构件能够适配多种终端,以满足用户的不同需求,并为其他开发者提供开发与扩展平台;
[0014]自然语言分析构件,作为直接接受用户信息的前端,负责对用户输入的自然语言或文字描述的需求执行机器化分析和学习,获知用户输入信息的意图,进而分析用户需求,为网络服务生成构件提供机器可识别的格式化信息;其顺序设有:与词性标注数据库连接的词性标注模块、长句逻辑切分模块、关键词抽取模块、同义词词典映射模块和信息模板抽取模块,以及分别与后述四个模块交互信息的语句词性语义信息构建模块;
[0015]网络服务挖掘组织构件,负责藉由垂直搜索领域的爬虫、索引和聚类的技术,采用图挖掘技术的组织思路,对用户在网络上使用的各种可用服务进行抓取、挖掘和收集,并在进行系统的初步分析后,构建为森林式服务组织树图,并存储于服务数据库,以供网络服务生成构件使用;设有:网络服务爬虫模块、网络服务聚类模块、语义化服务建图模块、图操作接口模块和服务数据库;
[0016]网络服务生成构件,负责对用户需求做出相应、及时的服务识别和服务生成,并形成一套可行的服务方案:其输入分别来自自然语言分析构件和网络服务挖掘组织构件:由自然语言分析构件得到包括关键词的匹配结果和词义、词性判断的结构化的词语需求分析结果,由网络服务挖掘组织构件得到统一的图操作接口和能够查询的服务数据库;再对提取的用户格式化需求信息进行机器判定和语义化分析,形成具有针对性的服务查询需求,并执行相关操作,生成对应格式的网络服务;设有:顺序连接的输入解析模块、查询规则生成模块、图操作模块、信息提取模块和Bpel业务模板生成模块;
[0017]网络服务执行构件,为应用开放性原则设计的应用环境,负责利用包括Bpel格式和所有支持Bpel格式适配的执行环境执行适配所生成的网络服务,并执行该服务整体方案;并结合用户的使用方式和形式,将执行结果及时反馈给用户;该构件作为系统的输出,也能藉由符合输出接口标准的其他构件完成相应操作和返回执行结果。
[0018]为了达到上述目的,本发明还提供了一种本发明基于图挖掘技术的语义化Web业务生成系统的工作方法,其特征在于:所述方法包括下列操作步骤:
[0019](I)系统通过自然语言收集构件、即终端采用各类形式的收集器接收来自用户采用自然语音或文字输入的应用需求,并由自然语言收集构件对用户输入进行处理后,发送到自然语言分析构件;
[0020](2)自然语言分析构件对自然语言收集构件处理后的需求进行机器识别处理,自动形成结构化的Web网络应用需求,并转送到网络服务生成构件;
[0021](3)网络服务挖掘组织构件利用搜索引擎的思想及技术,抓取网络中的服务后,将Web服务数据存入服务数据库;服务聚类模块利用聚类算法对抓取的各个零散的Web服务进行基于内容的信息聚类处理,并在每个聚类块中提取关键词作为归类的依据,再提取关键词,构成聚类数据和存入服务数据库;语义化服务建图模块根据服务数据库中的原始服务信息和聚类数据,借助图挖掘的组织思想,对Web服务进行结构化组织,建立森林式的服务组织树图;同时根据系统需要,添加其他自定义的、能被系统识别的服务后,将服务组织树图永久性地存储于服务数据库;并向网络服务生成构件提供使用图操作的统一接口 ;
[0022](4)网络服务生成构件接收来自自然语言分析构件的分析结果,并与网络服务挖掘组织构件协同合作,进行服务查找和组织,形成一套整体的服务执行方案,即生成Bpel格式的网络服务组织结果;
[0023](5)网络服务执行构件接收来自网络服务生成构件的Bpel格式的Web服务执行方案,并将该Web服务的Bpel文件分发到业务处理节点上的Bpel执行容器中运行,并根据用户的使用方式和形式,将最终执行结果反馈给用户。
[0024]本发明基于图挖掘技术的语义化Web业务生成系统和方法是基于图挖掘技术的思想,运用聚类、接口匹配、语义化分析、服务执行等技术对Web服务进行分析,对用户采用自然语言或文字描述的应用需求进行解析和相应的机器学习,通过服务组织树图结构和图挖掘算法对网络应用服务进行组合,最后在执行环境中完成服务的自动执行并返回结果。其关键技术包括:
[0025]本发明是基于自然语言或文字直接描述的应用需求进行处理的业务生成系统,其业务生成过程既不依赖用户对系统技术的了解,也不依赖用户终端的实现方式,而是直接贴近用户的日常行为和习惯的表达方式,屏蔽了通常搜索引擎对搜索词结构的依赖性。
[0026]本发明系统采用一种基于森林式的服务组织树图的存储结构,引入主干节点,枝干节点和叶子(服务)节点共存的组织方式,屏蔽了单纯由QoS信息或输入输出结构进行判定的片面性,从语义化特性入手,结合输入输出参数匹配和QoS信息等特征,构造出完成整体应用需求的Web服务组合。
[0027]本发明提出一种结合网络服务生成与执行为一体的解决方案,与传统的只集中于业务生成方向的研究不同。本发明还设置有执行环境,能够自动化地执行整个操作流程,并直接反馈运行结果,对用户屏蔽了 Web服务及组合执行的内部过程,对用户更加友好。
[0028]与最接近的现有技术相比较,本发明系统和方法的优点是:
[0029]与第一种现有技术相比较,本发明提出了一种基于树图组织结构的Web服务生成方法,不仅涉及流程中的输入输出工作流,更加注重语义化特性的构造。从语义角度切入业务组织和生成过程,更加贴近和符合用户的需求。
[0030]与第二种现有技术相比较,本发明不仅利用服务QoS作为选择参考,还考虑服务语义、用户反馈评分等信息,选择标准更全面。同时加入了业务执行环境部件,在完成Web业务构造以后,就自动执行之。用户可以不直接接触服务QoS信息,而只关注执行结果;有利于适用更大范围用户群,也适用于分布式的执行环境。
[0031]与第三种现有技术相比较,本发明系统是直接对用户自然语言或文字描述的需求进行操作。不仅避免了用户对工作流程的手工构造,也屏蔽了用户直接接触其他实现技术,适用于多种终端接入形式。同时,集成了业务执行环境部件,屏蔽了用户对内部Web服务的生成过程的接触,直接得到业务运行结果。这样既满足了普通用户采用自然语言或文字输入其应用需求和直接得到自然语言或文字描述的结果需求,还实现了系统的整体自动化运行和维护。
【专利附图】

【附图说明】
[0032]图1是本发明基于图挖掘技术的语义化Web业务生成系统结构组成示意图。
[0033]图2是本发明系统中的自然语言分析构件结构组成示意图。
[0034]图3是本发明系统中的网络服务挖掘组织构件结构组成示意图。
[0035]图4是本发明系统中的服务组织树图结构组成示意图。
[0036]图5是本发明系统中的网络服务生成构件结构组成示意图。
[0037]图6是本发明基于图挖掘技术的语义化Web业务生成系统的业务生成时序图。
[0038]图7是本发明基于图挖掘技术的语义化Web业务生成系统生成语义化业务的操作步骤流程图。
【具体实施方式】
[0039]为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。[0040]本发明基于图挖掘技术的语义化Web业务生成系统是基于传统服务器构建而成的,系统利用自然语言分词、图挖掘、聚类、语义化分析、服务流程化生成和服务执行等多项技术,对用户使用自然语言或文字输入的应用需求进行收集和分析后,自动提取关键词并解析其服务需求,再在构造的Web服务图中挖掘出可用的服务及其组合方式,最后在该系统集成运行环境中,完成服务的自动执行,并反馈返回执行结果。
[0041]参见图1,介绍该系统设置的五个组成构件:自然语言收集构件、自然语言分析构件、网络服务挖掘组织构件、网络服务生成构件和生成网络服务后的网络服务执行构件。本发明的创新集中体现自然语言分析构件、网络服务挖掘组织构件和网络服务生成构件。系统架构中的自然语言收集构件和生成后服务执行构件则是参照统一化接口设计,可由任何适用接口的部件或装置替换之。其中:
[0042](A)自然语言收集构件是具有通用接口和开发功能的网络终端,作为该系统的输入端,用于通过网页、安卓或IOS系统客户端软件获取用户自然语言或文字的输入信息:包括格式化字段和非格式化的自然语言或文字,以收集与获取用户描述的应用需求,并将语言或文字传递给自然语言分析构件。该自然语言收集构件能够适配多种终端,以满足用户的不同需求,并为其他开发者提供开发与扩展平台。
[0043](B)自然语言分析构件,作为直接接受用户信息的前端,负责对用户输入的自然语言或文字描述的应用需求执行机器化分析和学习,获知用户输入信息的意图,进而分析用户的各方面需求,为网络服务生成构件提供机器可识别的格式化信息。
[0044]参见图2,介绍自然语言分析构件顺序设置的七个组成模块:与词性标注数据库连接的词性标注模块、长句逻辑切分模块、关键词抽取模块、同义词词典映射模块和信息模板抽取模块,以及分别与后述四个模块交互信息的语句词性语义信息构建模块。这些模块功能如下:
[0045]词性标注模块:负责根据词性标注数据库中存储的信息,对用户利用语言或文字描述的应用需求中各个词语标注其词性和涵义后,传递给长句逻辑切分模块。
[0046]词性标注数据库:用于存储每个字、词及其多种不同的词性和涵义,以便根据位于不同位置的字、词,并结合上下文和自然语句的组织模式赋予不同位置的字、词的当前不同词性与涵义(例如:英文单词“place”的名词涵义为“地点”,动词涵义为“放置”)。在抽取关键词时,也在词性标注数据库中查询其相应涵义。每个自然语句的组织形式包括主语、谓语和宾语等,位于不同位置的词语带有不同词性,例如:在主语中为名词,在谓语中为动词。系统能够结合上下文和自然语句的组织模式,判断语句中的每个字、词语的当前词性,然后抽取关键词,并在词性标注数据库中查询其相应含义。
[0047]长句逻辑切分模块:负责对完成词性标注后的语句的整体架构进行机器判断,按照主谓宾结构抽取主句和从句,并进行长句逻辑切分,切分为多个主谓宾结构,以确定每个词语的词性与涵义,并将涵义信息传递给关键词抽取模块,为以后抽取关键词提供便利条件。
[0048]关键词抽取模块:负责根据不同领域和用户提供的配置文件,选取其中不同的关键词;因该系统特别适用于垂直领域内的操作需求,即面向一个或多个特定领域的应用,用户都有明确的领域划分,并希望系统输出结果符合其适用领域。故该模块所选取的关键词为该应用领域的重点字、词,且具有该领域的明确涵义。[0049]同义词词典映射模块:负责根据关键词抽取模块选取的关键词,从信息模板抽取模块中提取与其匹配或相关的词语,以供语句词性语义信息构建模块进行后续处理;
[0050]语句词性语义信息构建模块:用于接收长句逻辑切分、关键词抽取和同义词词典映射共三个模块的处理结果,判断各个字、词的词性与涵义,以及其在句子中的位置,分别计算其权重,以便根据权重判断用户自然语言或文字描述的需求中的词语是否为关键词,以供信息模板抽取模块再次抽取进行机器分析;
[0051]信息模板抽取模块:负责接收同义词词典映射模块和语句词性语义信息构建模块选取的关键词和处理结果,利用各个关键词并结合其词语涵义和信息模板,生成机器可识别的格式化结构信息模板,再输出给网络服务生成构件,以使生成的结果与应用需求更加匹配,避免产生用户不需要的垃圾信息。
[0052](C)网络服务挖掘组织构件,负责藉由垂直搜索领域的爬虫、索引和聚类的技术,采用图挖掘技术的组织思路,对用户在网络上使用的各种可用服务进行抓取、挖掘和收集,并在进行系统的初步分析后,构建为森林式服务组织树图,并存储于服务数据库,以供网络服务生成构件使用。设有(参见图3所示):网络服务爬虫模块、网络服务聚类模块、语义化服务建图模块、图操作接口模块和服务数据库。这些模块功能如下:
[0053]网络服务爬虫模块:用于利用网络爬虫对网络中存在的Web服务进行抓取和收集,并将Web服务的原始信息保存于服务数据库,以供后续模块处理。
[0054]网络服务聚类模块:用于从服务数据库中提取原始服务信息,并对网络服务爬虫模块抓取的各个零散的Web服务进行语义化信息提取,再针对语义信息进行聚类处理后,将语义相近的服务聚成一类后,从中提取关键词,构成聚类数据;然后将聚类数据存储于服务数据库中。
[0055]语义化服务建图模块:用于根据服务数据库中的原始服务信息和聚类数据,借助图挖掘的组织思想,对Web服务进行结构化组织,从而将Web服务按照树图的结构进行整理和分类,形成森林式的服务组织树图,再将该服务组织树图存储于服务数据库,以供网络服务生成构件使用;
[0056]图操作接口模块:用于为规范操作服务数据库而提供的统一接口,以供网络服务生成构件使用服务数据库。
[0057]服务数据库:用于存储该系统中的文件和数据,包括:由网络服务爬虫模块利用网络爬虫针对互联网上的Web服务特征抓取的服务文件,网络服务聚类模块从网络服务爬虫模块抓取的服务文件提取语义化信息、并进行聚类处理后存储的聚类数据;以及语义化服务建图模块依据Web服务的语义化信息和图形思想建立的森林式的服务组织树图。
[0058]参见图4,介绍森林式的服务组织树图的结构组成:以语义化特性作为导向,在服务数据库中抽取多个不同领域和不同范围的子树形成的。该服务组织树图存储于系统的服务数据库,供网络服务生成构件使用;每个服务组织树图中顺序设有三种节点:主干节点、枝干节点和叶子节点,其中主干节点和枝干节点属于概念性节点,代表的是抽象的语义概念。叶子节点为具体的Web服务节点,每个叶子节点代表唯一的一项Web服务。叶子节点根部是枝干节点(代表一个服务簇的聚合概念),每个Web服务节点与其所归属的枝干节点之间设有一条无向的边,代表该服务归属于该聚合概念的枝干节点。每个叶子节点连接一个或多个枝干节点,每个枝干节点也可包含一个或多个服务节点。枝干节点根部是连接多个枝干节点的主干节点,作为该树图中更高级抽象概念的根节点,每个主干节点连接一个或多个枝干节点,也能直接连接叶子节点,表明该叶子代表的Web服务在语义上直接归属该主干节点。从服务数据库中抽取多个不同领域、不同范围的子树,就构成了森林式的此服务组织树图,并存储于系统的服务数据库中,供网络服务生成构件使用。不同于现有技术,该服务组织图是以Web服务的语义化特性作为导向,并引入概念性节点,且与具体的Web服务共存于服务组织树图中。
[0059](D)网络服务生成构件,负责对用户需求做出相应、及时的服务识别和服务组织生成,并形成一套可行的服务方案:其输入分别来自自然语言分析构件和网络服务挖掘组织构件:由自然语言分析构件得到包括关键词的匹配结果和词义、词性判断的结构化的词语需求分析结果,由网络服务挖掘组织构件得到统一的图操作接口和能够查询的服务数据库;再对提取的用户格式化需求信息进行机器判定和语义化分析,形成具有针对性的服务查询需求,并执行相关操作,生成对应格式的网络服务。其结构组成如图5所示,设有:顺序连接的输入解析模块、查询规则生成模块、图操作模块、信息提取模块和业务流程执行语言Bpel (Business Process Execution Language)业务模板生成模块;各个模块功能说明如下:
[0060]图操作模块采用网络服务挖掘组织构件的服务数据库进行查询,按照相应的查询规则,过滤查询条件,并将查询到的Web服务信息进行相应组织,交给信息提取模块。信息提取模块收到来自图操作模块的Web服务信息后,对Web信息中的service、operation域进行匹配和筛选,将可用的接口信息交给Bpel业务模板生成模块,形成Bpel格式的结构化执行单元,提供给网络服务执行构件。
[0061]输入解析模块:用于对来自自然语言分析构件的包括关键词的匹配结果和词义判断的结构化的词语需求进行分析处理,再从网络服务挖掘组织部分得到可查询的服务信息数据库信息后,一起送入查询规则生成模块;
[0062]查询规则生成模块:用于根据服务数据库对用户格式化需求中的信息进行语义化分析和机器判定,并以用户是否存在某方面的需求为基准,删除其中不能被机器采用的用户需求,构建具有针对性的、更接近于用户需求的各个查询要求(或路由信息),因路由信息代表广泛意义上的处理流程,且涉及服务数据图中各个节点的条件路由,故简称为路由信息,以便对用户需求进行全方位的提取和存储。因网络服务生成构件是针对垂直领域应用提供服务,并根据垂直领域的通常需求来分析用户的格式化需求:先对用户需求和领域概念进行匹配,再判断用户是否有具体概念的需求。例如对于旅游服务领域,可根据领域内概念(地点、时间、旅行方式等)分析用户的格式化需求,判断用户是否对旅游地点,旅游时间和旅游方式上有特定要求,从而形成针对旅游概念的查询要求。查询规则生成模块根据主干结点下的枝干结点来判断机器能够处理哪些查询要求,以提取相应信息,传递给图操作模块;并对查询要求信息进行分析,得到每个查询要求的权值,构成各个基本的查询要求。该查询要求是从用户需求中提炼出的,适宜机器识别和操作的用户需求的描述方法,明确指出在图搜索过程中需要搜索的概念和相应概念的权值;基本的查询要求是能够直接应用于图操作模块的查询操作。然后,就从网络服务挖掘组织构件的服务数据库进行查询,并将查询结果进行相应组织,形成Bpel格式的结构化接口,提供给任何支持Bpel格式的运行环境。[0063]图操作模块:负责根据垂直领域的常规需求,分析用户的格式化需求,比对用户需求和领域概念的匹配程度,判断用户需求是否有明确的概念,以形成相应明确的查询要求描述后,再从网络服务挖掘组织构件的服务数据库进行查询,并对查询结果进行组织:根据配置的查询要求信息,从主干结点的匹配开始,逐层遍历和筛选各个枝干结点和叶子节点;并根据权值搜索服务组织图,在同一枝干节点拥有多个类似功能和语义的Web服务时,再比较不同的叶子结点、即具体Web服务的用户反馈评分和QoS分值,提取和配置其中分值较高的叶子节点。
[0064]信息提取模块:负责根据各个模块的返回信息,找到网络服务爬虫模块抓取的包括WSDL文件和其他形式标注文件的服务原始信息进行解析,根据语义化匹配提取其中可用且匹配的Web服务的operation操作信息列表。
[0065]Bpel业务模板生成模块:负责根据信息提取模块得到的operation操作信息列表查询使用的类型type、网址url的信息,构造出执行环境中能够自动运行的Bpel流程部署文件。
[0066](E)网络服务的执行构件,为应用开放性原则设计的应用环境,负责利用包括Bpel格式和所有支持Bpel格式适配的执行环境执行适配生成的网络整体服务方案;并结合用户的使用方式和形式,将执行结果及时反馈给用户;该构件作为系统的输出,也能藉由符合输出接口标准的其他构件完成相应操作和返回执行结果。
[0067]参见图6和图7,介绍本发明基于图挖掘技术的语义化Web业务生成系统的工作方法的下述五个具体操作步骤:
[0068]步骤1,系统通过自然语言收集构件、即终端采用各类形式的收集器接收来自用户采用自然语音或文字输入的应用需求,并由自然语言收集构件对用户输入进行处理后,发送到自然语言分析构件。
[0069]步骤2,自然语言分析构件对自然语言收集构件处理后的需求进行机器识别处理,自动形成结构化的Web网络应用需求,并转送到网络服务生成构件。
[0070]该步骤2包括下列操作内容:自然语言分析构件接收来自自然语言收集构件的自然语言或文字描述的应用需求后,词性标注模块借助词性标注服务数据库中的已有信息,对应用需求中的各个词汇进行词性标注。长句逻辑切分模块对句子的整体架构进行机器判断,按照设定的领域需求的应用,构建主谓宾的结构,并抽取主句和从句;关键词抽取模块也按照该设定应用领域提取该领域内的关键词。同义词词典映射模块提取与关键词匹配或相关的词,并计算其权重。信息模板抽取模块将结合上述各个词语的涵义和信息模板,生成格式化结构后,输出给网络服务生成构件。
[0071]步骤3,网络服务挖掘组织构件利用搜索引擎的思想及技术,抓取网络中的服务后,将Web服务数据存入服务数据库。服务聚类模块利用聚类算法对抓取的各个零散的Web服务进行基于内容的信息聚类处理,并在每个聚类块中提取关键词作为归类的依据,再提取关键词,构成聚类数据和存入服务数据库。语义化服务建图模块根据服务数据库中的原始服务信息和聚类数据,借助图挖掘的组织思想,对Web服务进行结构化组织,建立森林式的服务组织树图;同时根据系统需要,添加其他自定义的、能被系统识别的服务后,将服务组织树图永久性地存储于服务数据库。这些服务组织图在开始时进行创建,后期可随时更新。最后,向网络服务生成构件提供使用图操作的统一接口。[0072]步骤4,网络服务生成构件接收来自自然语言分析构件的分析结果,并与网络服务挖掘组织构件协同合作,进行服务的查找和组织,形成一套整体的服务执行方案,即生成Bpel格式的网络服务组织结果。
[0073]该步骤4包括下列操作内容:
[0074](41)输入解析模块对来自自然语言分析构件的格式化需求进行分析处理。
[0075](42)查询规则生成模块根据用户是否存在某方面的需求为基准,删除其中机器不能采用的用户需求,构建更接近于用户需求内容的各个查询要求,以便对用户需求进行全方位的提取和存储。查询规则生成模块根据主干结点下的枝干结点判断机器能够处理用户的哪些查询要求,以提取相应的查询信息,同时对查询要求进行分析,获得每个查询要求的权值,构成各个基本的查询要求。
[0076](43)图操作模块根据配置的各个基本的查询要求,从主干结点开始匹配,逐层遍历和筛选各个枝干结点和叶子节点;并根据权值搜索服务组织树图,在同一枝干节点能够拥有多个类似功能和语义的Web服务时,再比较不同的叶子结点、即具体Web服务的用户反馈评分和QoS分值,提取和配置其中分值较高的K个叶子节点返回。
[0077](44)信息提取模块根据返回信息,找到网络服务爬虫模块抓取的包括用XML语言描述的Web服务和说明如何与Web服务通信与接口信息的WSDL (Web ServicesDescription Language)文件和其他形式标注文件的服务原始信息进行解析,再根据语义化匹配提取其中可用、且匹配的Web服务的操作operation信息列表,再根据operation查询使用的类型type、网址url等信息,构造出执行环境中可自动运行的Bpel流程部署文件。
[0078]步骤5,网络服务执行构件接收来自网络服务生成构件的Bpel格式的Web服务执行方案,并将该Web服务的Bpel文件分发到业务处理节点上的Bpel执行容器中运行,并根据用户的使用方式和形式,将最终执行结果反馈给用户。网络服务执行构件支持任何Bpel格式的执行环境进行适配。
[0079]本发明已经进行了多次实施例的试验,且试验是成功的,实现了发明目的,也说明了本发明系统的结构组成及其工作方法都是可行的。
[0080]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
【权利要求】
1.一种基于图挖掘技术的语义化Web业务生成系统,其特征在于:该系统是基于传统服务器构建而成,系统利用包括自然语言分词、图挖掘、聚类、语义化分析、服务流程化生成和服务执行的多项技术,对用户使用自然语言或文字描述的应用需求进行收集和分析后,自动提取关键词并解析其服务需求,再在构造的Web服务图中挖掘出可用的服务及其组合方式,最后在该系统集成运行环境中,完成服务的自动执行,并反馈返回执行结果;该系统设有下述五个组成构件:自然语言收集构件、自然语言分析构件、网络服务挖掘组织构件、网络服务生成构件和网络服务生成后的网络服务执行构件;其中: 自然语言收集构件,为具有通用接口和开发功能的网络终端,作为该系统的输入端,用于通过网页、安卓或IOS系统客户端软件获取用户自然语言或文字的输入信息:包括格式化字段和非格式化的自然语言或文字,以收集与获取用户的需求描述,并将语言或文字传递给自然语言分析构件;该自然语言收集构件能够适配多种终端,以满足用户的不同需求,并为其他开发者提供开发与扩展平台; 自然语言分析构件,作为直接接受用户信息的前端,负责对用户输入的自然语言或文字描述的需求执行机器化分析和学习,获知用户输入信息的意图,进而分析用户需求,为网络服务生成构件提供机器可识别的格式化信息;其顺序设有:与词性标注数据库连接的词性标注模块、长句逻辑切分模块、关键词抽取模块、同义词词典映射模块和信息模板抽取模块,以及分别与后述四个模块交互信息的语句词性语义信息构建模块; 网络服务挖掘组织构件,负责藉由垂直搜索领域的爬虫、索引和聚类的技术,采用图挖掘技术的组织思路,对用户在网络上使用的各种可用服务进行抓取、挖掘和收集,并在进行系统的初步 分析后,构建为森林式服务组织树图,并存储于服务数据库,以供网络服务生成构件使用;设有:网络服务爬虫模块、网络服务聚类模块、语义化服务建图模块、图操作接口模块和服务数据库; 网络服务生成构件,负责对用户需求做出相应、及时的服务识别和服务生成,并形成一套可行的服务方案:其输入分别来自自然语言分析构件和网络服务挖掘组织构件:由自然语言分析构件得到包括关键词的匹配结果和词义、词性判断的结构化的词语需求分析结果,由网络服务挖掘组织构件得到统一的图操作接口和能够查询的服务数据库;再对提取的用户格式化需求信息进行机器判定和语义化分析,形成具有针对性的服务查询需求,并执行相关操作,生成对应格式的网络服务;设有:顺序连接的输入解析模块、查询规则生成模块、图操作模块、信息提取模块和Bpel业务模板生成模块; 网络服务执行构件,为应用开放性原则设计的应用环境,负责利用包括Bpel格式和所有支持Bpel格式适配的执行环境执行适配所生成的网络服务,并执行该服务整体方案;并结合用户的使用方式和形式,将执行结果及时反馈给用户;该构件作为系统的输出,也能藉由符合输出接口标准的其他构件完成相应操作和返回执行结果。
2.根据权利要求1所述的系统,其特征在于:所述自然语言分析构件中的七个组成模块功能如下: 词性标注模块,负责根据词性标注数据库中存储的信息,对用户利用语言或文字描述的需求中各个词语标注其词性和涵义后,传递给长句逻辑切分模块; 词性标注数据库,用于存储字、词及其多种不同的词性和涵义,以便根据位于不同位置的字、词,并结合上下文和自然语句的组织模式赋予不同位置的字、词的当前不同词性与涵义;在抽取关键词时,也在词性标注数据库中查询其相应涵义;所述自然语句的组织形式包括主语、谓语和宾语; 长句逻辑切分模块,负责对完成词性标注后的语句的整体架构进行机器判断,按照主谓宾结构抽取主句和从句,并进行长句逻辑切分,切分为多个主谓宾结构,以确定每个词语的词性与涵义,并将涵义信息传递给关键词抽取模块; 关键词抽取模块,负责根据不同领域和用户提供的配置文件,选取其中不同的关键词,生成机器可识别的信息模板;因该系统特别适用于垂直领域内的操作需求,即面向一个或多个特定领域的应用,故该模块所选取的关键词为该应用领域的重点字、词,且具有该领域的明确涵义; 同义词词典映射模块,负责根据关键词抽取模块选取的关键词,从信息模板抽取模块中提取与其匹配或相关的词语,以供语句词性语义信息构建模块进行后续处理; 语句词性语义信息构建模块,用于接收长句逻辑切分、关键词抽取和同义词词典映射共三个模块的处理结果,判断各个字、词的词性与涵义,以及其在句子中的位置,分别计算其权重,以便根据权重判断用户自然语言或文字描述的需求中的词语是否为关键词,以供信息模板抽取模块再次抽取进行机器分析; 信息模板抽取模块,负责接收同义词词典映射模块和语句词性语义信息构建模块选取的关键词和处理结果,利用各个关键词并结合其词语涵义和信息模板,生成机器可识别的格式化结构信息模板,再输出给网络服务生成构件,以使生成的结果与需求更匹配,避免产生用户不需要的垃圾信息。
3.根据权利要求1所述的系统,其特征在于:所述网络服务挖掘组织构件中的各个模块功能如下: 网络服务爬虫模块,用于利用网络爬虫对网络中存在的Web服务进行抓取和收集,并将Web服务的原始信息保存于服务数据库,以供后续模块处理; 网络服务聚类模块,用于从服务数据库中提取原始服务信息,并对网络服务爬虫模块抓取的各个零散的Web服务进行语义化信息提取,再针对语义信息进行聚类处理后,将语义相近的服务聚成一类后,从中提取关键词,构成聚类数据;然后将聚类数据存回服务数据库中; 语义化服务建图模块,用于根据服务数据库中的原始服务信息和聚类数据,借助图挖掘的组织思想,对Web服务进行结构化组织,从而将Web服务按照图的结构进行整理和分类,形成森林式的服务组织树图,再将该服务组织树图存储于服务数据库,以供网络服务生成构件使用; 图操作接口模块,用于为规范地操作服务数据库而提供的统一接口,以供网络服务生成构件使用服务数据库; 服务数据库,用于存储该系统中的文件和数据,包括:由网络服务爬虫模块利用网络爬虫针对互联网上的Web服务特征抓取的服务文件,网络服务聚类模块从网络服务爬虫模块抓取的服务文件提取语义化信息、并进行聚类处理后存储的聚类数据;以及语义化服务建图模块依据Web服务的语义化信息和图形思想建立的森林式的服务组织树图。
4.根据权利要求1所述的系统,其特征在于:所述森林式的服务组织树图结构是以语义化特性作为导向,在服务数据库中抽取多个不同领域和不同范围的子树形成的;该服务组织树图存储于系统的服务数据库,供网络服务生成构件使用;每个服务组织树图中顺序设有:主干节点,枝干节点和叶子节点,其中:叶子节点为具体的Web服务节点,每个叶子节点代表唯一的一项Web服务,叶子节点根部是代表一个服务簇的聚合的枝干节点,每个Web服务节点与其所归属的枝干节点之间设有一条无向的边,代表该服务归属于该聚合概念的枝干节点;每个叶子节点连接一个或多个枝干节点,每个枝干节点包含一个或多个服务节点;枝干节点根部是连接多个枝干节点的主干节点,作为该树图中更高级抽象概念的根节点,每个主干节点连接一个或多个枝干节点,也能直接连接叶子节点,表明该叶子代表的Web服务在语义上直接归属该主干节点;不同于现有技术,该服务组织图是以Web服务的语义化特性作为导向,并引入概念性节点,且与具体的Web服务共存于服务组织树图中。
5.根据权利要求1所述的系统,其特征在于:所述网络服务生成构件中的各个模块功能如下: 输入解析模块用于对来自自然语言分析构件的包括关键词的匹配结果和词义判断的结构化的词语需求进行分析处理,对用户的格式化需求进行机器判定,再从网络服务挖掘组织部分得到可查询的服务信息数据库信息后,一起送入查询规则生成模块; 查询规则生成模块,用于根据服务数据库对用户格式化需求中的信息进行语义化分析和机器判定,并以用户是否存在某方面的需求为基准,删除其中不能被机器采用的用户需求,构建具有针对性的、更接近于用户需求的各个查询要求,以便对用户需求进行全方位的提取和存储;查询规则生成模块根据主干节点下的枝干节点来判断机器能够处理哪些查询要求,以提取相应信息,并对查询要求信息进行分析,得到每个查询要求的权值,构成各个基本的查询要求;该查询要求是从用户需求中提炼出的,适宜机器识别和操作的用户需求描述方法,明确指出在图搜索过程中需要搜索的概念和相应概念的权值;基本的查询要求是能够直接应用于 图操作模块的查询操作; 图操作模块,负责根据垂直领域的常规需求,分析用户的格式化需求,比对用户需求和领域概念的匹配程度,判断用户需求是否有明确的概念,以形成相应明确的查询要求描述后,再从网络服务挖掘组织构件的服务数据库进行查询,并对查询结果进行组织:根据配置的查询要求信息,从主干节点的匹配开始,逐层遍历和筛选各个枝干节点和叶子节点;并根据权值搜索服务组织图,在同一枝干节点拥有多个类似功能和语义的Web服务时,再比较不同的叶子节点、即具体Web服务的用户反馈评分和QoS分值,提取和配置其中分值较高的叶子节点; 信息提取模块,负责根据各个模块的返回信息,找到网络服务爬虫模块抓取的包括WSDL文件和其他形式标注文件的服务原始信息进行解析,根据语义化匹配提取其中可用且匹配的Web服务的operation操作信息列表; 业务流程执行语言Bpel (Business Process Execution Language)业务模板生成模块,负责根据信息提取模块得到的operation操作信息列表查询使用的类型type、网址url的信息,构造出执行环境中能够自动运行的Bpel流程部署文件。
6.一种采用权利要求1所述基于图挖掘技术的语义化Web业务生成系统的工作方法,其特征在于:所述方法包括下列操作步骤: (I)系统通过自然语言收集构件、即终端采用各类形式的收集器接收来自用户采用自然语音或文字输入的应用需求,并由自然语言收集构件对用户输入进行处理后,发送到自然语言分析构件; (2)自然语言分析构件对自然语言收集构件处理后的需求进行机器识别处理,自动形成结构化的Web网络应用需求,并转送到生成构件; (3)网络服务挖掘组织构件利用搜索引擎的思想及技术,抓取网络中的服务后,将Web服务数据存入服务数据库;服务聚类模块利用聚类算法对抓取的各个零散的Web服务进行基于内容的信息聚类处理,并在每个聚类块中提取关键词作为归类的依据,再提取关键词,构成聚类数据和存入服务数据库;语义化服务建图模块根据服务数据库中的原始服务信息和聚类数据,借助图挖掘的组织思想,对Web服务进行结构化组织,建立森林式的服务组织树图;同时根据系统需要,添加其他自定义的、能被系统识别的服务后,将服务组织树图永久性地存储于服务数据库;并向网络服务生成构件提供使用图操作的统一接口 ; (4)网络服务生成构件接收来自自然语言分析构件的分析结果,并与网络服务挖掘组织构件协同合作,进行服务查找和组织,形成一套整体的服务执行方案,即生成Bpel格式的网络服务组织结果; (5)网络服务执行构件接收来自网络服务生成构件的Bpel格式的Web服务执行方案,并将该Web服务的Bpel文件分发到业务处理节点上的Bpel执行容器中运行,并根据用户的使用方式和形式,将最终执行结果反馈给用户。
7.根据权利要求6所述的方法,其特征在于:所述步骤(2)包括下列操作内容:自然语言分析构件接收来自自然语言收集构件的自然语言或文字描述的应用需求后,词性标注模块借助词性标注服务数据 库中的已有信息,对应用需求中的各个词汇进行词性标注;长句逻辑切分模块对句子的整体架构进行机器判断,按照设定的领域需求的应用,构建主谓宾的结构,并抽取主句和从句;关键词抽取模块也按照该设定应用领域提取该领域内的关键词;同义词词典映射模块提取与关键词匹配或相关的词,并计算其权重;信息模板抽取模块将结合上述各个词语的涵义和信息模板,生成格式化结构后,输出给网络服务生成构件。
8.根据权利要求6所述的方法,其特征在于:所述步骤(4)包括下列操作内容: (41)输入解析模块对来自自然语言分析构件的格式化需求进行分析处理; (42)查询规则生成模块根据用户是否存在某方面的需求为基准,删除其中不能被机器采用的用户需求,构建更接近于用户需求内容的各个查询要求,以便对用户需求进行全方位的提取和存储;查询规则生成模块根据主干节点下的枝干节点判断机器能够处理用户的哪些查询要求,以提取相应信息,同时对查询要求进行分析,获得每个查询要求的权值,构成各个基本的查询要求; (43)图操作模块根据配置的各个基本的查询要求,从主干节点的匹配开始,逐层遍历和筛选各个枝干节点和叶子节点;并根据权值搜索服务组织树图,在同一枝干节点能拥有多个类似功能和语义的Web服务时,再比较不同的叶子节点、即具体Web服务的用户反馈评分和QoS分值,提取和配置其中分值较高的叶子节点; (44)信息提取模块根据返回信息,找到网络服务爬虫模块抓取的包括用XML语言描述Web服务和说明如何与Web服务通信与接口信息的WSDL文件和其他形式标注文件的服务原始信息进行解析,根据语义化匹配提取其中可用且匹配的Web服务的操作operation信息列表,再根据operation查询使用的type、url的信息,构造出执行环境中可自动运行的Bpel流程部署文件。
【文档编号】G06F17/30GK103631882SQ201310566235
【公开日】2014年3月12日 申请日期:2013年11月14日 优先权日:2013年11月14日
【发明者】赵耀, 林荣恒, 刘榕, 赵翔, 邹华, 杨放春 申请人:北京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1