基于形式概念分析的Web数据处理方法

文档序号:6469294阅读:169来源:国知局

专利名称::基于形式概念分析的Web数据处理方法
技术领域
:本发明属于Web与数据库
技术领域
,涉及一种新颖高效的基于形式概念分析的Web数据处理方法,具体涉及Web服务管理与检索方法。
背景技术
:随着电子商务的迅速发展,越来越多的企业将其核心业务转移到Internet上。电子商务的服务模式从商业-客户模式发展到商业-商业模式,在技术上也从简单的Web信息发布发展到Internet范围内的数据集成和信息共享。这样,就对Internet上的商业应用系统的快速性、有效性和可靠性提出了更高的要求。在此背景下,Web服务技术应运而生。越来越多的应用表明,Web服务作为一种新型的分布式计算模型,已成为Web上数据和信息集成的有效技术手段。在Web服务技术出现的初期,很多组织(如W3C、WS-1等)和国际知名的软件企业(如IBM、BEA、HP、Microsoft等)都致力于相关技术标准制定和支持平台的开发。现在,诸如XML、WSDL、SOAP和UDDI等标准已经成熟并成功应用到Web服务中,很多中间件和开发环境,如IBMWebSphere、Microsoft.Net、BEAWebLogic等都提供了对Web服务的支持。Web服务技术为整合第三方组件提供了良好的解决方案,Web服务的使用极大地加速了商业应用的开发,降低了开发成本,并且提高了软件的模块化、灵活性以及可配置性。但是,随着Web服务应用的不断深入,Web服务数量和所支持业务类型也越来越多。在这种环境下,要使Web服务满足不断增长的应用需求,就必须改进现有的Web服务管理模式除了要提供一个开放、安全的环境来支持服务提供者按可编程的方式描述业务和服务之外,还要提供在Internet范围内的Web服务的快速査找机制。此外,Web服务的管理问题还涉及如何适应新的变化,比如,当某个Web服务发生故障时如何找到相应的替代Web服务,以保证请求者的应用程序连续有效运行以及服务间关系发现与管理等等。Web服务管理和检索技术的研究可以归结到两方面一方面是通过研究和利用Web服务之间的潜在语义关系,采用合理的结构对Web服务进行组织,以实现高效而准确的Web服务检索;另一方面由于Internet是个开放的动态环境,以及Web服务数量和所支持的业务种类也在不断增加,因此,Web服务管理应该是支持动态的、增量式管理技术。针对Web服务的检索技术主要就是研究如何在给定的Web服务描述信息库中快速而准确地找到满足用户需求的Web服务,并将结果反馈给用户。因此,有效的Web服务管理技术可以保证服务检索效率。Web服务发现的研究目标是服务发现的高效性和自动化,在服务发现技术中,利用语义描述和服务本体论是达到该目标的有效途径。但如何使用现有标准、规范来描述服务,如何将语义Web、本体论和语义推理应用到Web服务的查找和匹配中是有待进一步研究的课题。但目前,实际应用中的Web服务描述信息中多数是没有加入语义信息的,从这个意义上说,要高效地发现Web服务必须有效地利用服务间潜在的语义联系。目前,在UDDI服务中心,Web服务是按服务提供者的业务类别分类管理。服务提供者在注册Web服务时根据自己的业务类别将Web服务注册到不同的服务目录中。用这种按目录分类方式来组织Web服务存在下列不足(1)在多数情况下,一个服务可以完成多个功能,而如果这些功能在类别上有很大区别,那么在服务层上就无法准确确定服务属于哪个类别;(2)基于这种方式组织的Web服务,因为没有有效地利用服务间的潜在语义关系,特别是在Web服务数量大量递增的情况下,难以实现对Web服务准确而高效的检索;(3)由于传统Web服务管理方法,只是以粗粒度(服务层)来对Web服务进行组织,而服务请求者所要满足的需求是由服务中的方法实现的,而传统的Web服务分类管理技术并不能满足这种检索要求。对于(l)的不足之处,一个可行解决方法是由服务提供者根据自己商业目的和服务提供的功能将一个Web服务注册到多个类别中,但这将导致服务注册中心存放的Web服务信息存在大量的冗余。对于第(2)、(3)的不足,目前的服务管理技术无法直接解决。虽然现有的Web服务管理研究从不同侧面对克服上述不足提出了解决方法,但并没有提及服务间关系发现与管理、服务失效时如何处理以及服务增量变化等问题。
发明内容本发明的技术问题是要提供一种快速高效的基于形式概念分析的Web数据处理方法。为了解决以上的技术问题,本发明充分利用现有的Web服务描述信息(如WSDL文档、UDDI元数据),分析Web服务在各个粒度级别上的潜在语义关系,并利用概念格来表达服务间这种关系(我们这种概念格称为服务格)实现对Web服务的概念分组,提出服务格的增量维护方法来实现Web服务管理。针对Internet环境下Web服务数量和种类不断增长的情况,通过对服务的相似性研究,提出服务格的约简方法。对建立的服务格,根据请求服务进行服务检索。首先介绍与本发明有关的一些概念和定义。1形式背景一个形式背景可表达为一个三元组K(O,A幻,其中,O和J是两个有限集,0={。,,02,...,0}为对象集,每个o^O(i")称为一个对象;^="^2,...,^}为属性集,每个e爿G、加)称为一个属性;R是O和J之间的二元关系,充^Ox^。若(o,,)e兄,则称《具有属性^;若(0i,"」-&,则称o,不具有属性^。一个形式背景可以可视化地表示为一个交叉表,这个交叉表称为背景表。2背景表-Web—个形式背景K(o,A&)的背景表T是关系《的矩阵表示,其中矩阵元素的值为3共同属性与共同对象给定一个形式背景X(O,A幻,设OGO及^4eJ,则O中所有对象的具有的共同属性集合定义为4形式概念K(O,AA)是一个形式背景,如果一个二元组C(0,^满足C^0及爿G^,且0£004)及^^40),则称C为C(O,A幻下的一个形式概念(以下简称为概念)。其中O称为概念C的外延,用e;c(C)-O表示;X称为概念C的内涵,用/w(C)-^表示。5偏序关系设q(4)、C2(02,^)为同一形式背景2C(0,A旬下的两个形式概念,即0,"2^0,4,4e^则C,和C2的偏序定义为此时,C,称为C,的下界(子孙概念),而q称为c,的上界(祖先概念)。如果,不存在其它概念c3(o3,4)满足C,(0,,4)^C3(03,4)^Q((^,4),则称C2为C,的最小上界(父概念),或称为连接(Join);相似地,如果不存在另一个概念<:3(03,4),满足C,(O,,^)2C3(03,^)2C2(02,j2),则称C2为C,的最大下界(子1yo/eC>,"je爿am/o,义"00^2mv/5^具有J中所有属性的对象集合定义为O(j)={o'|o'e(9,Va'ej,(o',a')e《概念),或称为交。6Web服务Web月艮务是一个三元组wy(o^e//w,wg//w,o;//w),其中妙e^-fepe,,妙e2,......,妙^是数据类型集合,包含所有在消息中出现的数据类型;》wg//w={//wg1,》wg2,......,附艰J表示消息集合,柳g,=f〈/^,(v/e"〉,.....,〈;a,0^e》)(柳g,e为消息A中各个部分的数据类型集合;c^/W={OA,OP2,......,。W为一个Web服务中提供的所有方法集,一个方法包括输入消息和输出消息,即7Web服务形式背景给定Web服务集①,将①中所有Web服务组成的集合定义为形式背景W復(^^。A)或W伐的对象集似,将所有方法组成的集合定义为形式背景W《(<^,》,^0的属性集j。,而俯和加之间的二元关系义定义为服务x^是否支持方法。^。如果是支持,关系&(^,,。^;)的取值为=1,否则为=0。即<formula>formulaseeoriginaldocumentpage9</formula>同时,关系A取值表达式为"1z/似,.s『(25b)这里,似,.sup.。巧表示服务^,支持方法。;v即Web服务柳,中有可调用的方法,。8Web服务形式概念Web服务形式背景W艰("^J。A)下的一个形式概念是一个二元组附C(C^s,C4。),其中C附^Wj及C4。eJo。C附禾QC4o满足下列关系C4o="|aejo,VwjeC約am/.sup.a}C約={—hve似,eC4oam/sup.a}这里,C4o和C^分别称为概念附C的内涵和外延,即e;c(附C)-C附,9服务格的大小、边、路径、链、最大链及结点间距离给定服务格WW中的任意两个结点附q,約C,,服务格中结点总数称为服务格大小,记为|^4£|。如果約C,《約q且不存在附Cp使得附C,S,sCtS附C乂,艮卩約q是rsC,的最小上界(父概念),P^C,和約q间就存在一条边,,记为^/ge(『sCj,^cJ;从顶结点到指定结点附C,间所有的边连接在一起就构成一条路径,记为&A(附C,);路径中边的条数,称为路径的长度,记为^"g/W^"刷;从顶结点到底结点,经过附C,的最长路径,又称结点附C,的链,记为C/u^(附C,);在所有链中,长度最大的链,称为服务格似£的最大链,记为MoxCto/n(^^);同一条链中,两个结点间间隔的边数,称为结点间距离,记为^/(約C,,約。),我们规定,不同路径中的结点距离为oo,同一结点距离为0。10结点层和服务格的层-给定服务格俯/:及其中的一个结点約C,,附C,的链中从顶点到附C,的边数(除顶点外),又称为结点『(,层;而服务格W^中的最大链的长度,又称为服务格的层。11最小服务格假设服务格W^CM4^。,(0是根据服务集①生成的服务格,如果在似£中任意两个结点^C,(C約,,C4oJ、^C2(C附2,C4。2)均不满足下列两个条件之—i)C附,=C附2且C40lcC4o2;ii)C約,cCW2且C40l=C4o2,则称似£(1",為&)由服务集<0生成的最小服务格,记为12Web服务方法一个Web服务方法是一个三元组C!p(/"Myg,o"fMsg,Do,Z)w),其中Do为方法的描述信息(包括方法名),提供该方法的Web服务描述信息,/"Msg=(必to0^e',6toa0^e2,…dato0^e")为输入消息类型歹(J表,OMfMyg二(dato0^e!,必to0pe2,…cato(v/7^)为输出消息类型歹!J表,z'wMsg和ow,Msg中的所有da似妙S均为一个基本数据类型。13Web服务之间的关系给定两个Web服务w,(0//!A)、浴2(o///w2),其中和o///w2分别是服务w,和;的方法集。根据^/叫和o/^A中方法的匹配程度,可以将两个Web服务之间的关系定义为下面四种a)如果c;p/碎-o;7/^,则M^和M^为等价关系,记为C柳2°(2)如果cp//^cop//w2,称wa和vw2是有包含关系,或称潜2覆盖wa,记为C。(3)如果<formula>formulaseeoriginaldocumentpage11</formula>则禾尔瑪和裔2是相交关系,或禾尔;部分覆盖,,C,,其中,称为和m2的等价方法。(4)如果印//对10印//^2=0,则称m,和w《2是无关服务,用14服务覆盖度给定两个Web服务w"^//^)和ws2(op//w2),设cowop=o/—no///W2,这样,浴,对ws2的覆盖度为coverage—",)=|>/0/|/|0;7&"21。反之,浴2对的覆盖程度为cover(w>s2,vw,)=|co/wop||。可以看出,在等价关系中,coverage(v^,v^)-l;在包含关系中,<formula>formulaseeoriginaldocumentpage11</formula>coverage(M^2,ws!)=1及cover"ge(M^,ws2)=卜;/叫|/|o///5/21对于匚,;对于无关服务,cove/"flge(M^,M^)-0,因此,它们都可以看作是部分覆盖的特例。15检索请求Web服务对于一个Web服务检索请求w,将其抽象为一个需要支持特定方法的Web服务M^(6^,c^,…,o;0,这个抽象的Web服务就称为检索请求服务。在表达形式上,一个检索请求服务与服务集中的Web服务是相同的。在某个服务集①中检索满足v^的Web服务就是在服务集①中找到m^(^,^,…,c^)与支持相同方法的Web服务子集D。16Web服务检索模型(WTM):一个服务检索模型是一个五元组^7M二(fra,S《,肝,&,及""0,其中『d_是Web服务集中所有服务形式化表示;&一是用户检索请求的形式化表示;『r一服务之间关系;化一服务检索算法;/^")t对检索结果的排名机制。17基于服务格的Web服务检索模型(WTMsL):给定一个Web服务形式概念背景W艰("^J。,兄)及其所对应的服务格<^£(^^》茂),在他£上的Web服务检索模型五元组PfTM^可定义为¥65服务形式化表达为服务名及其方法集》^=^(0/^^);将每个检索请求浴《抽象为一个Web服务,即为&=;服务之间的关系表达附,定义为与形式背景W復(1^J。,30中定义的关系A相同;检索算法&归结为在服务格W^C^,》,^0上找到与内涵与cW/w,相关的结点;可以根据所找到的结点对检索请求ww的覆盖度大小进行排名。18概念格具有偏序关系的形式背景中所有概念集合构成了一个完全格,称为形式概念格(FormalConc印tLattice),简称概念格,用z(o,A兄)或£表示。概念格是形式概念分析研究的概念结构表示,格的最小下界或交(Meet)和最大上界或称连接(Join)。一个概念格是一个完备格,格的交和连接定义如下,其中的r为索引集,对任意/er,(O,,A)都是概念<formula>formulaseeoriginaldocumentpage12</formula>说明服务格的性质设約C,(C『a,C4q)、WC2(C附2,C4o2)及WC3(C約3,C4o3)都是服务格Ww(^,J。,中的结点,则附C,和『sC2满足性质1:自反性附C,《附C,;性质2:反对称性W^C,S『sC2且『sC2S^yC,,则『sC,=,sC2;性质3:传递性約GSP^C2,『sC2《^C3则『(,S『sC3。由于在Internet环境下,Web服务数量的快速增长,因此,采用静态方法来建立服务格是不适合的。为了处理服务集快速增长的需求,下面我们给出一种优化过的增量Web形式服务格的产生算法算法C^"mi^g-M。"c^〃产生服务形式概念的基本规则是当有一个新的服务加入到服务集中,对服务形式概念集中的己有概念进行更新,使概念的内涵为加入服务的方法与概念的内涵的交,而概念的外延等加入服务并上概念的外延。设俯r是关于服务形式背景W《C^'力'幻的服务格。由定义5可知,W^中的结点满足偏序关系。设w^^^)为一个等待加入服务集的Web服务,我们用*表示在W"加入^—"^后生成的新的服务格。从W£计算出W£A的基本步骤如下St印1:对于W復的中满足^^^""的Web服务形式概念P^C(CTT;y,C4o),;]每P^C(CP^,C4o^參改为f^C'(C『su>w,C4o);St印2:对于似K中满足C^cZG/^/的Web服务形式概念附C(C附,C4。),保持不变;St印3:在W伐中针对所有Web服务形式概念附C(C附,C^),计算"。-C4。n印//^。如果"。*-且不存在某个Web服务形式概念附Q(O^,C40满足则创建新Web服务形式概念AWsC(附,Uo),这里,AO^=C^su{wy},MMo"do)。将M^COVC約,"0)加入到与新产生的概念集M中。St印4:在^復中,如果不存在某个结点約C(C附,C^)满足opfc,£C4o,贝J仓ij建新结点M^C(M:P^s,7VC4。),这里,A^Ws={ws},iVC^"印//^。将M^C(AO^,iVC^加入到新产生的Web服务形式概念集M中。St印5:扫描新产生的Web服务形式概念集M,更新原始服务格m",产生新的服务格W"',并将M合并到原始概念集中。由上述步骤可见,服务格W^中新结点的产生是根据新加服务w^^/^与服务格中已有结点之间关系(主要是内涵之间的关系)产生的即对W"中所有『^C(C『jy,C4o),当Jonopfc/和不包含在任何结点中时,创建新结点。图l是算法Ge"^"^-^c。"W的流程图。该算法是实现增量式Web服务集中产生Web服务形式概念和服务格的方法。算法将需要改变的形式概念分成两类,一种是需要修改的概念(M)(第1行),另一类是增加的概念(W)(第2行)。设W《(^^^^)与原始服务集对应的形式概念背景,m"关于^《的服务格。给定一个新的Web服务h4^//w),算法先修改旧的概念(第3-9行)。然后,如果满足下面两个条件i)除底结点外,在W^中无任何结点所对应的概念内涵包含c^/W;。/^^与<^£中除底结点之外的其它结点的内涵交,不是^^中任何一个结点的内涵,就创建新结点(第9-15行)。如果要修改的服务己经在修改集(M)中,那么只要将ws加入对应的形式概念的外延即可(第10-11行)。最后调用算法^^e^""^实现对似r的更新,产生新的服务格WW,并返回(第13-15行)。注意,服务格的顶结点和底结点,起初两者的外延和内涵都为-,我们把它们设为WW的初始状态。在实用应用中,几乎没有一个方法能被所有Web服务所支持的,也几乎没有一个Web服务可以支持所有的方法,所以除Web服务数目很少时(如l个),顶节点的外延和底结点的内涵有可能不为-,随着Web服务数目的增多数,它们很快就变为夂经过分析,不难发现算法Cc"財—附C。"c印/的复杂度为0(|似£|其中l^^是原始服务格的大小,l""—为新加入Web服务的方法数。在建立服务格(算法^^""£"^")时,根据定义n中给出的服务格的有关性质,我们可以根据这些性质确定在W^中需要更新那些结点、插入哪些结点、增加哪些边及删除哪些边。图2(a)、(b)分别给出了算法^^""///"的完整描述和其流程图,一般步骤如下St印1:在加入新的Web服务后,通过Ge"w^—附c。"(寧得到需要进行修改的Web服务形式概念集(^)及新增的Web服务形式概念集("。St印2:对于約CeM形式概念,只要在原始服务格(M&)中找与約C内涵相同的形式概念約C',并将其外延设置与約C相同的外延相同(第2-4行);St印3:对于新增加的形式概念約CeiV需要在原始服务格中找到^C的最小上界^C'和最大下界附C"(第8-9行),并且,在^c'和約c、『sc和^c"之间分别建立一条边,并且删除約c'和趵C"之间的那条边(第11-12)。St印4:最后,返回更新后的*。该算法的复杂度为'l圳)(修改时)或—.w)(更新时)。基于服务格的服务检索方法检索问题定义为设①"^,2,…,wJ为一个Web服务集,其中m^e①为单个的Web服务(原子的)。一个检索请求可描述为m^—o/voa,...,^^},这里,o巧ew^表示一个具有指定功能的方法。Web服务检索的目的是从给定中检索这样的Web服务集£)=,潛2"."气},其中,对任意一个e满足cover(叫)^0。也就是说柳,和w《之方法集不为空。为了在给定服务格中检索到满足检索要求的Web服务,我们开发了算法fetr/ev7V^ifsO/7Z^"iceq图3是算法Atetr/erz'/^/feflraZ^Wce的流程图,该算法采用宽度优先自顶向下的方法实现了对服务格的搜索,该算法的主要思想描述如下在检索过程中,我们将遵循"最少服务数,最大覆盖"的原则。也就是说,按照服务格中每个结点的内涵与检索的交集的大小对检索结果进行排序。服务数越少,提供满足检索要求方法越多的服务排名越靠前。一般步骤如下St印1:首先获得服务格的层数(第l行)。St印2:逐层遍历服务格(第6-12)行,对于那么内涵与检索请求服务方法集的交不为空的结点形式概念,就将对应概念的外延(Web服务集)加入到结果集中(第8-IO行)。St印3:算法的停止条件分两类,一类是完全遍历整个服务格,另一类是当相邻两层的结果集相同(第11行)时,停止搜索。最后,调用基于覆盖度的排序方法对结果集中的服务进行排名。排序方法首先计算每个^'erM^f^9的覆盖率eovm^(^',v^),然后对覆盖率进行排序。St印4:最后输出满足检索要求的服务集。不难分析,算法的复杂度为^"W,其中,Z是服务格的层数,*是单层最多的结点数。本发明的优越功效在于快速高效进行Web服务的检索。充分利用Web服务间的潜在语义联系,建立基于Web服务形式概念的服务格,然后利用服务格不仅提供了对Web服务的高效组织、存储、管理,还实现了基于服务格的Web服务检索。理论和实验两个方面分析都充分表明,该种技术实现了Web服务在不同粒度级别上的高效管理,以及能够快速响应外界动态环境的变化,同时,基于服务格的web服务检索技术不仅具有良好的时间效率,还能提供与用户需求语义最相关的最优服务集,这些都是同类技术所不具备的。该技术填补了相关研究和
技术领域
的空白,并且具有广泛的实际应用价值。在电信IP业务自动开通的项目实践中,得到了极佳的验证。图1是增量Web形式服务格产生的算法G鹏咖'"g-附c。"c一流程图;图2是实现WsC更新的算法^^"/^""/"流程图3是给定服务格中检索到满足检索要求Web服务的算法Ate^/eKZ'"^sO/7Z^t流程图4(图4a和4b)是与表1相对应的Web服务集的服务格。具体实施例方式请参阅附图所示,下面结合实施的例子来详细介绍本发明所述的基于形式概念分析的Web数据处理方法的执行过程1)是如何产生服务格的实例;2)是基于服务格的检索实例1)产生增量式服务格利用表1给出的Web服务及其方法,根据定义7得到表2所示的Web服务形式背景表。表l:<table>tableseeoriginaldocumentpage17</column></row><table>表1是由满足定义6的不同服务组成的,其中,WS1、WS2、WS3、WS4、WS5、WS6分别代表着服务TempService、TravelService、SkatingService、SportService、PublicService、TrainSerivice。这些服务分别具有不同的功能(或方法),比如,服务TempService可以提供天气预报(getAirForecast)、气温(getTemperature),以及不同地区的信息(getDistrict)和编号(getZip)。另外,方法名后边括号里面的大写字母是方法的縮写形式,比如,AF是方法getAirForecast的縮写。表2:<table>tableseeoriginaldocumentpage18</column></row><table>表2:根据定义7,表2是表l对应的Web服务形式背景,第一列对应着不同的服务,其余的列则代表着不同的方法,这就类似于关系数据库中表的形式。其中,每一个服务与每一个方法都对应着一个值(0或1),当某个服务包含某个方法时,则其对应的值为l,否则,值就为0。比如,服务/F57包含四个方法AF、DT、TP、ZP,那么(r57,j"、Z7入7P入ZW的值都为1,而万7V、(/f57,〃尸入(r57,flfiV、的值都为0。根据表2所示的Web服务形式背景表得到图4(a)所示的Web服务集的服务格,为了表达方便,服务格中的每个结点都有一个ID,各结点所对应的Web服务形式概念如图4(b)所示。图4(a)是服务格,图4(b)是每个结点(形式概念)所对应18的外延和内涵。在图4(a)中,父节点外延包含每个子孙结点的外延,但每个子孙结点的内涵都包含祖先结点的内涵,比如结点WsCl是WsC6的祖父结点,则ex(WsCi)3战(WsC6)禾口in(WsCl)^in(WsC6),另外,虚线表示的是服务格中的最大链。在图4(b)中,每个形式概念所对应的外延和内涵分别在第二列和第三列,比如,形式概念WcS2的外延和内涵分别是ex(WcS2)—WSuWS2,WS4},in(WsC2)={AF}。如图l所示,增量Web形式服务格产生的算法G,M"^-^。"^方法步骤是1)输入参数,ws待加入到服务格中的Web服务,oplist是ws的方法集合,WsL是初始服务格;2)M是服务格需要修改的形式概念集合,N是需要加入到服务格中的新的形式概念集合,M和N都需要初始化为空集,mim是初始服务格所有结点的个数;3)对于w^的中满足C4o^w^的Web服务形式概念附C(0^,C4。),将約C(C附,C4o)修改为附C'(CP^yuw,C4o),并添加到M中;对俯£于中满足C4。cr的Web服务形式概念附C(C附,C4o),保持不变;4)对于满足CAo二oplist的形式概念不做任何处理;5)、6)当CAcm。plist承0时,就产生新的形势概念WsC',其内涵就是CA。n叩nst,夕卜延,就是CWsu(ws〗;否贝lj,ft么都不《故;7)如果WsC'不被M和N包含,就把WsC'加入到N中;8)调用服务格的更新算法及时更新服务格;9)循环变量,直至服务格中的所有结点都处理完,才退出循环;10)输出最终更新完成的服务格,算法结束。如图2所示,实现WsC更新的算法"/"/"紐Z^"ce方法步骤是1)输入参数,C是要修改的(M)或要新增的(N)的形式概念集合,WsL是初始服务格;2)如要C是要修改的形式概念集合,就执行3、4;否则,就执行5;3)、4)n是C的大小,作为循环的终止条件,针对C中的任意一个形式概念WsC,将WsL中与WsC的内涵相等的形式概念的外延修改为WsC的外延;5)如果C是要新增的形式概念集合,就执行6、7、8;6)、7)、8):m是C的大小,作为循环的终止条件,针对C中的任意一个形式概念WsC,在服务格WsL中找到的WsC的最大下界WsC'和最小上界WsC",并删除WsC,和WsC"之间的边,分别建立WcS与WsC'和WsC"的边。9)格的更新完成,输出新的服务格,结束。由图4(b)可知,『(6是^Cu的父概念,因此,对应地,在图4(a)的服务格中『^6和『^i^间就存在一条边;『^"的链有两条(i)附C,2">『SC64『^,4WC12和(2)附C,一附C,">^Ce^附Cu^約Q它们的长度都为4。而路径(3)約C,4約q—附Cu—附(^长度仅为3,因此,它不是附Cu的链。可见,结点^C"的结点层为3;顶结点^^的外延包含所有服务、而内涵为-,故^^为该服务格的顶结点;『(12的内涵包含所有方法,而外延为夂因此,^C!2为该服务格的底结点。上述两条链(1)和(2)均为服务格的最大链,服务格的层为4。由链^C,—^C2—^C6—『(~>『(12,我们可知^C2和附Cn的距离为2。在图4(a)中,如果w"从服务集中删除了,那么w"就应该从^q和附Ce从删除,这样,約^和^Ce分别变为附C2(—1,w"M^1)和『(6(—卩,(^^71)。由于"(附C6)"x(約Cn),因此可将附C6,并在附Ce和附c"之间建立一条边。2)基于服务格的服务检索方法如图3所示,给定服务格中检索到满足检索要求Web服务的算法fetr/eK."(g^O/7Z^"J'ce的步骤是1)输入参数,WsL是服务格,wsq(叩list)是以方法集合oplist描述的查询服务;2)maxlevel是最大链的长度,作为外层循环的终止条件,level二0是循环的初始值,Rws是最终结果集;3)针对服务格的每一层,都要执行4;4)针对每一层的所有结点,都执行5;5)k是循环变量,初始值是0,m是代表每一层上的所有结点数,rwsj是地j层的查询结果集,rwsw是地j+l层的査询结果集;6)针对每一个结点,都要执行7;7)获得某一层上的一个结点,对其执行8;8)结点的内涵与査询服务的内涵的交集不为空时;9)、10)更新查询结果集;11)如果査询结果集的大小没有增加,就推出循环;12)选出最优的结果集作为最终结果集;13)输出结果集,结束。在图4(a)所示的服务格中,以检索请求服务ww^^,ZP)为例来说明本方法的执行过程。服务格的层为4,从第l层开始扫描服务格,结点附Q、附Q、約C"『(5的内涵与{0£,^}的交为空,因此其覆盖也为空,故它们的外延不会加入到结果集中。接着,扫描第2层,只有结点附C8的内涵z'"一cJ^^,"Uo^9^,其它均为空。因此,"(『^)应加入到结果集中,Wn^=n^u{w3、同理,扫描第3层,可以发现/"^(711^{6^,"}={"}—,因此,结果集里应加入^G"的外延,艮卩rw"n^u"(^Cu)二rv^u—!}。最后一层是底结点,不影响结果集。这样,我们得到检索结果集fw&w",它们对WW的覆盖度相等,都为0.5。权利要求1、一种基于形式概念分析的Web数据处理方法,其特征在于该方法是1)建立增量式服务格的方法;2)基于服务格的服务检索方法。2、按权利要求1所述的基于形式概念分析的Web数据处理方法,其特征在于所述建立增量式服务格的方法是,当有一个新的服务加入到服务集中,对概念集已有概念进行更新;一种优化过的增量Web形式服务格的产生算法Ge股W"g-附。"cq,",设w(^"w)为一个等待加入服务集的Web服务,用^W表示在WK加入m4^/W)后生成的新的服务格,则^/:计算出^£4的基本步骤如下St印1:对于W《的中满足^^^/W的web服务形式概念『sC(C『s,C4o),将『sC(CP^y,C4o)修改为『^C'(C『suwv,C4o);St印2:对于^復中满足040(2^//^的Web服务形式概念附C(C附,C40),保持不变;St印3:在^復中针对所有Web服务形式概念^C(C附,C^),计算d。-C4ono^'w。如果""-且不存在某个Web服务形式概念約Q(C『^,C4^)满足C4-"o,则创建新web服务形式概念麼sC0vC約,Jo),这里,AO^-C『su(一,MM。={cJo};将iV^C(iVC附,"o)加入到与新产生的概念集M中;St印4:在W復中,如果不存在某个结点附C(C附,C4o)满足qC4。,则创建新结点AWsC(M7^,iVC40),这里,iVC『s={ws},iVC4。=将iV^C(iVC附,M:^)加入到新产生的Web服务形式概念集M中;St印5:扫描新产生的Web服务形式概念集M,更新原始服务格似£,产生新的服务格WW,并将M合并到原始概念集中。3、按权利要求2所述的基于形式概念分析的Web数据处理方法,其特征在于所述对W^的更新产生新的服务格^^*,采用^^^""^算法,其步骤是St印1:在加入新的Web服务后,通过G鹏她'吸-附C。"呻,得到需要进行修改的Web服务形式概念集(M)及新增的Web服务形式概念集(";St印2:对于約CeM形式概念,只要在原始服务格(似£)中找与^C内涵相同的形式概念約C',并将其外延设置与約c相同的外延;St印3:对于新增加的形式概念約CeJV需要在原始服务格(似£)中找到約C的最小上界WC'和最大下界約C",并且,在約C'和^C、^c和^c"之间分别建立一条边,并且删除^C'和^C"之间的那条边;St印4:最后,返回更新后的W^A,该算法的复杂度为^^^'IM)(修改时)或0—.M)(更新时)。4、按权利要求1所述的基于形式概念分析的Web数据处理方法,其特征在于所述基于服务格的服务检索方法,采用A^"W"^^77Z3"/ee算法,步骤是St印1:首先获得服务格的层数;St印2:逐层遍历服务格行,对于内涵与检索请求服务方法集的交不为空的结点形式概念,就将对应概念的外延(Web服务集)加入到结果集中;St印3:算法的停止条件分两类,一类是完全遍历整个服务格,另一类是当相邻两层的结果集相同时,停止搜索;最后,调用基于覆盖度的排序方法对结果集中的服务进行排名。排序方法首先计算每个W£,7对w^的覆盖率ecvemge—',v^),然后对覆盖率进行排序;Step4:最后输出满足检索要求的服务集。全文摘要一种基于形式概念分析的Web数据处理方法,利用现有的Web服务描述信息,分析Web服务在各个粒度级别上的潜在语义关系,并利用概念格来表达服务间这种关系实现对Web服务的概念分组,提出服务格的增量维护方法来实现Web服务管理。针对Internet环境下Web服务数量和种类不断增长的情况,通过对服务的相似性研究,提出服务格的约简方法。对建立的服务格,根据请求服务进行服务检索。文档编号G06F17/30GK101393563SQ20081020055公开日2009年3月25日申请日期2008年9月26日优先权日2008年9月26日发明者周傲英,彭敦陆,王晓玲申请人:复旦大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1