一种基于标签的web服务聚类方法

文档序号:6354009阅读:741来源:国知局
专利名称:一种基于标签的web服务聚类方法
技术领域
本发明属于web服务领域,尤其涉及一种基于标签的Web服务聚类方法。
背景技术
面向服务的计算(SOC)为我们提供了一种将单一功能应用无缝聚合为大粒度增值服务的方法。如今,服务组合受到了产业界的关注,并且应用到了各个领域,比如工作流管理、金融、电子商务等等。因此如何准确发现满足用户需求的web服务,成为了ー个重要 的研究方向。Web服务是互联网上实现某种功能或执行预先设定的流程的软件对象集,它们在Web上发布,能被用户发现并调用。用户在调用服务之后,可以利用标签对服务进行评注,标签的形式往往是单词或者短语,可以是对服务功能的描述或其他语义信息。目前,服务查询主要是利用web服务搜索引擎实现的,它是利用基于关键字匹配WSDL文件的方法进行查询。WSDL(Web服务描述语言,Web Services DescriptionLanguage)是为描述Web服务发布的XML格式文件,描述了 Web服务的公共接ロ。但是这种方法存在一定的缺陷,比如噪声敏感、低召回率等问题。

发明内容
针对上述技术缺陷,本发明提出一种基于标签的Web服务聚类方法。为了解决上述技术问题,本发明的技术方案如下一种基于标签的web服务聚类方法,包括如下步骤I)收集互联网上web服务的WSDL文件和标签信息;2)从WSDL文件中提取web服务的特征值,所述特征值包括内容、类型、消息、端ロ和服务名称;3)对web服务的各个特征值和标签信息进行相似度计算,并根据特征值和标签信息的相似度值计算综合相似度;4)根据综合相似度使用WTCluster算法对web服务进行聚类。作为可选方案,所述特征值内容的提取包括如下步骤21)建立内容特征向量将WSDL文件的内容根据空白符进行分割,进而得到初始内容特征向量;22)去除词尾利用波特词干算法将词干相同但后缀不同的单词统一化;23)噪声过滤在所述内容向量中,过滤两类没有意义的单词,第一种是XML标签,第二种是功能性词汇;判断所述功能性词汇的包括如下步骤,首先建立词频的泊松分布模型,为每个单词w计算过估因子Aw =—其中ん是通过泊松分布对w的估计词频,nw是实际在文本中统计的词频,过估因子越小,则单词w越可能是功能性词汇,设置阈值At,过估因子小于该阈值的单词将被认定为功能性词汇而过滤掉,所述At的选取如下
权利要求
1.一种基于标签的web服务聚类方法,其特征在于,包括如下步骤 1)收集互联网上web服务的WSDL文件和标签信息; 2)从WSDL文件中提取web服务的特征值,所述特征值包括内容、类型、消息、端口和服务名称; 3)对web服务的各个特征值和标签信息进行相似度计算,井根据特征值和标签信息的相似度值计算综合相似度; 4)根据综合相似度使用WTCluster算法对web服务进行聚类。
2.根据权利要求I所述的ー种基于标签的web服务聚类方法,其特征在于,所述特征值内容的提取包括如下步骤 21)建立内容特征向量将WSDL文件的内容根据空白符进行分割,进而得到初始内容特征向量; 22)去除词尾利用波特词干算法将词干相同但后缀不同的单词统一化; 23)噪声过滤在所述内容向量中,过滤两类没有意义的单词,第一种是XML标签,第二种是功能性词汇; 判断所述功能性词汇的包括如下步骤,首先建立词频的泊松分布模型,为每个单词w计算过估因子K 其中ん是通过泊松分布对w的估计词频,nw是实际在文本中统计的词频,过估因子越小,则单词w越可能是功能性词汇,设置阈值At,过估因子小于该阈值的单词将被认定为功能性词汇而过滤掉,所述At的选取如下
3.根据权利要求I所述的ー种基于标签的web服务聚类方法,其特征在于,所述特征值类型/消息/端ロ的相似度计算包括如下步骤通过统计两个服务类型/消息/端ロ集的匹配数,计算服务之间的类型/消息/端ロ的相似度,具体公式如下
4.根据权利要求I所述的ー种基于标签的web服务聚类方法,其特征在于,所述特征值服务名称的相似度计算包括如下步骤 使用NGD计算两个web服务间的相似度,对于两个web服务SpS2以及他们各自的服务名称特征向量snamesl、Snames2,服务名称特征向量中的单词记为w,这两个服务之间的服务名称相似度计算方式如下
5.根据权利要求I所述的ー种基于标签的web服务聚类方法,其特征在于,所述标签信息相似度计算包括如下步骤利用Jaccard系数的算法计算服务间的标签信息相似度
6.根据权利要求I所述的ー种基于标签的web服务聚类方法,其特征在于,所述综合相似度计算包括如下步骤服务Si和Sj的综合相似度CSim(Si, Sj),其计算公式如下CSim(Si, Sj) = (I-λ ) SimwsdパSi, Sj)+ 入 SimtaJsi, Sj) 其中,入是标签信息相似度所占权重,Sinw (Si,Sp是由特征值内容、类型、消息、端ロ和服务名称的计算的相似度即 SimwsdパSi, Sj) = ω ISimcontent (Si, Sj) + ω 2Simtype ^si, Sj) + ω 3Simmessage (si; Sj) + (O4Simport (Si, Sj)+ (O5Simsnanie (Si, Sj) ωι、ω2、ω3、ω4、ω5分别是内容、类型、消息、端ロ以及名称相似度各自所占权重,可以按实际需要进行调整,但ω Jω2+ω 3+ω4+ω 5 = I。
7.根据权利要求1-6任意一项所述的一种基于标签的web服务聚类方法,其特征在干,在计算标签信息相似度的过程中,如果服务的标签太少,导致相应的相似度降低吋,则在进行计算标签信息相似度前,进行标签推荐; 所述标签推荐包括如下步骤 收集所有用户定义过的标签,作为标签库, 71)采用如下公式计算同现系数,所述同现系数为用户标签和标签库中其他标签同时出现的频率
8.根据权利要求7所述的ー种基于标签的web服务聚类方法,其特征在干,所述步骤73)可采用如下步骤代替 将候选标签c和每个用户标签u的同现系数求和,作为该候选标签的得分,即
全文摘要
本发明公开了一种基于标签的web服务聚类方法,包括如下步骤1)收集互联网上web服务的WSDL文件和标签信息;2)从WSDL文件中提取web服务的特征值,所述特征值包括内容、类型、消息、端口和服务名称;3)对web服务的各个特征值和标签信息进行相似度计算,并根据特征值和标签信息的相似度值计算综合相似度;4)根据综合相似度使用WTCluster算法对web服务进行聚类利用WSDL文件和标签信息,结合现有技术的WTClusterweb服务聚类方法,可以提供更准确的聚类结果。并且可以通过调整系统参数λ、ω1、ω2、ω3、ω4、ω5,针对不同特点的数据类型调整最优混合比例,提出了两种标签推荐方法,用以解决互联网上服务标签过少的问题,进而利用标签提高WTCluster算法的聚类效果。
文档编号G06F17/30GK102622396SQ20111044008
公开日2012年8月1日 申请日期2011年11月30日 优先权日2011年11月30日
发明者冯怡鹏, 吴健, 尹建伟, 李莹, 邓水光, 陈亮 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1