一种基于标签稀疏学习的Web服务发现方法

文档序号：9417426阅读：269来源：国知局

一种基于标签稀疏学习的Web服务发现方法
【技术领域】
[0001] 本发明属于计算机服务技术领域，具体涉及一种基于标签稀疏学习的Web服务发现方法。
【背景技术】
[0002] 随着Web 2. 0时代科技革命的不断发展，互联网软件生产方法的主要形态、运行方式、生产方式和使用方式正发生着巨大的变化。基于Web服务动态聚合，自动组合和弹性伸缩的分布式服务发现成为了未来网络应用开发的重要趋势。这些Web服务技术应用都建立在服务搜索引擎发现和管理服务的基础上展开的。近年来，使用搜索引擎发现服务成为了工业界和学术界关注的重点。
[0003]目前关于Web服务主要是通过搜索引擎进行聚合和管理的。在实际操作中，用户提交搜索关键词，搜索引擎通过字符串匹配WSDL (网络服务描述语言）文件内容进行服务搜索和发现的。然而，这种方案的效率非常低下，原因如下：（1)当代企业组织的Web服务架构复杂，导致普通的WSDL包含非常多冗余的文本信息，直接进行字符串匹配造成资源浪费的问题。⑵当代互联网在蓬勃发展，Web服务呈指数型增长。匹配所有WSDL文件造成效率过低的问题。在真实情况下，工业界需要一种高效的服务索引策略，单纯使用WSDL的文本信息所造成的问题严重阻碍了服务计算领域发展。因此，新型的服务发现技术是Web服务研究的助推器。
[0004] 现有技术中，学术界在探索使用标签进行服务索引并取得了长足的进步。然而，学术界普遍假设标记WSDL的服务标签是充足和准确的，这种前提在实际中存在几点不足：
[0005] 1.事实上，标签是稀缺的。标签主要依赖于人工标记，和大数据服务增长相比，这样的标记显得过于低效，致使标签总是稀缺的。
[0006] 2.由于标签是人工标记的，存在任意性和不规范化等缺点，单纯使用查询请求和标签进行匹配将直接降低服务发现效果。

【发明内容】

[0007] 针对现有技术所存在的上述技术问题，本发明提出了一种基于标签稀疏学习的 Web服务发现方法，能够有效地提高标签预测的准确性，进一步提高Web服务发现的效能。
[0008] -种基于标签稀疏学习的Web服务发现方法，包括如下步骤：
[0009] (1)收集服务集中各Web服务的WSDL文件以及人工标记的服务标签；
[0010] (2)对每个Web服务的WSDL文件和服务标签进行预处理；
[0011] (3)对于标签库中的任一标签，通过对以下目标函数L进行最小化求解，以求得该标签相对于服务集的权重向量w ;
[0012]
[0013] 其中：vd为服务集中第d个Web服务WSDL文件的文本特征向量，D为服务集中所有Web服务的总个数；若该标签已被人工标记为第d个Web服务的服务标签，则yd= 1，否则yd= 〇 ; α为预设的规则因子，τ为向量转置；
[0014] (4)对于标签库中的任一标签，使该标签的权重向量w与服务集中每个Web服务 WSDL文件的文本特征向量进行内积运算，对应得到该标签相对于每个Web服务的标记概率；
[0015] 通过设定概率阈值，从服务集中提取出标记概率大于该概率阈值的Web服务，且使该标签作为这些Web服务的预测标签；
[0016] (5)由服务搜索引擎接受用户的目标查询请求，若服务集小于一定数量规模，则服务搜索引擎直接将目标查询请求与服务集中每个Web服务的WSDL文件信息进行字符串匹配；若服务集大于一定数量规模，则服务搜索引擎直接将目标查询请求与服务集中每个 Web服务的预测标签进行字符串匹配；最后将匹配上的Web服务展现给用户。
[0017] 所述的步骤（2)中对每个Web服务的WSDL文件和服务标签进行预处理，其中对于 WSDL文件，则利用XML (可扩展标记语言）工具提取WSDL文件的特征信息并建立对应的文本特征向量；对于服务标签，则利用自然语言处理中常用的开源文本规整化工具（如word stemming技术）对服务标签进行规整化处理。
[0018] 所述的步骤（3)中通过以下迭代算法对目标函数L进行最小化求解：
[0019]
[0020]
[0021] 其中：wJP w t+1分别为第t次迭代和第t+Ι次迭代标签相对于服务集的权重向量， 4为Wt经梯度下降后的权重向量，w t+1⑴为权重向量wt+1中的第i个元素值，Hf⑴为权重向量W纟中的第i个元素值，t为迭代次数，i为自然数且I < i < N，N为权重向量w的维度，Θ为预设的迭代因子。
[0022] 所述的步骤（5)中最后将匹配上的Web服务包装成html页面格式，进而通过服务搜索引擎展现给用户。
[0023] 本发明充分挖掘WSDL文本特征以有效地提高标签预测的准确性；另外，本发明通过使用二阶段混合智能算法可实时响应多用户的个性化服务查询请求，产生的标签预测列表有助于提尚Web服务发现的效能。
【附图说明】
[0024] 图1为本发明基于标签稀疏学习服务发现方法的流程示意图。
[0025] 图2是标签稀疏学习核心模块WTLearning (Web Service Tag Learning，网络服务标签学习）的内部流程示意图。
【具体实施方式】
[0026] 为了更为具体地描述本发明，下面结合附图及【具体实施方式】对本发明的技术方案进行详细说明。
[0027] 如图1所示，本发明基于标签稀疏学习的Web服务发现方法包括以下部分：
[0028] 步骤1 :服务搜索引擎收集服务开发者提供的WSDL文件。相对每个服务文件，弓丨擎管理着用户提供标签信息。假设开发者共提供D个服务作搜索引擎候选集，那么则共有 D个WSDL文件描述对应服务。在初始化阶段，用户对D个服务文件标记标签以说明服务的作用，过程由服务搜索引擎机制保证标签的质量。经过采集后，D个WSDL文件和标签建立了"一对多"的映射关系。
[0029] 步骤2 :搜索引擎对收集的WSDL文件和标签进行预处理。
[0030] 对于WSDL文件，引擎用XML工具抽取文本信息建立Bag-of-words (BoW)字典模型，该模型忽略了文本的语法和语序，用一组无序的单词来表达WSDL文件内容。具体地，对于WSDL文件d，引擎使用字典模型建立对应的，长度是WSDL的单词总数。本向量的取值为〇或1 :若对应单词出现了，则取值为1反之为0。经过处理后，引擎把D个WSDL文件转化成D个文本特征向量。
[0031] 对于标签，引擎使用自然语言处理中常用的word stemming技术把标签规整化，该技术把单词的符号和停用词隔离掉，保证输入文本的质量。
[0032] 步骤3 :服务搜索引擎接受目标用户查询请求q，后台进行服务搜索处理。
[0033] 步骤4 :对步骤3接受的查询请求作分析：
[0034] (1)假若候选服务集D少于1000,那么服务搜索引擎将直接将WSDL文本信息和查询请求进行字符串匹配。
[0035] (2)假若候选服务集D大于等于1000,那么服务搜索引擎将进行步骤5的在线 WTLearning模块进行标签预测，结果把标签和对应的WSDL文件进行联立，方便搜索引擎进行标签和查询请求进行字符串匹配。
[0036] 步骤5 :核心模块WTLearning在线标签稀疏学习的执行实体。如图2所示， WTLearning模块的子流程包括以下几部分：
[0037] 5. 1根据步骤3接收到目标用户查询请求选择合适的目标函数核。一般地，模块允许用户自定义目标函数，如经典的0-1损失函数和逻辑斯蒂目标函数。为了方便用户进行简易操作，系统提供默认的log目标函数如下：
[0038]
(1)
[0039] 其中：D是WSDL文件总数。对于标签t，如果WSDL文件被标记为t，则yd= 1反之则为0。υ 3为对应的WSDL文本特征向量，长度为单词总数目V。W为针对标签t的目标权重向量。
[

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：尹建伟;罗威;邓水光;李莹;吴健;吴朝晖;
技术所有人：浙江大学;
我是此专利的发明人

上一篇：设置相册封面的装置及方法
上一篇：一种利用正则表达式自定义提取日志关键信息的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。