一种大数据环境下业务标签的扩展方法

文档序号:8381111阅读:255来源:国知局
一种大数据环境下业务标签的扩展方法
【技术领域】
[0001] 本发明属于互联网数据获取与应用技术领域,特别涉及一种大数据环境下业务标 签的扩展方法。
【背景技术】
[0002] 在以业务为中心的企业中,由于各种业务的类型、目的和范围都不相同,如何获 取、管理和扩展各种不同的业务标签是一个紧迫的问题,具有非常巨大的意义。其中,获取 业务标签主要通过简单的关键词提取工具和人工标记,而管理业务标签则主要通过标签分 类体系来完成,都不太涉及外部数据源。最重要的一个任务是扩展业务标签下属的实体,例 如:关键词和网页地址URL,尚未有成熟的系统。
[0003] 扩展业务标签存在如下形式:(1)采取人工扩展的形式,不仅需要消耗巨大的人 力资源,而且扩展结果还带有较大的主观性。(2)使用程序进行自动化扩展,缺乏必要的外 部数据源,而最大的外部数据源就是互联网。如今互联网发展迅速,互联网上有价值的数据 正以几何级数增长,互联网数据在实际业务中的应用正在不断地增加。
[0004] 通过互联网数据来对业务标签进行扩展,其主要方法就是针对性地从互联网上获 取与业务相关的关键词和网页地址URL。互联网数据虽多,但是其异构性和复杂性也很显 著,这使得数据利用率较难得到保证,因此,扩展任务对系统的处理能力和准确性要求较 高,实施起来存在很大的困难,并且目前没有任何一种技术能够实现。
[0005] 因此,互联网数据获取与应用技术领域急需一种方便业务人员通过简单的操作就 能扩展出业务标签及其所属的关键词和URL,从而大大提高了生产效率,满足各种业务发展 的需求的大数据环境下业务标签的扩展方法。

【发明内容】

[0006] 本发明所要解决的技术问题是业务标签的扩展方法,本方法克服了针对业务标签 的人工扩展或无外部数据源的自动化扩展的缺陷,提供了一种大数据环境下业务标签的扩 展方法,技术方案如下: 一种大数据环境下业务标签的扩展方法,包括如下步骤: 步骤一、获取实际业务的内容,再根据业务的类型、目的和范围抽取出一个代表该业务 的标签; 步骤二、通过搜索引擎对步骤一中抽取出的标签进行检索,获取与该标签相关的关键 词和网页地址URL的初始集合; 步骤三、根据K中心距、朴素贝叶斯、点互信息算法对初始集合中的每一个关键词和 URL进行计算,得出每一个关键词和URL对于该标签的权重大小; 步骤四、判断所有权重大小是否都符合某一阈值,该阈值为扩展任务开始之前的预设 值,如关键词或URL的权重值大于某一预先规定的阈值,则将此关键词或URL加入到该标签 的结果集合下,否则将该关键词或URL丢弃; 步骤五、判断步骤四中结果集合的规模是否满足要求,该规模要求为扩展任务开始之 前的预设值,如结果集合规模大于或等于规模阈值,则结束所有步骤,否则根据结果集合中 已有的关键词,通过搜索引擎中所搜这些关键词获得更多的关键词及URL,重复步骤三至五 的步骤。
[0007] 优选的,在上述一种大数据环境下业务标签的扩展方法中,步骤三中的K中心距 算法的是指:如果一个关键词或URL与该标签共同出现的频数越高,则其权重越大,故需要 通过搜索引擎获得该关键词或URL与该标签共同出现的频数。
[0008] 优选的,在上述一种大数据环境下业务标签的扩展方法中,步骤三中的朴素贝叶 斯算法是指:如果一个关键词或URL与该标签共同出现的频数越高,且与其他标签共同出 现的频数越低,则其权重越大,故需要通过搜索引擎获得该关键词或URL与搜索已知所有 标签共同出现的频数。
[0009] 优选的,在上述一种大数据环境下业务标签的扩展方法中,步骤三中的点互信息 算法是指:如果一个关键词或URL与该标签及其所属的其他关键词和URL共同出现的频数 越高,且与其他标签及其所属的其他关键词和URL共同出现的频数越低,则其权重越大,故 需要通过搜索引擎获得该关键词或URL与搜索已知所有标签及已知所有关键词和URL共同 出现的频数。
[0010] 本发明的有益效果: 本发明通过设置权重阈值和扩展规模阈值来准确控制每次业务标签扩展的规模,并 利用了 K中心距算法在小规模扩展时效果较好、朴素贝叶斯算法在中等规模扩展时效果较 好、点互信息算法在大规模扩展时效果较好的特点,根据实际扩展规模的要求来运行效果 最好的算法,科学地计算了关键词和URL在分类标签下的权重,使得每一次扩展的准确性 能够最大化,克服了针对业务标签的人工扩展或无外部数据源的自动化扩展的缺陷,能够 适应业务的发展,方便业务人员通过详细描述实际业务的各项属性或者直接将实际业务抽 象成标签的形式,基于搜索引擎来获得业务人员所需要的关键词和URL,不需要修改程序, 极大地提高了标签的利用率和管理效率,并且能够有效地、稳定地、持续地运转,大大地简 化了业务人员的工作流程,满足了市场的需求,具有广泛的适用性。
【附图说明】
[0011] 下面结合附图和【具体实施方式】来详细说明本发明: 图1为一种大数据环境下业务标签的扩展方法的流程图。
【具体实施方式】
[0012] 为了使本发明技术实现的措施、创作特征、达成目的与功效易于明白了解,下面结 合具体图示,进一步阐述本发明。
[0013] 图1为一种大数据环境下业务标签的扩展方法的流程图,一种大数据环境下业务 标签的扩展方法,包括如下步骤: 步骤一、获取实际业务的内容,再根据业务的类型、目的和范围抽取出一个代表该业务 的标签; 上述业务类型、目的和范围,主要由上游企业提供; 上述业务标签抽取主要依赖于中科院分词程序和根据业务类型、目的和范围来人工定 义; 步骤二、通过搜索引擎对步骤一中抽取出的标签进行检索,获取与该标签相关的关键 词和网页地址URL的初始集合; 上述搜索引擎主要使用百度搜索和360搜索,亦可以使用必应、谷歌或搜狗搜索; 步骤三、根据K中心距、朴素贝叶斯、点互信息算法对初始集合中的每一个关键词和 URL进行计算,得出每一个关键词和URL对于该标签的权重大小; 上述K中心距算法的是指:如果一个关键词或URL与该标签共同出现的频数越高,则其 权重越大,故需要通过搜索引擎获得该关键词或URL与该标签共同出现的频数; 上述朴素贝叶斯算法的是指:如果一个关键词或URL与该标签共同出现的频数越高, 且与其他标签共同出现的频数越低,则其权重越大,故需要通过搜索引擎获得该关键词或 URL与搜索已知所有标签共同出现的频数; 上述点互信息算法的是指:如果一个关键词或URL与该标签及其所属的其他关键词和 URL共同出现的频数越高,且与其他标签及其所属的其他关键词和URL共同出现的频数越 低,则其权重越大,故需要通过搜索引擎获得该关键词或URL与搜索已知所有标签及已知 所有关键词和URL共同出现的频数; 步骤四、判断所有权重大小是否都符合某一阈值,该阈值为扩展任务开始之前的预设 值,如关键词或URL的权重值大于某一预先规定的阈值,则将此关键词或URL加入到该标签 的结果集合下,否则将该关键词或URL丢弃; 步骤五、判断步骤四中结果集合的规模是否满足要求,该规模要求为扩展任务开始之 前的预设值,如结果集合规模大于或等于规模阈值,则结束所有步骤,否则根据结果集合中 已有的关键词,通过搜索引擎中所搜这些关键词获得更多的关键词及URL,重复步骤三至五 的步骤。
[0014] 上述结果集合的规模即扩展任务中通过搜索引擎获得的与该标签相关的关键词 数目的上限。
[0015] 为了便于本领域内的技术人员理解,下面结合具体的实施例对本发明的一种大数 据环境下业务标签的扩展方法进行说明: 实施例1 : 用户有深度了解与体育彩票相关的实际业务需求,通过抽取以后获得了该业务的标签 为"体育彩票"。
[0016] 首先,对具体数据配置如下: 系统运行参数:
【主权项】
1. 一种大数据环境下业务标签的扩展方法,其特征在于,包括如下步骤: 步骤一、获取实际业务的内容,再根据业务的类型、目的和范围抽取出一个代表该业务 的标签; 步骤二、通过搜索引擎对所述步骤一中抽取出的标签进行检索,获取与该标签相关的 关键词和网页地址URL的初始集合; 步骤三、根据K中心距、朴素贝叶斯、点互信息算法对初始集合中的每一个关键词和URL进行计算,得出每一个关键词和URL对于该标签的权重大小; 步骤四、判断所有权重大小是否都符合某一阈值,该阈值为扩展任务开始之前的预设 值,如关键词或URL的权重值大于某一预先规定的阈值,则将此关键词或URL加入到该标签 的结果集合下,否则将该关键词或URL丢弃; 步骤五、判断所述步骤四中结果集合的规模是否满足要求,该规模要求为扩展任务开 始之前的预设值,如结果集合规模大于或等于规模阈值,则结束所有步骤,否则根据结果集 合中已有的关键词,通过搜索引擎中所搜这些关键词获得更多的关键词及URL,重复所述步 骤三至五的步骤。
2. 根据权利要求1所述的一种大数据环境下业务标签的扩展方法,其特征在于,所述 步骤三中的K中心距算法是指,一个关键词或URL与该标签共同出现的频数越高,则其权重 越大,故需要通过搜索引擎获得该关键词或URL与该标签共同出现的频数。
3. 根据权利要求1所述的一种大数据环境下业务标签的扩展方法,其特征在于,所述 步骤三中的朴素贝叶斯算法是指,一个关键词或URL与该标签共同出现的频数越高,且与 其他标签共同出现的频数越低,则其权重越大,故需要通过搜索引擎获得该关键词或URL 与搜索已知所有标签共同出现的频数。
4. 根据权利要求1所述的一种大数据环境下业务标签的扩展方法,其特征在于,所述 步骤三中的点互信息算法是指,一个关键词或URL与该标签及其所属的其他关键词和URL 共同出现的频数越高,且与其他标签及其所属的其他关键词和URL共同出现的频数越低, 则其权重越大,故需要通过搜索引擎获得该关键词或URL与搜索已知所有标签及已知所有 关键词和URL共同出现的频数。
【专利摘要】本发明属于互联网数据获取与应用技术领域,提供了一种大数据环境下业务标签的扩展方法,包括:获取实际业务的内容,抽取出一个代表该业务的标签;通过搜索引擎对标签进行检索,获取与该标签相关的关键词和网页地址URL的初始集合;根据K中心距、朴素贝叶斯、点互信息算法对初始集合中的每一个关键词和URL进行计算,得出权重大小;判断权重大小是否都符合某一阈值,是否加入到该标签的结果集合下;判断结果集合的规模是否大于或等于规模阈值。本发明具有方便业务人员通过简单的操作就能扩展出业务标签及其所属的关键词和URL,从而大大提高了生产效率,满足各种业务发展的需求的优点。
【IPC分类】G06F17-30
【公开号】CN104699851
【申请号】CN201510162777
【发明人】周敏杰, 胡忠顺, 丁富强, 裴国才, 罗京卫, 李战克, 蒋润青
【申请人】上海理想信息产业(集团)有限公司
【公开日】2015年6月10日
【申请日】2015年4月8日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1