一种基于科技媒体云计算非结构化数据处理方法

文档序号:6510280阅读:420来源:国知局
一种基于科技媒体云计算非结构化数据处理方法
【专利摘要】本发明公开一种基于科技媒体云计算非结构化数据处理方法,主要由(1)进行科技媒体信息数据的获取;(2)根据不同类型的特征进行分布式云存储;(3)对步骤(2)中云存储的非结构化数据,调用后进行离线处理,离线处理包括:清洗、排重、关联、过滤、关键词提取和智能归类,然后将离线处理后的非结构化数据更新到云存储中。本发明定位在科技媒体的垂直领域的基于云计算的非结构化数据解决方案,由于对行业的精准定位,对常用关键词的深入分析,能够提高信息的精准度,同时能排除部分噪音词,提高数据处理的效率。
【专利说明】
一种基于科技媒体云计算非结构化数据处理方法

【技术领域】
[0001]本发明涉及计算机数据处理【技术领域】,尤其涉及一种基于科技媒体云计算非结构化数据处理方法。

【背景技术】
[0002]云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。狭义云计算是指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务,这种服务可以是IT和软件、互联网相关,也可以是其它服务,意味着计算能力也可作为一种商品通过互联网进行流通。
[0003]非结构化数据管理为传统信息领域的理论与方法研究提出了挑战并成为重要的新的研究方向。由于非结构化数据数据类型丰富,结构复杂,没有明确的、统一定义的数据结构约束,加之其海量的数据规模,高度动态的数据特性,多样的应用场景,统一的联合访问需求,使得非结构化数据管理面临巨大挑战。由于非结构化数据种类彼此不同,每种数据类型带有特有的数据操作,通过扩展对象数据模型,支持不同非结构化数据的有效操作;基于上述考虑,各大公司围绕不同类型的非结构化数据类型,定义并实现特有操作,并结合应用领域,实现了非结构化数据管理系统。
[0004]基于对象模型的非结构化数据管理的主要问题包括:目前系统缺乏对象方法的优化执行机制,海量环境中数据处理的效率很难得到保证;系统侧重处理特定对象的不同需求,在处理统一数据查询中存在一定困难;某些系统基于关系数据库实现,受限于关系数据库的框架,需要严格考虑并发控制等问题,进一步降低非结构化数据处理的效率。数据集成相关技术侧重于异构数据的共享和查询,在非结构化数据管理系统中能够减少空间代价,提高查询结果质量。数据集成中的模式匹配、查询重写等使得系统构建代价和查询处理代价过高。数据空间克服了数据集成中的部分问题,但是数据空间内部的模型过于复杂,不支持海量的数据管理。同时,数据集成系统中没有讨论关键字查询方式和海量数据的分布式管理框架。
[0005]结合以上分析,需要重点指出的是,目前,现有的一些基于云计算的非结构化数据处理技术,其范围仍然比较宽泛,对数据的精准度也深入不够;同时,现有的基于云计算的非结构化数据处理只是涉及到实现的方法,没有从软硬件配置到实现方法的一整套解决方案。因此,针对以上方面,需要做出有效的创新。


【发明内容】

[0006]本发明的目的是提供一种结合云计算的非结构化数据处理技术并提供硬件配置、系统架构、数据处理、结果反馈等全流程的基于科技媒体云计算非结构化数据处理方法,以解决现有技术的诸多不足。
[0007]本发明的目的通过以下技术方案来具体实现:
[0008]一种基于科技媒体云计算非结构化数据处理方法,主要由以下步骤组成:
[0009](I)、进行科技媒体信息数据的获取,得到待处理的非结构化数据;
[0010](2)、对非结构化数据,根据不同类型的特征进行分布式云存储;
[0011](3)、对步骤(2)中云存储的非结构化数据,调用后进行离线处理,离线处理包括:清洗、排重、关联、过滤、关键词提取和智能归类,然后将离线处理后的非结构化数据更新到云存储中;
[0012](4)、根据非结构化数据的特征,对收到信息检索请求进行回应,检索结果序列按照非结构化数据的特征进行展示。
[0013]步骤(I)中,科技媒体信息数据获取的渠道包括人工录入和互联网抓取两种方式。
[0014]步骤(3),对非结构化数据进行的调用及其后的离线处理,由大型分布式计算平台完成。
[0015]对于步骤(4),检索结果序列同时储存在缓存中。
[0016]步骤(4),将缓存中的检索结果序列直接更新到云存储中或者经过离线处理后再进行云存储。
[0017]本发明所述的基于科技媒体云计算非结构化数据处理方法的有益效果为:该方法是定位在科技媒体的垂直领域的基于云计算的非结构化数据解决方案,由于对行业的精准定位,对常用关键词的深入分析,能够提高信息的精准度,同时能排除部分的噪音词,提高数据处理的效率;具体表现为:
[0018]其一,采用松散耦合非结构化源数据云存储系统、非文本类非结构化数据的特征数据云存储系统、和文本类非结构化数据的特征数据云系统等子存储系统的体系结构;
[0019]其二,通过可多重部署的独立查询处理模块对底层子存储系统和多类型特征提取子模块的调度,关联非结构化数据的源数据和特征数据;
[0020]其三,以统一的模式实现面向源数据和特征数据的对多种非结构化数据的存储、获取、查询等管理功能;
[0021]在形成的系统体系结构和管理的内容等方面都具有高可扩展性的优点。

【专利附图】

【附图说明】
[0022]下面根据附图和实施例对本发明作进一步详细说明。
[0023]图1是本发明实施例所述基于科技媒体云计算非结构化数据处理方法流程图。

【具体实施方式】
[0024]如图1所示,本发明实施例所述一种基于科技媒体云计算非结构化数据处理方法,主要由以下步骤组成:
[0025](I)、进行科技媒体信息数据的获取,得到待处理的非结构化数据;
[0026](2)、对非结构化数据,根据不同类型的特征进行分布式云存储;该步骤要求采用能支持大容量、高性能的Hadoop+HBase的体系结构
[0027](3)、对步骤(2)中云存储的非结构化数据,调用后进行离线处理,离线处理包括:清洗、排重、关联、过滤、关键词提取和智能归类,然后将离线处理后的非结构化数据更新到云存储中;
[0028](4)、根据非结构化数据的特征,对收到信息检索请求进行回应,检索结果序列按照非结构化数据的特征进行展示,所述检索结果序列中的每个结果分别链接到相应的数据源。
[0029]步骤(I)中,科技媒体信息数据获取的渠道包括人工录入和互联网抓取两种方式。
[0030]步骤(3),对非结构化数据进行的调用及其后的离线处理,由大型分布式计算平台完成。
[0031]对于步骤(4),检索结果序列同时储存在缓存中。
[0032]步骤(4),将缓存中的检索结果序列直接更新到云存储中或者经过离线处理后再进行云存储。这样,当没有进行相关的数据更新前,面对同样的信息检索请求时,不需要进行云计算而直接把检索结果序列发给请求方。
【权利要求】
1.一种基于科技媒体云计算非结构化数据处理方法,其特征在于,主要由以下步骤组成: (丄)、进行科技媒体信息数据的获取,得到待处理的非结构化数据; 口)、对非结构化数据,根据不同类型的特征进行分布式云存储; (3).对步骤(2)中云存储的非结构化数据,调用后进行离线处理,离线处理包括:清洗、排重、关联、过滤、关键词提取和智能归类,然后将离线处理后的非结构化数据更新到云存储中; “)、根据非结构化数据的特征,对收到信息检索请求进行回应,检索结果序列按照非结构化数据的特征进行展示。
2.如权利要求1所述的一种基于科技媒体云计算非结构化数据处理方法,其特征在于:^^(1)中,科技媒体信息数据获取的渠道包括人工录入和互联网抓取两种方式。
3.如权利要求1所述的一种基于科技媒体云计算非结构化数据处理方法,其特征在于:步骤(3),对非结构化数据进行的调用及其后的离线处理,由大型分布式计算平台完成。
4.如权利要求1所述的一种基于科技媒体云计算非结构化数据处理方法,其特征在于:对于步骤(4),检索结果序列同时储存在缓存中。
5.如权利要求4所述的一种基于科技媒体云计算非结构化数据处理方法,其特征在于:步骤(4),将缓存中的检索结果序列直接更新到云存储中或者经过离线处理后再进行云存储。
【文档编号】G06F17/30GK104424309SQ201310399024
【公开日】2015年3月18日 申请日期:2013年9月5日 优先权日:2013年9月5日
【发明者】渠继永 申请人:清控科创控股股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1