一种科技媒体云计算非结构化数据解决方案的制作方法

文档序号:9471399阅读:282来源:国知局
一种科技媒体云计算非结构化数据解决方案的制作方法
【技术领域】
[0001]本发明涉及一种科技媒体云计算非结构化数据解决方案。
【背景技术】
[0002]现在有一些基于云计算的非结构化数据处理技术,但是范围比较宽泛,对数据的精准度深入不够;且现有的基于云计算的非结构化数据处理只是涉及到实现的方法,没有从软硬件配置到实现方法的一整套解决方案。

【发明内容】

[0003]本发明要解决的技术问题是提供一种结合云计算的非结构化数据处理技术,提供硬件配置、系统架构、数据处理、结果反馈等全流程的解决方案。
[0004]为解决上述问题,本发明采用如下技术方案:
[0005]一种科技媒体云计算非结构化数据解决方案,包括科技媒体信息数据的获取、非结构化数据的存储系统、数据的离线处理和信息的查询检索系统,所述科技媒体信息数据的获取可以从系统后台很方便的人工录入,也可以从互联网上系统自动的抓取,所述人工录入和互联网抓取的输出端与科技媒体信息数据的获取的输入端相连接,所述科技媒体信息数据的获取的输出端与非结构化数据的存储系统的输入端相连,所述非结构化数据的存储系统的输入端与数据的离线处理的输出端相连,所述数据的离线处理的输入端连接有分布式计算平台,所述非结构化数据的存储系统的输出端与信息的查询检索系统的输入端相连,所述信息的查询检索系统的输出端连接有缓存系统,所述信息的查询检索系统的输出端还连接有信息展示平台。
[0006]作为优选的技术方案,所述科技媒体信息数据从人工录入和互联网抓取两个方法进行获取,且人工录入和互联网抓取的输出端与科技媒体信息数据的获取的输入端相连。
[0007]作为优选的技术方案,所述非结构化数据的存储系统在云存储系统中将第一步获取的数据按照不同类型的非结构化数据特征进行存储,采用能支持大容量、高性能的Hadoop+HBase的体系结构。
[0008]作为优选的技术方案,所述数据的离线处理,调用大型分布式计算平台对存储的数据进行清洗、排重、关联、过滤、关键词提取、智能归类等操作,并将处理后的数据更新到云存储系统中。
[0009]作为优选的技术方案,所述信息的查询检索系统在系统收到客户的检索请求后,进入非结构化检索,从云存储系统中取出非结构的源数据返回给客户端,并将查询结果缓存起来。
[0010]本发明一种科技媒体云计算非结构化数据解决方案的有益效果是:本专利定位在科技媒体的垂直领域的基于云计算的非结构化数据解决方案,由于对行业的精准定位,对常用关键词的深入分析,能够提高信息的精准度,同时能排除部分的噪音词,提高数据处理的效率。其结构简单,使用、安装方便,操作简单,制作简单,成本低,质量可靠,提供硬件配置、系统架构、数据处理、结果反馈等全流程的解决方案,适用范围广,使用寿命长,具有安全可靠的作用。
【附图说明】
[0011]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0012]图1为本发明一种科技媒体云计算非结构化数据解决方案的结构示意图。
【具体实施方式】
[0013]参阅图1所示的一种科技媒体云计算非结构化数据解决方案,包括科技媒体信息数据的获取、非结构化数据的存储系统、数据的离线处理和信息的查询检索系统,所述科技媒体信息数据的获取可以从系统后台很方便的人工录入,也可以从互联网上系统自动的抓取,所述人工录入和互联网抓取的输出端与科技媒体信息数据的获取的输入端相连接,所述科技媒体信息数据的获取的输出端与非结构化数据的存储系统的输入端相连,所述非结构化数据的存储系统的输入端与数据的离线处理的输出端相连,所述数据的离线处理的输入端连接有分布式计算平台,所述非结构化数据的存储系统的输出端与信息的查询检索系统的输入端相连,所述信息的查询检索系统的输出端连接有缓存系统,所述信息的查询检索系统的输出端还连接有信息展示平台。
[0014]所述科技媒体信息数据从人工录入和互联网抓取两个方法进行获取,且人工录入和互联网抓取的输出端与科技媒体信息数据的获取的输入端相连。
[0015]所述非结构化数据的存储系统在云存储系统中将第一步获取的数据按照不同类型的非结构化数据特征进行存储,采用能支持大容量、高性能的Hadoop+HBase的体系结构。
[0016]所述数据的离线处理,调用大型分布式计算平台对存储的数据进行清洗、排重、关联、过滤、关键词提取、智能归类等操作,并将处理后的数据更新到云存储系统中。
[0017]所述信息的查询检索系统在系统收到客户的检索请求后,进入非结构化检索,从云存储系统中取出非结构的源数据返回给客户端,并将查询结果缓存起来。
[0018]已有技术:基于多个云计算存储系统的非结构化数据管理,采用松散耦合非结构化源数据云存储系统、非文本类非结构化数据的特征数据云存储系统和文本类非结构化数据的特征数据云系统等子存储系统的体系结构,通过可多重部署的独立查询处理模块对底层子存储系统和多类型特征提取子模块的调度,关联非结构化数据的源数据和特征数据,以统一的模式实现面向源数据和特征数据的对多种非结构化数据的存储、获取、查询等管理功能,本方法在形成的系统体系结构和管理的内容等方面都具有高可扩展性的优点;而本专利定位在科技媒体的垂直领域的基于云计算的非结构化数据解决方案,由于对行业的精准定位,对常用关键词的深入分析,能够提高信息的精准度,同时能排除部分的噪音词,提高数据处理的效率,且本专利结合云计算的非结构化数据处理技术,提供硬件配置、系统架构、数据处理、结果反馈等全流程的解决方案。
[0019]本发明一种科技媒体云计算非结构化数据解决方案的有益效果是:本专利定位在科技媒体的垂直领域的基于云计算的非结构化数据解决方案,由于对行业的精准定位,对常用关键词的深入分析,能够提高信息的精准度,同时能排除部分的噪音词,提高数据处理的效率。其结构简单,使用、安装方便,操作简单,制作简单,成本低,质量可靠,提供硬件配置、系统架构、数据处理、结果反馈等全流程的解决方案,适用范围广,使用寿命长,具有安全可靠的作用。
[0020]以上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何不经过创造性劳动想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书所限定的保护范围为准。
【主权项】
1.一种科技媒体云计算非结构化数据解决方案,其特征在于:包括科技媒体信息数据的获取、非结构化数据的存储系统、数据的离线处理和信息的查询检索系统,所述科技媒体信息数据的获取可以从系统后台很方便的人工录入,也可以从互联网上系统自动的抓取,所述人工录入和互联网抓取的输出端与科技媒体信息数据的获取的输入端相连接,所述科技媒体信息数据的获取的输出端与非结构化数据的存储系统的输入端相连,所述非结构化数据的存储系统的输入端与数据的离线处理的输出端相连,所述数据的离线处理的输入端连接有分布式计算平台,所述非结构化数据的存储系统的输出端与信息的查询检索系统的输入端相连,所述信息的查询检索系统的输出端连接有缓存系统,所述信息的查询检索系统的输出端还连接有信息展示平台。2.根据权利要求1所述的科技媒体云计算非结构化数据解决方案,其特征在于:所述科技媒体信息数据从人工录入和互联网抓取两个方法进行获取,且人工录入和互联网抓取的输出端与科技媒体信息数据的获取的输入端相连。3.根据权利要求1所述的科技媒体云计算非结构化数据解决方案,其特征在于:所述非结构化数据的存储系统在云存储系统中将第一步获取的数据按照不同类型的非结构化数据特征进行存储,采用能支持大容量、高性能的Hadoop+HBase的体系结构。4.根据权利要求1所述的科技媒体云计算非结构化数据解决方案,其特征在于:所述数据的离线处理,调用大型分布式计算平台对存储的数据进行清洗、排重、关联、过滤、关键词提取、智能归类等操作,并将处理后的数据更新到云存储系统中。5.根据权利要求1所述的科技媒体云计算非结构化数据解决方案,其特征在于:所述信息的查询检索系统在系统收到客户的检索请求后,进入非结构化检索,从云存储系统中取出非结构的源数据返回给客户端,并将查询结果缓存起来。
【专利摘要】本发明公开了一种科技媒体云计算非结构化数据解决方案,包括科技媒体信息数据的获取、非结构化数据的存储系统、数据的离线处理和信息的查询检索系统,科技媒体信息数据的获取的输出端与非结构化数据的存储系统的输入端相连,非结构化数据的存储系统的输入端与数据的离线处理的输出端相连,数据的离线处理的输入端连接有分布式计算平台,非结构化数据的存储系统的输出端与信息的查询检索系统的输入端相连。其结构简单,使用、安装方便,操作简单,制作简单,成本低,质量可靠,提供硬件配置、系统架构、数据处理、结果反馈等全流程的解决方案,适用范围广,使用寿命长,具有安全可靠的作用。
【IPC分类】G06F17/30
【公开号】CN105224563
【申请号】CN201410290070
【发明人】渠继永
【申请人】清控科创控股股份有限公司
【公开日】2016年1月6日
【申请日】2014年6月26日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1