面向海量读者阅读数据的大数据处理系统的制作方法

文档序号：9290115阅读：362来源：国知局

面向海量读者阅读数据的大数据处理系统的制作方法
【技术领域】
[0001]本发明涉及一种面向海量读者阅读数据的大数据处理系统，属于计算机应用技术领域。
【背景技术】
[0002]大数据(big data)，或称巨量数据、海量数据；是由数量巨大、结构复杂、类型众多数据构成的数据集合，是基于云计算的数据处理与应用模式，通过数据的集成共享，交叉复用形成的智力资源和知识服务能力。在商业领域指的是所涉及的资料规模巨大到无法透过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。网络上每笔搜索，网站上每一笔交易，敲打键盘，点击鼠标的每一个输入都是数据，整理起来分析排行，不仅仅止于事后被动地了解市场，搜集起来的数据还可以引导开发更大的消费量。
[0003]随着每天互联网上海量数据的产生，数据分析尤其显得重要。众所周知，大数据已经不简简单单是数据大的事实了，而最重要的现实是对大数据进行分析，只有通过分析才能获取很多智能的，深入的，有价值的信息。那么越来越多的应用涉及到大数据，而这些大数据的属性，包括数量、速度、多样性等等都是呈现了大数据不断增长的复杂性，所以大数据的分析方法在大数据领域就显得尤为重要，可以说是决定最终信息是否有价值的决定性因素。基于如此的认识，大数据可以基于以下五个方面分析:
可视化分析(Analytic Visualizat1ns):
大数据分析的使用者有大数据分析专家，同时还有普通用户，但是他们二者对于大数据分析最基本的要求就是可视化分析，因为可视化分析能够直观的呈现大数据特点，同时能够非常容易被读者所接受，就如同看图说话一样简单明了。
[0004]数据挖掘算法(DataMining Algorithms):
大数据分析的理论核心就是数据挖掘算法，各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点，也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部，挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据，如果一个算法得花上好几年才能得出结论，那大数据的价值也就无从说起了。
[0005]预测性分析能力(PredictiveAnalytic Capabilities):
大数据分析最终要的应用领域之一就是预测性分析，从大数据中挖掘出特点，通过科学的建立模型，之后便可以通过模型带入新的数据，从而预测未来的数据。语义引擎(Semantic Engines):大数据分析广泛应用于网络数据挖掘，可从用户的搜索关键词、标签关键词、或其他输入语义，分析，判断用户需求，从而实现更好的用户体验和广告匹配。
[0006]数据质量和数据管理(DataQuality and Master Data Management):
大数据分析离不开数据质量和数据管理，高质量的数据和有效的数据管理，无论是在学术研究还是在商业应用领域，都能够保证分析结果的真实和有价值。大数据分析的基础就是以上五个方面，当然更加深入大数据分析的话，还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。
[0007]大数据同过去的海量数据有所区别，其基本特点可以用4个V来总结:Volume (大量)、ariety (多样)、Value (价值)、Velocity (快速)。
[0008]I) Volume,海量的数据规模:指代大型数据集，一般1TB规模左右，但在实际应用中，已经从从TB级别跃升到PB级别。
[0009]2) Variety，多样的数据类型:数据来自多种数据源，数据种类和格式日渐丰富，已冲破了以前所限定的结构化数据范畴，囊括了半结构化和非结构化数据；如网络日志、视频、图片、地理位置信息，等等。
[0010]3) Value,巨大的数据价值:只要合理利用数据并对其进行正确、准确的分析，将会带来很高的价值回报。
[0011]4) Velocity，数据处理速度快:在数据量非常庞大的情况下，也能够做到数据的实时处理；1秒定律，这一点也是和传统的数据挖掘技术有着本质的不同。

【发明内容】

[0012]本发明正是针对现有技术存在的需求，提供一种面向海量读者阅读数据的大数据处理系统，能够满足海量的数据规模和多样的数据类型的快速数据处理需求。
[0013]为解决上述问题，本发明所采取的技术方案如下:
一种面向海量读者阅读数据的大数据处理系统，包括:
将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作，共同对外提供数据存储和业务访问功能的基础设施:所述基础设施由云计算资源池、分布式云存储和软件定义网络构成；
能够与所述基础设施进行数据交互的数据层:所述数据层负责系统结构化数据与非结构化数据的存储；
能够与所述数据层进行数据交互并由所述数据层提供数据服务的支撑层:所述支撑层包括数据访问、文件系统访问和全文索引三个模块；
能够与所述支撑层进行数据交互并由所述支撑层提供数据和文件的应用层:所述应用层涵盖了系统的COM+应用组件；
能够与所述应用层进行数据交互并可以调用所述应用层的COM+应用组件的API服务:所述API服务基于微软.NET平台开发，包括基础接口，所述基础接口包括访问所述应用层的业务组件；
能够与所述API服务进行数据交互并由所述API服务提供WebService服务的展现层:所述展现层包括以下三个模块:用于供用户对系统进行管理的后台管理、用于供用户访问的访问应用和用于实现集成展现的第三方系统。
[0014]作为上述技术方案的具体优化，在所述数据层中，所述结构化数据包括存储内容信息、数据检索元数据及索引规则、用户信息、系统用户操作、产品、权限，所述非结构化数据包括数字资源文件、系统索引文件。
[0015]作为上述技术方案的具体优化，所述应用层包括以下COM+应用组件:内容管理、营销管理、数字版权管理、访问控制和分析与监控。
[0016]作为上述技术方案的具体优化，所述基础接口包括访问所述应用层的以下业务组件:顾客、内容单元或单元集、产品、DRM设置、索引、移动、搜索引擎优化；
且所述API服务还包括集成接口，所述集成接口在所述基础接口的基础上进行二次开发，经封装之后提供新的API服务供特定上层应用系统调用。
[0017]作为上述技术方案的具体优化，所述展现层中的访问应用包括Web网站、1S应用和Android应用。
[0018]作为上述技术方案的具体优化，所述面向海量读者阅读数据的大数据处理系统还包括能够与所述基础设施进行数据交互的辅助工具集:所述辅助工具集包括格式转换工具和批量导入工具。
[0019]作为上述技术方案的具体优化，所述面向海量读者阅读数据的大数据处理系统还包括能够与所述基础设施进行数据交互且能够与所述API服务进行数据交互的用户行为采集子系统:所述用户行为采集子系统用于归纳、提取可有效用于内容推荐的用户信息和行为数据信息，对采集的用户行为数据进行合理分析，并明确每个具体信息对应的内容资源分类；
所述用户行为采集子系统包括以下三个模块:行为采集、行为分析和数据集成。
[0020]本发明与现有技术相比较，本发明的实施效果如下:
本发明所述的面向海量读者阅读数据的大数据处理系统，基于微软平台构建，采用多层架构开发，是一套完整的满足数字出版、内容销售所有实质性功能和特性的平台，不仅简单易用，而且已将DRM、WCM、电子商务、信息检索及搜索引擎优化等集成到了一个单一的、无缝集成的环境中；能够满足海量的数据规模和多样的数据类型的快速数据处理需求。
【附图说明】
[0021]图1为本发明所述的面向海量读者阅读数据的大数据处理系统结构示意图；
图2为本发明具体实施例中所述的基础设施的结构示意图；
图3为本发明具体实施例中所述的数据层的示意图；
图4为本发明具体实施例中所述的COM+组件服务的示意图；
图5为本发明具体实施例中所述的API服务的示意图；
图6为本发明具体实施例中所述的客户端的结构示意图；
图7为本发明具体实施例中所述的格式转换工具的示意图；
图8为本发明具体实施例中所述的批量导入工具的示意图。
【具体实施方式】
[0022]下面将结合具体的实施例来说明本发明的内容。
[0023]要是现实大数据的处理，需要具有完善智能的系统架构的系统平台对其进行处理。数字出版发行投送服务系统(以下简称“系统”)是一套完整的满足数字出版、内容销售所有实质性功能和特性的平台。系统为在线出版市场带来了全新的概念，它不仅简单易用，而且已将DRM、WCM、电子商务、信息检索及搜索引擎优化等集成到了一个单一的、无缝集成的环境。本系统基于微软平台构建，采用多层架构开发，其总体架构如图1所示。
[0024]本发明所述面向海量读者阅读数据的大数据处理系统，包括: 一、基础设施:云化的基础设施平台，为本系统提供稳定、高效的基础设施服务，具体地结构示意图如图2所示。网络是软件定义的网络，计算是云计算，存储也是云存储，不论是计算还是存储，都支持高可用和容灾设计。
[0025]云计算资源池提供弹性的计算能力，可以实现按需使用。云计算理论上具有无限大的处理能力，针对具体的处理需求，可以在不同的层次通过增加计算资源来提供更大的处理能力。
[0026]通过集群应用、网格技术或分布式文件系统等功能，将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作，共同对外提供数据存储和业务访问功能。
[0027]通过将网络设备控制面与数据面分离开来，实现网络流量的灵活控制，为核心网络及应用的创新提供了良好的平台。
[0028]二、数据层:数据层借用基础设施和云

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郭宏斌;吴文胜;何传柱;葛菲;
技术所有人：安徽新华传媒股份有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。