数据分析方法、电子设备及计算机存储介质与流程

文档序号：16781441发布日期：2019-02-01 19:10阅读：145来源：国知局

本发明涉及计算机技术领域，具体涉及一种数据分析方法、电子设备及计算机存储介质。

背景技术：

目前，随着手机等移动终端的普及以及电子书阅读器的发展，电子书越来越受阅读用户的青睐。基于电子阅读的便捷性，用户可以随时随地翻阅自己感兴趣的书籍，电子阅读用户的数量也呈指数地增长。而分析用户的使用习惯以及不同书籍的阅读情况等数据，有利于电子阅读供应商及时根据用户需求调整产品策略，从而更好地服务用户，增加用户粘性，提高用户体验。

但是在现有技术中，随着电子阅读相关产品版本的不断迭代，由电子书阅读而产生的原始日志千奇百怪，针对这些不同格式或形式的原始日志，无形中给分析师造成了很大的困扰，他们需要理解很多种不同的日志才能顺利完成数据分析任务。

技术实现要素：

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的数据分析方法、电子设备及计算机存储介质。

根据本发明的一个方面，提供了一种数据分析方法，所述方法包括：针对当前数据分析任务，获取用户选定的待分析数据源，以及对分析模型的需求定义，其中，所述分析模型为预先封装并用于对不同格式的数据源进行数据解析，所述需求定义用于指定从数据源中预提取的字段及数据类型；利用所述分析模型从所述待分析数据源中提取符合所述需求定义的数据对象；利用mapreduce对所述数据对象进行实例化处理，得到分析结果数据。

根据本发明的另一方面，提供一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行以下操作：针对当前数据分析任务，获取用户选定的待分析数据源，以及对分析模型的需求定义，其中，所述分析模型为预先封装并用于对不同格式的数据源进行数据解析，所述需求定义用于指定从数据源中预提取的字段及数据类型；利用所述分析模型从所述待分析数据源中提取符合所述需求定义的数据对象；利用mapreduce对所述数据对象进行实例化处理，得到分析结果数据。

根据本发明的又一方面，提供了一种计算机存储介质，存储介质中存储有至少一可执行指令，可执行指令使处理器执行以下操作：针对当前数据分析任务，获取用户选定的待分析数据源，以及对分析模型的需求定义，其中，所述分析模型为预先封装并用于对不同格式的数据源进行数据解析，所述需求定义用于指定从数据源中预提取的字段及数据类型；利用所述分析模型从所述待分析数据源中提取符合所述需求定义的数据对象；利用mapreduce对所述数据对象进行实例化处理，得到分析结果数据。

根据本发明的数据分析方法、电子设备及计算机存储介质，通过对分析模型的封装，实现了开发人员与原始日志的隔离，使得开发人员在执行数据分析任务时，不需要直接面对不同格式或形式的原始日志，只需对分析模型进行需求定义，即可利用分析模型从原始日志中提取出想要分析的字段及其数据类型以用于后续的数据分析，从而节约了人力成本，提高了数据分析效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种数据分析方法的流程图；

图2示出了本发明实施例提供的另一种数据分析方法的流程图；

图3示出了本发明实施例提供的又一种数据分析方法的流程图；

图4示出了本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

针对电子阅读产品或客户端，大量的用户每天都产生无以计数的用户日志，开发人员通常利用mapreduce来执行对这些用户日志的数据分析任务。其中，mapreduce是面向大数据并行处理的计算模型、框架和平台。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个map(映射)函数，用来把一组键值对映射成一组新的键值对，指定并发的reduce(归约)函数，用来保证所有映射的键值对中的每一个共享相同的键组。

虽然mapreduce功能强大，但是也需要开发人员在很好地了解原始日志的前提下才能准确进行数据分析，而且需要自己完成原始日志的解析。而原始日志的形式多种多样，那么对于开发人员而言，并且尤其是缺乏经验的开发人员，其学习和了解日志的门槛很高，从而给数据分析工作带来阻碍。

本发明实施例的技术方案，基于mapreduce构建了一套数据分析框架，在该数据分析框架中，采用封装的思想，把原有的分析过程抽象成几个不同的结构化层次，对数据分析模型进行封装，以隔离原始日志；对mapreduce模型进行封装，统一标准和格式，降低后期的维护成本，同时增加对集群任务编排的管理功能，以提高运行效率；最后对数据的可视化进行封装，建立基于脚本注册信息的索引，以便于其他开发人员复用已经完成的数据分析脚本，节约了人力成本，提高了数据分析效率。

具体的，图1示出了本发明实施例提供的一种数据分析方法的流程图，用于开发人员对电子书阅读的用户原始日志进行数据分析的情况，例如，分析某本书在特定时间段卖了多少、被多少用户下载、产生了多少付费以及平均阅读时长是多少等。如图1所示，该方法包括以下步骤：

步骤s101、针对当前数据分析任务，获取用户选定的待分析数据源，以及对分析模型的需求定义，其中，所述分析模型为预先封装并用于对不同格式的数据源进行数据解析，所述需求定义用于指定从数据源中预提取的字段及数据类型。

面对大量的原始日志和多种多样的数据分析需求，开发人员每天都会提交很多数据分析任务，有些任务是例行的，有些任务是临时的。所述当前数据分析任务可以是其中的任意一次数据分析任务。

针对当前数据分析任务，开发人员需要在配置阶段选定待分析数据源，即针对哪一个或者哪几个原始日志进行数据分析。此外，还需要对分析模型进行需求定义。其中，所述分析模型为预先封装并用于对不同格式的数据源进行数据解析，所述需求定义用于指定从数据源中预提取的字段及数据类型。例如，通过需求定义，可以指定获取string类型的合法用户id，或者获取字符串类型的精装书籍id，或者获取浮点类型的付费金额等。也即，通过需求定义来定义开发人员针对当前数据分析任务想从待分析数据源中提取哪些字段及类型。

步骤s102、利用所述分析模型从所述待分析数据源中提取符合所述需求定义的数据对象。

所述分析模型根据所述需求定义来具体执行从待分析数据源中提取这些字段的操作。具体实现时，可以预先对分析模型进行编程与封装实现，例如预先定义好用于获取字段及类型的field，这些field都属于log类的实例对象的属性及方法，在需求定义阶段通过对象调用即可。从而使得开发人员无需直接面对大量的原始日志，而是直接面对封装好的分析模型，因此可以节约大量的人力成本。

通常，电子书阅读会产生不同的日志源，例如包括用户行为日志和书籍基础信息日志等，不同的日志源其日志格式也不尽相同。分析模型的作用就是通过解析把不同格式的日志映射成字典，再把字典封装成数据对象，该数据对象包括键值对形式的数据。在映射过程中具体可以包括三个级别，对应不同层次的分析需求：

1)利用分析模型，从待分析数据源中按需求定义指定的关键词提取数据对象。

日志长度通常很长，而需要用到的数据有可能只是其中的一部分，第一个级别即从日志中提取出所需的关键词。

2)利用分析模型，按需求定义对待分析数据源中的数据进行转化，经转化提取出符合需求定义的数据对象。

日志中可能会存在不同的资源采用相同的标识的情形，例如resourceid可以用于表示用户某个行为针对的是一本书，也可以用于表示针对的是一个广告，因此根据不同的数据分析需求，需要分析模型从原始日志中通过解析分析出这些资源，将数据转化为符合需求定义的数据对象，并把原始的混乱的日志转化、映射为更加清晰的结构化数据。具体实现时，可以通过预先封装的手段实现这种转化与映射关系，以实现所述分析模型。

3)利用分析模型对待分析数据源进行全文解析，提取出符合需求定义的数据对象。

有的数据分析任务需要还原整个日志，即不作任何处理，直接对日志全文进行解析。

通过以上不同级别的日志解析，能够覆盖大部分的数据分析需求，通过需求定义和分析模型完成对原始日志的数据解析，提取出符合需求定义的数据对象。

步骤s103、利用mapreduce对所述数据对象进行实例化处理，得到分析结果数据。

利用mapreduce，开发人员通过map和reduce两个阶段的实现，对数据对象实现分布式计算和实例化处理，将数据对象的键值对映射成真实数据的键值对，并通过数学运算得到最终的分析结果数据。

本实施例的技术方案通过预先封装分析模型，在获取用户选定的待分析数据源和对该分析模型的需求定义后，利用所述分析模型从待分析数据源中提取符合需求定义的数据对象，最后利用mapreduce对数据对象进行实例化处理，得到分析结果数据，从而对开发人员隔离原始日志，不需要开发人员理解原始日志，也不需要直接面对原始日志进行处理，从而解决了现有技术中因原始日志的复杂性对开发人员造成的门槛高以及人工成本高的问题，实现了降低人工成本，提高数据分析效率的技术效果。

图2示出了本发明实施例提供的另一种数据分析方法的流程图，作为上述实施例技术方案的细化与扩展。如图2所示，该方法包括：

步骤s201、针对当前数据分析任务，获取用户选定的待分析数据源，以及对分析模型的需求定义，其中，所述分析模型为预先封装并用于对不同格式的数据源进行数据解析，所述需求定义用于指定从数据源中预提取的字段及数据类型。

步骤s202、利用所述分析模型从所述待分析数据源中提取符合所述需求定义的数据对象。

步骤s203、利用预先封装的执行模型对所述数据对象进行实例化处理，得到分析结果数据；其中，所述执行模型至少包括map函数、reduce函数和hook函数；所述map函数用于对所述数据对象进行数据关系映射，得到实例化数据；所述reduce函数用于对所述实例化数据进行归约处理；所述hook函数用于获取并记录所述map函数和reduce函数的执行时间信息。

所述执行模型即为将mapreduce原生的执行框架预先通过封装而构成的模型，封装过程中可以根据需要增加一些特性，例如通过所述hook函数解决数据分析任务的编排问题。

具体的，所述执行模型至少包括map函数、reduce函数和hook函数。其中，map函数和reduce函数为mapreduce原生的执行框架中所包含的内容，此处不做赘述。而hook函数为本发明实施例的数据分析框架中，在执行层面针对所述执行模型增加的特性和功能，即hook函数用于获取并记录所述map函数和reduce函数的执行时间信息。例如，在map之前、map与reduce之间以及reduce之后等几个关键节点增加hook，以获取各函数的执行时间信息。

众做周知，数据分析的任务是非常庞大的，每天会有很多位开发人员不时地提交各种各样的分析任务，如果这些分析任务的提交及相应的执行时间不均衡，就会给系统带来很大的压力，从而降低系统资源利用率。而本发明实施例的技术方案中，基于mapreduce提供一阵套数据分析框架，对执行层进行封装形成执行模型，并在关键节点增加hook，通过获取到的执行时间信息来分析系统资源的利用情况，为后续实现数据分析人物的编排提供依据。

因此，相应的，所述方法还包括：根据所述执行时间信息分析系统资源占用情况，并依据所述系统资源占用情况分配数据分析任务。

例如，开发人员在何时提交了一个数据分析任务，map函数和reduce函数在何时执行、何时结束，从而根据这些时间得到分析任务执行时间曲线，从曲线中即可分析出系统资源的占用是否均衡。若不均衡，则可以自动对新的数据分析任务进行时间上的编排，统一对任务进行管理，从而提高系统资源利用率。而开发人员也无需手动指定任务的执行时间，由框架自动完成任务的编排即可，进一步节约了人力成本。

此外，还需要说明的是，由于mapreduce原生的执行框架具有很好的灵活性，因此不同的开发人员编写的分析脚本通常是不一致的，这就导致后期对这些分析脚本的维护成本很高。而本发明实施例的技术方案对mapreduce进行了封装，对开发人员统一标准，这样，不仅对开发人员而言降低了其开发成本，同时也降低了后期的维护成本。

本实施例的技术方案通过对执行层进行封装，形成执行模型，并在模型中增加hook函数，以获取map函数和reduce函数的执行时间信息，从而依据执行时间信息分析系统资源占用情况，并据此实现数据分析任务的编排，从而提高系统资源利用率。此外，在mapreduce基础上通过封装，还降低了人力开发成本和后期的维护成本。

图3示出了本发明实施例提供的又一种数据分析方法的流程图，作为上述实施例技术方案的细化与扩展。如图3所示，该方法包括：

步骤s301、针对当前数据分析任务，获取用户选定的待分析数据源，以及对分析模型的需求定义，其中，所述分析模型为预先封装并用于对不同格式的数据源进行数据解析，所述需求定义用于指定从数据源中预提取的字段及数据类型。

步骤s302、利用所述分析模型从所述待分析数据源中提取符合所述需求定义的数据对象。

步骤s303、利用mapreduce对所述数据对象进行实例化处理，得到分析结果数据。

步骤s304、按照用户配置将所述分析结果数据进行可视化展示。

用户配置可以在提交数据分析任务之前或之后进行，用于对可视化展示的具体内容进行配置，例如展示的数据表格或图形样式等。

步骤s305、获取用户基于当前数据分析任务填写的注册信息，其中，所述注册信息用于描述数据分析任务相关的属性。

步骤s306、对不同用户填写的多个注册信息建立任务索引，其中，所述任务索引用于用户对历史数据分析任务进行检索，以便复用历史数据分析任务。

具体的，开发人员利用本发明实施例的数据分析框架完成数据分析任务的开发后，最终形成的分析脚本会以插件形式打包存储。开发人员还需要对当前数据分析任务填写注册信息，该注册信息用于描述数据分析人物相关的属性，例如提交人、分析对象、分析的任务点等。此外，还可以通过标签的形式为插件打上属性标签。数据分析框架对不同用户填写的多个注册信息建立任务索引，那么基于此，其他开发人员便可以对已存储的历史数据分析任务进行检索，查看是否已经有人之前做过相同或相似的分析工作。如果检索到相关插件，那么便可以复用该插件对应的历史数据分析任务，或者继承该插件通过更新以生成新的分析任务，而开发人员无需从头重新完成任务开发，从而节约了人力成本。

本实施例的技术方案通过在数据分析框架的可视化层实现分析结果数据的可视化展示，同时，对分析脚本以插件形式进行存储，并依据开发人员填写的分析任务注册信息，为不同开发人员提交的多个数据分析任务建立索引，以为开发人员实现历史数据分析任务的复用，从而进一步提高人力开发成本和数据分析效率。

图4示出了本发明实施例提供的一种电子设备的结构示意图，本发明具体实施例并不对电子设备的具体实现做限定。

如图4所示，该服务器可以包括：处理器(processor)402、通信接口(communicationsinterface)404、存储器(memory)406、以及通信总线408。

其中：

处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。

通信接口404，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器402，用于执行程序410，具体可以执行上述笔记生成方法实施例中的相关步骤。

具体地，程序410可以包括程序代码，该程序代码包括计算机操作指令。

处理器402可能是中央处理器cpu，或者是特定集成电路asic(applicationspecificintegratedcircuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。服务器包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个cpu；也可以是不同类型的处理器，如一个或多个cpu以及一个或多个asic。

存储器406，用于存放程序410。存储器406可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

程序410具体可以用于使得处理器402执行以下操作：

针对当前数据分析任务，获取用户选定的待分析数据源，以及对分析模型的需求定义，其中，所述分析模型为预先封装并用于对不同格式的数据源进行数据解析，所述需求定义用于指定从数据源中预提取的字段及数据类型；

利用所述分析模型从所述待分析数据源中提取符合所述需求定义的数据对象；

利用mapreduce对所述数据对象进行实例化处理，得到分析结果数据。