数据统计方法、装置、设备及计算机可读存储介质与流程

文档序号：16532473发布日期：2019-01-05 10:52阅读：150来源：国知局

本发明涉及大数据处理技术领域，尤其涉及数据统计方法、装置、设备及计算机可读存储介质。

背景技术：

spark是一种专为大规模数据处理而设计的通用计算引擎，近年来，随着大数据平台spark系统的出现和逐步发展成熟，如何在spark平台上实现各种机器学习和数据挖掘并行化算法设计成为了目前国内外关注的重点。

目前，在基于spark平台进行数据分析的时候，每新增一类业务统计，开发人员需要重新开发统计代码，需要耗费较多的时间成本和人力成本，而且，业务及其统计规则的变更会引起代码的频繁修改，导致较高的出错几率和测试成本，随着时间的变迁和业务的频繁变化，代码也会越来越臃肿，导致代码难于维护，因而，现有的基于spark平台进行数据统计的代码灵活性还有待提高。

技术实现要素：

本发明的主要目的在于提出一种数据统计方法、装置及计算机可读存储介质，旨在提高基于spark平台进行数据统计的代码灵活性，降低代码的开发维护成本。

为实现上述目的，本发明提供一种数据统计方法，所述数据统计方法包括如下步骤：

获取待统计的原始数据流；

根据所述原始数据流调用并解析预设的数据统计配置文件，得到预设类型的待生成统计报表的预处理类信息和统计条件信息；

根据所述预处理类信息对所述原始数据流进行预处理，得到对应的统计元数据；

根据所述统计条件信息对所述统计元数据进行统计，根据统计结果生成对应的统计报表。

优选地，所述获取待统计的原始数据流的步骤之前，还包括：

设置待生成统计报表的类型，并为每种类型的待生成统计报表设置对应的预处理类信息和统计条件信息；

将设置结果保存至数据统计配置文件中。

优选地，所述获取待统计的原始数据流的步骤包括：

向预设的业务消息系统发送消息数据请求；

接收所述业务消息系统基于所述消息数据请求返回的消息数据流，将所述消息数据流作为待统计的原始数据流。

优选地，所述根据所述预处理类信息对所述原始数据流进行预处理，得到对应的统计元数据的步骤包括：

根据所述预处理类信息中的分隔符将所述原始数据流分割为若干个预处理类；

按照预设的格式转换规则对每个预处理类下的原始数据流进行格式转换，得到对应的统计元数据。

优选地，所述根据所述统计条件信息对所述统计元数据进行统计，根据统计结果生成对应的统计报表的步骤包括：

根据所述统计条件信息中的逻辑运算表达式对所述统计元数据进行逻辑运算；

根据所述逻辑运算结果生成对应的统计报表。

优选地，所述根据所述逻辑运算结果生成对应的统计报表的步骤之后，还包括：

将生成的所述统计报表存储至spark平台的数据库中。

优选地，所述数据统计方法还包括：

接收用户的修改指令，根据所述修改指令对所述数据统计配置文件进行修改。

此外，为实现上述目的，本发明还提供一种数据统计装置，所述数据统计装置包括：

获取模块，用于获取待统计的原始数据流；

调用解析模块，用于根据所述原始数据流调用并解析预设的数据统计配置文件，得到预设类型的待生成统计报表的预处理类信息和统计条件信息；

预处理模块，用于根据所述预处理类信息对所述原始数据流进行预处理，得到对应的统计元数据；

统计模块，用于根据所述统计条件信息对所述统计元数据进行统计，根据统计结果生成对应的统计报表。

此外，为实现上述目的，本发明还提供一种数据统计设备，所述数据统计设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据统计程序，所述数据统计程序被所述处理器执行时实现如下步骤：

获取待统计的原始数据流；

根据所述原始数据流调用并解析预设的数据统计配置文件，得到预设类型的待生成统计报表的预处理类信息和统计条件信息；

根据所述预处理类信息对所述原始数据流进行预处理，得到对应的统计元数据；

根据所述统计条件信息对所述统计元数据进行统计，根据统计结果生成对应的统计报表。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有数据统计程序，所述数据统计程序被处理器执行时实现如下步骤：

获取待统计的原始数据流；

根据所述原始数据流调用并解析预设的数据统计配置文件，得到预设类型的待生成统计报表的预处理类信息和统计条件信息；

根据所述预处理类信息对所述原始数据流进行预处理，得到对应的统计元数据；

根据所述统计条件信息对所述统计元数据进行统计，根据统计结果生成对应的统计报表。

本发明spark平台获取待统计的原始数据流；根据所述原始数据流调用并解析预设的数据统计配置文件，得到预设类型的待生成统计报表的预处理类信息和统计条件信息；根据所述预处理类信息对所述原始数据流进行预处理，得到对应的统计元数据；根据所述统计条件信息对所述统计元数据进行统计，根据统计结果生成对应的统计报表。本发明通过在spark平台中设置数据统计配置文件，并在数据统计配置文件中写入预设类型的待生成统计报表的预处理类信息和统计条件信息，实现了基于spark平台进行数据统计，相对于现有技术，在业务或统计规则变更时，开发人员只需修改数据统计配置文件中的配置信息，而无需重新开发新的统计代码，从而提高了基于spark平台进行数据统计的代码灵活性，降低了代码的开发维护成本。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本发明数据统计方法第一实施例的流程示意图；

图3为本发明实施例中对原始话单进行统计分析的流程示意图；

图4为本发明数据统计方法第二实施例的流程示意图；

图5为本发明数据统计方法第三实施例的流程示意图；

图6为本发明数据统计方法第四实施例的流程示意图；

图7为本发明数据统计装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：获取待统计的原始数据流；根据所述原始数据流调用并解析预设的数据统计配置文件，得到预设类型的待生成统计报表的预处理类信息和统计条件信息；根据所述预处理类信息对所述原始数据流进行预处理，得到对应的统计元数据；根据所述统计条件信息对所述统计元数据进行统计，根据统计结果生成对应的统计报表。

现有技术中，在基于spark平台进行数据分析的时候，每新增一类业务统计，开发人员需要重新开发统计代码，需要耗费较多的时间成本和人力成本，而且，业务及其统计规则的变更会引起代码的频繁修改，导致较高的出错几率和测试成本，随着时间的变迁和业务的频繁变化，代码也会越来越臃肿，导致代码难于维护。

本发明通过在spark平台中设置数据统计配置文件，并在数据统计配置文件中写入预设类型的待生成统计报表的预处理类信息和统计条件信息，实现了基于spark平台进行数据统计，相对于现有技术，在业务或统计规则变更时，开发人员只需修改数据统计配置文件中的配置信息，而无需重新开发新的统计代码，从而提高了基于spark平台进行数据统计的代码灵活性，降低了代码的开发维护成本。

本发明提供一种数据统计方法。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

本发明实施例数据统计设备可以是服务器、pc机或虚拟机设备。

如图1所示，该数据统计设备可以包括：处理器1001，例如cpu，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据统计程序。

在图1所示的数据统计设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的数据统计程序，并执行以下操作：

获取待统计的原始数据流；

根据所述原始数据流调用并解析预设的数据统计配置文件，得到预设类型的待生成统计报表的预处理类信息和统计条件信息；

根据所述预处理类信息对所述原始数据流进行预处理，得到对应的统计元数据；

根据所述统计条件信息对所述统计元数据进行统计，根据统计结果生成对应的统计报表。