数据处理方法和装置的制造方法

文档序号:10489230阅读:178来源:国知局
数据处理方法和装置的制造方法
【专利摘要】本申请公开了数据处理方法和装置。所述方法的一【具体实施方式】包括:获取待分析数据和待分析数据的聚合计算类型;基于聚合计算类型和预设的计算复杂度对待分析数据进行抽样,得到抽样数据;对抽样数据进行聚合计算;展示抽样数据的聚合计算结果。该实施方式可以快速地提供部分具有参考价值的数据分析结果,提升了大规模数据聚合处理结果展示的效率。
【专利说明】
数据处理方法和装置
技术领域
[0001]本申请涉及计算机技术领域,具体涉及电通信技术领域,尤其涉及数据处理方法和装置。
【背景技术】
[0002]随着互联网技术的发展,产生了越来越多的网络数据。后台数据分析服务器可以对产生的网络数据进行聚合分析,得出大数据量的网络行为的统计信息。通常后台服务器在完成所有待分析数据的聚合计算后,将聚合计算的结果展示给用户。
[0003]对于超大规模的网络数据,由于服务器系统资源、计算能力的限制,聚合操作需要消耗较长的时间,无法实时展示聚合结果。这时,展示结果页面会停滞在等待结果返回的状态,为用户提供统计分析结果的效率较低。

【发明内容】

[0004]有鉴于此,期望能够提供一种快速展示聚合结果的数据分析处理方法。为了解决上述技术问题,本申请提供了数据处理的方法和装置。
[0005]—方面,本申请提供了一种数据处理方法,包括:获取待分析数据和所述待分析数据的聚合计算类型;基于所述聚合计算类型和预设的计算复杂度对所述待分析数据进行抽样,得到抽样数据;对所述抽样数据进行聚合计算;展示所述抽样数据的聚合计算结果。
[0006]在一些可选的实现方式中,所述基于所述聚合计算类型和预设的计算复杂度对所述待分析数据进行抽样,得到抽样数据,包括:基于所述聚合计算类型和预设的计算复杂度确定所述待分析数据的抽样数据量;根据所述抽样数据量,从所述待分析数据中抽取出所述抽样数据。
[0007]在一些可选的实现方式中,所述基于所述聚合计算类型和预设的计算复杂度确定所述待分析数据的抽样数据量,包括:将所述待分析数据的聚合计算类型输入已训练的第一计算复杂度模型,得出所述待分析数据的计算复杂度与待分析数据量之间的第一关系模型;根据所述第一关系模型确定对应于所述预设的计算复杂度的待分析数据量,作为所述抽样数据量。
[0008]在一些可选的实现方式中,所述方法还包括训练所述第一计算复杂度模型的步骤,包括:获取历史数据分析记录,所述历史数据分析记录包括至少一个历史数据集合的数据量,以及对应的历史计算复杂度和历史聚合计算类型;根据所述历史数据分析记录训练得出所述第一计算复杂度模型。
[0009]在一些可选的实现方式中,所述方法还包括:获取可用的计算资源余量;所述基于所述聚合计算类型和预设的计算复杂度确定所述待分析数据的抽样数据量,包括:将所述待分析数据的聚合计算类型、所述计算资源余量输入已训练的第二计算复杂度模型,得出所述待分析数据的计算复杂度与待分析数据量之间的第二关系模型;根据所述第二关系模型确定对应于所述预设的计算复杂度的待分析数据量,作为所述抽样数据量。
[0010]在一些可选的实现方式中,所述方法还包括训练所述第二计算复杂度模型的步骤,包括:获取历史数据分析记录,所述历史数据分析记录包括至少一个历史数据集合的数据量,以及对应的历史计算复杂度、历史计算资源余量和历史聚合计算类型;根据所述历史数据分析记录训练得出所述第二计算复杂度模型。
[0011]在一些可选的实现方式中,所述计算复杂度包括:计算耗时和/或计算所需的资源量。
[0012]第二方面,本申请提供了一种数据处理装置,包括:第一获取单元,用于获取待分析数据和所述待分析数据的聚合计算类型;抽样单元,用于基于所述聚合计算类型和预设的计算复杂度对所述待分析数据进行抽样,得到抽样数据;计算单元,用于对所述抽样数据进行聚合计算;展示单元,用于展示所述抽样数据的聚合计算结果。
[0013]在一些可选的实现方式中,所述抽样单元用于按如下方式对所述待分析数据进行抽样,得到抽样数据:基于所述聚合计算类型和预设的计算复杂度确定所述待分析数据的抽样数据量;根据所述抽样数据量,从所述待分析数据中抽取出所述抽样数据。
[0014]在一些可选的实现方式中,所述抽样单元进一步按照如下方式确定所述待分析数据的抽样数据量:将所述待分析数据的聚合计算类型输入已训练的第一计算复杂度模型,得出所述待分析数据的计算复杂度与待分析数据量之间的第一关系模型;根据所述第一关系模型确定对应于所述预设的计算复杂度的待分析数据量,作为所述抽样数据量。
[0015]在一些可选的实现方式中,所述装置还包括第一训练单元,用于按照如下方式训练所述第一计算复杂度模型:获取历史数据分析记录,所述历史数据分析记录包括至少一个历史数据集合的数据量,以及对应的历史计算复杂度和历史聚合计算类型;根据所述历史数据分析记录训练得出所述第一计算复杂度模型。
[0016]在一些可选的实现方式中,所述装置还包括:第二获取单元,用于获取可用的计算资源余量;所述抽样单元进一步按照如下方式确定所述待分析数据的抽样数据量:将所述待分析数据的聚合计算类型、所述计算资源余量输入已训练的第二计算复杂度模型,得出所述待分析数据的计算复杂度与待分析数据量之间的第二关系模型;根据所述第二关系模型确定对应于所述预设的计算复杂度的待分析数据量,作为所述抽样数据量。
[0017]在一些可选的实现方式中,所述装置还包括第二训练单元,用于按如下方式训练所述第二计算复杂度模型:获取历史数据分析记录,所述历史数据分析记录包括至少一个历史数据集合的数据量,以及对应的历史计算复杂度、历史计算资源余量和历史聚合计算类型;根据所述历史数据分析记录训练得出所述第二计算复杂度模型。
[0018]在一些可选的实现方式中,所述计算复杂度包括:计算耗时和/或计算所需的资源量。
[0019]本申请提供的数据处理方法和装置,通过获取待分析数据和所述待分析数据的聚合计算类型,随后基于聚合计算类型和预设的计算复杂度对待分析数据进行抽样,得到抽样数据,而后对抽样数据进行聚合计算,最后展示抽样数据的聚合计算结果,从而能够快速地提供部分具有参考价值的数据分析结果,提升了大规模数据聚合处理结果展示的效率。
【附图说明】
[0020]通过阅读参照以下附图所作的对非限制性实施例详细描述,本申请的其它特征、目的和优点将会变得更明显:
[0021]图1是本申请可以应用于其中的示例性系统架构图;
[0022]图2是根据本申请的数据处理方法的一个实施例的流程图;
[0023]图3是根据本申请的数据处理方法的原理示意图;
[0024]图4是根据本申请的数据处理方法的另一个实施例的流程图;
[0025]图5是根据本申请的数据处理方法的再一个实施例的流程图;
[0026]图6是本申请数据处理装置的一个实施例的结构示意图;
[0027]图7是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
【具体实施方式】
[0028]下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
[0029]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0030]如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0031]用户110可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有网络服务应用,例如浏览器、地图应用、音频/视频播放应用、在线生活服务类应用等。
[0032]终端设备101、102、103可以是具有显示屏并且支持网络服务应用的各种电子设备,包括但不限于智能手机、平板电脑、智能手表、电子书阅读器、MP3播放器(MovingPicture Experts Group Aud1 Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Aud1 Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
[0033]服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103显示的网页提供数据支持的后台网页服务器。后台网页服务器可以对接收到的访问请求进行数据分析等处理,并将处理结果(例如网页数据)反馈给终端设备。
[0034]服务器105可以是后台数据分析服务器,用于获取终端设备101、102、103的网络行为数据并进行数据分析。例如服务器105可以获取终端设备101、102、103的网络日志,并对获取的网络日志进行分析统计,以得出网络行为数据的统计结果。
[0035]需要说明的是,本申请实施例所提供的数据处理方法一般由服务器105执行,相应地,数据处理装置一般设置于服务器105中。
[0036]应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
[0037]继续参考图2,示出了根据本申请的数据处理方法的一个实施例的流程200。所述的数据处理方法,包括以下步骤:
[0038]步骤201,获取待分析数据和待分析数据的聚合计算类型。
[0039]在本实施例中,数据处理方法运行于其上的电子设备(例如图1所示的服务器105)可以从多个终端设备获取待分析数据。其中,待分析数据可以包括终端设备的网络行为数据,例如包括用户通过终端设备进行网页浏览的数据、地图检索的数据、音频/视频播放的数据等各网络访问应用的数据。同时,数据处理方法运行于其上的电子设备还可以根据设定的聚合算法获取待分析数据的聚合计算类型。例如当聚合算法为执行η次累加和m次求均值时,聚合计算的类型可以包括求和(sum)以及求平均(average)。
[0040]通常,用户在通过终端设备访问网络时,终端设备可以记录用户访问网络的行为数据,将用户的网络行为数据保存在网络日志中。例如用户浏览网页时,终端设备可以将用户浏览网页的网址、浏览时间、在网页上执行的操作(例如点击、键入的文本信息)等记录在网页浏览日志中。上述电子设备可以获取终端设备的日志,作为待分析数据。需要说明的是,本实施例中上述电子设备可以获取多个终端保存的大数据量的待分析数据,也可以选择性地获取部分网络日志作为待分析数据,例如将最近一个月内的网络日志作为待分析数据。
[0041]在一些可选的实现方式中,记录用户网络行为数据的终端设备可以通过网络向数据处理方法运行于其上的电子设备上报其网络日志,上述电子设备也可以通过网络向各终端设备发出网络日志搜集请求,主动从终端设备获取网络日志。需要指出的是,上述网络的连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接等无线连接方式,也可以包括有线连接方式。
[0042]在一些实施例中,上述电子设备还可以在后台直接获取用户访问网络的数据。例如网页服务器可以获取用户通过终端设备请求网页数据的网页地址以及时间信息。
[0043]聚合计算类型可以是人工设定的,例如数据分析师可以设定需要对待分析数据进行何种运算。聚合计算类型也可以是根据聚合结果需求确定的。例如当需要统计网页访问量的走势时,则聚合计算类型可以为累加。聚合计算类型可以为多种,这时,所获取的聚合计算类型还可以包括每种聚合计算类型的数量。
[0044]步骤202,基于聚合计算类型和预设的计算复杂度对待分析数据进行抽样,得到抽样数据。
[0045]在本实施例中,上述电子设备可以根据步骤201获取的聚合计算类型确定待分析数据的计算复杂度,基于待分析数据的计算复杂度和预设的计算复杂度确定抽样率,从而根据抽样率对待分析数据进行抽样,得到抽样数据。
[0046]在一些可选的实现方式中,待分析数据的计算复杂度可以采用如下方式计算:设定待分析数据的每一种聚合计算类型的复杂度,然后按照各聚合计算类型进行的次数对各聚合计算类型的复杂度进行累加,得到总的复杂度即为待分析数据的计算复杂度。
[0047]在一些可选的实现方式中,计算复杂度可以包括计算耗时和/或计算所需的资源量。其中,计算耗时表示聚合计算所消耗的时长,计算所需的资源量表示聚合计算所占用的系统资源量,包括存储空间量,例如聚合计算所占用的资源量可以为1CHJ+16G内存。可选地,计算所需的资源量可以包括待分析数据所占用的存储空间、聚合计算所占用的存储空间以及聚合计算的结果所占用的存储空间。
[0048]在一些实施中,还可以利用经验公式计算待分析数据的计算复杂度。经验公式中,计算复杂度与聚合计算的类型和数量相关。
[0049]预设的计算复杂度可以根据抽样结果展示时间设置。如果计算复杂度为计算耗时,则可以确定抽样结果展示时间即为预设的计算复杂度。例如用户需要在5秒内获得抽样结果,则预设的计算复杂度可以为5秒。如果计算复杂度为计算所需的资源量,可以根据计算耗时与计算所需的资源量间的正相关关系确定出抽样结果展示时间对应的计算复杂度。
[0050]待计算的数据量与计算复杂度具有正相关的关系。在本实施例中,上述电子设备可以确定出预设计算复杂度对应的待计算数据量,即为抽样数据量。例如待分析数据的数据量为24(),其计算复杂度为1000秒,而抽样结果的展示时间为10秒,如果待计算的数量为22°时的计算复杂度为10秒,则可以确定抽样数据量为22()。在一些实施例中,可以根据历史计算数据确定出计算复杂度与待计算数据量的对应关系,之后确定预设计算复杂度对应的待计算数据量为抽样数据量。
[0051]在确定抽样数据量之后,可以基于多种抽样方法抽取所述抽样数据量的待分析数据作为抽样数据。抽样方法可以包括但不限于:随机抽样、整群抽样、分层抽样。
[0052]步骤203,对抽样数据进行聚合计算。
[0053]在本实施例中,上述电子设备可以按照预设的聚合计算规则对抽样数据进行聚合计算。聚合计算可以包括多类聚合函数,每个聚合函数对抽样数据中的一组数据执行计算并返回单一的值。聚合函数可以是用户根据需求自定义的函数,也可以是上述电子设备的存储器中已保存的统计分析函数。聚合函数可以例如包括AVG(返回均值)、C0UNT(返回数量)、MAX(返回最大值)、MIN(返回最小值)、SUM(返回和值)、VAR(返回统计方差)等。
[0054]在一些实施例中,可以同时对抽样数据和待分析数据进行聚合计算。对待分析数据进行的聚合计算类型与对抽样数据进行的聚合计算类型一致,也可以根据实时展示的需求确定待分析数据的聚合计算结果,例如用户需要快速了解数据的总和时,可以对抽样数据执行求和计算操作,对待分析数据执行AVG、COUNT、MAX、MIN、SUM、VAR等操作。
[0055]在一些可选的实现方式中,为了尽快获取抽样数据的聚合计算结果,可以优先进行抽样数据的聚合计算,待抽样数据计算完毕之后再启动待分析数据的聚合计算。
[0056]步骤204,展示抽样数据的聚合计算结果。
[0057]在本实施例中,上述电子设备可以配置可视化界面,在可视化界面中展示抽样数据的聚合计算结果。用户可以通过可视化界面获取聚合计算结果。上述电子设备也可以与其他显示设备连接,在显示设备中展示抽样数据的聚合计算结果。通过展示的抽样数据的聚合计算结果,可以快速向用户提供待分析数据的初步统计分析结果。
[0058]在一些实施例中,在完成待分析数据的聚合计算之后,可以将待分析数据的聚合计算结果展示在可视化界面中。这样,用户既可以获取实时的初步统计结果,又可以获取精确的统计结果,从而提升了获取信息的效率。
[0059]请参考图3,其示出了根据本申请的数据处理方法的原理示意图。如图3所示,在获取大数据量的待分析数据301之后,可以基于待分析数据的计算复杂度进行抽样,得到抽样数据302。之后,可以对抽样数据302进行聚合计算,并将抽样数据302的聚合计算结果展示在展示界面303中。同时,可以对待分析数据301进行聚合计算,在聚合计算完成之后将待分析数据301的聚合计算结果也展示在展示界面303中。
[0060]本申请上述实施例提供的数据分析方法,基于计算复杂度对待分析数据进行抽样,并展示抽样数据的聚合计算结果,能够快速、实时地提供数据分析的初步结果,提升了大规模数据聚合处理结果展示的效率。
[0061]在上述实施例的一些可选的实现方式中,在步骤202中进行抽样时,可以基于聚合计算类型和预设的计算复杂度确定待分析数据的抽样数据量,然后根据抽样数据量,从待分析数据中抽取出所述抽样数据。可以采用多种方法确定待分析数据的抽样数据量。以下结合图4和图5进一步描述确定待分析数据的抽样数据量的方法。
[0062]进一步参考图4,其示出了根据本申请的数据处理方法的另一个实施例的流程400 ο如图4所示,所述的数据处理方法的流程400,包括以下步骤:
[0063]步骤401,获取待分析数据和待分析数据的聚合计算类型。
[0064]在本实施例中,数据处理方法运行于其上的电子设备(例如图1所示的服务器105)可以从多个终端设备获取待分析数据。其中,待分析数据可以包括终端设备的网络行为数据,同时,数据处理方法运行于其上的电子设备还可以根据设定的聚合算法获取待分析数据的聚合计算类型。聚合计算类型可以是人工设定的,例如可以是根据聚合结果需求设定的。在一些实施例中,还可以获取每一种聚合计算类型的数量。
[0065]在一些实施例中,上述电子设备可以在后台直接获取用户访问网络的数据。例如网页服务器可以获取用户通过终端设备请求网页数据的网页地址以及时间信息。
[0066]步骤402,将待分析数据的聚合计算类型输入已训练的第一计算复杂度模型,得出待分析数据的计算复杂度与待分析数据量之间的第一关系模型。
[0067]在本实施例中,可以采用机器学习的方法确定抽样数据量。具体地,可以基于第一计算复杂度模型确定计算复杂度与待分析数据量之间的第一关系模型。第一关系模型可以是一个数学表达式,第一计算复杂度模型可以是预设的模型,其输入可以为聚合计算类型,输出可以为计算复杂度与待分析数据量之间的关系表达式。其中,输入的聚合计算类型可以包括每类聚合计算类型的数量,即每种聚合计算类型被执行的次数。第一计算复杂度可以为计算耗时。将待分析数据的聚合计算类型输入已训练的第一计算复杂度模型,即可得出计算耗时与待分析数据量的对应关系表达式。
[0068]步骤403,根据第一关系模型确定对应于预设的计算复杂度的待分析数据量,作为抽样数据量。
[0069]在本实施例中,在得出计算复杂度与待分析数据量之间的第一关系模型之后,可以根据第一关系模型确定出对应于预设的计算复杂度的待分析数据量。具体地,如果第一关系模型为计算复杂度与待分析数据量之间的数学关系表达式,则可以根据数学关系表达式以及预设的计算复杂度计算出对应的待分析数据量,作为抽样数据量。
[0070]步骤404,根据抽样数据量,从待分析数据中抽取出抽样数据。
[0071]上述电子设备可以从待分析数据中抽取与步骤403确定出的抽样数据量的数据,作为抽样数据。在一些可选的实现方式中,还可以根据计算出的待分析数据量在待分析数据总量中所占的比例,得出抽样率,然后根据抽样率进行抽样以得出抽样数据。
[0072]步骤405,对抽样数据进行聚合计算。
[0073]在本实施例中,上述电子设备可以对抽样数据进行聚合计算。聚合计算可以包括数据统计分析中的各种类型的计算操作,例如求和、求平均、求均方差、取最大值、取最小值等类型的计算。
[0074]在一些实施例中,可以同时对抽样数据和待分析数据进行聚合计算。在另一些可选的实现方式中,为了尽快获取抽样数据的聚合计算结果,可以优先进行抽样数据的聚合计算,待抽样数据计算完毕之后再启动待分析数据的聚合计算。
[0075]步骤406,展示抽样数据的聚合计算结果。
[0076]在本实施例中,可以在上述电子设备配置的可视化界面或连接的显示设备中展示抽样数据的聚合计算结果。通过展示的抽样数据的聚合计算结果,可以快速地向用户提供待分析数据的初步统计分析结果。
[0077]在一些可选的实现方式中,上述数据处理方法还可以包括训练第一计算复杂度模型的步骤,包括:获取历史数据分析记录,根据历史数据分析记录训练得出第一计算复杂度模型。其中,历史数据分析记录包括至少一个历史数据集合的数据量,对应的历史计算复杂度和历史聚合计算类型。上述电子设备可以从存储器中获取历史数据分析记录,基于历史数据分析记录建立训练集和测试集,然后利用训练集训练第一复杂度模型,之后可以基于测试集对第一复杂度模型的参数进行修正。
[0078]在本实施例中,上述实现流程中的步骤401、步骤405和步骤406分别与前述实施例中的步骤201、步骤203和步骤204相同,在此不再赘述。
[0079]与图2所示实施例相比,图4所示的数据处理方法的流程400细化了基于聚合计算类型和预设的计算复杂度对待分析数据进行抽样的步骤,根据已训练的模型确定抽样数据量,进一步提升了抽样数据聚合计算结果的可靠性。
[0080]进一步参考图5,其示出了根据本申请的数据处理方法的再一个实施例的流程图。所述的数据处理方法流程500,包括以下步骤:
[0081]步骤501,获取待分析数据和待分析数据的聚合计算类型。
[0082]在本实施例中,数据处理方法运行于其上的电子设备(例如图1所示的服务器105)可以从多个终端设备获取待分析数据。其中,待分析数据可以包括终端设备上报的网络行为数据。该电子设备还可以根据人工设定或基于聚合结果需求确定的聚合算法获取待分析数据的聚合计算类型。
[0083]步骤502,获取可用的资源余量。
[0084]在本实施例中,上述电子设备可以计算当前的计算资源余量,作为可用的资源余量。计算资源可以为CPU(Central Processing Unit,中央处理器)数量以及内存量,例如,上述电子设备的计算资源总量可以为1CPU+4G内存和2CPU+8G内存。
[0085]在一些可选的实现方式中,上述电子设备可以获取总资源量,之后确定其他正在运行的程序所占用的资源量,然后进行减运算求出可用的资源余量。例如当上述电子设备的计算资源总量为1CPU+4G内存和2CPU+8G内存时,如果其他应用占用的总资源量为2CPU+8G内存,则可用的资源余量可以为1CPU+4G内存。
[0086]步骤503,将待分析数据的聚合计算类型、计算资源余量输入已训练的第二计算复杂度模型,得出待分析数据的计算复杂度与待分析数据量之间的第二关系模型。
[0087]在本实施例中,可以采用机器学习的方法确定抽样数据量。具体地,可以基于第二计算复杂度模型确定计算复杂度与待分析数据量之间的第二关系模型。第二关系模型可以是一个数学表达式,第二计算复杂度可以包括计算耗时和计算所需的资源量。第二计算复杂度模型可以是预设的模型,其输入可以为聚合计算类型,输出可以为计算耗时、计算所需的资源量与待分析数据量之间的关系表达式。其中,输入的聚合计算类型可以包括每类聚合计算类型的数量,即每种聚合计算类型被执行的次数。将待分析数据的聚合计算类型输入已训练的第二计算复杂度模型,即可得出计算耗时、计算所需的资源余量与待分析数据量的对应关系表达式。
[0088]步骤504,根据第二关系模型确定对应于预设的计算复杂度的待分析数据量,作为抽样数据量。
[0089]在本实施例中,预设的计算复杂度包括预设的计算耗时,在得出计算耗时、计算所需的资源余量与待分析数据量之间的第二关系模型之后,可以根据第二关系模型确定出对应于预设的计算耗时以及步骤502获取的可用的资源余量的待分析数据量。具体地,如果第二关系模型为计算耗时、计算所需的资源余量与待分析数据量之间的数学关系表达式,则可以根据数学关系表达式、预设的计算耗时以及可用的资源余量计算出对应的待分析数据量,作为抽样数据量。
[0090]步骤505,根据抽样数据量,从待分析数据中抽取出抽样数据。
[0091]上述电子设备可以从待分析数据中抽取与步骤504确定出的抽样数据量的数据,作为抽样数据。在一些可选的实现方式中,还可以根据计算出的待分析数据量在待分析数据总量中所占的比例,得出抽样率,然后根据抽样率进行抽样以得出抽样数据。
[0092]步骤506,对抽样数据进行聚合计算。
[0093]在本实施例中,上述电子设备可以对抽样数据进行聚合计算。聚合计算可以包括数据统计分析中的各种类型的计算操作,例如求和、求平均、求均方差、取最大值、取最小值等类型的计算。
[0094]在一些实施例中,可以同时对抽样数据和待分析数据进行聚合计算。在另一些可选的实现方式中,为了尽快获取抽样数据的聚合计算结果,可以优先进行抽样数据的聚合计算,待抽样数据计算完毕之后再启动待分析数据的聚合计算。
[0095]步骤507,展示抽样数据的聚合计算结果。
[0096]在本实施例中,可以在上述电子设备配置的可视化界面或连接的显示设备中展示抽样数据的聚合计算结果。通过展示的抽样数据的聚合计算结果,可以快速地向用户提供待分析数据的初步统计分析结果。
[0097]在本实施例中,上述实现流程中的步骤501、步骤506和步骤407分别与前述实施例中的步骤201、步骤203和步骤204相同,在此不再赘述。
[0098]从图5中可以看出,与图4所示的实施例相比,本申请提供的数据处理方法的流程500增加了获取可用的资源余量的步骤502,在确定抽样数据量时综合可用的资源余量和预设的计算复杂度需求,从而实现系统计算资源的充分利用,加快提供数据分析处理结果的速度。
[0099]图6是本申请数据处理装置的一个实施例的结构示意图。如图6所示,数据处理装置600可以包括:第一获取单元601、抽样单元603、计算单元604以及展示单元605。其中,第一获取单元601用于获取待分析数据和所述待分析数据的聚合计算类型;抽样单元602用于基于聚合计算类型和预设的计算复杂度对待分析数据进行抽样,得到抽样数据;计算单元603用于对抽样数据进行聚合计算;展示单元604用于展示抽样数据的聚合计算结果。
[0100]在本实施例中,第一获取单元601可以从多个终端设备获取待分析数据。其中,待分析数据可以包括终端设备上报的网络行为数据。第一获取单元601还可以根据人工设定或基于聚合结果需求确定的聚合算法获取待分析数据的聚合计算类型。
[0101]抽样单元602可以基于待分析数据的计算复杂度和预设的计算复杂度确定抽样率,从而根据抽样率对待分析数据进行抽样,得到抽样数据。具体地,抽样单元602可以根据预设的聚合计算类型计算待分析数据的聚合计算的计算耗时以及所需的计算资源量,作为待分析数据的计算复杂度。可选地,待分析数据的计算复杂度与待分析数据的数据量正相关。则计算复杂度为随着待分析数据量增加而增大的变量。这时,可以计算预设的计算复杂度对应的待分析数据量,作为抽样数据量。并从待分析数据中抽取与所述抽样数据量相等的数据作为抽样数据。
[0102]在一些可选的实现方式中,抽样单元602可以用于按如下方式对第一获取单元601获取的待分析数据进行抽样:基于聚合计算类型和预设的计算复杂度确定待分析数据的抽样数据量;根据抽样数据量,从待分析数据中抽取出所述抽样数据。
[0103]在进一步的实现方式中,抽样单元602可以采用机器学习的方法确定待分析数据的抽样数据量。一种可选的方式包括:将待分析数据的聚合计算类型输入已训练的第一计算复杂度模型,得出待分析数据的计算复杂度与待分析数据量之间的第一关系模型;根据第一关系模型确定对应于预设的计算复杂度的待分析数据量,作为抽样数据量。
[0104]进一步地,数据处理装置600还可以包括第二获取单元,用于获取可用的资源余量。这时,抽样单元602可以按照如下方式确定待分析数据的抽样数据量:将待分析数据的聚合计算类型、计算资源余量输入已训练的第二计算复杂度模型,得出待分析数据的计算复杂度与待分析数据量之间的第二关系模型;根据第二关系模型确定对应于预设的计算复杂度的待分析数据量,作为抽样数据量。
[0105]可选地或附加地,所述的装置600还包括第一训练单元和第二训练单元。第一训练单元用于按照如下方式训练第一计算复杂度模型:获取历史数据分析记录,根据历史数据分析记录训练得出第一计算复杂度模型。其中,用于训练第一计算复杂度模型的历史数据分析记录包括至少一个历史数据集合的数据量,以及对应的历史计算复杂度和历史聚合计算类型。第二训练单元用于按如下方式训练第二计算复杂度模型:获取历史数据分析记录;根据历史数据分析记录训练得出所述第二计算复杂度模型。其中,用于训练第二计算复杂度模型的历史数据分析记录包括至少一个历史数据集合的数据量,以及对应的历史计算复杂度、历史计算资源余量和历史聚合计算类型。
[0106]计算单元603可以按照预设的聚合计算规则对抽样单元602得出的抽样数据进行聚合计算。聚合计算可以包括多类聚合函数,每个聚合函数对抽样数据中的一组数据执行计算并返回单一的值。聚合函数可以是用户根据需求自定义的函数,也可以是上述电子设备的存储器中已保存的统计分析函数。
[0107]展示单元604可以对计算单元603的计算结果进行展示。展示单元可以以多种形式展示抽样数据的聚合计算结果。例如可以以图表的形式进行展示,也可以以文档的形式进行展示。
[0108]在一些可选的实现方式中,上述计算复杂度包括:计算耗时和/或计算所需的资源量。
[0109]应当理解,装置600中记载的诸单元与参考图2-图5描述的方法中的各个步骤相对应。由此,上文针对数据处理方法描述的操作和特征同样适用于装置600及其中包含的单元,在此不再赘述。装置600中的相应单元可以与终端设备和/或服务器中的单元相互配合以实现本申请实施例的方案。
[0110]本领域技术人员可以理解,上述数据处理装置600还包括一些其他公知结构,例如处理器、存储器等,为了不必要地模糊本公开的实施例,这些公知的结构在图6中未示出。
[0111]本申请提供的数据处理装置,可以快速地提供部分具有参考价值的数据分析结果,提升了大规模数据聚合处理结果展示的效率。
[0112]下面参考图7,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统700的结构示意图。
[0113]如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(R0M)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 70KROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线 704。
[0114]以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706 ;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口 705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
[0115]特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。
[0116]附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0117]描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括第一获取单元、抽样单元、计算单元和展示单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取待分析数据和所述待分析数据的聚合计算类型的单元”。
[0118]作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:获取待分析数据和所述待分析数据的聚合计算类型;基于所述聚合计算类型和预设的计算复杂度对所述待分析数据进行抽样,得到抽样数据;对所述抽样数据进行聚合计算;展示所述抽样数据的聚合计算结果。
[0119]以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
【主权项】
1.一种数据处理方法,其特征在于,包括: 获取待分析数据和所述待分析数据的聚合计算类型; 基于所述聚合计算类型和预设的计算复杂度对所述待分析数据进行抽样,得到抽样数据; 对所述抽样数据进行聚合计算; 展示所述抽样数据的聚合计算结果。2.根据权利要求1所述的方法,其特征在于,所述基于所述聚合计算类型和预设的计算复杂度对所述待分析数据进行抽样,得到抽样数据,包括: 基于所述聚合计算类型和预设的计算复杂度确定所述待分析数据的抽样数据量; 根据所述抽样数据量,从所述待分析数据中抽取出所述抽样数据。3.根据权利要求2所述的方法,其特征在于,所述基于所述聚合计算类型和预设的计算复杂度确定所述待分析数据的抽样数据量,包括: 将所述待分析数据的聚合计算类型输入已训练的第一计算复杂度模型,得出所述待分析数据的计算复杂度与待分析数据量之间的第一关系模型; 根据所述第一关系模型确定对应于所述预设的计算复杂度的待分析数据量,作为所述抽样数据量。4.根据权利要求3所述的方法,其特征在于,所述方法还包括训练所述第一计算复杂度模型的步骤,包括: 获取历史数据分析记录,所述历史数据分析记录包括至少一个历史数据集合的数据量,以及对应的历史计算复杂度和历史聚合计算类型; 根据所述历史数据分析记录训练得出所述第一计算复杂度模型。5.根据权利要求2所述的方法,其特征在于,所述方法还包括: 获取可用的计算资源余量; 所述基于所述聚合计算类型和预设的计算复杂度确定所述待分析数据的抽样数据量,包括: 将所述待分析数据的聚合计算类型、所述计算资源余量输入已训练的第二计算复杂度模型,得出所述待分析数据的计算复杂度与待分析数据量之间的第二关系模型; 根据所述第二关系模型确定对应于所述预设的计算复杂度的待分析数据量,作为所述抽样数据量。6.根据权利要求5所述的方法,其特征在于,所述方法还包括训练所述第二计算复杂度模型的步骤,包括: 获取历史数据分析记录,所述历史数据分析记录包括至少一个历史数据集合的数据量,以及对应的历史计算复杂度、历史计算资源余量和历史聚合计算类型; 根据所述历史数据分析记录训练得出所述第二计算复杂度模型。7.根据权利要求1-6任一项所述的方法,其特征在于,所述计算复杂度包括:计算耗时和/或计算所需的资源量。8.一种数据处理装置,其特征在于,包括: 第一获取单元,用于获取待分析数据和所述待分析数据的聚合计算类型; 抽样单元,用于基于所述聚合计算类型和预设的计算复杂度对所述待分析数据进行抽样,得到抽样数据; 计算单元,用于对所述抽样数据进行聚合计算; 展示单元,用于展示所述抽样数据的聚合计算结果。9.根据权利要求8所述的装置,其特征在于,所述抽样单元用于按如下方式对所述待分析数据进行抽样: 基于所述聚合计算类型和预设的计算复杂度确定所述待分析数据的抽样数据量; 根据所述抽样数据量,从所述待分析数据中抽取出所述抽样数据。10.根据权利要求9所述的装置,其特征在于,所述抽样单元进一步按照如下方式确定所述待分析数据的抽样数据量: 将所述待分析数据的聚合计算类型输入已训练的第一计算复杂度模型,得出所述待分析数据的计算复杂度与待分析数据量之间的第一关系模型; 根据所述第一关系模型确定对应于所述预设的计算复杂度的待分析数据量,作为所述抽样数据量。11.根据权利要求10所述的装置,其特征在于,所述装置还包括第一训练单元,用于按照如下方式训练所述第一计算复杂度模型: 获取历史数据分析记录,所述历史数据分析记录包括至少一个历史数据集合的数据量,以及对应的历史计算复杂度和历史聚合计算类型; 根据所述历史数据分析记录训练得出所述第一计算复杂度模型。12.根据权利要求9所述的装置,其特征在于,所述装置还包括: 第二获取单元,用于获取可用的计算资源余量; 所述抽样单元进一步按照如下方式确定所述待分析数据的抽样数据量: 将所述待分析数据的聚合计算类型、所述计算资源余量输入已训练的第二计算复杂度模型,得出所述待分析数据的计算复杂度与待分析数据量之间的第二关系模型; 根据所述第二关系模型确定对应于所述预设的计算复杂度的待分析数据量,作为所述抽样数据量。13.根据权利要求12所述的装置,其特征在于,所述装置还包括第二训练单元,用于按如下方式训练所述第二计算复杂度模型: 获取历史数据分析记录,所述历史数据分析记录包括至少一个历史数据集合的数据量,以及对应的历史计算复杂度、历史计算资源余量和历史聚合计算类型; 根据所述历史数据分析记录训练得出所述第二计算复杂度模型。14.根据权利要求8-13任一项所述的装置,其特征在于,所述计算复杂度包括:计算耗时和/或计算所需的资源量。
【文档编号】G06F19/00GK105844107SQ201610197491
【公开日】2016年8月10日
【申请日】2016年3月31日
【发明人】汪敏峰
【申请人】百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1