一种数据分析方法和装置的制造方法

文档序号:10535670阅读:370来源:国知局
一种数据分析方法和装置的制造方法
【专利摘要】本公开实施例公开了一种数据分析方法和装置,所述方法包括:在采集的分析对象的特征值的最大、最小值之间,根据待划分区间的个数进行区间规划;将分析对象的每个特征值划分到相应的区间中;针对每个区间,根据划分到该区间中的特征值的数量计算该区间的权重值;根据该区间中的特征值的均值以及所述权重值计算该区间的加权均值;将各区间的加权均值的平均值作为针对所述分析对象的特征值的加权平均分析结果。从而提高数据分析结果的准确性。
【专利说明】
一种数据分析方法和装置
技术领域
[0001]本公开实施例涉及数据分析技术领域,特别是涉及一种数据分析方法和装置。
【背景技术】
[0002]数据分析在电子商务、智能营销等领域广泛应用。通过数据采集系统对不同数据源的数据进行抽取、转换、清洗的功能,集成和净化来自于多个不同系统的数据,最后将转换完的数据载入目标数据库中,作为联机分析处理、数据挖掘、操作执行的基础。也就是说,将针对分析对象所采集的数据(或称特征值)进行分析后,可以根据分析结果进行后续的资源分配,或者相应的信息推送等操作。
[0003]例如,数据分析可以应用于移动终端的视频点播服务领域中:移动终端类型的多样性以及异构的网络接入方式通常会产生对不同视频格式的需求,其中包括了不同的码率、编码格式、空间、时间分辨率等,而基于此需要对视频进行高效的转码。目前,一种高效的转码方法中则应用了数据分析技术:采集分布式的各转码节点的转码耗时数据;针对每个转码节点,分析该转码节点的转码耗时数据,依据分析结果预测该转码节点后续的转码耗时,根据预测结果为该转码节点分配后续的转码任务。目前,对于转码耗时数据的一种分析方式是通过对转码节点历次单位时长的视频的转码耗时进行平均,将耗时平均值作为分析结果,预测该转码节点对后续视频转码任务的耗时。
[0004]然而,在实际应用中,本公开的发明人发现这种分析方法得到的分析结果并不准确,由此直接影响了依据该分析结果得到的预测结果,进一步也影响到依据预测结果执行后续任务的效果。
[0005]因此,有必要提供一种分析结果更为准确的数据分析方法和装置。

【发明内容】

[0006]有鉴于此,本公开的目的在于提出一种数据分析方法和装置,用以提高数据分析结果的准确性,提高基于该分析结果的预测结果的准确性。
[0007]基于上述目的,本公开实施例提供的一种数据分析方法,包括:
[0008]在采集的分析对象的特征值的最大、最小值之间,根据待划分区间的个数进行区间规划;
[0009]将分析对象的每个特征值划分到相应的区间中;
[0010]针对每个区间,根据划分到该区间中的特征值的数量计算该区间的权重值;根据该区间中的特征值的均值以及所述权重值计算该区间的加权均值;
[0011]将各区间的加权均值的平均值作为针对所述分析对象的特征值的加权平均分析结果。
[0012]较佳地,所述在采集的分析对象的特征值的最大、最小值之间,根据待划分区间的个数进行区间规划,具体包括:
[0013]根据采集的分析对象的特征值的最大、最小值,以及待划分区间的个数确定每个区间的数值范围;
[0014]根据所述最大、最小值,确定区间规划范围;
[0015]在所述区间规划范围内根据每个区间的数值范围进行区间规划。
[0016]其中,所述待划分区间的个数为预先设定,或者
[0017]所述待划分区间的个数是根据所述分析对象的特征值的数量确定的。
[0018]较佳地,所述待划分区间的个数具体是根据所述分析对象的特征值的数量的平方根确定的。
[0019]较佳地,在所述采集的分析对象的特征值的最大、最小值之间,根据待划分区间的个数进行区间规划前,还包括:
[0020]将所述分析对象的特征值中的异常值剔除。
[0021 ]较佳地,在所述将各区间的加权均值的平均值作为针对所述分析对象的特征值的加权平均分析结果前,还包括:
[0022]剔除加权均值小于阈值的区间;以及
[0023]所述将各区间的加权均值的平均值作为针对所述分析对象的特征值的加权平均分析结果具体为:
[0024]将剩下各区间的加权均值的平均值作为针对所述分析对象的特征值的加权平均分析结果。
[0025]在本公开实施例的另一方面,还提供了一种数据分析装置,包括:
[0026]区间规划模块,用于在采集的分析对象的特征值的最大、最小值之间,根据待划分区间的个数进行区间规划;
[0027]特征值划分模块,用于将分析对象的每个特征值划分到相应的区间中;
[0028]加权均值计算模块,用于针对每个区间,根据划分到该区间中的特征值的数量计算该区间的权重值;根据该区间中的特征值的均值以及所述权重值计算该区间的加权均值;
[0029]分析结果确定模块,用于将各区间的加权均值的平均值作为针对所述分析对象的特征值的加权平均分析结果。
[0030]其中,所述区间规划模块包括:
[0031]区间数值范围计算单元,用于根据采集的分析对象的特征值的最大、最小值,以及待划分区间的个数确定每个区间的数值范围;
[0032]规划范围确定单元,用于根据所述最大、最小值确定区间规划范围;
[0033]区间规划单元,用于在所述定区间规划范围内根据确定的每个区间的数值范围进行区间规划。
[0034]进一步,所述区间规划模块还包括:
[0035]区间个数确定单元,用于根据所述分析对象的特征值的数量确定所述待划分区间的个数。
[0036]进一步,所述区间规划模块还包括:
[0037]异常值剔除单元,用于将所述分析对象的特征值中的异常值剔除后,确定所述分析对象的特征值中的最大、最小值。
[0038]较佳地,所述分析结果确定模块还用于在所述将各区间的加权均值的平均值作为针对所述分析对象的特征值的加权平均分析结果之前,将加权均值小于阈值的区间剔除。
[0039]本公开实施例的技术方案中,由于将采集到的分析对象的特征值分别划分到规划的各区间中,进而根据每个区间中的特征值数量计算每个区间的权重值,根据计算的区间的权重值求取加权平均值作为分析结果,从而赋予了特征值出现概率较高的区间较大的权重值,而特征值出现概率较高的区间又更好地体现了分析对象的相关特征情况,因此,这些区间中的特征值的均值以较大的权重参与计算,可以更好地反映分析对象的相关特征情况,提高分析结果的准确性,从而提高了基于分析结果得到的预测结果的准确性。
【附图说明】
[0040]图1为本公开实施例的数据分析方法流程图;
[0041 ]图2为本公开实施例的一组数据的散点图;
[0042]图3为本公开实施例的各区间特征值数量的统计图;
[0043]图4为本公开实施例的区间规划方法流程图;
[0044]图5为本公开实施例的数据分析装置的内部结构框图;
[0045]图6为本公开实施例的区间规划模块的内部结构框图。
【具体实施方式】
[0046]为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
[0047]下面详细描述本公开的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本公开,而不能解释为对本公开的限制。
[0048]本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本公开的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“親接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
[0049]需要说明的是,本公开实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一” “第二”仅为了表述的方便,不应理解为对本公开实施例的限定,后续实施例对此不再一一说明。
[0050]本公开的发明人对现有技术进行分析发现,对于采集的分析对象的各特征值直接进行平均得到的平均值并不能很好地反映该分析对象的相关特征的情况,原因在于,对各特征值直接进行平均时,每个特征值参与的权重都是一样的,然而,实际中有的特征值出现的频率很低,有的特征值出现的频率很高,频率很低的特征值其实并不能很好地反映分析对象的相关特征情况,但是却具有与频率高的特征值相同的权重,对分析结果影响较大,导致分析结果不能很好地反映分析对象的相关特征情况,降低分析结果的准确性。
[0051]基于上述的分析,本公开的发明人考虑到可以对不同的特征值进行出现概率的统计,根据出现概率来确定其权重,根据权重进行加权平均后得到的加权平均值可以更好地反映分析对象的相关特征情况,提高分析结果的准确性。然而,一般来说,采集到的特征值数量非常大,如果每个特征值进行概率统计,计算量非常大;因此,本公开实施例的技术方案中,首先将采集到的分析对象的特征值进行区间划分;进而对每个区间计算权重值,根据区间的权重值计算出特征值的加权平均值作为分析结果。由于在计算分析结果的过程中,出现概率大的特征值更为体现分析对象的相关特征情况,因此,这些特征值以较大的权重参与计算,可以更好地反映分析对象的相关特征情况,提高分析结果的准确性。
[0052]下面结合附图详细说明本公开的技术方案。
[0053]基于上述思路,本公开实施例提供的一种数据分析方法,具体流程如图1所示,包括如下步骤:
[0054]步骤SlOl:针对采集到的分析对象的特征值,确定特征值中的最大、最小值。
[0055]作为一种更优的实施方式,本步骤中,可以先将采集到的分析对象的特征值中的异常值剔除掉,然后再确定剩下的特征值中的最大、最小值。具体地,可以先设定特征值上、下限,将大于特征值上限,或小于特征值下限的特征值识别为异常值剔除掉;进而,针对余下的特征值确定最大、最小值。
[0056]例如,分析对象为单位时长视频的转码任务,特征值为转码耗时的情况下,有如下一组数据(100个数据),其散点图如图2所示:
[0057]7.67,8.84,7.78,14.51,8.80,9.20,8.83,9.48,9.79,9.93,8.96,8.53,8.29,10.61,10.38,10.43,9.13,8.48,7.05,9.49,9.50,9.36,6.80,8.77,9.51,9.02,9.22,9.04,8.88,9.53,8.81,8.70,8.88,9.00,8.86,9.18,8.39,8.82,11.46,9.63,8.77,9.56,9.94,8.63,7.69,9.24,8.14,8.38,8.34,8.77,8.90,8.24,8.55,9.45,9.02,7.56,7.14,10.31,9.19,8.45,8.53,9.55,9.76,7.35,9.57,9.70,9.75,9.85,10.74,9.04,7.85,10.83,9.08,8.75,8.39,9.30,8.40,8.90,8.96,8.84,8.73,8.90,9.35,8.60,8.38,7.70,8.57,8.85,7.97,7.70,9.09,9.39,9.07,8.30,10.17,9.07,17.97,9.51,8.89,4.69。
[0058]从图2中可以看出,有若干个异常点。可以通过设置特征值上、下限,将特征值上、下限之外的数据剔除。例如,设置特征值上、下限分别为12、6,则将特征值14.51、17.97、4.69作为异常值剔除掉;之后,确定余下特征值中,最大值为11.46,最小值为6.8。
[0059]步骤S102:在步骤SlOl所确定的最大、最小值之间,根据待划分区间的个数进行区间规划。
[0060]其中,待划分区间的个数可以是预先设定的,也可以是根据所述分析对象的特征值的数量确定的;较佳地,可以是根据剔除异常值后所剩下的特征值的数量确定的。比如,可以将特征值的数量的平方根取整后,得到待划分区间的个数。本文将在后续详细介绍一种具体的区间规划方法。
[0061 ]步骤S103:将分析对象的每个特征值划分到相应的区间中。
[0062]具体地,可以将剔除异常值后所剩下的特征值,分别根据各特征值的大小划分到相应的区间中去。
[0063]骤S104:计算每个区间的权重值以及加权均值。
[0064]本步骤中,针对每个区间,根据划分到该区间中的特征值的数量计算该区间的权重值;根据该区间中的特征值的均值以及所述权重值计算该区间的加权均值。
[0065]具体地,针对每个区间,根据划分到该区间中的特征值的数量与特征值总数的比值,确定该区间的权重值;进而,将该区间的百分比的权重值与该区间中的特征值的均值相乘,得到该区间的加权均值。
[0066]例如,上述的一组数据,计算的区间O?区间9的特征值数量、权重值,以及加权均值如下:
[0067]区间O:特征值的数量=O,权重值= 0.0%,均值= 0.0,加权值= 0.0;
[0068]区间1:特征值的数量=3,权重值=3.125%,均值=6.9966664,加权值=0.21864583;
[0069]区间2:特征值的数量=7,权重值=7.2916665%,均值=7.6357145,加权值=0.55677086;
[0070]区间3:特征值的数量=7,权重值=7.2916665 %,均值=8.161428,加权值=
0.59510416;
[0071]区间4:特征值的数量= 27,权重值= 28.125%,均值=8.645185,加权值=2.4314585;
[0072]区间5:特征值的数量= 26,权重值= 27.083334%,均值=9.071923,加权值=2.4569793;
[0073]区间6:特征值的数量=17,权重值=17.708332% ,均值= 9.589411,加权值=1.6981248;
[0074]区间7:特征值的数量=5,权重值=5.208333 %,均值=10.146001,加权值=
0.52843755;
[0075]区间8:特征值的数量=4,权重值=4.166667%,均值= 10.6525,加权值=0.44385418;
[0076]区间9:特征值的数量=O,权重值= 0.0%,均值= 0.0,加权值= 0.0。
[0077]图3示出了上述各区间特征值的数量的统计值。
[0078]步骤S105:根据各区间的加权均值确定分析结果。
[0079]本步骤中,可以将各区间的加权均值的平均值作为针对所述分析对象的特征值的加权平均分析结果。
[0080]作为一种更优的实施方式,可以先剔除掉权重值过低的区间,例如,设置阈值为10%,将权重值小于阈值的区间剔除掉。本领域技术人员可以根据实际情况或经验设置上述阈值。
[0081]在剔除掉权重值过低的区间后,进而判断剩余区间的个数占区间总数的比例,如果得到比例值高于预定的比值,也如高于10%,则认为剩余区间中的数据有效,可以用于计算加权平均值:将剩余区间的加权均值的平均值作为最终得到的加权平均值,确定为分析结果。
[0082]上述步骤S102中所提到的一种区间规划方法,具体流程如图4所示,包括如下步骤:
[0083]步骤S401:确定待划分区间的个数。
[0084]较佳地,待划分区间的个数可以是根据所述分析对象的特征值的数量确定的;具体地,可以是根据剔除异常值后所剩下的特征值的数量确定的。比如,可以将特征值的数量的平方根取整后,得到待划分区间的个数。
[0085]例如,上述一组剔除异常值后所剩下的特征值的数量为97,其平方根等于9.8,取整后得到待划分区间的个数为10。
[0086]步骤S402:根据采集的分析对象的特征值的最大、最小值,以及待划分区间的个数确定每个区间的数值范围。
[0087]具体地,可以根据如下公式I计算每个区间的数值范围:
[0088]W= (max-min)/(count-1)(公式 I)
[0089]其中,max、min分别表示特征值中的最大、最小值,count表示待划分区间的个数,W为计算得到的每个区间的数值范围。
[0090]例如,上述的一组数据,在上述步骤中确定余下特征值中最大值为11.46,最小值为6.8,待划分区间的个数为10,则根据公式I可以计算得到每个区间的数值范围为
0.51777774。
[0091 ]步骤S403:根据上述步骤所确定的最大、最小值,确定区间规划范围。
[0092]具体地,可以将上述步骤所确定的最大、最小值之间的数值范围确定为区间规划范围;此外,也可以将最大、最小值之间的数值范围再扩大一定范围后确定为区间规划范围。比如,对于上述计算出的最大值为11.46,最小值为6.8的情况,可以再扩大一个区间数值范围,扩大为6.282223?11.46之间的数值范围,作为区间规划范围。
[0093]步骤S404:在区间规划范围内根据确定的每个区间的数值范围进行区间规划。
[0094]具体地,将上述步骤所确定的区间规划范围中的最小值作为规划的第一个区间的起始值,根据该区间的数值范围,确定出该区间终止值;进而,以上一个区间的终止值,作为下一个区间的起始值,再根据所述下一个区间的数值范围,确定出所述下一个区间的终止值。
[0095]例如,区间规划范围的最小值为6.2 8 2 2 2 3,确定的每个区间的数值范围为0.51777774,则第一个区间的起始值为6.282223,第一个区间的终止值为6.282223 +
0.51777774 = 6.8o
[0096]例如,上述一组数据的区间规划如下:
[0097]区间O的区间范围:(6.2822223,6.8]
[0098]区间I的区间范围:(6.8,7.317778]
[0099]区间2的区间范围:(7.317778,7.835556]
[0100]区间3的区间范围:(7.835556,8.353333]
[0101]区间4的区间范围:(8.353333,8.871111]
[0102]区间5的区间范围:(8.871111,9.388888]
[0103 ]区间 6的区间范围:(9.388888,9.906666 ]
[0104]区间7的区间范围:(9.906666,10.424443]
[0105]区间8的区间范围:(10.424443,10.942221]
[0106]区间9 的区间范围:(1.942221,11.459998 ]
[0107]其中,规划出了区间O?区间9,共10个区间。
[0108]本公开实施例的技术方案中,由于将采集到的分析对象的特征值分别划分到规划的各区间中,进而根据每个区间中的特征值数量计算每个区间的权重值,根据计算的区间的权重值求取加权平均值作为分析结果,从而赋予了特征值出现概率较高的区间较大的权重值,而特征值出现概率较高的区间又更好地体现了分析对象的相关特征情况,因此,这些区间中的特征值的均值以较大的权重参与计算,可以更好地反映分析对象的相关特征情况,提高分析结果的准确性。
[0109]基于上述的方法,本公开实施例提供的一种数据分析装置,如图5所示,包括如下模块:区间规划模块501、特征值划分模块502、加权均值计算模块503、分析结果确定模块504。
[0110]区间规划模块50丨用于在采集的分析对象的特征值的最大、最小值之间,根据待划分区间的个数进行区间规划;具体地,区间规划模块501根据采集的分析对象的特征值的最大、最小值,以及待划分区间的个数确定每个区间的数值范围;根据所述最大、最小值,确定区间规划范围;进而在所述区间规划范围内根据每个区间的数值范围进行区间规划。
[0111]特征值划分模块502用于根据区间规划模块501规划的区间,将分析对象的每个特征值划分到相应的区间中。
[0112]加权均值计算模块503用于根据特征值划分模块502的划分结果,针对每个区间,根据划分到该区间中的特征值的数量计算该区间的权重值;根据该区间中的特征值的均值以及所述权重值计算该区间的加权均值。
[0113]分析结果确定模块504用于将各区间的加权均值的平均值作为针对所述分析对象的特征值的加权平均分析结果。更优地,分析结果确定模块504在所述将各区间的加权均值的平均值作为针对所述分析对象的特征值的加权平均分析结果之前,将加权均值小于阈值的区间剔除;之后,将剩余各区间的加权均值的平均值作为针对所述分析对象的特征值的加权平均分析结果。
[0114]如图6所示,区间规划模块501中可以包括如下单元:区间数值范围计算单元601、区间规划单元602、规划范围确定单元605。
[0115]区间数值范围计算单元601用于根据采集的分析对象的特征值的最大、最小值,以及待划分区间的个数确定每个区间的数值范围。
[0116]规划范围确定单元605用于根据所述最大、最小值确定区间规划范围。
[0117]区间规划单元602用于在规划范围确定单元605确定的区间规划范围内根据每个区间的数值范围进行区间规划。
[0118]进一步,区间规划模块501中还可以包括:区间个数确定单元603。
[0119]区间个数确定单元603用于根据所述分析对象的特征值的数量确定所述待划分区间的个数;
[0120]相应地,上述区间数值范围计算单元601获取区间个数确定单元603确定的待划分区间的个数后,根据采集的分析对象的特征值的最大、最小值,以及待划分区间的个数确定每个区间的数值范围。
[0121 ]进一步,区间规划模块501中还可以包括:异常值剔除单元604。
[0122]异常值剔除单元604用于将所述分析对象的特征值中的异常值剔除后,确定所述分析对象的特征值中的最大、最小值。
[0123]相应地,区间数值范围计算单元601具体用于根据异常值剔除单元604确定的最大、最小值,以及待划分区间的个数确定每个区间的数值范围。
[0124]规划范围确定单元605具体用于根据异常值剔除单元604确定的最大、最小值确定区间规划范围。
[0125]上述各模块、各单元的具体功能实现方法,可参照上述图1或图4所示的方法流程中的具体计算方法,此处不再赘述。
[0126]本公开实施例的技术方案中,由于将采集到的分析对象的特征值分别划分到规划的各区间中,进而根据每个区间中的特征值数量计算每个区间的权重值,根据计算的区间的权重值求取加权平均值作为分析结果,从而赋予了特征值出现概率较高的区间较大的权重值,而特征值出现概率较高的区间又更好地体现了分析对象的相关特征情况,因此,这些区间中的特征值的均值以较大的权重参与计算,可以更好地反映分析对象的相关特征情况,提高分析结果的准确性,从而提高了基于分析结果得到的预测结果的准确性。
[0127]本技术领域技术人员可以理解,本公开包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、R0M(Read-0nly Memory,只读存储器)、RAM (Random Access Memory,随即存储器)、EPROM(Erasable ProgrammableRead-Only Memory,可擦写可编程只读存储器)、EEPR0M(E1 ectricalIy ErasableProgrammable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
[0128]本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本公开公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
[0129]本技术领域技术人员可以理解,本公开中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本公开中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本公开中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
[0130]所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本公开的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本公开的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。
【主权项】
1.一种数据分析方法,包括: 在采集的分析对象的特征值的最大、最小值之间,根据待划分区间的个数进行区间规划; 将分析对象的每个特征值划分到相应的区间中; 针对每个区间,根据划分到该区间中的特征值的数量计算该区间的权重值;根据该区间中的特征值的均值以及所述权重值计算该区间的加权均值; 将各区间的加权均值的平均值作为针对所述分析对象的特征值的加权平均分析结果。2.根据权利要求1所述的方法,其中,所述在采集的分析对象的特征值的最大、最小值之间,根据待划分区间的个数进行区间规划,具体包括: 根据采集的分析对象的特征值的最大、最小值,以及待划分区间的个数确定每个区间的数值范围; 根据所述最大、最小值,确定区间规划范围; 在所述区间规划范围内根据每个区间的数值范围进行区间规划。3.根据权利要求2所述的方法,其中,所述待划分区间的个数为预先设定,或者 所述待划分区间的个数是根据所述分析对象的特征值的数量确定的。4.根据权利要求3所述的方法,其中,所述待划分区间的个数具体是根据所述分析对象的特征值的数量的平方根确定的。5.根据权利要求1-4任一所述的方法,其中,在所述采集的分析对象的特征值的最大、最小值之间,根据待划分区间的个数进行区间规划前,还包括: 将所述分析对象的特征值中的异常值剔除。6.根据权利要求1-4任一所述的方法,其中,在所述将各区间的加权均值的平均值作为针对所述分析对象的特征值的加权平均分析结果前,还包括: 剔除加权均值小于阈值的区间;以及 所述将各区间的加权均值的平均值作为针对所述分析对象的特征值的加权平均分析结果具体为: 将剩下各区间的加权均值的平均值作为针对所述分析对象的特征值的加权平均分析结果。7.根据权利要求1-4任一所述的方法,其中,所述分析对象具体为单位时长视频的转码任务,所述特征值为转码耗时。8.—种数据分析装置,包括: 区间规划模块,用于在采集的分析对象的特征值的最大、最小值之间,根据待划分区间的个数进行区间规划; 特征值划分模块,用于将分析对象的每个特征值划分到相应的区间中; 加权均值计算模块,用于针对每个区间,根据划分到该区间中的特征值的数量计算该区间的权重值;根据该区间中的特征值的均值以及所述权重值计算该区间的加权均值;分析结果确定模块,用于将各区间的加权均值的平均值作为针对所述分析对象的特征值的加权平均分析结果。9.根据权利要求8所述的装置,其中,所述区间规划模块包括: 区间数值范围计算单元,用于根据采集的分析对象的特征值的最大、最小值,以及待划分区间的个数确定每个区间的数值范围; 规划范围确定单元,用于根据所述最大、最小值确定区间规划范围; 区间规划单元,用于在所述定区间规划范围内根据确定的每个区间的数值范围进行区间规划。10.根据权利要求9所述的装置,其中,所述区间规划模块还包括: 区间个数确定单元,用于根据所述分析对象的特征值的数量确定所述待划分区间的个数。11.根据权利要求9所述的装置,其中,所述区间规划模块还包括: 异常值剔除单元,用于将所述分析对象的特征值中的异常值剔除后,确定所述分析对象的特征值中的最大、最小值。12.根据权利要求8-11任一所述的装置,其中, 所述分析结果确定模块还用于在所述将各区间的加权均值的平均值作为针对所述分析对象的特征值的加权平均分析结果之前,将加权均值小于阈值的区间剔除。
【文档编号】G06Q30/02GK105894329SQ201610200645
【公开日】2016年8月24日
【申请日】2016年3月31日
【发明人】刘永华, 王孝庆, 杨继伟
【申请人】乐视控股(北京)有限公司, 乐视云计算有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1