一种评估数据平台的方法和装置与流程

文档序号:14911202发布日期:2018-07-10 23:27阅读:287来源:国知局

本发明涉及计算机领域,尤其涉及一种评估数据平台的方法和装置。



背景技术:

随着移动互联网、物联网等应用的飞速发展,全球数据量出现了爆炸式增长。数据量的飞速增长预示着已经进入了大数据时代。不仅仅是数据规模越来越大,而且数据类型多和处理数据的实时性要求高都极大地增加了大数据处理的复杂度。

而通信领域的信令数据具有数据量超级大,分析业务的实时性要求也逐渐变高,所以对信令分析系统大数据平台的健康度评估尤为重要。

现有技术中,当系统资源或处理出现告警和故障时,才进行相关的处理,无法对数据平台进行常态化的分析。



技术实现要素:

本发明实施例提供了一种评估数据平台的方法,能够依据包括冗余数据的评估项实时评估数据平台,便于后续及时调整数据平台的相关设置,保证了数据平台的工作效率。

本发明实施例还提供了一种评估数据平台的装置,能够依据冗余数据的评估项实时评估数据平台,便于后续及时调整数据平台的相关设置,保证了数据平台的工作效率。

一种评估数据平台的方法,所述方法包括:

解析数据平台中数据实体相关的结构化查询语言SQL语句获得冗余数据;

按照Epanechnikow核函数分析包括冗余数据的评估项;

根据分析后评估项评估所述数据平台。

可选的,所述解析数据平台中数据实体相关的SQL语句获得冗余数据,包括:

利用编辑距离算法解析数据平台中数据实体相关的SQL语句获得冗余数据。

可选的,所述利用编辑距离算法解析数据平台中数据实体相关的SQL语句获得冗余数据,包括:

解析所述SQL语句,获取每个模型表的数据处理路径和数据来源;

以字符的方式组合拼接所述数据来源对应数据结构和所述数据处理路径,构成所述模型表的处理特征字符串;

利用编辑距离算法两两比较不同模型表的处理特征字符串,获得冗余数据。

可选的,所述按照Epanechnikow核函数分析包括冗余数据的评估项,包括:

依据历史冗余数据最小化均方误差得到带宽参数;

按照带宽参数、冗余数据和Epanechnikow核函数分析所述评估项。

可选的,所述评估项,还包括:

空间使用数据、系统负载数据、存储规范数据、标准化程度数据、数据使用数据或热度评估数据中的一个或多个类别;

所述按照Epanechnikow核函数分析包括冗余数据的评估项,包括:

对于不同的类别,按照历史类别数据最小化均方误差得到类别对应的带宽参数;

按照类别对应的带宽参数、类别数据和Epanechnikow核函数分析所述评估项;

所述根据分析后评估项评估所述数据平台,包括:

根据类别对应的分析后评估项和类别对应的权重,评估所述数据平台。

一种评估数据平台的装置,所述装置包括:

解析模块,用于数据平台中数据实体相关的结构化查询语言SQL语句获得冗余数据;

分析模块,用于Epanechnikow核函数分析包括冗余数据的评估项;

评估模块,用于根据分析后评估项评估所述数据平台。

可选的,所述解析模块,还用于利用编辑距离算法解析数据平台中数据实体相关的SQL语句获得冗余数据。

可选的,所述解析模块,还用于解析所述SQL语句,获取每个模型表的数据处理路径和数据来源;以字符的方式组合拼接所述数据来源对应数据结构和所述处理路径,构成所述模型的处理特征字符串;利用编辑距离算法两两比较不同模型的处理特征字符串,获得冗余数据。

可选的,所述分析模块,还用于依据历史冗余数据最小化均方误差得到带宽参数;按照带宽参数、冗余数据和Epanechnikow核函数分析所述评估项。

可选的,所述评估项,还包括:

空间使用数据、系统负载数据、存储规范数据、标准化程度数据、数据使用数据或热度评估数据中的一个或多个类别;

所述分析模块,还用于对于不同的类别,按照历史类别数据最小化均方误差得到类别对应的带宽参数;按照类别对应的带宽参数、类别数据和Epanechnikow核函数分析所述评估项;

所述评估模块,还用于根据类别对应的分析后评估项和类别对应的权重,评估所述数据平台。

从上述技术方案可以看出,在本发明实施例中,首先解析数据平台中数据实体相关的SQL语句获得冗余数据;然后按照Epanechnikow核函数分析包括冗余数据的评估项;最后,根据分析后评估项评估所述数据平台。由于能够依据冗余数据的评估项实时评估数据平台,则便于后续及时调整数据平台的相关设置,保证了数据平台的工作效率。

附图说明

从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明其中,相同或相似的附图标记表示相同或相似的特征。

从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明其中,相同或相似的附图标记表示相同或相似的特征。

图1为本发明实施例评估数据平台的方法流程示意图;

图2为本发明实施例解析数据平台中数据实体相关的SQL语句获得冗余数据流程示意图;

图3为本发明实施例分析包括冗余数据的评估项流程示意图;

图4为本发明实施例评估数据平台的装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点表达得更加清楚明白,下面结合附图及具体实施例对本发明再作进一步详细的说明。

在本发明实施例中,由于在建立数据平台的同时没有充分考虑到各种意外情况,因此在数据平台中存在冗余数据,不必要的冗余数据会造成数据平台的工作效率低。解析数据平台中数据实体相关的SQL语句获得冗余数据;按照Epanechnikow核函数分析包括冗余数据的评估项;最后评估所述数据平台。由于能够依据冗余数据的评估项实时评估数据平台,则便于后续及时调整数据平台的相关设置即减少产生冗余数据,进而保证了数据平台的工作效率。

参见图1为评估数据平台的方法流程示意图,具体包括以下步骤:

101、解析数据平台中数据实体相关的SQL语句获得冗余数据。

SQL是一种数据库查询和程序设计语言,用于存取数据、查询、更新和管理关系数据库系统。通过任务日志的解析,获取数据平台中每个数据实体相关的SQL语句,进而获得冗余数据。

参见图2为解析数据平台中数据实体相关的SQL语句获得冗余数据,具体包括:

1011、解析SQL语句,获取每个模型表的数据处理路径和数据来源。

模型表是数据库中实体表的抽象与概括,如表结构相同但时间点不同的实体表就可以抽象成为一个模型表,具体分析时将以模型表为对象,避免了分析结果的重复与冗余。解析数据实体相关的SQL语句,获取每个模型表的数据处理路径和数据来源。数据处理路径是指该数据处理过程中的逻辑路径。

1012、以字符的方式组合拼接数据来源对应数据结构和处理路径,构成模型表的处理特征字符串。

分析数据来源模型获得数据结构,将数据来源模型的数据结构和模型表的数据处理路径,以字符的方式组合拼接,形成每个模型表的处理特征字符串。

例如:模型表TABLE1的特征字符串为【表结构信息】+【处理过程信息】(COL1|COL2|COL3)(TIME_ID=201612),其中数据处理路径是TIME_ID字符对应的数据。

1013、利用编辑距离算法两两比较不同模型表的处理特征字符串,获得冗余数据。

字符串相似度算法是用于确定两个字符串是否相似的算法,具体包括:编辑距离算法(Jaro-Winkler Distance)、最长公共子串算法(LCS)和GST算法等字符串相似度算法。

在本发明中可以采用上述任一一种字符串相似度算法,但在算法选择时,一方面需要考虑电信业务的数据特征,另一方面也要考虑到字符比较的性能。首先,在数据特征上数据表处理过程的字符串是SQL语法组成的,它是一种有序的字符串,因此它的字符串匹配过程也应是有序的。这对于编辑距离算法(Jaro-Winkler Distance)和GST算法都是适合的,而且GST算法还可以解决两个字符串改变序列的比较。但由于GST算法时间复杂度较高O(),在实际代码运算中基本无法满足一万张表3小时内处理完毕的系统性能要求,而字符串序列的问题也可以通过字符预处理时统一排序好即可,无需在算法中解决,因此在本次发明中采用了编辑距离算法,以下是编辑距离算法的举例说明:

两个给定字符串S1和S2的距离为:

m是匹配的字符数;t是换位的数目。

两个分别来自S1和S2的字符如果相距不超过时,就认为这两个字符串是匹配的。而这些相互匹配的字符则决定了换位的数目t,简单来说就是不同顺序的匹配字符的数目的一半即为换位的数目t。

举例来说,MARTHA与MARHTA的字符都是匹配的,但是这些匹配的字符中,T和H要换位才能把MARTHA变为MARHTA,那么T和H就是不同的顺序的匹配字符,t=2/2=1。

那么这两个字符串的距离即为:

而Jaro-Winkler则给予了起始部分就相同的字符串更高的分数,定义了一个前缀p,给予两个字符串,如果前缀部分有长度为l的部分相同,则Jaro-Winkler距离为:

dw=dj+[lp(1-dj)] (2)

dj是两个字符串的距离;l是前缀的相同的长度,但是规定最大为4;p则是调整分数的常数,规定不能超过0.25,不然可能出现dw大于1的情况,将这个常数定义为0.1。

这样,上面提及的MARTHA和MARHTA的Jaro-Winkler距离为:

dw=0.944+[3*0.1(1-0.944)]=0.961

根据实际经验,当两个不同模型表的特征字符串的Jaro-Winkler距离大于0.9时,则认为两个模型表的处理过程与特征是相似的,那么这两个模型就是冗余的。即此时的冗余次数为1。

以日为单位统计每日的冗余次数,每日的冗余次数除以每日所有模型表的数目得到日冗余度。

以月为单位统计每月的冗余次数,每月的冗余次数除以每月所有模型表的数目得到月冗余度。

数据冗余度即冗余数据=0.7日冗余度+0.3月冗余度。这样综合日和月两个角度中的冗余获得冗余数据。也就是说,冗余数据是以日为单位和月为单位进行统计。从而保证了冗余数据的覆盖范围和时间广度。

102、按照Epanechnikow核函数分析包括冗余数据的评估项。

利用核密度估计算法可以分析出未来相关数据的发展趋势。也就是说,按照Epanechnikow核函数分析包括冗余数据的评估项,就可以获知在未来的时间内评估后的评估项结果是向好的方向发展,还是向坏的方向发展。根据上述方式发展趋势再评估数据平台。

Rosenblatt和Parzen提出的核密度估计算法是当前最有效和应用最广的一种非参数密度估计算法。只从训练样本本身出发获得数据分布特征,可以用来估计任意形状的密度函数。下面介绍单元变量和密度估计。

设x1、x2、x3,…,xn为取值域R的单独同分布随机变量,其所有分布函数为f(x),x∈R。

称(3)为密度函数f(x)的密度估计,其中K()为核函数;h为带宽参数。

为方便起见,记Kh(u)=K(u/h)h,则式(3)可以表示为:

由式(3)可知,分布函数f的核密度估计与给定样本集合有关,还与核函数K的选择和带宽参数h的选择有关。

其中,本发明选择Epanechnikow核函数作为分析分布函数f(x)的核函数。

Epanechnikow核函数:

K(u)=0,|u|>1

参见图3为分析包括冗余数据的评估项流程示意图,具体包括:

1021、依据历史冗余数据最小化均方误差得到带宽参数

带宽参数可以依据历史冗余数据最小化均方误差得到。

带宽参数h的选取方法如下:使用积分均方误差MISE(h),作为判断密度计量好坏的准则。

其中:

AMISE(h)称作渐进均方积分误差。σ是各数据偏离平均数的距离的平均数,它是离均差平方和平均后的方根,它能反映一个数据集的离散程度。其中要最小化AMISE(h),必须将h设在某个中间值,这样可以避免fh(x)有过大的偏差(太过光滑)或过大的方差(即过于光滑)。关于h最小化AMISE(h)表明最好是精确地平衡AMISE(h)中偏差项和方差项的阶数,最优的带宽是:

其中,K(x),f(x)均是历史冗余数据。即先依据历史冗余数据最小化均方误差得到带宽参数。

1022、按照带宽参数、冗余数据和Epanechnikow核函数分析所述评估项

依据1021计算的带宽数据、101中或得的冗余数据和带入Epanechnikow核函数的公式4分析包括冗余数据的评估项。

103、根据分析后评估项评估所述数据平台

根据分析后的评估项就可以预测及评估数据平台。例如,在目前存在冗余数据的情况下,数据平台的发展趋势是向好的方向发展,还是向差的方向发展。

解析数据平台中数据实体相关的SQL语句获得冗余数据;按照Epanechnikow核函数分析包括冗余数据的评估项;最后评估所述数据平台。由于能够依据冗余数据的评估项实时评估数据平台,也就是说利用本发明的技术方案可以评出数据平台的发展趋势。那么便于后续及时调整数据平台的相关设置即减少产生冗余数据,进而保证了数据平台的工作效率。

此外,在上述实施例的基础上,评估项还可以包括空间使用数据、系统负载数据、存储规范数据、标准化程度数据、数据使用数据或热度评估数据中的一个或多个。也就是说,评估项在包括冗余数据的基础上,还可包括上述一个或多个类别。

对于不同的类别,首先按照依据历史类别数据最小化均方误差得到数据对应的带宽参数。也即不同的类别对应不同的带宽参数。例如:空间使用数据对应第一带宽参数;存储规范数据对应第二带宽参数。

按照类别对应的带宽参数、类别数据和Epanechnikow核函数分析评估项得到类别对应的分析后评估项。不同类别所占用的权重不同,依据根据类别对应的分析后评估项和类别对应的权重,评估数据平台。

参见图4为评估数据平台的装置结构示意图,该装置与实施例一中方法相对应。具体包括:解析模块401、分析模块402和评估模块403。

解析模块401,用于数据平台中数据实体相关的结构化查询语言SQL语句获得冗余数据。

SQL是一种数据库查询和程序设计语言,用于存取数据、查询、更新和管理关系数据库系统。通过任务日志的解析,获取数据平台中每个数据实体相关的SQL语句,进而获得冗余数据。

分析模块402,用于Epanechnikow核函数分析包括冗余数据的评估项;

评估模块403,用于根据分析后评估项评估所述数据平台。

具体的,解析模块401,还用于利用编辑距离算法解析数据平台中数据实体相关的SQL语句获得冗余数据。

具体的,解析模块401,还用于解析所述SQL语句,获取每个模型表的数据处理路径和数据来源;以字符的方式组合拼接所述数据来源对应数据结构和所述处理路径,构成所述模型的处理特征字符串;利用编辑距离算法两两比较不同模型的处理特征字符串,获得冗余数据。详细的过程可参见步骤101。

具体的,分析模块402,还用于依据历史冗余数据最小化均方误差得到带宽参数;按照带宽参数、冗余数据和Epanechnikow核函数分析所述评估项。

利用核密度估计算法可以分析出未来相关数据的发展趋势。也就是说,按照Epanechnikow核函数分析包括冗余数据的评估项,就可以获知在未来的时间内评估后的评估项结果是向好的方向发展,还是向坏的方向发展。根据上述方式发展趋势再评估数据平台。

此外,评估项在包括冗余数据的基础上,还包括:空间使用数据、系统负载数据、存储规范数据、标准化程度数据、数据使用数据或热度评估数据中的一个或多个类别。

具体的,分析模块402,还用于对于不同的类别,按照历史类别数据最小化均方误差得到类别对应的带宽参数;按照类别对应的带宽参数、类别数据和Epanechnikow核函数分析所述评估项。

具体的,评估模块403,还用于根据类别对应的分析后评估项和类别对应的权重,评估所述数据平台。

实施例二评估数据平台的装置技术效果与对应的实施例一中方法实施例相同,在此不再赘述。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使对应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1