一种性能数据的填补方法及其装置的制作方法

文档序号:7757274阅读:484来源:国知局
专利名称:一种性能数据的填补方法及其装置的制作方法
技术领域
本发明涉及网络管理领域,尤其涉及一种性能数据的填补方法及其装置。
背景技术
在网管系统中,网元原始数据在采集过程中的缺失是普遍存在的问题,从而会 增加面向应用的统计、分析任务的复杂性,造成统计结果的偏倚,降低数据统计、分析 的准确性。在网络管理系统的性能管理中,从网元或EMS或OMC采集来的原始性能数 据是很多用户应用管理功能实现的基础。而因为网络传输、甚至是所采集OMC或网元数 据源本身的原因,所采集的性能数据往往会遗漏和缺失,尤其是在性能数据完整性存在 差异的情况下,运用常规统计方法对不完整数据集所做出的统计分析结果,是不能代替 对完整数据集统计时所做出的结果的。性能数据的不准确会导致数据分析、统计结果的 不准确,给网管性能数据有关的一系列统计工作带来很大的问题,为了保证网管性能数 据采集的完整性和准确性,为相关分析工作提供精准的数据基础,需要对缺失的网管性 能数据进行填补。
目前处理网管系统中填补缺失性能数据的方法一般是采用数据补报和手工填补 的方法,这两种方法缺陷都比较大。数据补报是将数据重新采集一次,且由于采用同样 的数据采集机制,因此还会产生不可避免的数据缺失,在时效性和准确性上不能达到较 好的效果,效率也很低。特别是当数据由于某种原因难以再现时,补采数据已经无法进 行。手工填补数据需要花费大量的人力、大量的时间进行数据核查和数据填补,不仅效 率低下,而且会由于人为失误而造成偏差。
因此当前需要提供一种对性能数据进行填补的技术方案,解决当前性能数据需 要及时准确填补的需求,克服过去无法填补或者填补方法存在准确性差、效率低下的问 题。发明内容
本发明所要解决的技术问题是提供一种性能数据的填补方法,解决当前无法填 补数据的困境以及过去的性能数据填补方法中存在准确性差、效率低下的问题。本发明 还提供了一种性能数据的填补装置,以保证上述方法在实际中的应用。
为了解决上述问题,本发明提供了一种性能数据的填补方法,包括获取历史 性能数据记录序列;依据所述历史性能数据记录序列探测具有特定关系的不同数据项之 间的内部关联性;所述具有特定关系的不同数据项,具体是指属于同一记录的不同字 段的数据项,或者属于不同记录的相同字段的数据项;具有内部关联性的数据项互相称 为对方的关联数据项;为具有内部关联性的所述关联数据项建立相互之间拟合的回归模 型;若性能数据记录中有数据项缺失,则根据已知的关联数据项的值,使用对应的回归 模型,计算缺失数据项的估计值,将所述估计值填补到缺失的性能数据记录中。
依据本发明另一优选实施例,还提供了一种性能数据的填补装置,包括历史数据获取单元,用于获取历史性能数据记录序列;回归模型建立单元,用于依据所述历 史数据获取单元获取的历史性能数据记录序列,探测具有特定关系的不同数据项之间的 内部关联性,为具有内部关联性的关联数据项建立相互之间拟合的回归模型;所述具有 特定关系的不同数据项,具体是指属于同一记录的不同字段的数据项,或者属于不同 记录的相同字段的数据项;具有内部关联性的数据项互相称为对方的关联数据项;数据 填补单元,用于根据数据项缺失的情况和已知的缺失数据项的关联数据项的值,使用回 归模型建立单元建立的相关回归模型,计算该缺失数据项的估计值,将所述估计值填补 到缺失的性能数据记录中。
与现有技术相比,本发明优选实施例解决了当前无法填补数据的困境以及过去 的数据填补方法存在准确性差、效率低下的问题。本发明采用对历史上某段时间的性能 数据进行探测分析,探测具有特定关系的不同数据项之间的内部关联性,并为具有内部 关联性的所述关联数据项建立相互之间拟合的回归模型,为同一记录的不同字段数据项 之间建立拟合的字段关联回归模型,为不同记录的相同字段数据项之间建立拟合的自回 归模型;若性能数据记录中有数据项缺失,则根据已知的关联数据项的值,使用对应的 回归模型,计算缺失数据项的估计值,将所述估计值填补到性能数据记录中。本发明 首次将基于数理统计和数据挖掘技术的建模方法应用于网管系统中的性能数据填补,因 此本发明实现了填补方法的科学化、智能化和自动化,不仅有效保证了数据填补的准确 率,而且大大提高了批量缺失数据的填补效率。


图1是本发明性能数据的填补方法实施例一的流程图2-a至图2-c是1700 1979年平均太阳黑子数自相关函数图3至图5是本发明性能数据的填补方法实例三中对历史数据序列进行周期性探 测采用的自相关函数示意图6是本发明性能数据的填补方法实例三中ARMA模型对应的AIC值的示意 图7是本发明性能数据填补装置一实施例的结构示意图。
具体实施方式
下面结合附图和具体实施方式
对本发明作进一步说明。
在网管系统中,采集上来的性能数据包括多条数据记录,每一条数据记录由多 个性能指标字段组成,网管系统逐条将这些若干条数据记录存储到数据库的二维数据表 中,每一行存储一条数据记录。因此性能数据的遗漏主要表现为两种情况一种情况是 表中一行性能数据中某个或某些指标字段的遗漏,在本文中称为数据字段缺失;另一种 情况是数据库表中的整行性能数据即一条数据记录的遗漏,在本文中称为整条数据记录 缺失。只要数据库表中的一行性能数据中还存在一个已知的性能指标值,就属于性能数 据字段缺失的情况。
本发明把这些性能数据看作是一些随机变量,一般都有内在的规律可循,不同 行业、不同用途的数据会表现出不同的内在规律。本发明通过应用数理统计和回归分析理论,探测分析已知性能数据内部之间的关联性和性能数据的变化趋势,进而提出了缺 失性能数据情况下的新的填补方法。
在性能数据缺失的情况下,为了及时进行缺失值的填补,本发明提出的性能数 据填补方法为
取历史性能数据记录序列;
依据上述历史性能数据记录序列探测具有特定关系的不同数据项之间的内部关 联性;所述具有特定关系的不同数据项具体是指属于同一记录的不同字段的数据项, 或者属于不同记录的相同字段的数据项;具有内部关联性的数据项互相称为对方的关联 数据项。
为具有内部关联性的所述关联数据项建立相互之间拟合的回归模型;可以建立 两种回归模型,一种是根据同一条数据记录的不同字段之间的内部关联性,建立拟合的 字段关联回归模型;一种是根据不同数据记录的同一字段之间的变化趋势,建立拟合的 自回归模型。
若性能数据记录中有数据项缺失,则根据已知的该缺失数据项的关联数据项的 值,使用对应的回归模型,计算该缺失数据项的估计值,将所述估计值填补到缺失的性 能数据记录中。
利用上述建立的两种模型,都可以进行缺失数据项的估计。
为了高效地填补数据,需要首先了解性能数据记录中缺失的数据项字段的位 置。在整个时间序列中所缺失的数据记录序号,缺失的字段名称,缺失字段数据项是否 与其它字段数据项相关联。如果在同一数据记录中存在与一个字段相关联的另一字段即 为关联数据项,则按照所述的字段关联回归模型,根据已知的字段值计算在缺失性能数 据记录序号的缺失字段的估计值,将所述估计值作为该缺失数据字段的填补值。一般利 用字段之间的关联关系估计缺失的字段值是简洁而高效的。如果在同一数据记录中不存 在关联数据项,则可根据历史时间序列上的性能数据记录寻找关联数据项,建立历史时 间序列的自回归模型,在建立的自回归模型中观察缺失性能数据记录序号的缺失字段数 据项,按照所述的自回归模型,根据已知的关联字段值计算在缺失性能数据序号的缺失 字段的估计值,将所述估计值作为该缺失数据字段的填补值。
在本发明的优选实施例中,优先采用字段关联回归模型填补缺失字段的值;当 缺失字段与已知字段不存在关联关系或整条记录缺失时,再采用自回归模型填补缺失字 段的值。
所述根据历史样本数据建立拟合模型的方法多种多样,这在现有技术中有很多 实例可以支持。本发明则首次将基于数理统计和数据挖掘技术的建模方法应用于网管系 统中的性能数据填补,大大提高了填补的准确性和效率。
为了有效地解决缺失数据字段的填补,先探测性能指标字段值之间的内在关联 性,当性能指标字段之间相关性有较高强度时,用回归方法可得到对性能指标的字段回 归函数模型。因此,在某时间点上的性能数据记录中性能指标字段缺失的情况下,通过 对在该时间点近期的某段时间的若干条性能数据记录进行相关性分析,可得到相应的字 段回归函数模型,根据该时间点上的性能数据记录中的已知性能指标字段值,代入所述 字段回归模型,计算获得缺失的性能指标字段值,填补写入性能数据库表中。对于较为简单的字段回归函数模型,例如一元线性函数,应用此方法计算可以实现快捷高效的填 补。
上述字段关联分析方法可以参照数据挖掘分析方法,根据数据的特征来确定, 不同行业的数据有着不同的特点,可以用相关系数、支持度等参数来检验相关强度或者 确定关联规则,通过大量数据的模拟计算,从而找出适合的回归函数模型,这种体现字 段之间的关联性的模型就称为字段回归函数模型。以下实施例二中将具体介绍一种探测 字段关联性并建立模型的方法,可找到一种字段回归函数模型。
所述性能数据库表中若存在某时间点上的整条性能数据记录缺失的情况,本发 明根据在该时间点较近期的历史时间序列上的若干条性能数据记录,运用基于时间序列 的建模和预测方法,找出性能数据记录的变化趋势和适应时间序列的自回归模型,运用 自回归模型对其中关键性能数据字段进行预测,可得到该字段数据项的预测值,填补写 入性能数据库表中。
以下实施例三中将具体介绍一种探测时间序列性能数据自回归并建立模型的方 法,可找到一种自回归模型。
根据上述字段回归模型和/或时间序列自回归模型,可对所有性能数据字段进 行预测并得到所有字段的预测值。特别是,当字段之间关系比较独立,没有相应拟合的 字段回归模型,则需要应用此方法逐一填补缺失的独立字段。
如果同一条数据记录的各字段之间具有相关性,为了提高预测效率,根据上述 的相关性分析,能够找到对应拟合的回归模型,则可根据预测出来的关键性能数据字段 值和其他性能数据字段值间的字段回归函数模型,进行其他字段缺失值的填补。
为了更好地应用本方法,本发明又引入了数据缺失情况的探测方法,包括探测 数据字段缺失和探测整条数据记录缺失。然后根据数据缺失的情况,灵活地运用性能数 据的填补方法。
判断数据缺失的探测方法是,逐一读取每条数据记录的每个字段,判别字段内 容是否为空(NULL),如果为空,则判断该字段缺失,记录该缺失字段的名称和所在的 数据记录序号。如果整条数据记录的所有字段都缺失,则判断该条数据记录缺失,并记 录缺失的数据记录序号。
当判断为字段缺失,且有相应拟合的字段回归函数模型时,就可以按照字段回 归模型填补缺失的字段。当判断为整条记录缺失,有相应拟合的自回归模型,则按照自 回归模型填补缺失的字段。循环所述过程,可填补所有缺失字段。
如图1所示,本发明给出网管系统性能数据的填补方法实施例一,包括以下步 骤
步骤110、获取历史性能数据记录序列;
例如取在缺失性能数据的时间点较近期的某段时间(如之前的一个月,或之前 两个月)的历史性能数据记录序列。
现有网管系统中都有数据采集系统,完成采集某段时间的性能数据序列,按行 将每一条性能数据记录存入性能数据库的二维数据表中,每一行存储一条数据记录,每 一条数据记录由多个性能指标字段组成。表中每一列则对应一个性能指标字段。
本步骤从性能数据库表读取性能数据记录和每一个字段数据。
步骤120、依据上述历史性能数据记录序列,探测同一数据记录不同字段数据项 之间的内部关联性,建立拟合的字段关联回归模型,并将相互关联的字段名称和模型的 参数数据保存;
步骤130:依据上述历史性能数据记录序列,探测不同数据记录的相同字段之 间性能数据的变化趋势,建立拟合的自回归模型,并将该字段名称和模型的参数数据保 存;
步骤140 在性能数据记录序列中查找缺失的数据字段并确定所在位置;
确定缺失的数据字段所在的数据记录的序号,缺失字段的名称。
步骤150:判断缺失字段是否为部分字段缺失,并且是否与已知字段存在关联 性?若是,则转步骤160 ;否则,转步骤170 ;
如果缺失字段与已知字段能够建立字段关联回归模型,可以判断缺失字段与已 知字段存在关联。
步骤160:根据字段关联回归模型,用已知的关联字段值计算缺失字段的预测 值,填补到缺失数据记录的缺失字段中;
读出缺失性能数据字段与已知性能数据字段的字段关联回归模型的模型参数数 据,根据缺失数据记录的序号得知已知的字段数据项值,代入字段关联回归模型,计算 该缺失数据记录中的缺失字段的估计值,将所述估计值作为该缺失数据字段的填补值。
步骤170:根据自回归模型,用历史数据序列中的某个数据记录的已知字段值 计算缺失数据记录的缺失字段的估计值,填补到缺失数据记录中;
所述已知数据记录和缺失数据记录,具有同样的数据结构,即有同样的数据字 段个数和同样的字段名称,在数据记录的序列中,不同记录的同一个字段就是相关联的 字段。
读出缺失数据字段的自回归模型的参数数据,以及某个历史数据记录的该字段 值,代入自回归模型,计算该缺失数据记录中的缺失字段的估计值,将所述估计值作为 该缺失数据字段的填补值。
步骤180:是否还有未填补过的缺失数据字段?若有,则转步骤150;否则,结 束数据填补流程。
其中,步骤120中,依据历史性能数据记录序列,探测不同字段之间性能数据 的内部关联性,建立拟合的字段关联回归模型的方法具体为
首先,取过去某段时间的数据,即从所述性能数据库表中取连续若干条数据记 录进行缺失字段与已知字段的相关性分析,并创建对应的字段间的回归模型,并将创建 的字段回归模型及其参数存入数据库表中。
比如根据缺失数据时间点附近一个月以小时为粒度的网管性能数据进行相关 性分析。与某网元相关的性能指标数据中,在业务上往往存在一定的关联。比如交换 机数据记录中的三个性能指标字段交换机试呼次数(Call_att)、交换机接通次数(call_ setup)、系统试呼次数(sys_call_att)。
交换机试呼次数统计时间段内交换机发出“call proceeding”消息和收到 “IAM或IAI”消息的总次数。
系统试呼次数统计时间段内“CM service request”和入局的“IAM、IAI”消息次数。
交换机接通次数统计时间段内交换机收到“call confirmed”消息和“ACM”消息的总次数。
从上述3个性能指标数据的含义来看,交换机接通次数与交换机试呼次数有很 强的关联,而系统试呼次数应该比交换机试呼的次数多,但差别不大。
以上分析只是一个定性分析。本发明将相关性分析方法和技术引入到性能数据 字段间的分析,即引入相关系数。相关系数是两个变量之间相关程度的指标。相关系数 的取值范围为hi,1]。相关系数的绝对值越大,误差Q越小,变量之间的线性相关程度 越高;相关系数的绝对值越接近0,Q越大,变量之间的线性相关程度越低。相关系数 P XY定义如下
权利要求
1.一种性能数据的填补方法,其特征在于,包括获取历史性能数据记录序列;依据所述历史性能数据记录序列探测具有特定关系的不同数据项之间的内部关联 性;所述具有特定关系的不同数据项,具体是指属于同一记录的不同字段的数据项, 或者属于不同记录的相同字段的数据项;具有内部关联性的数据项互相称为对方的关联 数据项;为具有内部关联性的所述关联数据项建立相互之间拟合的回归模型;若性能数据记录中有数据项缺失,则根据已知的关联数据项的值,使用对应的回归 模型,计算缺失数据项的估计值,将所述估计值填补到缺失的性能数据记录中。
2.如权利要求1所述的方法,其特征在于,当所述具有特定关系的不同数据项是指同 一记录的不同字段数据项时,依据所述历史性能数据记录序列探测具有特定关系的不同 数据项之间的内部关联性的方法具体为依据所述历史性能数据记录序列的多个记录值,对每一个记录内的字段X和另一个 字段Y的数据值进行相互之间的相关性分析,计算相关系数Pxy,如果相关系数Pxy的 绝对值在0.8 1之间,则判定所述字段X和字段Y之间具有相关性,建立字段关联回归 模型;所述字段X和字段Y之间的相关系数P χγ的计算公式如下 =C ο V ( X , Y )
3.如权利要求2所述的方法,其特征在于,所述建立字段关联回归模型具体是采用-元线性回归拟合函数,具体是
4.如权利要求1所述的方法,其特征在于,当所述具有特定关系的不同数据项是指不 同记录的相同字段数据项时,建立相互之间拟合的回归模型的方法是依据所述历史性 能数据记录序列探测同一字段数据项在不同的数据记录之间的变化趋势,建立拟合的自 回归模型。
5.如权利要求4所述的方法,其特征在于,依据所述历史性能数据记录序列探测同一 字段数据项在不同的数据记录之间的变化趋势,建立拟合的自回归模型的方法具体为对所述历史性能数据序列中的性能数据记录的变化趋势进行探测分析,根据探测分 析结果,如果变化趋势呈现平稳的线性特征,则建立所述性能数据序列的ARMA模型; 如果变化趋势呈现非平稳特征但存在单调上升或下降的非平稳性,并且差分后可以实现 平稳化,则建立ARIMA模型;如果呈现明显的周期性特征,则建立SARIMA模型;如 果变化趋势呈现很强的非线性非平稳特征,则建立神经网络模型或支持向量机模型。
6.如权利要求5所述的方法,其特征在于,所述建立ARMA模型的过程具体为利用阶数判优准则确定ARMA模型的阶数,进行定阶,得到模型簇;估计和确定所述模型簇的模型参数;根据确定的模型参数,进行适用性检查,确定最优的模型参数。
7.如权利要求5所述的方法,其特征在于,所述建立ARIMA模型及计算估计值的过 程具体为对呈现单调上升或下降特征的所述历史性能数据序列进行差分处理,使处理后的数 据序列平稳化;对平稳化后的数据序列,利用阶数判优准则确定ARIMA模型中的阶数,进行定阶, 得到模型簇;估计和确定所述模型簇的模型参数;根据确定的模型参数,进行适用性检查,确定最优的模型参数;根据已知的关联数据项的值,按照得到的最优模型参数计算出缺失数据项的初预测 值,之后再对初预测值进行反向差分处理计算,从而得到原数据序列中缺失数据项的估 计值。
8.如权利要求5所述的方法,其特征在于,所述建立SARIMA模型及计算估计值的 过程具体为对呈现周期性特征的所述历史性能数据序列进行季节差分处理,使处理后的数据序 列平稳化,若所述历史性能数据序列存在多重季节性,则进行多次季节差分处理;对平稳化处理后的数据序列,利用阶数判优准则确定SARIMA模型中的阶数,进行 定阶得到模型簇;通过极大似然法估计和确定所述模型簇的模型参数;根据确定的模型参数,并通过残差是否是白噪声来检验模型的适用性,求得最优模 型参数,根据已知的关联数据项的值,按最优模型参数求得缺失数据项的初预测值,之后再 对初预测值进行反向季节差分处理计算,得到原数据序列中缺失数据项的估计值。
9.如权利要求5所述的方法,其特征在于,所述建立支持向量机模型的过程具体为对所述历史性能数据序列进行训练,以残差白噪声为依据来选取基于所述历史性能 数据序列的最优支持向量机模型,包括A)对所述所述历史性能数据序列进行预处理,相空间重构,获得训练数据序列;B)设置支持向量机模型的自由参数值;C)根据所设置的自由参数值,按照结构风险最小化原则对训练数据序列进行训练, 获得一个回归方程式作为建模结果;D)将训练数据序列的实际值与所得回归方程式下的计算值求差,得到拟合残差序 列,计算残差序列的自相关函数;E)根据所述残差序列的自相关函数计算结果,检验所述残差序列是否为白噪声序 列,如果是,则所获得的支持向量机训练模型最优,保存并输出该模型和对应的自由参 数值;否则如果不是白噪声序列,返回步骤B),重新设置自由参数的值,按照以上过程 重新训练,直到获得最优的支持向量机模型。
10.—种性能数据的填补装置,其特征在于,包括历史数据获取单元,用于获取历史性能数据记录序列;回归模型建立单元,用于依据所述历史数据获取单元获取的历史性能数据记录序 列,探测具有特定关系的不同数据项之间的内部关联性,为具有内部关联性的关联数据 项建立相互之间拟合的回归模型;所述具有特定关系的不同数据项,具体是指属于同 一记录的不同字段的数据项,或者属于不同记录的相同字段的数据项;具有内部关联性 的数据项互相称为对方的关联数据项;数据填补单元,用于根据数据项缺失的情况和已知的缺失数据项的关联数据项的 值,使用回归模型建立单元建立的相关回归模型,计算该缺失数据项的估计值,将所述 估计值填补到缺失的性能数据记录中。
11.如权利要求10所述的装置,其特征在于,所述回归模型建立单元具体包括字段关 联回归模型建立子单元和/或自回归模型建立子单元;其中所述字段关联回归模型建立子单元用于根据所述历史数据获取单元获取的历史性能 数据记录序列,探测同一记录不同字段数据项之间的相关性,建立拟合的字段关联回归 模型;所述自回归模型建立子单元用于依据所述历史数据获取单元获取的历史性能数据记 录序列,探测同一字段数据项在不同的数据记录之间的变化趋势,建立拟合的自回归模 型。
12.如权利要求11所述的装置,其特征在于,所述字段关联回归模型建立子单元具体 包括相关性分析模块和相关性模型建立模块,其中相关性分析模块,用于依据所述历史性能数据记录序列的多个记录值,对每一个 记录内的字段X和另一个字段Y的数据值进行相互之间的相关性分析,计算相关系数 P χγ,如果相关系数P XY的绝对值在0.8 1之间,则判定所述字段X和字段Y之间具 有相关性;所述字段X和Y的相关系数ρ XY的计算公式如下 =C O ν { χ , Y )
13.如权利要求11所述的装置,其特征在于,所述自回归模型建立子单元具体包括趋势探测分析模块,用于对所述历史性能数据序列中时间序列上的性能数据项的变 化趋势进行探测分析,并输出探测结果;模型选择和建立模块,根据趋势探测分析模块的探测结果,若变化趋势呈现平稳的 线性特征,则建立ARMA模型;若变化趋势呈现非平稳特征但存在单调上升或下降的非 平稳性,并且差分后可以实现平稳化,则建立ARIMA模型;若呈现明显的周期性特征, 则建立SARIMA模型;若变化趋势呈现很强的非线性非平稳特征,则建立神经网络模型 或支持向量机模型。
14.如权利要求13所述的装置,其特征在于,所述模型选择和建立模块中ARMA模 型建模过程具体包括模型定阶模块,利用阶数判优准则确定ARMA模型的阶数,进行定阶,得到模型簇;参数估计模块,用于估计和确定模型定阶模块所确定模型簇的参数; 适用性检测模块,对于用检测参数估计模块所估计参数确定的模型,进行适用性检 查,确定最优的模型参数。
15.如权利要求13所述的装置,其特征在于,所述模型选择和建立模块中ARIMA模 型建模过程具体包括平稳化预处理模块,对呈现周期性特征的所述历史性能数据序列进行差分处理,使 处理后的数据序列平稳化;模型定阶模块,对经过平稳化预处理模块得到的平稳化数据序列,利用阶数判优准 则确定ARIMA模型的阶数,进行定阶;参数估计模块,用于估计和确定模型定阶模块所确定模型的参数; 适用性检测模块,对于用检测参数估计模块所估计参数确定的模型,进行适用性检 查,确定最优的模型参数。
16.如权利要求13所述的装置,其特征在于,所述模型选择和建立模块中SARIMA 模型建模过程具体包括平稳化预处理模块,对呈现周期性特征的所述历史性能数据序列进行季节差分处 理,使处理后的数据序列平稳化;若所述历史性能数据序列存在多重季节性,则进行多 次季节差分处理;模型定阶模块,对经过平稳化预处理模块得到的平稳化数据序列,利用阶数判优准 则确定SARIMA模型的阶数,进行定阶;参数估计模块,用于估计和确定模型定阶模块所确定模型的参数; 适用性检测模块,对于用检测参数估计模块所估计参数确定的模型,进行适用性检 查,确定最优的模型参数。
17.如权利要求13所述的装置,其特征在于,所述模型选择和建立模块中支持向量机 模型建模过程具体包括训练数据获取模块,用于对所述正常样本数据进行预处理,相空间重构,得到训练 数据序列;参数设置模块,用于预置或调整支持向量机模型的自由参数值; 训练建模模块,用于根据参数设置模块所设置的自由参数值,按照结构风险最小化 原则对训练数据序列进行优化训练,获得一个回归方程式作为建模结果;残差计算模块,根据训练建模模块得到的回归方程式计算训练数据在该回归方程式 下的计算值,与训练数据获取模块得到的样本数据的实际值求差,得到拟合残差序列, 计算残差序列的自相关函数;白噪声检验及模型确定模块,用于检验残差计算模块所计算残差序列是否为白噪声 序列,如果是,则所确定的支持向量机模型最优,输出设置的自由参数值和最优的支持 向量机模型;否则转到参数设置模块,调整支持向量机模型的自由参数值,以重新训 练。
18.如权利要求15或16所述的装置,其特征在于,所述数据填补单元中,使用回 归模型建立单元建立的相关回归模型,计算该缺失数据项的初估计值之后,还要进行反 向差分计算处理,回溯为原数据序列的估计值,再将所述估计值填补到原性能数据记录 中。
全文摘要
本发明提供了一种性能数据的填补方法及其装置,所述方法包括获取历史性能数据记录序列;依据历史性能数据记录序列探测具有特定关系的不同数据项之间的内部关联性;为具有内部关联性的所述关联数据项建立相互之间拟合的回归模型;若性能数据记录中有数据项缺失,则根据已知的关联数据项的值,使用对应的回归模型,计算缺失数据项的估计值,将所述估计值填补到缺失的性能数据记录中。本发明首次将基于数理统计和数据挖掘技术的建模方法应用于网管系统中的性能数据填补,可实现填补方法的科学化、智能化和自动化,不仅有效保证了数据填补的准确率,而且大大提高了批量缺失数据的填补效率。
文档编号H04L12/24GK102025531SQ201010256368
公开日2011年4月20日 申请日期2010年8月18日 优先权日2010年8月16日
发明者于艳华, 吴京川, 周政红, 宋俊德, 杨金莲, 王海清, 解新民 申请人:亿阳信通股份有限公司, 北京亿阳信通软件研究院有限公司, 北京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1