一种自适应网络数据采集方法

文档序号：6330680阅读：414来源：国知局

专利名称：一种自适应网络数据采集方法
技术领域：
本发明涉及计算机网络技术领域技，特别是一种数据采集方法，尤其是一种自适应网络数据采集方法。本发明是计算机网络性能测量与评价。
当前主要的网络数据采集方法有(1)等间隔采样；(2)简单随机采样；(3)基于泊松过程(Poisson process)的采样。等间隔采样在被测指标具有周期性变化特征时，所采集的样本与被测指标间可能会出现较大偏差。方法(2)和(3)则克服了上述缺点，但是它们都是基于概率的采样，在一个固定的时间间隔内，所最终采集的样本数是可变的，这种样本数的不确定性也影响了对指标分析结果的可靠性。
本发明的目的在于提供一种自适应网络数据采集方法。
技术方案如下一种自适应网络数据采集方法，采样的速率与被测指标当前变化程度密切相关。
所述方法，在时间间隔T内，期望采样数为n时，第一个样本的采样时刻为tl＝0，随后进行的j，j＜n次采样，样本点之间的采样间隔τi，1＜i≤j+1服从式(1)的负指数分布其中λi=n-(i-1)T-ti-1,1<i≤j+1≤n----(2)]]>所述方法，对于已经采集的i个样本，根据公式(3)确定被测量指标当前的波动性Var(i)Var(i)=Σl=i-j+1i|Jid(tl)-yl|1j(ti-ti-j+1)Σl=i-j+1iyl----(3)]]>式中yl为被测指标在tl时刻的测量值；Jdi(tl)为对j个测量样本{(ti-j+1，yi-j+1)，(ti-j+2，yi-j+2)，...，(ti，yi)}的线性回归在tl时刻的值。
所述方法，第i+1，i＞j+1样本的采样时间ti+1与前一个样本采样时刻ti的间隔τi+1由式(4)确定τi+1=1λi+1(d1ψi+1+d2),i>j+1----(4)]]>Ψi+1，j＜i为服从期望为1的负指数分布；参数D&RightArrow;=(d1,d2)]]>相对波动程度R(i)＝Var(i)/Var(i-1)按式(5)确定，所述方法，当tN≥T时，在时刻T采集最后一个样本，该发明最终所采集的样本数稳定，理论计算的概率P(N＝n)为P(N=n)&GreaterEqual;e-1-d2d1Πi=2n-1(1-e-(n-i+1)-d2d1)---(6)]]>进一步描述如下本发明主要解决在采集时间段T，T＞0内，期望的采集样本数为n，n＞0时，合理分布采样样本点，使之能对被测指标进行较为准确的指标计算与建模。主要包括根据对本次及过去一段时间所采集的样本数据进行分析，判断被测指标当前变化状况；计算下一次采样与本次采样的时间间隔。其具体工作过程如下(1)令第一个采样点的时刻tl作为采样时间的起点tl＝0，以τi为间隔进行随后的j，j＜n次采样，τi是期望值为1/λi负指数分布的时间间隔其中λi=n-(i-1)T-ti-1,2<i≤j+1≤n----(2)]]>(2)利用已经采集的i个样本，对当前被测量指标的波动性Var(i)按式(3)进行估计Var(i)=Σl=i-j+1i|Jid(tl)-yl|1j(ti-ti-j+1)Σl=i-j+1iyl----(3)]]>式中yl为被测指标在tl时刻的测量值；Jdi(tl)为对j个测量样本{(ti-j+1，yi-j+1)，(ti-j+2，yi-j+2)，...，(tl，yi)}的线性回归在tl时刻的值。(3)根据步骤(2)计算被测指标当前的相对波动程度R(i)＝Var(i)/Var(i-1)，并按式(4)计算从ti到采集第i+1个数据的时间间隔τi+1。τi+1=1λi+1(d1ψi+1+d2),i>j+1----(4)]]>Ψi+1，j＜i为服从期望为1的负指数分布；参数D&RightArrow;=(d1,d2)]]>由式(5)确定。 (4)当ti+1＝ti+τi+1＜T时刻采集被测指标的第i+1个样本。重复步骤(2)、(3)，直到TN≥T，并在T时刻抽取第N个样本。
本发明在每次样本的采集过程后，通过重新计算与下次采样间隔密切相关的参数λ，使得最终采样的样本数的变化更稳定且P(N＝n)概率远高于常用的随机抽样与基于泊松过程的抽样。理论分析表明在时间T内，最终采集的样本数为N＝n的概率下界为P(N=n)&GreaterEqual;e-1-d2d1Πi=2n-1(1-e-(n-i+1)-d2d1)---(6)]]>
图2为采用自适应采样方法与简单随机采样、泊松过程采样的残差比较图。
图2显示了在不同采样方法与采样样本大小情况下，利用分段线性拟合与原始流量变化曲线的拟合残差。分析表明，在保持拟合残差相等的情况下，自适应采样方法比其它二种方法所节约的样本数超过33％。
本发明可作为一种通用的数据采集方法，适用于对各种网络指标数据的采集，是分层采样的一种变化形式。在实施过程中主要利用式(3)估计当前被测网络指标的波动状况，按式(4)、(5)来确定下一次采集的时间。本发明的性能主要受到j，C，d11，d12，d21，d22参数值选取的影响。对于不同的被测指标及其特性，不可能通过一个固定的值使其达到最优的性能。根据本发明的基本思想，这些参数相应的选择规则是参数j，C的选择决定了本发明对被测指标变化反应的灵敏程序以及采样间隔调整的频繁程度，通常选择范围在10≤j≤50，1＜C≤1.5时，可以达到较好的性能。d11，d12，d21，d22的选择根据理论分析与大量的实际采样可以采用下述公式确定
权利要求
1.一种自适应网络数据采集方法，其特征在于，采样的速率与被测指标当前变化程度密切相关。
2.根据权利要求1所述的自适应网络数据采集方法，其特征在于，在时间间隔T内，期望采样数为n时，第一个样本的采样时刻为t1＝0，随后进行的j，j＜n次采样，样本点之间的采样间隔τi，1＜i≤j+1服从式(1)的负指数分布其中λi=n-(i-1)T-ti-1,1<i≤j+1≤n----(2)]]>
3.根据权利要求2所述的自适应网络数据采集方法，其特征在于，对于已经采集的i个样本，根据公式(3)确定被测量指标当前的波动性Var(i)Var(i)=Σl=i-j+1i|Jid(tl)-yl|1j(ti-ti-j+1)Σl=i-j+1iyl----(3)]]>式中yl为被测指标在tl时刻的测量值；Jdi(tl)为对j个测量样本{(ti-j+1，yi-j+1)，(ti-j+2，yi-j+2)，...，(ti，yi)}的线性回归在tl时刻的值。
4.根据权利要求2和3所述的自适应网络数据采集方法，其特征在于，第i+1，i＞j+1样本的采样时间ti+1与前一个样本采样时刻ti的间隔τi+1由式(4)确定τi+1=1λi+1(d1ψi+1+d2),i>j+1----(4)]]>Ψi+1，j＜i为服从期望为1的负指数分布；参数D&RightArrow;=(d1,d2)]]>相对波动程度R(i)＝Var(i)/Var(i-1)按式(5)确定，
5.根据权利要求2、3和4所述的自适应网络数据采集方法，其特征在于，当tN≥T时，在时刻T采集最后一个样本，该发明最终所采集的样本数稳定，理论计算的概率P(N＝n)为P(N=n)&GreaterEqual;e1-d2d1Πi=2n-1(1-e(n-i+1)-d2d1)----(6)]]>
全文摘要
本发明涉及计算机网络技术领域技，是一种自适应网络数据采集方法，采样的速率与被测指标当前变化程度密切相关。根据被测指标的动态性，自动调节采样的速率。在实现反映被测指标的前提下，显著减少由于数据采集过程中所产生的额外流量对网络资源的占用和对被测指标本身有效性的影响，或者在同等的数据采样代价情况下，实现对被测量指标较细致准确的反映。与基于概率的数据采集方法相比，自适应采集所实际生成的样本数具有更好的稳定性。该方法可以应用于主动、被动或基于MIB库采集的网络性能测量与建模应用中。
文档编号G06F17/10GK1477554SQ03133100
公开日2004年2月25日申请日期2003年7月25日优先权日2003年7月25日
发明者王俊峰, 谢高岗, 杨建华, 李忠诚申请人:中国科学院计算技术研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王俊峰;谢高岗;杨建华;李忠诚
技术所有人：中国科学院计算技术研究所
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。