基于样条插值与数据并行的数据处理方法

文档序号:10593825阅读:235来源:国知局
基于样条插值与数据并行的数据处理方法
【专利摘要】本发明提供一种基于样条插值与数据并行的数据处理方法,包括:将原始监测数据集按顺序分割为Q个数据子集,对于每个数据子集,采用唯一对应的线程进行处理,处理方法为:对于被处理的数据子集,生成三次样条函数;在其样条曲线上,等间距采集数据点,形成新的数据子集;再用原数据子集标志数据点替换新的数据子集对应位置的数据点,形成处理后数据子集。将各线程处理后的数据子集拼接成最终数据集。本发明提供的基于样条插值与数据并行的数据处理方法具有以下优点:不论输入的原始监测数据的维数大于期望数据维数,还是小于预期数据维数,均可以高效快速的将原始监测数据的维数调整到期望数据维数,并且还能最大程度的保留原始数据所蕴含的信息。
【专利说明】
基于样条插值与数据并行的数据处理方法
技术领域
[0001]本发明属于数据处理技术领域,具体涉及一种基于样条插值与数据并行的数据处理方法。
【背景技术】
[0002]微机监测系统是保证列车安全运行、监测各信号设备运行状态的重要设备,微机监测系统通过对采集到的信号设备监测数据进行分析,可及时发现信号设备运行中的安全隐患,也可以分析各信号设备运行过程中产生故障的原因,从而指导现场维修,提高信号部门维修水平和故障处理效率。
[0003]然而,受信号设备自身健康状况的变化、环境因素的干扰以及其他未知因素的影响,由微机监测系统采集到的信号设备监测数据的维数有可能有较大的变化,例如,对于道岔启动电流,在某个连续时间段,可能采集到700个位于不同时间点的道岔启动电流数据,即:该连续时间段所对应的道岔启动电流数据的维数是700;而在另一连续时间段,可能采集到2000个位于不同时间点的道岔启动电流数据,S卩:该连续时间段所对应的道岔启动电流数据的维数是2000;经实践证明,在不同的连续时间段,道岔启动电流的数据维数可能在700-3000的范围内变化。
[0004]然而,微机监测系统对采集到的信号设备监测数据进行分析时,普遍采用智能算法模型,例如神经网络、深度学习,或其他人工智能算法。上述智能算法模型基本都要求输入数据的维数固定不变。否则,会给模型的建立、算法的实现带来很大的困难。
[0005]因此,对于微机监测系统采集到的维数不固定的原始监测数据,如何在尽量保留原始监测数据所包含的信息的前提下,使其数据维数调整到固定维数,从而能够输入到智能算法模型中,具有重要现实意义,现有技术中尚未出现有效的解决方案。

【发明内容】

[0006]针对现有技术存在的缺陷,本发明提供一种基于样条插值与数据并行的数据处理方法,可有效解决上述问题。
[0007]本发明采用的技术方案如下:
[0008]本发明提供一种基于样条插值与数据并行的数据处理方法,包括以下步骤:
[0009]步骤I,设定目标维数,其值为Μ;设定并行线程数,其值为Q;将Q个并行线程依次记为线程1、线程2、...、线程Q;
[0010]步骤2,接收待处理的原始监测数据集;
[0011]步骤3,将所述原始监测数据集按顺序分割为Q个数据子集,将Q个数据子集按顺序依次记为数据子集P1、数据子集内、…、数据子集Pq ;
[0012]步骤4,将数据子集P1分配给线程I;将数据子集P2分配给线程2;依此类推,将数据子集Pq分配给线程Q;
[0013]另外,分别设定线程1、线程2、...、线程Q需取样的取样点数,将取样点数依次记为U1、U2、...、Uq,使Ul+U2^-----1-Uq=M;
[0014]步骤5,并行运行线程1、线程2、…、线程Q;
[0015]其中,对于任意的线程i,其采用以下方式对数据子集?,进行处理,其中,ie(l、
2、."、Q):
[0016]步骤5.1,假设数据子集P1共包括b个数据,按顺序排列依次为数据X1、数据X2、…、数据Xb;以数据X1、数据X2、...、数据Xb为节点,生成数据X1、数据X2、...、数据Xb的三次样条函数fi(X);
[0017]步骤5.2,在三次样条函数6&)所对应的样条曲线上,等间距采集仏个数据点,形成新的数据子集;
[0018]步骤5.3,分析数据子集P1,定位到数据子集^中的标志数据点及其第I位置信息;
[0019]然后,在新的数据子集?,,中,定位到与第I位置信息最为接近的第I,位置信息;最后,将新的数据子集P1’中第I’位置信息所对应的数据替换为数据子集?工第1位置的标志数据,从而形成数据子集Pi”;
[0020]步骤6,因此,线程1、线程2、…、线程Q分别对数据子集?:、数据子集内、…、数据子集Pq进行处理后,形成数据子集P:”、数据子集P2”、...、数据子集Pq” ;
[0021]将数据子集Pl”、数据子集P2”、...、数据子集?(^”按次序依次拼接成最终数据集;该最终数据集即为维数为目标维数M且最大程度的保留原始数据所蕴含的信息的数据集。
[0022]优选的,步骤4中,采用以下方法设定各个线程所对应的取样点数:
[0023]如果Q能被M整除,则线程1、线程2、...、线程Q需取样的取样点数均相同,值为M/Q;
[0024]如果Q不能被M整除,则令M/Q的整数部分为T1,余数部分为T2;随机选择T2f线程,为所述T2个线程设定需取样的取样点数为T1+l;为其余线程设定需取样的取样点数为Tu
[0025]优选的,步骤5.3中,所述标志数据点包括数据子集P1中的最大值数据点、最小值数据点和零值数据点;
[0026]所述第I位置信息是指:数据子集?,共包括b个数据,假设标志数据点为第a个数据点,则其第I位置信息等于a/b。
[0027]本发明提供的基于样条插值与数据并行的数据处理方法具有以下优点:
[0028]可快速高效的将原始监测数据的维数调整到期望数据维数,并且还能最大程度的保留原始数据所蕴含的信息。
【附图说明】
[0029]图1为本发明提供的基于样条插值与数据并行的数据处理方法的流程示意图。
【具体实施方式】
[0030]为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0031]结合图1,本发明提供一种基于样条插值与数据并行的数据处理方法,包括以下步骤:
[0032]步骤I,设定目标维数,其值为Μ;设定并行线程数,其值为Q;将Q个并行线程依次记为线程1、线程2、...、线程Q;
[0033]步骤2,接收待处理的原始监测数据集;
[0034]步骤3,将所述原始监测数据集按顺序分割为Q个数据子集,将Q个数据子集按顺序依次记为数据子集P1、数据子集P2、…、数据子集Pq ;
[0035]步骤4,将数据子集P1分配给线程I;将数据子集P2分配给线程2;依此类推,将数据子集PQ分配给线程Q;
[0036]另外,分别设定线程1、线程2、...、线程Q需取样的取样点数,将取样点数依次记为U1、U2、…、Uq,使Ul+U2^-----1-Uq=M;
[0037]本步骤中,为充分利用各个线程,使各线程的负载尽量均衡,可采用以下方法设定各个线程所对应的取样点数:如果Q能被M整除,则线程1、线程2...线程Q需取样的取样点数均相同,值为M/Q;
[0038]如果Q不能被M整除,则令M/Q的整数部分为T1,余数部分为T2;随机选择!^个线程,为所述T2个线程设定需取样的取样点数为T1+l;为其余线程设定需取样的取样点数为Tu
[0039]例如,如果线程数量Q为5个,目标维数M为800,则每个线程需取样的取样点数均为160 个;
[0040]如果线程数量Q为5个,目标维数M为803,则可选择线程1、线程2和线程3,其需取样的取样点数为161;线程4和线程5需取样的取样点数为160。
[0041 ] 步骤5,并行运行线程1、线程2、…、线程Q;
[0042]其中,对于任意的线程i,其采用以下方式对数据子集?,进行处理,其中,ie(l、
2、."、Q):
[0043]步骤5.1,假设数据子集P1共包括b个数据,按顺序排列依次为数据X1、数据X2、…、数据Xb;以数据X1、数据X2、...、数据Xb为节点,生成数据X1、数据X2、...、数据Xb的三次样条函数fi(X);
[0044]步骤5.2,在三次样条函数6(1)所对应的样条曲线上,等间距采集仏个数据点,形成新的数据子集;
[0045]步骤5.3,分析数据子集P1,定位到数据子集^中的标志数据点及其第I位置信息;
[0046]然后,在新的数据子集?,,中,定位到与第I位置信息最为接近的第I,位置信息;最后,将新的数据子集P1’中第I’位置信息所对应的数据替换为数据子集?工第1位置的标志数据,从而形成数据子集P1";
[0047]本步骤中,标志数据点包括但不限于数据子集?,中的最大值数据点、最小值数据点和零值数据点;具体选择何种类型的数据点作为标志数据点,根据实际需求而定。
[0048]步骤6,因此,线程1、线程2、…、线程Q分别对数据子集?:、数据子集内、…、数据子集Pq进行处理后,形成数据子集P:”、数据子集P2”、...、数据子集Pq” ;
[0049]将数据子集Pl”、数据子集P2”、...、数据子集?(^”按次序依次拼接成最终数据集;该最终数据集即为维数为目标维数M且最大程度的保留原始数据所蕴含的信息的数据集。
[0050]因此,本发明提供的基于样条插值与数据并行的数据处理方法具有以下优点:
[0051]不论输入的原始监测数据的维数大于期望数据维数,还是小于预期数据维数,均可以高效快速的将原始监测数据的维数调整到期望数据维数,并且还能最大程度的保留原始数据所蕴含的信息。
[0052]以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
【主权项】
1.一种基于样条插值与数据并行的数据处理方法,其特征在于,包括以下步骤: 步骤I,设定目标维数,其值为Μ;设定并行线程数,其值为Q;将Q个并行线程依次记为线程1、线程2、…、线程Q ; 步骤2,接收待处理的原始监测数据集; 步骤3,将所述原始监测数据集按顺序分割为Q个数据子集,将Q个数据子集按顺序依次记为数据子集P1、数据子集P2、…、数据子集Pq ; 步骤4,将数据子集P1分配给线程I;将数据子集P2分配给线程2;依此类推,将数据子集Pq分配给线程Q; 另外,分别设定线程1、线程2、...、线程Q需取样的取样点数,将取样点数依次记为山、U2、...、UQ,使Ul+U2^-----1-Uq = M; 步骤5,并行运行线程1、线程2、…、线程Q; 其中,对于任意的线程i,其采用以下方式对数据子集?工进行处理,其中,ie(l、2、...、Q): 步骤5.1,假设数据子集P1共包括b个数据,按顺序排列依次为数据X1、数据X2、…、数据Xb;以数据X1、数据X2、...、数据Xb为节点,生成数据X1、数据X2、...、数据Xb的三次样条函数6(X); 步骤5.2,在三次样条函数6&)所对应的样条曲线上,等间距采集仏个数据点,形成新的数据子集; 步骤5.3,分析数据子集P1,定位到数据子集P1*的标志数据点及其第I位置信息; 然后,在新的数据子集P1’中,定位到与第I位置信息最为接近的第I’位置信息;最后,将新的数据子集P1’中第I’位置信息所对应的数据替换为数据子集?工第1位置的标志数据,从而形成数据子集P1"; 步骤6,因此,线程1、线程2、…、线程Q分别对数据子集?:、数据子集内、…、数据子集Pq进行处理后,形成数据子集P:”、数据子集P2”、...、数据子集Pq” ; 将数据子集Pi”、数据子集P2”、...、数据子集卩(^”按次序依次拼接成最终数据集;该最终数据集即为维数为目标维数M且最大程度的保留原始数据所蕴含的信息的数据集。2.根据权利要求1所述的基于样条插值与数据并行的数据处理方法,其特征在于,步骤4中,采用以下方法设定各个线程所对应的取样点数: 如果Q能被M整除,则线程1、线程2、...、线程Q需取样的取样点数均相同,值为M/Q; 如果Q不能被M整除,则令M/Q的整数部分为T1,余数部分为T2;随机选择!^个线程,为所述!^个线程设定需取样的取样点数为T1+l;为其余线程设定需取样的取样点数为Tu3.根据权利要求1所述的基于样条插值与数据并行的数据处理方法,其特征在于,步骤.5.3中,所述标志数据点包括数据子集P1中的最大值数据点、最小值数据点和零值数据点; 所述第I位置信息是指:数据子集匕共包括b个数据,假设标志数据点为第a个数据点,则其第I位置信息等于a/b。
【文档编号】G06F9/38GK105955713SQ201610305743
【公开日】2016年9月21日
【申请日】2016年5月10日
【发明人】崔彦军, 马艳东, 王志强, 董佳, 梅欢
【申请人】河北省科学院应用数学研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1