填充有序序列的方法和装置与流程

文档序号:19189086发布日期:2019-11-20 01:52阅读:317来源:国知局
填充有序序列的方法和装置与流程

本发明涉及计算机技术领域,尤其涉及一种填充有序序列的方法和装置。



背景技术:

有序序列的数据同前期数据以及后期数据有很多联系,在对这些序列做数据处理时,填充有序序列的缺失处的数值是非常必要的。所以填充有序序列的缺失处广泛地应用在各个领域,例如:利用商品的历史销售数据对后期商品销量的预测需要先将序列中的缺失处填充完整、利用股票的前期波动对后续可能发生的情况的预测也需要将序列中的缺失处填充完整。

在实现本发明过程中,发明人发现现有技术中至少存在如下问题:

1.在有的现有技术中,采用例如:中值、均值、众数等统计学方法填充,未考虑缺失处较前期序列的周期性以及发展趋势;

2.在有的现有技术中,采用插值的方法对时间序列的缺失处进行填充,弥补了采用统计学方法填充存在的时间序列的趋势性、平滑性的问题,但是仍未考虑时间序列的周期性。



技术实现要素:

有鉴于此,本发明实施例提供一种填充有序序列的方法和装置,能够达到填充的缺失处的数值符合待填充有序序列的周期性、发展趋势,填充后的有序序列平滑性好,并且使得填充的缺失处的数值准确度高的技术效果。

为实现上述目的,根据本发明实施例的一个方面,提供了一种填充有序序列的方法,包括:

确定待填充有序序列与各个参考序列的相似度;

根据所述相似度,从所述多个参考序列中筛选目标参考序列;

根据所述目标参考序列,对待填充有序序列的缺失处进行填充;

其中,参考序列是指与待填充有序序列类型相同或相似,且不存在缺失处的有序序列。

可选地,对于每个参考序列,按照以下方法确定待填充有序序列与该参考序列的相似度:

截取待填充有序序列中包含缺失处的m段序列段;

确定该参考序列中与所述包含缺失处的m段序列段对应的参考序列段;

根据所述包含缺失处的m段序列段与参考序列段,确定待填充有序序列与该参考序列的相似度。

可选地,根据所述包含缺失处的m段序列段与参考序列段,确定待填充有序序列与该参考序列的相似度,包括:

根据每段参考序列段的长度,确定每段参考序列段的权重;

根据每段参考序列段与对应的包含缺失处的序列段,确定每段参考序列段与对应的包含缺失处的序列段的相似度;

根据每段参考序列段的权重,确定该参考序列中每段参考序列段与对应的包含缺失处的序列段的相似度的加权平均值;

以所述加权平均值,作为待填充有序序列与该参考序列的相似度;

其中,长度短的参考序列段的权重大于长度长的参考序列段的权重。

可选地,根据所述目标参考序列,对待填充有序序列的缺失处进行填充,包括:

确定各个目标参考序列中与待填充有序序列缺失处对应的数值的平均值;

根据所述平均值,对待填充有序序列的缺失处进行填充。

可选地,根据所述目标参考序列,对待填充有序序列的缺失处进行填充,包括:

以每个目标参考序列对应的相似度作为对应目标参考序列的权重,确定所有目标参考序列中与待填充有序序列的缺失处对应的数值的加权平均值;

根据所述加权平均值,对待填充有序序列的缺失处进行填充;

其中,相似度高的目标参考序列中数值的权重大于相似度低的目标参考序列中数值的权重。

可选地,确定待填充有序序列与各个参考序列的相似度之前,还包括:按照预设的映射方式对所述待填充有序序列与各个参考序列进行标准化处理;

根据所述目标参考序列,对待填充有序序列的缺失处进行填充之后,还包括:根据所述映射方式的逆映射,对填充后的序列进行反标准化处理。

可选地,按照预设的映射方式对所述待填充有序序列与各个参考序列进行标准化处理,包括:

对所述待填充有序序列与各个参考序列进行正态化处理;和/或,

将待填充有序序列与各个参考序列中的数值映射到预设取值范围内。

可选地,确定待填充有序序列与各个参考序列的相似度之前,还包括:剔除待填充有序序列与各个参考序列中的异常值;

其中,所述异常值,包括:超出待填充有序序列或各个参考序列阈值的数值,和/或,不符合待填充有序序列或各个参考序列变化趋势的数值;其中,所述阈值是根据均值和/或标准差设置的。

根据本发明实施例的再一个方面,提供一种填充有序序列的装置,包括:

相似度确定模块,用于确定待填充有序序列与各个参考序列的相似度;

参考序列筛选模块,用于根据所述相似度,从所述多个参考序列中筛选目标参考序列;

缺失处填充模块,用于根据所述目标参考序列,对待填充有序序列的缺失处进行填充;

其中,参考序列是指与待填充有序序列类型相同或相似,且不存在缺失处的有序序列。

可选地,在所述相似度确定模块中,对于每个参考序列,按照以下方法确定待填充有序序列与该参考序列的相似度:

截取待填充有序序列中包含缺失处的m段序列段;

确定该参考序列中与所述包含缺失处的m段序列段对应的参考序列段;

根据所述包含缺失处的m段序列段与参考序列段,确定待填充有序序列与该参考序列的相似度。

可选地,根据所述包含缺失处的m段序列段与参考序列段,确定待填充有序序列与该参考序列的相似度,包括:

根据每段参考序列段的长度,确定每段参考序列段的权重;

根据每段参考序列段与对应的包含缺失处的序列段,确定每段参考序列段与对应的包含缺失处的序列段的相似度;

根据每段参考序列段的权重,确定该参考序列中每段参考序列段与对应的包含缺失处的序列段的相似度的加权平均值;

以所述加权平均值,作为待填充有序序列与该参考序列的相似度;

其中,长度短的参考序列段的权重大于长度长的参考序列段的权重。

可选地,所述缺失处填充模块根据所述目标参考序列,对待填充有序序列的缺失处进行填充,包括:

确定各个目标参考序列中与待填充有序序列缺失处对应的数值的平均值;

根据所述平均值,对待填充有序序列的缺失处进行填充。

可选地,所述缺失处填充模块根据所述目标参考序列,对待填充有序序列的缺失处进行填充,包括:

以每个目标参考序列对应的相似度作为对应目标参考序列的权重,确定所有目标参考序列中与待填充有序序列的缺失处对应的数值的加权平均值;

根据所述加权平均值,对待填充有序序列的缺失处进行填充;

其中,相似度高的目标参考序列中数值的权重大于相似度低的目标参考序列中数值的权重。

可选地,填充有序序列的装置还包括标准化处理模块;

确定待填充有序序列与各个参考序列的相似度之前,所述标准化处理模块按照预设的映射方式对所述待填充有序序列与各个参考序列进行标准化处理;

根据所述目标参考序列,对待填充有序序列的缺失处进行填充之后,所述标准化处理模块根据所述映射方式的逆映射,对填充后的序列进行反标准化处理。

可选地,按照预设的映射方式对所述待填充有序序列与各个参考序列进行标准化处理,包括:

对所述待填充有序序列与各个参考序列进行正态化处理;和/或,

将待填充有序序列与各个参考序列中的数值映射到预设取值范围内。

可选地,填充有序序列的装置还包括异常值剔除模块:

确定待填充有序序列与各个参考序列的相似度之前,所述异常值剔除模块剔除待填充有序序列与各个参考序列中的异常值;

其中,所述异常值,包括:超出待填充有序序列或各个参考序列阈值的数值,和/或,不符合待填充有序序列或各个参考序列变化趋势的数值;其中,所述阈值是根据均值和/或标准差设置的。

根据本发明实施例的另一个方面,提供一种填充有序序列的电子设备,包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得一个或多个处理器实现本发明填充有序序列的方法。

根据本发明实施例的另一个方面,提供一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现本发明填充有序序列的方法。

上述发明中的一个实施例具有如下优点或有益效果:因为采用参考序列确定与待填充有序序列相似度的技术手段,所以克服了现有技术采用中值、均值、众数等统计学方法填充时未考虑有序序列的周期性、发展趋势的技术问题,进而达到填充的缺失处的数值符合待填充有序序列的周期性、发展趋势的目的,并且达到填充的缺失处的数值更准确的技术效果。

因为采用各个目标参考序列中与待填充有序序列缺失处对应的数值取平均值或加权平均值的技术手段填充缺失处,所以克服了现有技术用插值的方法填充的缺失处的数值不准确、未考虑有序序列平滑性的技术问题,进而达到使得填充缺失处的数值准确度高、平滑性好的技术效果。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明,不构成对本发明的不当限定。其中:

图1是根据本发明实施例的填充有序序列的方法的主要流程的示意图;

图2是根据本发明可选具体实施例的填充时间序列的主要步骤的流程图;

图3是根据本发明实施例的填充有序序列的装置的主要模块的示意图;

图4是本发明实施例可以应用于其中的示例性系统架构图;

图5是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的填充有序序列的方法的主要流程的示意图,如图1所示,

步骤s101、确定待填充有序序列与各个参考序列的相似度;

步骤s102、根据所述相似度,从所述多个参考序列中筛选目标参考序列;

步骤s103、根据所述目标参考序列,对待填充有序序列的缺失处进行填充;

其中,参考序列是指与待填充有序序列类型相同或相似,且不存在缺失处的有序序列。

所述待填充有序序列是指有先后顺序的序列,其中包括:时间序列、按照某种标准排列的有顺序的序列等,本发明实施例对此不做具体限定。

所述目标参考序列可以根据待填充有序序列与各个参考序列的相似度超过设定的数值筛选得到;也可以通过先设定目标参考序列的个数为a个,然后在参考序列中筛选出a个与待填充有序序列相似度高的参考序列作为目标参考序列。

所述计算相似度的方式包括,但不限于:皮尔逊相似度计算法、余弦距离相似度计算法、欧氏距离相似度计算法。

所述缺失处可以为序列中没有数值的某个位置,或序列中的某个的数值不符合要求,需要重新填充的位置。

本实施例中,采用确定待填充有序序列与参考序列的相似度的方法,解决了现有技术采用待填充有序序列的众数、平均数、中值对缺失处进行填充导致的忽略有序序列周期性和发展趋势的技术缺陷。通过确定待填充有序序列与参考序列的相似度,可以达到填充的缺失处的数值符合待填充有序序列的周期性、发展趋势的目的,并且达到填充后的缺失处的数值更准确的技术效果。

在本实施例中,还通过利用筛选出相似度较高的参考序列对待填充有序序列的缺失处进行填充,舍弃相似度较低的参考序列,达到保证填充的缺失处的数值准确度高的技术效果。

可选地,对于每个参考序列,按照以下方法确定待填充有序序列与该参考序列的相似度:

截取待填充有序序列中包含缺失处的m段序列段;

确定该参考序列中与所述包含缺失处的m段序列段对应的参考序列段;

根据所述包含缺失处的m段序列段与参考序列段,确定待填充有序序列与该参考序列的相似度。

由于在有序序列中,与缺失处最近的数值对缺失处的数值的影响最大。故在本方法可选实施例中,首先通过截取包含缺失处的序列段的方式,得到对缺失处存在影响较大的m段序列段。然后在参考序列段截取与所述包含缺失处的序列段对应的参考序列段,用于计算出每一段包含缺失处的序列段与对应的参考序列段的相似度。其中,m的数值可以预先设定,也可以根据待填充有序序列设定。在本可选实施实例中,因为采用包含缺失处的m段序列段与参考序列段确定相似度的技术手段,进而达到使得填充的缺失处的数值可靠性更高的有益效果。

其中,计算相似度需要使得包含缺失处的序列段与参考序列的长度相同。可选地,在截取参考序列段后,剔除参考序列段中与缺失处对应的数值,进而获得与所述包含缺失处的序列段等长度的参考序列段,达到方便计算相似度的技术效果。

具体地,假设待填充有序序列x0为x01,x02,x03,...,x0k,,其中,缺失处为x0k1,并且k1<k;参考序列为n个完整的有序序列x1,x2,x3,…,xn,分别为x11,x12,x13,...,x1k;x21,x22,x23,...,x2k;.......;xn1,xn2,xn3,...,xnk。例如,截取待填充有序序列中包含缺失处的3段序列段,则可以为(x0k1-1,x0k1,x0k1+1),(x0k1-2,x0k1-1,x0k1,x0k1+1),(x0k1-2,x0k1-1,x0k1,x0k1+1,x0k1+2)。

在参考序列中找到与所述3段序列段对应的参考序列段。故在参考序列x1中截取的参考序列段则为:(x1k1-1,x1k1,x1k1+1),(x1k1-2,x1k1-1,x1k1,x1k1+1),(x1k1-2,x1k1-1,x1k1,x1k1+1,x1k1+2)。同理,即可在x2,x3,…,xn中截取与待填充有序序列相对应的参考序列段。

由于在x0k1处为缺失处,不能参与确定相似度的计算,故将待填充有序序列中包含缺失处的3段序列段中的x0k1剔除。与此同时将参考序列中与所述3段序列段对应的参考序列段中与x0k1对应的数值剔除。具体地,则剔除后的参考序列x1中截取的参考序列段则为:(x1k1-1,x1k1+1),(x1k1-2,x1k1-1,x1k1+1),(x1k1-2,x1k1-1,x1k1+1,x1k1+2)。同理可得参考序列x2,x3,…,xn中截取的参考序列段。

在确定该待填充有序序列x0与参考序列x1的相似度时,分别计算(x0k1-1,x0k1+1)与(x1k1-1,x1k1+1)的相似度、(x0k1-2,x0k1-1,x0k1+1)与(x1k1-2,x1k1-1,x1k1+1)的相似度、(x0k1-2,x0k1-1,x0k1+1,x0k1+2)与(x1k1-2,x1k1-1,x1k1+1,x1k1+2)的相似度。可选地,对计算得到的三组待填充有序序列的包含缺失处的序列段与参考序列段的相似度取平均值,将所得到的平均值作为待填充有序序列x0与参考序列x1的相似度。同理可得,待填充有序序列x0与参考序列x2,x3,…,xn的相似度。

可选地,根据所述包含缺失处的m段序列段与参考序列段,确定待填充有序序列与该参考序列的相似度,包括:

根据每段参考序列段的长度,确定每段参考序列段的权重;

根据每段参考序列段与对应的包含缺失处的序列段,确定每段参考序列段与对应的包含缺失处的序列段的相似度;

根据每段参考序列段的权重,确定该参考序列中每段参考序列段与对应的包含缺失处的序列段的相似度的加权平均值;

以所述加权平均值,作为待填充有序序列与该参考序列的相似度;

其中,长度短的参考序列段的权重大于长度长的参考序列段的权重。

在本方法的可选实施例中,可以根据参考序列段的长度设置值每段序列段的权重,进而进一步提高得到的相似度的准确性。具体地,在计算相似度时,随着截取的序列段长度的增加,对缺失处数值的影响也随之减小。利用设置每段参考序列段的权重的方法,计算待填充有序序列与参考序列的相似度,可以达到得出的相似度更准确的技术效果。

具体地,以参考序列x1中截取的参考序列段(x1k1-1,x1k1+1),(x1k1-2,x1k1-1,x1k1+1),(x1k1-2,x1k1-1,x1k1+1,x1k1+2)为例,详细说明本可选技术方案。考虑到有序序列的周期性和发展趋势,可以得出距离缺失处越近的数据对缺失处的影响越大,故参考序列x1中截取的第一段参考序列段(x1k1-1,x1k1+1)对缺失处的填充影响最大,第三段参考序列段(x1k1-2,x1k1-1,x1k1+1,x1k1+2)对缺失处的影响最小。所以在利用参考序列段计算相似度时,可以将第一个参考序列段的权重设置为第二个参考序列段的权重设置为第三个参考序列段的权重设置为根据现有技术可以得出参考序列x1的第一段参考序列与对应的待填充有序序列的相似度,简称x1的第一段相似度。同理可以得出x1的第二段相似度、x1的第三段相似度。根据每一段参考序列的权重和相似度,可以得到参考序列x1相似度的加权平均数。根据该加权平均数,可以确定待填充有序序列与参考序列x1的相似度。同理可以得出参考序列x2、x3、...、xn与待填充有序序列的相似度。

其中,因为每段参考序列段的长度是根据待填充缺失处中包含缺失处的m段序列段确定的,故每段参考序列段的权重还可以根据每段待填充有序序列中包含缺失处的m段序列段的长度确定。

可选地,根据所述目标参考序列,对待填充有序序列的缺失处进行填充,包括:

确定各个目标参考序列中与待填充有序序列缺失处对应的数值的平均值;

根据所述平均值,对待填充有序序列的缺失处进行填充。

在本方法的可选实施例中,确定了目标参考序列后,可以根据参考序列对应位置上的数值计算平均值的方法,对待填充有序序列的缺失处进行填充,克服了现有技术采用待填充有序序列的中值、众数进行填充时准确度低、平滑性差的技术缺陷,进而达到简单、方便的计算缺失处数值的技术效果。

具体地,本实施例以筛选后确定的参考序列x1,x5,xn为目标参考序列详细说明对缺失处进行填充的步骤。根据待填充有序序列的缺失处x0k1,确定目标参考序列中对应缺失处的数值,分别为:x1k1,x5k1,xnk1。对x1k1,x5k1,xnk1取平均值,可得出缺失处的数值,即缺失处为x0k1=(x1k1+x5k1+xnk1)/3。

可选地,根据所述目标参考序列,对待填充有序序列的缺失处进行填充,包括:

以每个目标参考序列对应的相似度作为对应目标参考序列的权重,确定所有目标参考序列中与待填充有序序列的缺失处对应的数值的加权平均值;

根据所述加权平均值,对待填充有序序列的缺失处进行填充;

其中,相似度高的目标参考序列中数值的权重大于相似度低的目标参考序列中数值的权重。

在本方法的可选实施例中,可以结合相似度确定缺失处的数值。因为通过计算得知每个参考序列的相似度不同,所以每个参考序列中与待填充有序序列对应的数值对缺失处数值填充的影响也不同。故可以根据目标参考序列与待填充有序序列的相似度,确定每个参考序列中对应的缺失处的数值的权重。其中,提高相似度较高的目标参考序列的权重可使得计算得到的缺失处的数值更准确。

具体地,假设筛选后得到的目标参考序列为x1、x5、xn,并且目标参考序列x1与待填充有序序列的相似度为0.75,目标参考序列x5与待填充有序序列的相似度为0.20,目标参考序列xn与待填充有序序列的相似度为0.05。则计算相似度时,可以根据相似度确定参与计算缺失处的数值的权重。对x1k1,x5k1,xnk1加权取平均值,可得出缺失处数值,即缺失处数值的计算公式为:

x0k1=0.75*x1k1+0.20*x5k1+0.05*xnk1

可选地,确定待填充有序序列与各个参考序列的相似度之前,还包括:按照预设的映射方式对所述待填充有序序列与各个参考序列进行标准化处理;

根据所述目标参考序列,对待填充有序序列的缺失处进行填充之后,还包括:根据所述映射方式的逆映射,对填充后的序列进行反标准化处理。

在本方法的可选实施例中,由于待填充有序序列与参考序列可能仅在变化趋势上相同或相似,每个参考序列的取值范围可能各不相同,故可以通过标准化的技术手段将参考序列与待填充有序序列处理为方便计算相似度、易于确定缺失处的形式。在确定填充值后,在本可选实施例中,还需要将填充后的待填充有序序列映射回处理前的有序序列的状态。

可选地,按照预设的映射方式对所述待填充有序序列与各个参考序列进行标准化处理,包括:

对所述待填充有序序列与各个参考序列进行正态化处理;和/或,

将待填充有序序列与各个参考序列中的数值映射到预设取值范围内。

在本方法的可选实施例中,对序列进行标准化的方法列举了两种,对于其他对序列进行标准化的方法,本发明实施例对此不做具体限定。其中,一种是将序列正态化,通过正态化将待填充有序序列与各个参考序列的每个数值进行正态化处理,进而达到在计算相似度、确定缺失处数值时减小误差的技术效果。另一种为将待填充有序序列与各个参考序列映射到预设取值范围内,其中所述预设取值范围包括预设的某一取值范围,例如将待填充有序序列与各个参考序列中的数值映射到0~1之间,或将待填充有序序列与各个参考序列中的数值映射到待填充有序序列的取值范围之间。

可选地,确定待填充有序序列与各个参考序列的相似度之前,还包括:剔除待填充有序序列与各个参考序列中的异常值;

其中,所述异常值,包括:超出待填充有序序列或各个参考序列阈值的数值,和/或,不符合待填充有序序列或各个参考序列变化趋势的数值;其中,所述阈值是根据均值和/或标准差设置的。

在本方法的可选实施例中,还可以包括对异常值的剔除。通常情况下,一个有序序列的取值范围或标准差应该在一定的范围内,如果超出所述范围,就可以判定该数据为异常数据。其中,异常值的判定还可以根据变化趋势的大小判定。具体地,如果一个数值的变化趋势过大,与前后的数值不符,则可以认定该数值为异常值。通过剔除异常值的技术手段,将对填充缺失处不利的数据剔除,进而提高了确定缺失处的准确度。

下面以填充时间序列的具体实施例详细说明本方法所涉及的技术方案。图2是根据本发明可选具体实施例的填充时间序列的主要步骤的流程图。

如图2所示,步骤s201、获取待填充时间序列t0,包含t00、t01、...、t0k;和各个参考时间序列t1、t2、…、tn,分别包含t10、t11、...、t1k;t20、t21、...、t2k;…;tn0、tn1、...、tnk。

步骤s202、剔除待填充时间序列和参考时间序列的异常值。

步骤s203、根据待填充时间序列和各个参考时间序列各自的均值和方差:(μ0,σ0),(μ1,σ1),(μ2,σ2),…,(μn,σn),对剔除异常值后的待填充时间序列和参考时间序列正态化。得到的正态化后的待填充时间序列和参考时间序列分别为:t0‘0、t0’1、...、t0‘k;t1’0、t1‘1、...、t1‘k;t2’0、t2‘1、...、t2’k;…;tn‘0、tn’1、...、tn‘k。

步骤s204、确定正态化后的待填充时间序列和参考时间序列的相似度。具体地,假设待填充时间序列在k1处为缺失处,其中k1<k。然后,截取正态化后的待填充时间序列包含k1位置的m段序列段。在正态化后的参考时间序列上,截取与m段序列段对应的参考时间序列段。

在确定参考时间序列与待填充时间序列的相似度时,先计算每段参考时间序列段与对应的包含缺失处的待填充时间序列段的相似度,再根据每段参考时间序列段的长度确定每段相似度的权重,最后通过加权取平均数的方式计算得到参考时间序列与待填充时间序列的相似度。

步骤s205、根据正态化后的每个参考时间序列与待填充时间序列的相似度,筛选出t条正态化后的目标参考时间序序列。具体地,t的取值为3,即筛选出3条正态化后的目标参考时间序序列为t1‘、t5‘、tn‘。

步骤s206、根据正态化后的目标参考时间序列,对待填充时间序列的缺失处进行填充。假设t1‘、t5‘、tn‘为正态化后的目标参考时间序序列,且正态化后的目标参考时间序列t1‘与正态化后的待填充时间序列的相似度为0.75,正态化后的目标参考时间序列t5‘与正态化后的待填充时间序列的相似度为0.20,正态化后的目标参考时间序列tn‘与正态化后的待填充有序序列的相似度为0.05。则缺失处的数值为:

t0‘k1=0.75*t1‘k1+0.20*t5‘k1+0.05*tn‘k1

步骤s207、对填充后的待填充时间序列和各个参考时间序列进行反正态化处理。具体地,将t0‘k1的数值填充到正态化后的待填充时间序列后,还需要将填充后的时间序列反正态化处理。反正态化处理后,可以得到的在缺失处t0k1的待填充时间序列的数值。

如图3所示,提供了一种填充有序序列的装置300,包括:

模块301、相似度确定模块,用于确定待填充有序序列与各个参考序列的相似度;

模块302、参考序列筛选模块,用于根据所述相似度,从所述多个参考序列中筛选目标参考序列;

模块303、缺失处填充模块,用于根据所述目标参考序列,对待填充有序序列的缺失处进行填充;

其中,参考序列是指与待填充有序序列类型相同或相似,且不存在缺失处的有序序列。

可选地,在所述相似度确定模块中,对于每个参考序列,按照以下方法确定待填充有序序列与该参考序列的相似度:

截取待填充有序序列中包含缺失处的m段序列段;

确定该参考序列中与所述包含缺失处的m段序列段对应的参考序列段;

根据所述包含缺失处的m段序列段与参考序列段,确定待填充有序序列与该参考序列的相似度。

可选地,根据所述包含缺失处的m段序列段与参考序列段,确定待填充有序序列与该参考序列的相似度,包括:

根据每段参考序列段的长度,确定每段参考序列段的权重;

根据每段参考序列段与对应的包含缺失处的序列段,确定每段参考序列段与对应的包含缺失处的序列段的相似度;

根据每段参考序列段的权重,确定该参考序列中每段参考序列段与对应的包含缺失处的序列段的相似度的加权平均值;

以所述加权平均值,作为待填充有序序列与该参考序列的相似度;

其中,长度短的参考序列段的权重大于长度长的参考序列段的权重。

可选地,所述缺失处填充模块根据所述目标参考序列,对待填充有序序列的缺失处进行填充,包括:

确定各个目标参考序列中与待填充有序序列缺失处对应的数值的平均值;

根据所述平均值,对待填充有序序列的缺失处进行填充。

可选地,所述缺失处填充模块根据所述目标参考序列,对待填充有序序列的缺失处进行填充,包括:

以每个目标参考序列对应的相似度作为对应目标参考序列的权重,确定所有目标参考序列中与待填充有序序列的缺失处对应的数值的加权平均值;

根据所述加权平均值,对待填充有序序列的缺失处进行填充;

其中,相似度高的目标参考序列中数值的权重大于相似度低的目标参考序列中数值的权重。

可选地,填充有序序列的装置还包括标准化处理模块(图中未示出);

确定待填充有序序列与各个参考序列的相似度之前,所述标准化处理模块按照预设的映射方式对所述待填充有序序列与各个参考序列进行标准化处理;

根据所述目标参考序列,对待填充有序序列的缺失处进行填充之后,所述标准化处理模块根据所述映射方式的逆映射,对填充后的序列进行反标准化处理。

可选地,按照预设的映射方式对所述待填充有序序列与各个参考序列进行标准化处理,包括:

对所述待填充有序序列与各个参考序列进行正态化处理;和/或,

将待填充有序序列与各个参考序列中的数值映射到预设取值范围内。

可选地,填充有序序列的装置还包括异常值剔除模块(图中未示出):

确定待填充有序序列与各个参考序列的相似度之前,所述异常值剔除模块剔除待填充有序序列与各个参考序列中的异常值;

其中,所述异常值,包括:超出待填充有序序列或各个参考序列阈值的数值,和/或,不符合待填充有序序列或各个参考序列变化趋势的数值;其中,所述阈值是根据均值和/或标准差设置的。

图4示出了可以应用本发明实施例的填充有序序列的方法或填充有序序列的装置的示例性系统架构400。

如图4所示,系统架构400可以包括终端设备401、402、403,网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备401、402、403通过网络404与服务器405交互,以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器405可以是提供各种服务的服务器,例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是,本发明实施例所提供的填充有序序列的方法一般由服务器405执行,相应地,填充有序序列的装置一般设置于服务器405中。

应该理解,图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

下面参考图5,其示出了适于用来实现本发明实施例的终端设备的计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示,计算机系统500包括中央处理单元(cpu)501,其可以根据存储在只读存储器(rom)502中的程序或者从存储部分508加载到随机访问存储器(ram)503中的程序而执行各种适当的动作和处理。在ram503中,还存储有系统500操作所需的各种程序和数据。cpu501、rom502以及ram503通过总线504彼此相连。输入/输出(i/o)接口505也连接至总线504。

以下部件连接至i/o接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至i/o接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(cpu)501执行时,执行本发明的系统中限定的上述功能。

需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括发送模块、获取模块、确定模块和第一处理模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,发送模块还可以被描述为“向所连接的服务端发送图片获取请求的模块”。

作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:

确定待填充有序序列与各个参考序列的相似度;

根据所述相似度,从所述多个参考序列中筛选目标参考序列;

根据所述目标参考序列,对待填充有序序列的缺失处进行填充;

其中,参考序列是指与待填充有序序列类型相同或相似,且不存在缺失处的有序序列。

根据本发明实施例的技术方案,从而达到如下有益效果:

因为采用参考序列确定与待填充有序序列相似度的技术手段,所以克服了现有技术采用中值、均值、众数等统计学方法填充时未考虑有序序列的周期性、发展趋势的技术问题,进而达到填充的缺失处的数值符合待填充有序序列的周期性、发展趋势的目的,并且达到填充的缺失处的数值更准确的技术效果。

因为采用各个目标参考序列中与待填充有序序列缺失处对应的数值取平均值或加权平均值的技术手段填充缺失处,所以克服了现有技术用插值的方法填充的缺失处的数值不准确、未考虑有序序列平滑性的技术问题,进而达到使得填充的数值准确度高、平滑性好的技术效果。

上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1