一种时序类数据的数据处理方法和装置与流程

文档序号:17489453发布日期:2019-04-23 20:18阅读:177来源:国知局
一种时序类数据的数据处理方法和装置与流程

本发明涉及大数据技术领域,特别是涉及一种时序类数据的数据处理方法和装置。



背景技术:

互联网上的日志数据、金融交易的交易数据、互联网人的行为数据都属于时序性数据,具有明显的时序性。在基于这些时序类数据进行数据分析、数据挖掘和机器学习过程中,数据处理是必不可少的一步。例如,在进行机器学习时,首先根据某个指定的时间点切分数据样本,一部分数据样本用于模型训练,另一部分则用于进行模型测试和评估,这样一来完全没有体现出数据的实效性和顺序性。



技术实现要素:

有鉴于此,本发明提供了一种时序类数据的数据处理方法和装置,以解决现有的数据处理方案无法体现数据的时效性和顺序性的问题。

为了解决上述问题,本发明公开了一种时序类数据的数据处理方法,包括步骤:

利用协方差矩阵表达待处理的时序类数据;

设定所述协方差矩阵中的数据样本的权重;

根据所述协方差矩阵构建优化函数;

执行所述优化函数,得到结果数据。

可选的,所述优化函数为f(θ,αiθ′cov(feat)θ,f2(β));

其中,feat是一组所述时序类数据,cov(feat)表示多维特征空间下的协方差方程矩阵,θ为所述权重,α是一组数据,β是另一组数据。

可选的,所述执行所述优化函数,包括:

在预设约束条件下执行所述优化函数;

或者,针对不同的α并行执行所述优化函数。

可选的,所述约束条件为关于θ的约束函数。

可选的,所述针对不同的α并行执行所述优化函数,包括:

针对不同的α采用多线程方式、scala方式或pyspark方式执行所述优化函数。

还提供了一种时序类数据的数据处理装置,包括步骤:

数据表达模块,配置为利用协方差矩阵表达待处理的时序类数据;

权重设定模块,配置为设定所述协方差矩阵中的数据样本的权重;

函数构建模块,配置为根据所述协方差矩阵构建优化函数;

优化执行模块,配置为执行所述优化函数,得到结果数据。

可选的,所述优化函数为f(θ,αiθ′cov(feat)θ,f2(β));

其中,feat是一组所述时序类数据,cov(feat)表示多维特征空间下的协方差方程矩阵,θ为所述权重,α是一组数据,β是另一组数据。

可选的,所述优化执行模块包括:

第一优化单元,配置为在预设约束条件下执行所述优化函数;

或者,第二优化单元,配置为针对不同的α并行执行所述优化函数。

可选的,所述约束条件为关于θ的约束函数。

可选的,所述第二优化单元具体用于针对不同的α采用多线程方式、scala方式或pyspark方式执行所述优化函数。

从上述技术方案可以看出,本发明提供了一种时序类数据的数据处理方法和装置,具体为利用协方差矩阵表达待处理的时序类数据;设定所述协方差矩阵中的数据样本的权重;根据所述协方差矩阵构建优化函数;执行所述优化函数,得到结果数据。由于数据顺序不同时,协方差会相应改变,对应的协方差矩阵也会改变,从而利用协方差矩阵会对时序类数据进行很好地聚合,从而能够使本申请的技术方案很好地解决现有的数据处理方案无法体现数据的时效性和顺序性的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种时序类数据的数据处理方法的流程图;

图2为本申请实施例提供的一种时序类数据的数据处理装置的框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例一

图1为本申请实施例提供的一种时序类数据的数据处理方法的流程图。

参照图1所示,本实施例提供的数据处理方法用于对时序类数据进行处理,具体包括如下步骤:

s1、利用协方差矩阵表达待处理的时序类数据。

这里的时序类数据具体为互联网上的日志数据,金融交易中产生的交易数据,还有互联网用户在使用互联网过程中产生的行为数据,这些数据能够或多或少地反映相应用户的有价值信息,因此有必要进行挖掘,在挖掘之前将这些待处理的时序类数据利用协方差矩阵进行表达。

在统计学与概率论中,协方差矩阵的每个元素是各个向量元素之间的协方差,是从标量随机变量到高维度随机向量的自然推广。

s2、设定协方差矩阵中的数据样本的权重。

通过设定协方差矩阵中每个元素的权重,对于以协方差矩阵表达的时序类数据来说,可以使其中作为相应元素的时序类数据表达相应的时序性特征。

s3、根据协方差矩阵构建优化函数。

在对协方差方程的数据样本的权重进行设定后,构建进行权重设定后的协方差矩阵的优化函数。例如该优化函数可以为:

f(θ,αiθ′cov(feat)θ,f2(β))

其中,feat是一组所述时序类数据,cov(feat)表示多维特征空间下的协方差方程矩阵,θ为一组数据,用于控制协方差矩阵的权重,α是一组数据,β是另一组数据。

s4、执行该优化函数。

通过执行上述优化函数,可以得到相应的结果数据。在执行该优化函数时,可以在预设约束条件下执行该优化函数,也可以在无约束条件下执行还优化函数;或者针对不同的α值采用包括但不限于多线程方式、scala方式或者pyspark方式并行执行该优化函数。

上述约束条件为关于θ的约束函数f3(θ)。

在得到上述的结果数据后,既可以利用相应结果数据进行数据分析、数据挖掘或者作为机器学习的样本对相应机器模型进行训练。

从上述技术方案可以看出,本申请提供了一种时序类数据的数据处理方法,具体为利用协方差矩阵表达待处理的时序类数据;设定所述协方差矩阵中的数据样本的权重;根据所述协方差矩阵构建优化函数;执行所述优化函数,得到结果数据。由于数据顺序不同时,协方差会相应改变,对应的协方差矩阵也会改变,从而利用协方差矩阵会对时序类数据进行很好地聚合,从而能够使本申请的技术方案很好地解决现有的数据处理方案无法体现数据的时效性和顺序性的问题。

需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。

实施例二

图2为本申请实施例提供的一种时序类数据的数据处理装置的框图。

参照图2所示,本实施例提供的数据处理装置用于对时序类数据进行处理,具体包括数据表达模块10、权重设定模块20、函数构建模块30和优化执行模块40。

数据表达模块用于利用协方差矩阵表达待处理的时序类数据。

这里的时序类数据具体为互联网上的日志数据,金融交易中产生的交易数据,还有互联网用户在使用互联网过程中产生的行为数据,这些数据能够或多或少地反映相应用户的有价值信息,因此有必要进行挖掘,在挖掘之前将这些待处理的时序类数据利用协方差矩阵进行表达。

在统计学与概率论中,协方差矩阵的每个元素是各个向量元素之间的协方差,是从标量随机变量到高维度随机向量的自然推广。

权重设定模块用于设定协方差矩阵中的数据样本的权重。

通过设定协方差矩阵中每个元素的权重,对于以协方差矩阵表达的时序类数据来说,可以使其中作为相应元素的时序类数据表达相应的时序性特征。

函数构建模块用于根据协方差矩阵构建优化函数。

在对协方差方程的数据样本的权重进行设定后,构建进行权重设定后的协方差矩阵的优化函数。例如该优化函数可以为:

f(θ,δiθ′cov(feat)θ,f2(β))

其中,feat是一组所述时序类数据,cov(feat)表示多维特征空间下的协方差方程矩阵,θ为一组数据,用于控制协方差矩阵的权重,α是一组数据,β是另一组数据。

优化执行模块用于执行该优化函数。

通过执行上述优化函数,可以得到相应的结果数据。该模块包括第一优化单元和第二优化单元中的任意一个单元,在执行该优化函数时,第一优化单元用于在预设约束条件下执行该优化函数,也可以在无约束条件下执行还优化函数;第二优化单元用于针对不同的α值采用包括但不限于多线程方式、scala方式或者pyspark方式并行执行该优化函数。

上述约束条件为关于θ的约束函数f3(θ)。

在得到上述的结果数据后,既可以利用相应结果数据进行数据分析、数据挖掘或者作为机器学习的样本对相应机器模型进行训练。

从上述技术方案可以看出,本申请提供了一种时序类数据的数据处理装置,具体为利用协方差矩阵表达待处理的时序类数据;设定所述协方差矩阵中的数据样本的权重;根据所述协方差矩阵构建优化函数;执行所述优化函数,得到结果数据。由于数据顺序不同时,协方差会相应改变,对应的协方差矩阵也会改变,从而利用协方差矩阵会对时序类数据进行很好地聚合,从而能够使本申请的技术方案很好地解决现有的数据处理方案无法体现数据的时效性和顺序性的问题。

对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的技术方案进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1