一种基于大数据的复杂面板数据学习方法与流程

文档序号:15559741发布日期:2018-09-29 01:58阅读:622来源:国知局

本发明涉及到一种面板数据学习方法,特别涉及一种基于大数据下的面板数据学习方法。



背景技术:

面板数据的研究绝大多数是基于计量经济的建模理论与应用,一般存在对数据模型的假定,且是批量数据学习模式。然而,随着社会经济关系的复杂化,面板数据呈现出许多新的特点,主要表现在数据规模庞大、关系错综复杂、数据污染严重和数据缺失等多个方面,在当今大数据环境下,原有的模型假定在大数据背景下不一定成立。同时,计算机存储容量的限制也约束了原有面板数据模型的正常使用。



技术实现要素:

为这解决现有面板数据污染严重和数据缺失的问题,本发明的目的在于提供一种基于大数据的复杂面板数据学习方法,寻求降低计算代价、节约计算机存储资源的复杂面板数据处理模式,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:一种基于大数据的复杂面板数据学习方法,包括以下步骤;

s1:充分利用新增时间序列所含信息增量的同时,控制时间序列数据容量,从而控制计算成本和计算机存储容量;

s2:充分利用横截面数据所含维度信息的同时,控制支撑维度容量,从而将计算成本与存储容量控制在计算资源许可范围之内;

s3:在面板数据容量有限的条件下,保证学习的泛化性能,给出所拟算法的泛化理论界;

s4:研究复杂面板数据白噪声过滤理论与方法,保证学习模型的鲁棒性。

优选的,在步骤s1,面板数据中时间序列的支撑容量控制,以某种方式保留支撑数据集对学习函数的整体贡献,过滤支撑集数据容量增加带来的信息冗余,结合前述时间序列容量控制思想,同时控制模型的双向支撑数据容量对于时间序列控制,以动态的方式分步融合特征空间选定的两支撑向量,最大限度地消除信息冗余,选择最佳的向量融合方式。

优选的,在步骤s2,对面板数据中横截面维度的控制,过滤贡献不大的维度信息,同时保证所得学习模型的整体性能;对于面板数据双向支撑数据容量的同时控制,以合并横截面维度信息,降低核函数的计算成本,同时;对于横截面维度控制,以某种基本范数,保证模型的基本泛化性能,避免稀疏过度或不当;同时以另一稀疏范数,控制数据横截面维度容量即非零权数的数量,选择最佳泛数及组合方式。

优选的,在步骤s3,中分析所拟算法的理论界,在相关应用领域数据集上实验验证所拟方法,并与相关算法在学习性能、算法稳定性、计算成本等方面进行比较。

优选的,在步骤s4中,所得理论成果与相应算法应用于经济、管理、生物、心理、健康科学等具体领域,系统化研究成果,力争开发具体工具,实现成果转化。

与现有技术相比,本发明的有益效果是:基于大数据的复杂面板数据学习方法,动态策略能剔除选定的任何支撑数据及其冗余信息,同时保留数据递增带来的信息增量;向量融合技术则用来逼近原学习问题的最优解,从理论与实践两方面保证学习性能,采用动态向量融合技术,计算性能稳健,单步计算成本低廉,时间序列与横截面高维的复杂面板数据问题,采用线性学习模式,实现其双向上数据容量同时得到控制的在线核学习,其思想本身就具有一定的新颖度,提出面板数据学习的新的滤波方法,构造基于hash编码或随机投影的在线核学习算法,以hash编码或随机投影方法,合并某些维度上的信息,在此基础上引入核方法,提升所拟算法的非线性表述能力。

具体实施方式

下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

一种基于大数据的复杂面板数据学习方法,包括以下步骤;

第一步:充分利用新增时间序列所含信息增量的同时,控制时间序列数据容量,从而控制计算成本和计算机存储容量,面板数据中时间序列的支撑容量控制,以某种方式保留支撑数据集对学习函数的整体贡献,过滤支撑集数据容量增加带来的信息冗余,结合前述时间序列容量控制思想,同时控制模型的双向支撑数据容量对于时间序列控制,以动态的方式分步融合特征空间选定的两支撑向量,最大限度地消除信息冗余,选择最佳的向量融合方式,动态策略能剔除选定的任何支撑数据及其冗余信息,同时保留数据递增带来的信息增量;向量融合技术则用来逼近原学习问题的最优解,从理论与实践两方面保证学习性能,采用动态向量融合技术,计算性能稳健,单步计算成本低廉,能在理论与技术上成为提高点;

第二步:充分利用横截面数据所含维度信息的同时,控制支撑维度容量,从而将计算成本与存储容量控制在计算资源许可范围之内,对面板数据中横截面维度的控制,过滤贡献不大的维度信息,同时保证所得学习模型的整体性能;对于面板数据双向支撑数据容量的同时控制,以合并横截面维度信息,降低核函数的计算成本,同时;对于横截面维度控制,以某种基本范数,保证模型的基本泛化性能,避免稀疏过度或不当;同时以另一稀疏范数,控制数据横截面维度容量即非零权数的数量,选择最佳泛数及组合方式,时间序列与横截面高维的复杂面板数据问题,采用线性学习模式,实现其双向上数据容量同时得到控制的在线核学习,其思想本身就具有一定的新颖度,提出面板数据学习的新的滤波方法,构造基于hash编码或随机投影的在线核学习算法,以hash编码或随机投影方法,合并某些维度上的信息,在此基础上引入核方法,提升所拟算法的非线性表述能力;

第三步:在面板数据容量有限的条件下,保证学习的泛化性能,给出所拟算法的泛化理论界,分析所拟算法的理论界,在相关应用领域数据集上实验验证所拟方法,并与相关算法在学习性能、算法稳定性、计算成本等方面进行比较;

第四步:研究复杂面板数据白噪声过滤理论与方法,保证学习模型的鲁棒性,所得理论成果与相应算法应用于经济、管理、生物、心理、健康科学等具体领域,系统化研究成果,力争开发具体工具,实现成果转化。

综上所述,本发明提出的基于大数据的复杂面板数据学习方法,动态策略能剔除选定的任何支撑数据及其冗余信息,同时保留数据递增带来的信息增量;向量融合技术则用来逼近原学习问题的最优解,从理论与实践两方面保证学习性能,采用动态向量融合技术,计算性能稳健,单步计算成本低廉,时间序列与横截面高维的复杂面板数据问题,采用线性学习模式,实现其双向上数据容量同时得到控制的在线核学习,其思想本身就具有一定的新颖度,提出面板数据学习的新的滤波方法,构造基于hash编码或随机投影的在线核学习算法,以hash编码或随机投影方法,合并某些维度上的信息,在此基础上引入核方法,提升所拟算法的非线性表述能力。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。



技术特征:

技术总结
本发明公开了一种基于大数据的复杂面板数据学习方法,充分利用新增时间序列所含信息增量的同时,控制时间序列数据容量,从而控制计算成本和计算机存储容量;充分利用横截面数据所含维度信息的同时,控制支撑维度容量,从而将计算成本与存储容量控制在计算资源许可范围之内;在面板数据容量有限的条件下,保证学习的泛化性能,给出所拟算法的泛化理论界;研究复杂面板数据白噪声过滤理论与方法,保证学习模型的鲁棒性,采用动态向量融合技术,计算性能稳健,时间序列与横截面高维的复杂面板数据问题,采用线性学习模式,实现其双向数据容量同时得到控制的在线核学习。

技术研发人员:蒋辉;刘波;蒋思阳
受保护的技术使用者:惠州学院
技术研发日:2018.04.17
技术公布日:2018.09.28
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1