一种预测股价收益率分布的代价函数计算方法与流程

文档序号:17362825发布日期:2019-04-09 22:12阅读:425来源:国知局
一种预测股价收益率分布的代价函数计算方法与流程

本发明涉及股价收益技术领域,具体来说,涉及一种预测股价收益率分布的代价函数计算方法。



背景技术:

股票收益是股票股息和因拥有股票所有权而获得的超出股票实际购买价格的收益。投资者购买股票最关心的是能获得多少收益。具体来说,就是红利和股票市价的升值部分。公司发放红利,大致有三种形式,现金红利,股份红利、财产红利。一般大多数公司都是发放现金股利的,不发放现金红利的主要是那些正在迅速成长的公司,它们为了公司的扩展。需要暂存更多的资金以适应进一步的需要,这种做法常常为投资者所接受。由于股息是股票的名义收益,而股票价格则是经常变化的,因此比较起来,股票持有者对股票价格变动带来的预期收益比对股息更为关心。

股价收益率绝大多数情况下的波动范围都很小,只是少数情况下波动会放大,因此收益率的分布具有很高的峰度,分布极不平衡,在进行回归建模进行股价预测的时候,受到大量小波动率训练样本的影响,导致训练得到的模型预测的结果也缺失波动性。

传统解决不平衡问题的方法主要有上采样和下采样两种,在分类问题中,常用的还有代价敏感损失函数的方法,下采样的方法会丢失大量的信息,上采样的方法也会有大量重复的数据,容易导致过拟合,同时,采样的方法会导致股价预测的样本变得不连续,而不具有时间序列的特征,而分类问题中的解决方法在具有连续数据类型的问题中尚不能直接拿来使用,而是需要将连续数据转化为离散化的数据,然后设计代价敏感损失函数进行建模,股价的收益率具有尖峰肥尾的特征,其分布具有严重的不平衡性,使用机器学习进行股价回归和预测时,预测结果倾向于分布在均值附近,实际波动性较小。

针对相关技术中的问题,目前尚未提出有效的解决方案。



技术实现要素:

针对相关技术中的问题,本发明提出一种预测股价收益率分布的代价函数计算方法,以克服现有相关技术所存在的上述技术问题。

本发明的技术方案是这样实现的:

一种预测股价收益率分布的代价函数计算方法,包括以下步骤:

s101、采集数据:预先采集常规训练数据,其中,因子作为特征信息,收益率作为目标信息;

s103、等分区间:将步骤s101所得目标信息的分布区间,分成n等分,对应分别记为r1,r2,...,rn;

s105、样本采集:将步骤s101所得目标信息对应分配到步骤s103的n等分,并统计n等分中各区间样本的数量,分别记为n1,n2,...,nn;

s107、确定样本:将步骤s105中所得n1,n2,...,nn筛选出最大值nx,代入公式获取样本数字;

s109、定义损失函数的加权均方误差:其中n为样本总数,h(xi)为第i个样本的预测值;

s111、建立机器学习模型:将代价函数设置为wmse,并且评估和训练模块;

s113、筛选模型:调整分组n的数量,重复步骤s101—步骤s111,筛选最优模块,获得模块。

进一步的,步骤所述s109中h(xi)为第i个样本的预测值需满足

进一步的,步骤所述s103中n等分为等距等分或不等距等分。

本发明的有益效果:本发明并不涉及对原始特征的特别处理,仅根据原始数据的分布得到一系列的描述原始数据的统计值,能够尽可能保证原始特征的实际分布,不会因为下采样而丢失数据,也不会因为上采样而导致过拟合,相对于转化为分类的问题,保持了数据的连续性,也保留了更多的原始信息,另外,本发明数据处理和建模过程更为简单,仅需要在初级模型的基础上改变代价函数的配置即可。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种预测股价收益率分布的代价函数计算方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。

根据本发明的实施例,提供了一种预测股价收益率分布的代价函数计算方法。

如图1所示,根据本发明实施例的预测股价收益率分布的代价函数计算方法,包括以下步骤:

s101、采集数据:预先采集常规训练数据,其中,因子作为特征信息,收益率作为目标信息;

s103、等分区间:将步骤s101所得目标信息的分布区间,分成n等分,对应分别记为r1,r2,...,rn;

s105、样本采集:将步骤s101所得目标信息对应分配到步骤s103的n等分,并统计n等分中各区间样本的数量,分别记为n1,n2,...,nn;

s107、确定样本:将步骤s105中所得n1,n2,...,nn筛选出最大值nx,代入公式获取样本数字;

s109、定义损失函数的加权均方误差:其中n为样本总数,h(xi)为第i个样本的预测值;

s111、建立机器学习模型:将代价函数设置为wmse,并且评估和训练模块;

s113、筛选模型:调整分组n的数量,重复步骤s101—步骤s111,筛选最优模块,获得模块。

借助于上述技术方案,本发明并不涉及对原始特征的特别处理,仅根据原始数据的分布得到一系列的描述原始数据的统计值,能够尽可能保证原始特征的实际分布,不会因为下采样而丢失数据,也不会因为上采样而导致过拟合,相对于转化为分类的问题,保持了数据的连续性,也保留了更多的原始信息,另外,本发明数据处理和建模过程更为简单,仅需要在初级模型的基础上改变代价函数的配置即可。

另外,在一个实施例中,步骤所述s109中h(xi)为第i个样本的预测值需满足

另外,在一个实施例中,步骤所述s103中n等分为等距等分或不等距等分。

另外,在一个实施例中,对于上述步骤s103来说,在实际应用中,以n=10为例,即:(-10%,-8%],(-8%,-6%],(-6%,-4%],(-4%,-2%],(-2%,0%],(0%,2%],(2%,4%],(4%,6%],(6%,8%],(8%,10%];对应的r1,r2,...,rn分别记为r1,r2,…,r10。

另外,在一个实施例中,对于上述s109中h(xi)来说,当预测第i个区间中的样本的时候,应当将该区间的误差的权重调整为和样本量最多的区间的所占的权重一致。

另外,在一个实施例中,对收益率的分布进行分组,统计各组内样本的数量,然后计算相对于数量最大的一组的比例,得到改组对应的系数,通常,改系数大于等于1。

综上所述,借助于本发明的上述技术方案,本发明并不涉及对原始特征的特别处理,仅根据原始数据的分布得到一系列的描述原始数据的统计值,能够尽可能保证原始特征的实际分布,不会因为下采样而丢失数据,也不会因为上采样而导致过拟合,相对于转化为分类的问题,保持了数据的连续性,也保留了更多的原始信息,另外,本发明数据处理和建模过程更为简单,仅需要在初级模型的基础上改变代价函数的配置即可。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1