一种基于自相关线性近邻分析的股票走势分析方法与流程

文档序号:21821866发布日期:2020-08-11 21:38阅读:489来源:国知局
一种基于自相关线性近邻分析的股票走势分析方法与流程

本发明涉及机器学习和数据挖掘领域,具体为一种基于自相关线性近邻分析的股票走势分析方法。



背景技术:

我国股票市场形成于上世纪九十年代,经历了二十多年的发展,我国的股票市场己然形成一定的规模,但依旧是处于发展初期。股票这一高收益高风险的特征在我国还尤为突出,因为相较于欧美市场,我国证券市场与宏观经济的相关性较弱,波动较大。而且市场参与者不够成熟,羊群效应显著,人们经常会受到多数人影响,而跟从大众的思想或行为。

因此将股票金融做量化分析无疑是较好的选择。本发明利用数据挖掘算法在股票中进行实际应用,并为股票方面提供决策支持。为以后投资人在决策方面提供了科学的算法和方法,并能运用到实际中去。并且影响股价走势的因素太多,无法非常精准的拟合出股价的走势,难免会造成一些经济上的损失。



技术实现要素:

本发明的目的是为了解决现有技术的不足,提供一种基于自相关线性近邻分析的股票走势分析方法,通过文献研究法、定量分析法、定性分析法以及核心的多元线性回归方法,并建立基于自相关线性近邻分析的模型,在多个股价走势的影响因素下,达到曲线拟合精准。

为了实现上述发明目的,本发明采用了以下技术方案:一种基于自相关线性近邻分析的股票走势分析方法,包括以下步骤:步骤1.对影响因素进行分析,具体以下:确定影响股价走势的因素,所述因素包括公司因素和市场因素;

步骤2.获取股票与公司的数据,具体包括以下步骤:步骤(2-1).通过端口爬取深证的所有股票代码;步骤(2-2).提取2010至2020所有的企业股票数据,其中包括每家企业每天的股票交易数据;步骤(2-3).在现有数据中,选择相关的数据确定哪些数据与本次数据分析相关的数据,设为data1;步骤(2-4).预设21个潜在因素,具体如下:开盘价x1、最高价x2、营业总成本x3、利润总额x4、成交额x5、涨跌额x6、负债合计x7、应交税费x8、稀释每股收益x9、公司类型x10、盈余公积金x11、成交量x12、未分配利润x13、应付职工薪酬x14、跌涨幅x15、基本每股收益x16、营业利润x17、营业总收入x18、最低价x19、昨收价x20和收盘价x21;

步骤3.对股票数据进行预处理,具体包括以下步骤:步骤(3-1).删去客户代码、代理机构号的冗余字段;步骤(3-2).设定阈值alpha,作为去冗余字段的标准值;步骤(3-3).用value_counts计算出每个字段中,各值的数量n,若n大于等于row的80%,则删除该冗余字段;步骤(3-4).同理删除符合条件的null值和空值;步骤(3-5).利用拉格朗日插值法来填补剩下的异常值,至此异常值处理完毕,得到数据data2;步骤(3-6).提取更主要的特征,在此进行pca降维,得到数据data3;步骤(3-7).设置随机种子seed,利用train_test_split随机抽取80%的data3作为训练数据train,20%的data3作为测试数据test;步骤(3-8).train进入模型训练;

步骤4.建立基于自相关线性近邻分析的模型,具体包括以下步骤:步骤(4-1).选择变量与模型关系的形式;

步骤(4-2).确定回归方程的一般形式:

y=c+αx1+βx2+γx3+δx4+η

其中,y是股票收益,x1是股票增长值增长率,x2是成交额(基本建设投资总额),x3是股票商品价格指数,x4是成交量,η是随机变量,而α、β、γ、δ为股票的β系数;

步骤(4-3).多次调用linearregression以及kneighborsregressor函数,求出β系数;

步骤(4-4).筛选出最大和最小四个变量建立方程组线性优化求出收益的最大值和最优解;

步骤(4-5).对模型权重参数进行序列自相关性检验;

步骤(4-6).检验通过,模型符合正态分布,得出最终的回归方程:

y=-27.76x1-2.15x2-1.94x3-1.47x4-0.31x5-0.23x6-0.14x7-0.02x8-0.02x9+0.01x10+0.02x11+0.10x12+0.09x13+0.11x14+0.15x15+0.73x16+1.13x17+2.12x18+8.97x19+17.17x20+17.22x21

步骤(4-7).绘制股价走势图;

步骤5.模型测试与结论分析;

步骤6.模型评估,生成分析报告。

优选的,在步骤1中,所述因素还包括经济因素、政治因素和产业因素,所述公司因素包括公司的经营状况、财务报表和重要职位的人员变动,所述市场因素包括市场需求以及公司在社会的评价与影响。

优选的,在步骤5中,所述模型测试具体如下:输入测试集中的数据进行测试,测试结果通过模型检验并符合正态分布;所述结论分析具体如下:根据回归方程中不同变量的因素所对应的权重,确定高相关度的因素。

与现有技术相比,采用了上述技术方案的基于自相关线性近邻分析的股票走势分析方法,具有如下有益效果:采用本发明的基于自相关线性近邻分析的股票走势分析方法,建立基于自相关线性近邻分析的模型,并将最后的测试结果通过模型检验,在多个股价走势的影响因素下,达到曲线拟合精准。

附图说明

图1为本发明基于自相关线性近邻分析的股票走势分析方法实施例的流程示意图;

图2为本实施例基于自相关线性近邻分析的股票走势分析方法中模型检测的流程示意图;

图3为本实施例中股票走势拟合的曲线示意图。

具体实施方式

下面结合附图对本发明做进一步描述。

如图1所示为基于自相关线性近邻分析的股票走势分析方法的流程示意图,包括以下步骤:步骤1.对影响因素进行分析,具体以下:确定影响股价走势的因素,影响因素包括公司因素、市场因素、经济因素、政治因素和产业因素,其中,公司因素包括公司的经营状况、财务报表和重要职位的人员变动,所述市场因素包括市场需求以及公司在社会的评价与影响;

步骤2.获取股票与公司的数据,具体包括以下步骤:步骤(2-1).通过端口爬取深证的所有股票代码;步骤(2-2).提取2010至2020所有的企业股票数据,其中包括每家企业每天的股票交易数据;步骤(2-3).在现有数据中,选择相关的数据确定哪些数据与本次数据分析相关的数据,设为data1;步骤(2-4).预设21个潜在因素,具体如下:开盘价x1、最高价x2、营业总成本x3、利润总额x4、成交额x5、涨跌额x6、负债合计x7、应交税费x8、稀释每股收益x9、公司类型x10、盈余公积金x11、成交量x12、未分配利润x13、应付职工薪酬x14、跌涨幅x15、基本每股收益x16、营业利润x17、营业总收入x18、最低价x19、昨收价x20和收盘价x21;

步骤3.对股票数据进行预处理,具体包括以下步骤:步骤(3-1).删去客户代码、代理机构号的冗余字段;步骤(3-2).设定阈值alpha,作为去冗余字段的标准值;步骤(3-3).用value_counts计算出每个字段中,各值的数量n,若n大于等于row的80%,则删除该冗余字段;步骤(3-4).同理删除符合条件的null值和空值;步骤(3-5).利用拉格朗日插值法来填补剩下的异常值,至此异常值处理完毕,得到数据data2;步骤(3-6).提取更主要的特征,在此进行pca降维,得到数据data3;步骤(3-7).设置随机种子seed,利用train_test_split随机抽取80%的data3作为训练数据train,20%的data3作为测试数据test;步骤(3-8).train进入模型训练;

步骤4.建立基于自相关线性近邻分析的模型,具体包括以下步骤:步骤(4-1).选择变量与模型关系的形式;

步骤(4-2).确定回归方程的一般形式:

y=c+αx1+βx2+γx3+δx4+η

其中,y是股票收益,x1是股票增长值增长率,x2是成交额(基本建设投资总额),x3是股票商品价格指数,x4是成交量,η是随机变量,而α、β、γ、δ为股票的β系数;

步骤(4-3).多次调用linearregression以及kneighborsregressor函数,求出β系数;

步骤(4-4).筛选出最大和最小四个变量建立方程组线性优化求出收益的最大值和最优解;

步骤(4-5).对模型权重参数进行序列自相关性检验;

步骤(4-6).检验通过,模型符合正态分布,得出最终的回归方程:

y=-27.76x1-2.15x2-1.94x3-1.47x4-0.31x5-0.23x6-0.14x7-0.02x8-0.02x9+0.01x10+0.02x11+0.10x12+0.09x13+0.11x14+0.15x15+0.73x16+1.13x17+2.12x18+8.97x19+17.17x20+17.22x21

步骤(4-7).绘制股价走势图。

步骤5.模型测试与结论分析,如图3所示为股票走势拟合的曲线示意图,其中模型测试具体如下:输入测试集中的数据进行测试,测试结果通过模型检验并符合正态分布;结论分析具体如下:根据回归方程中不同变量的因素所对应的权重,确定高相关度的因素,经过分析得到以下结论,开盘价、最高价、营业总成本、利润总额、营业利润、营业总收入、最低价、昨收价、收盘价对一个企业的股价影响较高;

步骤6.模型评估,生成分析报告,至此,基于自相关线性近邻分析的股票走势分析方法说明完毕,由于本发明涉及多个变量,表1对各个步骤中的变量进行说明,如表1所示为变量说明表:

表1

以上是本发明的优选实施方式,对于本领域的普通技术人员来说不脱离本发明原理的前提下,还可以做出若干变型和改进,这些也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1