基于降维技术优化的循环神经网络的股市数据分析方法与流程

文档序号:19996018发布日期:2020-02-22 02:44阅读:474来源:国知局
基于降维技术优化的循环神经网络的股市数据分析方法与流程

本发明属于金融信息数据处理技术领域,尤其涉及一种基于降维技术优化的循环神经网络的股市数据分析方法。



背景技术:

目前,最接近的现有技术:主成分分析法,在许多领域的研究与应用中,通常需要对含有多个变量的数据进行观测,收集大量数据后进行分析寻找规律。多变量大数据集无疑会为研究和应用提供丰富的信息,但是也在一定程度上增加了数据采集的工作量。更重要的是在很多情形下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性。如果分别对每个指标进行分析,分析往往是孤立的,不能完全利用数据中的信息,因此盲目减少指标会损失很多有用的信息,从而产生错误的结论。因此需要找到一种合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。由于各变量之间存在一定的相关关系,因此可以考虑将关系紧密的变量变成尽可能少的新变量,使这些新变量是两两不相关的,那么就可以用较少的综合指标分别代表存在于各个变量中的各类信息。主成分分析就属于这类降维算法。pca即主成分分析方法,是一种使用最广泛的数据降维算法。pca的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出的k维特征。pca的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推,可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴,大部分方差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎为0。

基于svd分解协方差矩阵实现pca算法:

输入:数据集x={x1,x2,…xn},需要降到k维。

1)去平均值,即每一位特征减去各自的平均值。

2)计算协方差矩阵xxt

3)通过svd计算协方差矩阵的特征值与特征向量。

4)对特征值从大到小排序,选择其中最大的k个。然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。

5)将数据转换到k个特征向量构建的新空间中。

传统的循环神经网络,rnn是一种特殊的神经网络结构,它是根据″人的认知是基于过往的经验和记忆″这一观点提出的;它与dnn,cnn不同的是:它不仅考虑前一时刻的输入,而且赋予了网络对前面的内容的一种“记忆”功能。rnn之所以称为循环神经网路,即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。

综上所述,现有技术存在的问题是:

(1)现有的主成分分析法以及传统的循环神经网络进行预测仅利用其中为数不多的两个或三个,而对于其余指标则进行忽略,导致数据结果不准确。

(2)传统的rnn算法如果利用梯度下降法进行优化,则会出现“梯度消失”或“梯度爆炸”的严重问题,数据的准确率低。



技术实现要素:

针对现有技术存在的问题,本发明提供了一种基于降维技术优化的循环神经网络的股市数据分析方法。

本发明是这样实现的,一种基于降维技术优化的循环神经网络的股市数据分析方法,所述基于降维技术优化的循环神经网络的股市数据分析方法包括以下步骤:

第一步,对数据集分别先取因子分析法对r型因子模型做因子分析,分别取出所述数据集质因子的第一类与第二类;所述数据集中数据按照时间排列,最短15min为单位,5个基本变量分别为open,high,low,close,volume,五个基本变量相互独立,记为x={x1,x2,...xn};若干由5个基本变量导出的导出量,记为y={y1,y2,...yn};

所述r型因子模型如下:

x=af+ε;

式中,a为因子载荷矩阵,f为公共因子,ε为特殊因子,利用主因子估计法计算出因子载荷矩阵,因子估计法描述如下:

随机向量x的协方差矩阵为∑,λ1≥λ2≥...≥λp>0为∑的特征根,u1,u2,...,up为对应的标准正交化特征向量,∑的谱分解为:

因子载荷aij表示xi依赖fj的程度,其值越大,依赖程度越大;对x,y两个数据集分别先做因子分析,分别取所述因子的第一类与第二类;分别找到两个参变量,并分析这两个参变量随时间变化对股票涨跌的关系;

第二步,找到参变量,并分析参变量随时间变化对股票涨跌的关系;

第三步,把参变量代入lstm模型进行预测,优化后的lstm在每个激励源处加入遗忘门,对先前信息进行筛选;

所述lstm模型包括:

(1)forgetgate:选择忘记过去某些信息:

(2)inputgate:记忆现在的某些信息:

(3)将过去与现在的记忆进行合并:

(4)outputgate:输出:

ht=ot*tanh(ct);

所述lstm模型的计算如下:

g(t)=φ(wgxx(t)+wghh(t-1)+bg)

i(t)=σ(wixx(t)+wihh(t-1)+bi)

f(t)=σ(wfxx(t)+wfhh(t-1)+bf)

o(t)=σ(woxx(t)+wohh(t-1)+bo)

s(t)=g(t)ei(i)+s(t-1)ef(t)

h(t)=s(t)eo(t)

进一步,所述第一步之前还进行:

从resset金融研究数据库、wind资讯数据库以及从股市数据集中获取过去一段时间的源数据,并将源数据转化为按照时间排列的标准化数据集。

进一步,第二步,所述分析参变量随时间变化对股票涨跌关系的方法包括:

步骤一,建立参变量随时间变化对股票涨跌关系信息数据库,对参变量随时间变化对股票涨跌关系信息进行永久存贮,并允许联网后由业务库和手机app访问;

步骤二,建立维度设置;所述维度设置包括但不限于设计时间、区域、股票涨跌、监测对象、监测类型关键业务维度;

步骤三,建立事实库数据结构及关键性指标;实现从业务库抽取数据功能;

步骤四,建立股票涨跌监测数据多维分析集模型,包括业务维度、事实库以及数据从业务库到事实库的转发;

步骤五,多维分析集数据浏览:依据建立的多维分析集自主选择维度,组合各种特定的统计报表;按照股票涨跌监测模式的数据结构处理多维数据仓库,将监测数据按照不同参变量形成汇总表;将数据组织成一个数据空间;

步骤六,股票涨跌监测数据和股票涨跌报告数据信息的分析和展示;

步骤七,将软件数据库部署在服务端,软件访问端根据不同使用要求分为录入管理端和统计分析端。

进一步,步骤六中,所述通过对监测信息和股票涨跌信息的自主选择分组维度,进行数据汇总及生成特定的统计报表;监测结果按年、月、日、时与同期、上期数据进行横向比较分析以及生成分析图表;

所述生成分析图表的展示实现方法为:通过对股票涨跌监测及股票涨跌信息数据库的数据进行相应参变量的设置,用不同的数据值和区块图颜色渐变展示不同股票涨跌的区块分布特征,最终生成股票涨跌监测信息结果统计分布图。

进一步,第三步,所述lstm模型每个cell的组成如下:

(1)输入节点gc:与rnn中的一样,接受上一个时刻点的隐藏节点的输出以及当前的输入作为输入,然后通过一个tanh的激活函数;

(2)输入门ic:起控制输入信息的作用,门的输入为上一个时刻点的隐藏节点的输出以及当前的输入,激活函数为sigmoid;

(3)内部状态节点sc:输入为被输入门过滤后的当前输入以及前一时间点的内部状态节点输出;

(4)忘记门fc:起控制内部状态信息的作用,门的输入为上一个时刻点的隐藏节点的输出以及当前的输入,激活函数为sigmoid;

(5)输出门oc:起控制输出信息的作用,门的输入为上一个时刻点的隐藏节点的输出以及当前的输入,激活函数为sigmoid。

本发明的另一目的在于提供一种基于降维技术优化的循环神经网络的股市数据分析方法的基于降维技术优化的循环神经网络的股市数据分析系统,所述基于降维技术优化的循环神经网络的股市数据分析系统包括:

数据采集模块:用于从resset金融研究数据库、wind资讯数据库以及从股市数据集中获取过去一段时间的源数据,并将源数据处理为按照时间排列的标准化数据集;

数据预处理模块:用于对得到的数据集进行tushare中的拓展分析,得到金融领域超过30个指标;所述源数据为由交易时间与由开盘价,收盘价,最高价,最低价,成交量相关参数构成的成交数据之间的二维矩阵;

因子分析模块,用于将数据预处理模块得到的二维矩阵进行正交变换,转换为对结果贡献度不同但线性不相关的一组新的特征即主成分分析结果;

参变量获取模块,包括用于建立数据库或变容量多维数组,通过联网的方式实时从金融数据网站下载新时间节点的金融数据,并按照满足对于长线短线的数据集的原则进行数据的训练集分组;

预测模块,用于采取lstm长短期神经网络进行分析预测;

结果输出模块,用于利用显示设备进行相关数据、信息及预测结果的显示。

进一步,所述参变量获取模块包括:

所述参变量获取模块特定股票可选取特定数据集,实现对特定股票的训练,包括数据库、维度设置单元、事实库数据结构及关键性指标构建单元、股票涨跌监测数据多维分析集模型建立单元、多维分析集数据浏览单元、报告信息分析和展示单元、软件访问端;

数据库,用于对参变量随时间变化对股票涨跌关系信息进行永久存贮,并允许联网后由业务库和手机app访问;

维度设置单元,用于设计时间、区域、股票涨跌、监测对象、监测类型关键业务维度;

事实库数据结构及关键性指标构建单元,用于实现从业务库抽取数据功能;

股票涨跌监测数据多维分析集模型建立单元,用于构建业务维度、事实库以及数据从业务库到事实库的转发;

多维分析集数据浏览单元,用于根据建立的多维分析集自主选择维度,组合各种特定的统计报表;按照股票涨跌监测模式的数据结构处理多维数据仓库,将监测数据按照不同参变量形成汇总表;将数据组织成一个数据空间;

报告信息分析和展示单元,用于股票涨跌监测数据和股票涨跌报告数据信息的分析和展示;

软件访问端,用于将软件数据库部署在服务端,根据不同使用要求分为录入管理端和统计分析端。

进一步,所述预测模块具体包括:

lstm长短期神经网络将每个时间节点的特征向量作为输入数据,随着时间的推进,lstm的遗忘门配合激活函数sigmoid的筛选,有选择的将对结果影响力因子大的部分传入下一级输入门,每一个时间节点的数据都会和之前所有的输入数据相结合对总输出有一个影响,随着时间节点的推进,次要信息的遗忘程度和对结果影响会以较大的速率减小,主要信息迭代多轮,对结果产生影响,最终输出与之前所有时间节点的数据均相关,实现了预测。

本发明的另一目的在于提供一种实现所述基于降维技术优化的循环神经网络的股市数据分析方法的信息数据处理终端。

本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的基于降维技术优化的循环神经网络的股市数据分析方法。

综上所述,本发明的优点及积极效果为:本发明对lstm神经网络在金融领域的拓展,成功的把遗忘门的概念应用于股市分析,并提高了精确度;在数据与处理中引入降维算法并进行对比。本发明突出了降维技术的优势以及lstm网络的准确性,使得股市预测比传统的分析方法更加可信;预测可以应用到实际中。

本发明分析参变量随时间变化对股票涨跌关系中,建立参变量随时间变化对股票涨跌关系信息数据库,对参变量随时间变化对股票涨跌关系信息进行永久存贮,并允许联网后由业务库和手机app访问;建立维度设置;建立事实库数据结构及关键性指标;实现从业务库抽取数据功能;建立股票涨跌监测数据多维分析集模型,包括业务维度、事实库以及数据从业务库到事实库的转发;多维分析集数据浏览;股票涨跌监测数据和股票涨跌报告数据信息的分析和展示;将软件数据库部署在服务端,软件访问端根据不同使用要求分为录入管理端和统计分析端。可实现智能显示以及与用户的app进行数据共享。

附图说明

图1是本发明实施例提供的基于降维技术优化的循环神经网络的股市数据分析方法流程图。

图2是本发明实施例提供的分析参变量随时间变化对股票涨跌关系的方法流程图。

图3是本发明实施例提供的基于降维技术优化的循环神经网络的股市数据分析系统结构示意图;

图中:1、数据采集模块;2、数据预处理模块;3、因子分析模块;4、参变量获取模块;5、预测模块;6、结果输出模块。

图4是本发明实施例提供的参变量获取模块示意图;

图中:7、数据库;8、维度设置模块;9、事实库数据结构及关键性指标构建模块;10、股票涨跌监测数据多维分析集模型建立模块;11、多维分析集数据浏览模块;12、报告信息分析和展示模块;13、软件访问端。

图5是本发明实施例提供的预测结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

针对现有技术存在的问题,本发明提供了一种基于降维技术优化的循环神经网络的股市数据分析方法,下面结合附图对本发明作详细的描述。

如图1所示,本发明实施例提供的基于降维技术优化的循环神经网络的股市数据分析方法包括以下步骤:

s101,从resset金融研究数据库、wind资讯数据库以及从股市数据集中获取过去一段时间的源数据,并将源数据转化为按照时间排列的标准化数据集。

s102,对数据集分别先取因子分析法对r型因子模型做因子分析,分别取出所述数据集质因子的第一类与第二类;所述数据集中数据按照时间排列,最短15min为单位,5个基本变量分别为open,high,low,close,volume,五个基本变量相互独立,记为x={x1,x2,...xn};若干由5个基本变量导出的导出量,记为y={y1,y2,...yn}。

所述r型因子模型如下:

x=af+ε;

式中,a为因子载荷矩阵,f为公共因子,ε为特殊因子,利用主因子估计法计算出因子载荷矩阵,因子估计法描述如下:

随机向量x的协方差矩阵为∑,λ1≥λ2≥...≥λp>0为∑的特征根,u1,u2,...,up为对应的标准正交化特征向量,∑的谱分解为:

因子载荷aij表示xi依赖fj的程度,其值越大,依赖程度越大;对x,y两个数据集分别先做因子分析,分别取所述因子的第一类与第二类;分别找到两个参变量,并分析这两个参变量随时间变化对股票涨跌的关系。

s103,找到参变量,并分析参变量随时间变化对股票涨跌的关系。

s104,把参变量代入lstm模型进行预测,优化后的lstm在每个激励源处加入遗忘门,对先前信息进行筛选。

所述lstm模型包括:

(1)forgetgate:选择忘记过去某些信息:

(2)inputgate:记忆现在的某些信息:

(3)将过去与现在的记忆进行合并:

(4)outputgate:输出:

ht=ot*tanh(ct)。

所述lstm模型的计算如下:

g(t)=φ(wgxx(t)+wghh(t-1)+bg)

i(t)=σ(wixx(t)+wihh(t-1)+bi)

f(t)=σ(wfxx(t)+wfhh(t-1)+bf)

o(t)=σ(woxx(t)+wohh(t-1)+bo)

s(t)=g(t)ei(t)+s(t-1)ef(t)

h(t)=s(t)eo(t)

如图2所示,第二步中,本发明实施例提供的分析参变量随时间变化对股票涨跌关系的方法包括:

s201,建立参变量随时间变化对股票涨跌关系信息数据库,对参变量随时间变化对股票涨跌关系信息进行永久存贮,并允许联网后由业务库和手机app访问。

s202,建立维度设置;所述维度设置包括但不限于设计时间、区域、股票涨跌、监测对象、监测类型关键业务维度。

s203,建立事实库数据结构及关键性指标;实现从业务库抽取数据功能。

s204,建立股票涨跌监测数据多维分析集模型,包括业务维度、事实库以及数据从业务库到事实库的转发。

s205,多维分析集数据浏览:依据建立的多维分析集自主选择维度,组合各种特定的统计报表;按照股票涨跌监测模式的数据结构处理多维数据仓库,将监测数据按照不同参变量形成汇总表;将数据组织成一个数据空间。

s206,股票涨跌监测数据和股票涨跌报告数据信息的分析和展示。

s207,将软件数据库部署在服务端,软件访问端根据不同使用要求分为录入管理端和统计分析端。

步骤s206中,本发明实施例提供的通过对监测信息和股票涨跌信息的自主选择分组维度,进行数据汇总及生成特定的统计报表;监测结果按年、月、日、时与同期、上期数据进行横向比较分析以及生成分析图表。

所述生成分析图表的展示实现方法为:通过对股票涨跌监测及股票涨跌信息数据库的数据进行相应参变量的设置,用不同的数据值和区块图颜色渐变展示不同股票涨跌的区块分布特征,最终生成股票涨跌监测信息结果统计分布图。

第三步中,本发明实施例提供的lstm模型每个cell的组成如下:

(1)输入节点gc:与rnn中的一样,接受上一个时刻点的隐藏节点的输出以及当前的输入作为输入,然后通过一个tanh的激活函数。

(2)输入门ic:起控制输入信息的作用,门的输入为上一个时刻点的隐藏节点的输出以及当前的输入,激活函数为sigmoid。

(3)内部状态节点sc:输入为被输入门过滤后的当前输入以及前一时间点的内部状态节点输出。

(4)忘记门fc:起控制内部状态信息的作用,门的输入为上一个时刻点的隐藏节点的输出以及当前的输入,激活函数为sigmoid。

(5)输出门oc:起控制输出信息的作用,门的输入为上一个时刻点的隐藏节点的输出以及当前的输入,激活函数为sigmoid。

如图3所示,本发明实施例提供的基于降维技术优化的循环神经网络的股市数据分析系统包括:

数据采集模块1:用于从resset金融研究数据库、wind资讯数据库以及从股市数据集中获取过去一段时间的源数据,并将源数据处理为按照时间排列的标准化数据集。

数据预处理模块2:用于对得到的数据集进行tushare中的拓展分析,得到金融领域超过30个指标;所述源数据为由交易时间与由开盘价,收盘价,最高价,最低价,成交量相关参数构成的成交数据之间的二维矩阵。

因子分析模块3:用于将数据预处理模块得到的二维矩阵进行正交变换,转换为对结果贡献度不同但线性不相关的一组新的特征即主成分分析结果。

参变量获取模块4:包括用于建立数据库或变容量多维数组,通过联网的方式实时从金融数据网站下载新时间节点的金融数据,并按照满足对于长线短线的数据集的原则进行数据的训练集分组。

预测模块5:用于采取lstm长短期神经网络进行分析预测。

结果输出模块6:用于利用显示设备进行相关数据、信息及预测结果的显示。

如图4所示,本发明实施例提供的参变量获取模块4包括:

所述参变量获取模块4特定股票可选取特定数据集,实现对特定股票的训练,包括数据库7、维度设置单元8、事实库数据结构及关键性指标构建单元9、股票涨跌监测数据多维分析集模型建立单元10、多维分析集数据浏览单元11、报告信息分析和展示单元12、软件访问端13。

数据库7,用于对参变量随时间变化对股票涨跌关系信息进行永久存贮,并允许联网后由业务库和手机app访问。

维度设置单元8,用于设计时间、区域、股票涨跌、监测对象、监测类型关键业务维度。

事实库数据结构及关键性指标构建单元9,用于实现从业务库抽取数据功能。

股票涨跌监测数据多维分析集模型建立单元10,用于构建业务维度、事实库以及数据从业务库到事实库的转发。

多维分析集数据浏览单元11,用于根据建立的多维分析集自主选择维度,组合各种特定的统计报表;按照股票涨跌监测模式的数据结构处理多维数据仓库,将监测数据按照不同参变量形成汇总表;将数据组织成一个数据空间。

报告信息分析和展示单元12,用于股票涨跌监测数据和股票涨跌报告数据信息的分析和展示。

软件访问端13,用于将软件数据库部署在服务端,根据不同使用要求分为录入管理端和统计分析端。

本发明实施例提供的预测模块5具体包括:

lstm长短期神经网络将每个时间节点的特征向量作为输入数据,随着时间的推进,lstm的遗忘门配合激活函数sigmoid的筛选,有选择的将对结果影响力因子大的部分传入下一级输入门,每一个时间节点的数据都会和之前所有的输入数据相结合对总输出有一个影响,随着时间节点的推进,次要信息的遗忘程度和对结果影响会以较大的速率减小,主要信息迭代多轮,对结果产生影响,最终输出与之前所有时间节点的数据均相关,实现了预测。

下面结合具体实施例对本发明的技术方案作进一步的描述。

本发明的实施例在网络上搜索了可供使用的数据集。tushare新浪财经与极宽量化提供了tick数据集以及日线数据可供使用。数据集中数据按照时间排列,最短15min为单位。5个基本变量分别为open,high,low,close,volume。这五个基本变量相互独立,为影响股票走向的关键因素。记为x={x1,x2,...xn}。除此之外,还有若干由这5个基本变量导出的导出量,记为y=[y1,y2,...yn}。由于y参变量与x中参变量不是相互独立的,故不能直接利用降维方法。所以,本发明将这两个数据集分开讨论。同时,为了回避主成分分析法的弊端,本发明采取因子分析法进行分析。因子分析也是一种降维、简化数据的技术。通过研究众多变量之间的内部依赖关系,使用少数几个“抽象”的变量表示其基本的数据结构。这几个抽象的变量被称作“因子”,能反映原众多变量的主要信息。原始的变量是可观测的显在变量,而因子一般是不可观测的潜在变量。

r型因子模型如下:

x=af+ε。

式中,a为因子载荷矩阵,f为公共因子,ε为特殊因子。本发明利用主因子估计法计算出因子载荷矩阵,因子估计法描述如下:

设随机向量x的协方差矩阵为∑,λ1≥λ2≥...≥λp>0为∑的特征根,u1,u2,...,up为对应的标准正交化特征向量,∑的谱分解为:

因子载荷aij表示xi依赖fj的程度,其值越大,依赖程度越大。本发明对x,y两个数据集分别先做因子分析,分别取出其质因子的第一类与第二类。

本发明就分别找到了两个参变量,并分析这两个参变量随时间变化对股票涨跌的关系。

本发明把找到的这两个参变量代入lstm模型进行预测。优化后的lstm在每个激励源处加入了遗忘门,更好地对先前信息进行筛选,由于这种记忆性而适用于股票这种与时间序列联系密切。

lstm工作原理:

1.forgetgate:选择忘记过去某些信息

2.inputgate:记忆现在的某些信息

3.将过去与现在的记忆进行合并:

4.outputgate:输出:

ht=ot*tanh(ct)。

lstm模型推导,每个cell的组成如下:

(1)输入节点(gc):与rnn中的一样,接受上一个时刻点的隐藏节点的输出以及当前的输入作为输入,然后通过一个tanh的激活函数。

(2)输入门(ic):起控制输入信息的作用,门的输入为上一个时刻点的隐藏节点的输出以及当前的输入,激活函数为sigmoid(原因为sigmoid的输出为0-1之间,将输入门的输出与输入节点的输出相乘可以起控制信息量的作用)。

(3)内部状态节点(sc):输入为被输入门过滤后的当前输入以及前一时间点的内部状态节点输出。

(4)忘记门(fc):起控制内部状态信息的作用,门的输入为上一个时刻点的隐藏节点的输出以及当前的输入,激活函数为sigmoid(原因为sigmoid的输出为0-1之间,将内部状态节点的输出与忘记门的输出相乘可以起控制信息量的作用)。

(5)输出门(oc):起控制输出信息的作用,门的输入为上一个时刻点的隐藏节点的输出以及当前的输入,激活函数为sigmoid(原因为sigmoid的输出为0-1之间,将输出门的输出与内部状态节点的输出相乘可以起控制信息量的作用)。

lstm层的计算可以表示如下:

g(t)=φ(wgxx(t)+wghh(t-1)+bg)

i(t)=σ(wixx(t)+wihh(t-1)+bi)

f(t)=σ(wfxx(t)+wfhh(t-1)+bf)

o(t)=σ(woxx(t)+wohh(t-1)+bo)

s(t)=g(t)ei(t)+s(t-1)ef(t)

h(t)=s(t)eo(t)

图5是本发明实施例提供的预测结果示意。

下面结合测试对本发明的技术效果作详细的描述。

本发明通过对a股某股票在某时间段内的分析,得到预测如图4所示。本发明的预测方法突出了降维技术的优势以及lstm网络的准确性,使得股市预测比传统的分析方法更加可信,可以应用到实际中。

本发明的工作原理如下:

首先,因子分析模块从股市数据集中获取过去一段时间(实时更替)的源数据,实为由交易时间与成交数据(开盘价,收盘价,最高价,最低价,成交量)之间的二维矩阵,对得到的数据进行tushare中的拓展分析,得到金融领域超过30个指标,通过对矩阵的正交变换,转换为对结果贡献度不同但线性不相关的一组新的特征,称为主成分分析的结果,以上称为因子分析模块,即对数据进行的预处理;其次,参变量获取模块建立数据库或变容量多维数组,通过联网的方式实时从金融数据网站下载新时间节点的金融数据,并进行数据的训练集分组,来满足对于长线短线的数据集进行区分。通过其他可视化途径可以查看数据集内容;最后预测模块采取lstm长短期神经网络进行分析,按照上述原理将每个时间节点的特征向量作为输入数据,随着时间的推进,lstm的遗忘门配合激活函数sigmoid的筛选,会有选择的将对结果影响力因子大的部分传入下一级输入门,如此往复,每一个时间节点的数据都会和之前所有的输入数据相结合对总输出有一个影响,随着时间节点的推进,次要信息的遗忘程度和对结果影响会以较大的速率减小,而主要信息会迭代多轮,以对结果产生影响,最终输出与之前所有时间节点的数据均相关,实现了预测。

同时其他可视化和交互模块包括维度设置模块,事实库数据结构及关键性指标构建模块和多维分析集数据浏览模块,通过建立app实现用户对特定股票的训练,特定股票选取特定数据集,建立了参变量获取模块中的数据集与用户需求之间的联系,方便对预测结果的查看。

应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、cd或dvd-rom的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1