基于机器学习的择时入股方法及终端设备与流程

文档序号:13935129
基于机器学习的择时入股方法及终端设备与流程

本发明属于计算机技术领域,尤其涉及基于机器学习的择时入股方法及终端设备。



背景技术:

股票的价格都是实时波动的,在股票交易过程中,往往是基于人的主观决策或者是在股票价格下跌时来做出选股及购买行为,这样的选股行为并非是基于对股票后续价格走势的预测来做出的,因此可能存在较大的投资风险。为了构建并采取适当的投资组合策略,以实现一种较为稳健的理性投资方式,机器学习技术在证券投资领域的应用,尤其是在投资组合的选择与入市时机的确定方面的应用,已受到了研究人员的广泛关注,其基于对股票价格波动的预测来进行选股及择时入股,已被应用于股票购买行为的决策过程中。

然而,上述技术仅仅是从机器学习的角度出发来进行选股及择时入股预测的,其预测过程并未充分考虑金融市场的行为特点,导致预测结果与股票后续的实际价格走势存在较大偏差。



技术实现要素:

有鉴于此,本发明实施例提供了基于机器学习的择时入股方法及终端设备,以解决现有的基于机器学习的预测模型的计算过程并未充分考虑金融市场的行为特点,导致选股及择时入股的预测结果与股票后续的实际价格走势存在较大偏差的问题。

本发明实施例的第一方面提供了一种基于机器学习的择时入股方法,包括:

将各支股票的预设指标数据输入预设的选股模型,输出股票组合;

分别获取所述股票组合中各支股票的特征数据,所述股票的特征数据包括所述股票的股市交易数据或所述股票的技术指标数据;

对长短期记忆网络进行预训练,并将所述股票组合中各支股票的特征数据输入至完成预训练的所述长短期记忆网络,输出关于所述股票组合中各支股票的价格预测结果,以使用户根据所述价格预测结果确定择时入股策略。

本发明实施例的第二方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:

将各支股票的预设指标数据输入预设的选股模型,输出股票组合;

分别获取所述股票组合中各支股票的特征数据,所述股票的特征数据包括所述股票的股市交易数据或所述股票的技术指标数据;

对长短期记忆网络进行预训练,并将所述股票组合中各支股票的特征数据输入至完成预训练的所述长短期记忆网络,输出关于所述股票组合中各支股票的价格预测结果,以使用户根据所述价格预测结果确定择时入股策略。

本发明实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述处理器执行所述计算机程序时实现如本方明实施例的第一方面提供的方法的步骤。

本发明实施例中,基于各支股票的预设指标数据来筛选出适宜投资的股票组合,再基于多种影响股份波动的数据源来提取出股票组合中各支股票的特征数据,以通过长短期记忆网络计算得到这些股票的价格预测结果,整个预测过程充分考虑了金融市场的行为特点,有效地减少了预测结果与股票后续的实际价格走势之间的偏差。由此一来,用户可以更为合理地基于该价格预测结果进行选股及择时入股的投资行为,有效降低了用户的投资风险。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于机器学习的择时入股方法的实现流程图;

图2是本发明实施例提供的基于机器学习的择时入股方法S101的具体实现流程图;

图3是本发明实施例提供的对股票相关的社交媒体数据的获取过程的示意图;

图4是本发明实施例提供的对股票相关的新闻数据的获取过程的示意图;

图5是本发明实施例提供的基于机器学习的择时入股方法S103的具体实现流程图;

图6是本发明实施例提供的LSTM一个简易记忆细胞的运算图;

图7是本发明实施例提供的基于机器学习的择时入股装置的结构框图;

图8是本发明实施例提供的终端设备的示意图。

具体实施方式

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。

图1示出了本发明实施例提供的基于机器学习的择时入股方法的实现流程,详述如下:

S101:将各支股票的预设指标数据输入预设的选股模型,输出股票组合。

在本发明实施例中,股票的预设指标数据可以为从上市公司三大财务报表中提取出的数据,包括但不限于估值指标、财务指标、规模指标、成长指标和技术指标等。其中,每类指标都是多个同类指标数据的集合。具体来讲,估值指标包括市盈率、市净率和市现率等;财务指标包括股东权益报酬率、资产报酬率和速动比率等;规模指标包括最小市值和收益市值比率等;成长指标包括总成资产同比增长、净资产增长率、营业利润同比增长和净资产同比增长等;技术指标包括60天的平均成交量、相对强弱指标和波动率等。需要说明的是,为了方便将预设指标数据输入选股模型中进行计算,在对预设指标数据抽取完成之后,需要对每类指标中的每维指标数值进行标准化处理。在本发明实施例中,可以采用标准化公式来进行标准化处理,其中,Z(Xt)是标准化后的指标数值,X为指标序列的均值,σ为指标序列的标准差。

传统的多因子选股模型计算出每种因子贡献度,并据此,根据多因子综合评分,最终选出合适的选股因子;而本发明实施例中,采用机器学习的思路,将各类预设指标数据作为各个因子,选股模型的预测目标与既定时间段内的总收益相关。在此,将总收益划分为两类,且这两类总收益之间的收益差距较大。在上述预测目标的基础之上,计算出每种因子(即每类各类预设指标数据)的重要性,将重要性作为选股的依据。在本发明实施例中,可采用的机器学习算法包括逻辑回归、支持向量机和神经网络等。优选地,可以将支持向量机作为机器学习算法。

由于采用的是机器学习算法,因此,选股模型不仅仅是简单地基于计量经济学与统计学的方法来计算出每种因子的贡献度,而是将各个因子看成是不同的预设指标数据,即上一步所提取的估值指标、财务指标、规模指标、成长指标和技术指标等,以选择适合投资的股票集合。

图2对S101的一种具体实现方式进行详细阐述:

S201:将预设年度全年收益排名在前M位的M支股票设置为第一类,将预设年度全年收益排名在后N位的N支股票设置为第二类,对初始的选股模型进行训练,以得到预设的选股模型。

通常来说,用于进行选股模型训练的为已知收益的股票,例如,可以将当前年度的上一年度的股票的全年收益用于进行选股模型的训练。如上文所述,根据全年收益的高低,将股票分为两类,第一类的股票其全年收益排名在前M位,第二类的股票其全年收益排名在后N位,并通过合理设置M和N的取值,拉大第一类股票与第二类投票在全年收益上的差距,以便于训练出合适的选股模型。

S202:基于决策树算法,选取对预设年度全年收益贡献度最大的P类预设指标数据。

针对上文中提及的若干类预设指标,其每一类预设指标均由若干的同类指标数据构成,在此,通过决策树算法,从所有类别的预设指标中选取出对全年收益贡献度最大的若干类预设指标,用以作为选股依据。

S203:将各支股票的上述P类预设指标数据分别输入预设的选股模型,计算各支股票在上述P类预设指标数据上的综合得分。

对于筛选出的P类预设指标数据,分别获取到各支股票的这P类预设指标数据,并针对每一支股票,分别将其对应的这P类预设指标数据输入至预设的选股模型,以分别输出各支股票在这P类预设指标数据上的综合得分。

S204:将所述综合得分排在前Q位的股票输出为所述股票组合。

其中,上述M、N、P和Q均为正整数。

例如,将2016年沪深300指数的所有成分股拉入候选股票池,基于上述成分股的全年收益,将排名在前60的全年收益作为一类,将排名在后60的全年收益作为另一类,并将这300支股票中2016年全年收益排名在前60的60支股票标记为1,将全年收益排名在后60的60支股票标记为0,将这120支股票的各类指标数据作为各个因子,进行训练,再基于决策树算法,选出前三个贡献最大的指标特征数据,以作为三个因子;然后,分别计算预测月份的第一天各支股票在这三个因子上的得分综合,选出10支得分排名先前的股票,作为选出的投资组合。

S102:分别获取股票组合中各支股票的特征数据,其中,股票的特征数据包括股票的股市交易数据或股票的技术指标数据。

首先,对投资标的特征数据进行获取,在本发明实施例中,投资标的即股票,而股票的特征数据,用于反映股票所属上市公司的估值、规模、成长情况和财务状况等。对于股票的特征数据,其原始数据来源可以包括该股票的股市交易数据,例如股票的开盘价、最低价、最高价、收盘价、交易额或收益率等等,或者,其原始数据来源可以包括该股票的技术指标数据,例如股票的平滑异同平均、累积能量线、布林线、心理线或三重指数平均线等等。上述股市交易数据和技术指标数据均可来源于金融证券类程序,利用此类程序的应用程序编程接口(Application Programming Interface,API)来获取,并且,由于股市交易数据和技术指标数据其原始数据就已经是可量化的数据,因此,可以直接作为股票的特征数据使用,无需进行特征提取。

优选地,除了股市交易数据或技术指标数据以外,股票的特征数据还可以包括与股票相关的社交媒体数据,这部分数据的来源为社交平台、自媒体平台等web 2.0相关的用户生成内容。图3示出了对股票相关的社交媒体数据的获取过程:

S301:采集并存储网络社交平台上的用户生成内容。

具体地,可以采用分布式网络爬虫来采集各网络社交平台相关服务器上的用户生成内容,此类用户生成内容包括但不限于:用户在博客或微博上发布的内容,用户在新闻或图片下发布的评论,用户在论坛上发表的帖子或回复的内容,等等。

S302:提取与检索关键词匹配的用户生成内容,其中,检索关键词包括股票名称或者股票代码。

作为一种具体的实现方式,在进行用户生成内容的匹配与提取操作时,可以将股票的名称或股票代码作为检索关键词,从而抓取到与此类检索关键词匹配的用户生成内容。例如,若用户在微博中发布了关于某支股票的走势预测,那么在其发布内容中势必包含了该股票的股票名称和/或股票代码,因此可以基于该股票的股票名称和/或股票代码来获取到匹配的用户生成内容。此外,进一步地,还可以基于提取出的用户生成内容,统计出与该股票匹配的用户生成内容的数量,发布此类用户生成内容的用户其社交账号的关注人数、该用户的账号注册时间、该用户发布此类用户生成内容的终端类型,等等。

S303:对提取出的用户生成内容进行分析,得到股票的社交媒体数据。

示例性地,基于社交媒体数据所获取到的股票特征数据,可以包括以下几种类型:

1、情感效价(sentimentValence):

情感效价用于反映股票在用户社交平台中的情感倾向。示例性地,可以通过公式计算得到情感效价,其中,P为积极情感的用户生成内容的数量,N为消极情感的用户生成内容的数量。行为金融有研究发现,投资者情绪的波动会引起股票价格的非理性波动,因此,情感效价越趋近于log(1)=0,则代表投资者的情绪波动越小,那么对应股票的价格可能产生的非理性波动也越小;反之,则代表投资者的情绪波动越大,那么对应股票的价格可能产生的非理性波动也越大。

2、关注热度:

关注热度,即反映股票在用户社交平台中的被关注情况。行为金融同时有研究发现,投资者对某支股票的过度关注也会引起股票价格的非理性波动。在本发明实施例中,可以通过用户生成内容的数量来表征,即,与股票相关的用户生成内容的数量越多,则关注热度越高,那么对应股票的价格可能产生的非理性波动也越大;与股票相关的用户生成内容的数量越少,则关注热度越低,那么对应股票的价格可能产生的非理性波动也越小。

3、参与用户影响力:

参与用户影响力,指的是发表与股票相关的用户生成内容的用户,其在社交网络平台甚至整个互联网中的影响力。通常认为,影响力越大的用户,其真实身份更倾向于是股市操纵者,影响力较小的用户,其真实身份更倾向于是业余的股票投资者,由此看来,影响力越大的用户,其言论越容易引起对应股票的价格产生非理性波动;反之,影响力越小的用户,其言论引起对应股票的价格产生非理性波动的可能也越小。示例性地,参与用户影响力可以通过以下方式量化:将该用户在社交网络平台中所关注的账户数、关注该用户的账户数以及该用户所发布的用户生成内容的总数,这三者进行相加或者加权相加,以得到量化的参与用户影响力。

4、参与用户注册时长:

参与用户注册时长可以用发布关于股票的用户生成内容的新用户与老用户的比率来表征,其中,通过设置注册时长阈值,将注册时长低于该阈值的用户归类为新用户,将注册时长高于该阈值的用户归类为老用户,那么可以知道,新用户与老用户的比率越高,所量化出的参与用户注册时长越小,代表发布关于该股票的用户生成内容的用户群体越资浅,其言论引起对应股票的价格产生非理性波动的可能也越小;反之,新用户与老用户的比率越低,所量化出的参与用户注册时长越大,代表发布关于该股票的用户生成内容的用户群体越资深,其真实身份更倾向于是成熟的股市投资者,其言论越容易引起对应股票的价格产生非理性波动。

5、参与用户发布终端:

参与用户发布终端可以量化为移动终端数量与PC端数量的比率,其中,移动终端数量为通过移动终端发布用户生成内容的数量,PC端数量为通过PC端发布用户生成内容的数量。通常,认为通过PC端发布股市讨论数据的用户,其真实身份更倾向于是成熟的股市投资者,认为通过移动终端发布股市讨论数据的用户,其真实身份更倾向于是不成熟或资历较浅的股市交易者,那么显然,移动终端数量与PC端数量的比率越高,代表发布关于该股票的用户生成内容的用户群体越资浅,其言论引起对应股票的价格产生非理性波动的可能也越小;反之,新用户与老用户的比率越低,代表发布关于该股票的用户生成内容的用户群体越资深,其言论越容易引起对应股票的价格产生非理性波动。

6、用户生成内容平均字数:

在此,认为发布单条股票评论的平均字数较多的多为专业的股票投资者,而发布单条股票评论的平均字数较少的多为非专业的股票投资者。那么显然,用户生成内容平均字数越多,代表参与该股票讨论的用户群体越资深,其言论越容易引起对应股票的价格产生非理性波动;反之,用户生成内容平均字数越少,代表参与该股票讨论的用户群体越资浅,其言论引起对应股票的价格产生非理性波动的可能也越小。

上文中列举了若干种基于社交媒体数据所获取到的股票特征数据,不同的特征数据对应不同的量化方法,因此,通过对提取出的与股票相匹配的用户生成内容进行相关的量化分析,可以得到基于社交媒体数据所获取到的股票特征数据。当特征数据还包括与股票相关的社交媒体数据时,将该特征数据作为模型输入以完成基于机器学习的选股过程,使得该选股过程中加入了用户生成内容对股票价格的影响因子,从而能够更为准确地对股票价格走势进行预测,得到更为精确的预测结果。

优选地,除了股市交易数据或技术指标数据以外,股票的特征数据还可以包括与股票相关的消息数据,这部分数据可来源于各主流的新闻客户端或新闻网站,图4示出了对股票相关的消息数据的获取过程:

S401:采集新闻客户端或新闻网站上的新闻数据并存储。

具体地,可以采用分布式网络爬虫来采集各新闻客户端或新闻网站相关服务器上的新闻数据。优选地,对于新闻客户端或新闻网站上发布的海量数据,可以针对其中的金融版块或者股市版块进行爬虫抓取,以提供此类新闻数据的采集效率。

S402:提取与检索关键词匹配的新闻数据,其中,检索关键词包括与上市公司相关的人名或公司名称。

从新闻客户端或新闻网站上抓取新闻数据,主要目的是为了抓取到与上市公司相关的新闻,而这些新闻实际上也可以从一定层面上反映出该上市股票在未来一段时间的价格波动情况,因此,将上市公司的公司名称,或者该上市公司法人或相关负责人的人名作为检索关键词,从而可以提取出与股票相关的新闻数据。

S403:对提取出的新闻数据进行分析,得到所述股票的消息数据。

示例性地,基于新闻数据所获取到的股票特征数据,可以参照上文中基于社交数据所获取到的股票特征数据的类型,例如,可以为新闻数据中与股票相关的情感效价、关注热度、新闻发布方影响力、新闻数据的长度,等等。不同的特征数据对应不同的量化方法,因此,通过对提取出的与股票相匹配的新闻数据进行相关的量化分析,可以得到基于新闻数据所获取到的股票特征数据。当特征数据还包括与股票相关的新闻数据时,将该特征数据作为模型输入以完成基于机器学习的选股过程,使得该选股过程中加入了上市公司新闻对股票价格的影响因子,从而能够更为准确地对股票价格走势进行预测,得到更为精确的预测结果。

在本发明实施例中,采集到相关数据,并从相关数据中提取出股票的特征数据之前,可以对数据进去噪、补缺等优化处理,以进一步地提高特征数据的获取效率。

在S103中,对长短期记忆网络(Long Short Term Memory networks,LSTM)进行预训练,并将股票组合中各支股票的特征数据输入完成预训练的长短期记忆网络,输出关于股票组合中各支股票的价格预测结果,以使用户根据价格预测结果确定择时入股策略。

在确定了股票组合之后,需要通过预测股价在未来既定时间窗口的走势,来确定出入股操作的时机。比如,以日度为时间窗口,那么预测任务相当于是基于前一天的数据预测后一天的涨跌信号,或基于前一天的数据预测后一天的收盘价。本发明实施例在选股模型选出的投资组合的基础上,综合采用特征抽取步骤,基于深度学习的算法来得到预测效果与预测收益。

在LSTM中,常规的神经元,即一个将S型激活应用于其输入线性组合的单位,被存储单元所代替。每个存储单元是与一个输入门,一个输出门和一个跨越时间步骤无干扰送入自身的内部状态相关联。在本发明实施例中,需要将股票组合中各支股票的特征数据输入至预先训练好的LSTM中。LSTM是一种递归神经网络(recurrent neural network,RNN)的变型,其特点就是在RNN结构以外添加了各层的阀门节点,阀门有3类:遗忘阀门(forget gate),输入阀门(input gate)和输出阀门(output gate)。这些阀门可以打开或关闭,用于将判断LSTM的记忆态在该层输出的结果是否达到阈值从而加入到当前该层的计算中。阀门节点利用sigmoid函数将网络的记忆态作为输入计算;如果输出结果达到阈值则将该阀门输出与当前层的的计算结果相乘作为下一层的输入;如果没有达到阈值则将该输出结果遗忘掉。每一层包括阀门节点的权重都会在每一次模型反向传播训练过程中更新。

LSTM的训练可以通过调整很多参数来优化,例如activation函数,LSTM层数,输入输出的变量维度等。为了最小化训练误差,梯度下降法(Gradient descent),如应用时序性倒传递算法(Backpropagation through time,BPTT),可用来依据错误修改每次的权重。误差梯度随着事件间的时间长度成指数般的消失,当设置了LSTM区块时,误差也随着倒回计算,从输出影响回输入阶段的每一个输入门,直到这个数值被过滤掉。因此正常的倒传递类神经是一个有效训练LSTM区块记住长时间数值的方法。

由于金融市场中各种偶然因素的影响,使得金融数据,特别是金融时间序列中存在着噪声,这些噪声严重影响了对金融数据的分析和处理结果,因此在将S102中获取到的股票组合中各支股票的特征数据输入至LSTM之前,有必要先对这些特征数据进行去噪处理。但是,由于金融时间序列本身具有非平稳、非线性和信噪比高的特点,采用现有的去噪方法往往不合适,因此,作为本发明的一个实施例,采用小波消噪对原始的时间序列进行滤波,利用去噪处理提取并分离时间序列的各种隐周期和非线性,把小波分解序列的特征和分解数据随尺度倍增而倍减的规律充分用于LSTM神经网络模型的计算过程。

如图5所示,S103的具体实现如下:

S1031:将所述股票组合中各支股票的特征数据分别进行去噪处理。

S1032:将去噪处理后的所述股票组合中各支股票的特征数据输入至完成预训练的长短期记忆网络,输出关于所述股票组合中各支股票的价格预测结果。

具体地,本发明实施例采用Haar函数作为小波基函数,不仅可以有效地将时间序列分解成时域与频域,而且可以显著地减少处理时间,以减少数据在LSTM的处理时间。在本发明实施例中,以时间t为变量的连续小波变换的小波函数定义为:

其中,a为变换系数,τ为转换因子,φ(t)是一种服从小波可允许条件的基准小波。小波可允许条件定义为:

其中,Φ(ω)是频率ω的函数,也是φ(t)的傅里叶变换。如果将x(t)定义为平方可积函数(x(t)∈L2(R)),那么,带有小波φ的连续小波变换可以定义为:

其中,是φ(t)的复共轭函数,此时,小波变换的逆变换可以定义为:

上述的连续小波变换由于其小波基不是正交的,通过它们对信号变换后的信息是有冗余的,因此,在本发明实施例中,通过Mallat算法,即一种在正交小波基上的信号分解算法,来构建正交小波基。该算法在过滤时间序列的过程中使用高通滤波器和低通滤波器作为离散小波变换的实现,具体地,通过父小波描述时间序列的低频成分,通过母小波ψ(t)描述时间序列的高频成分。

父小波和母小波ψ(t)分别为积分到1和0,定义如下:

∫ψ(t)dt=0

在j水平上的母小波和父小波可以分别转化为:

带有多级索引分析k∈{0,1,2,…}和j∈{0,1,2,…J}的父小波及母小波可以重新构造金融时间序列。正交小波级数逼近时间序列x(t)公式定义为:

其中,对扩展系数sJ,k和dJ,k给定公式如下:

dj,k=∫ψj,kx(t)dt

给定多尺度的时间序列x(t)的近似为:

因此,简化的正交小波级数逼近的形式可以表示为:

x(t)=SJ(t)+DJ(t)+DJ-1(t)+…+D1(t)

其中,SJ(t)是输入的时间序列x(t)最粗糙的近似,x(t)的多分辨率分解是序列{SJ(t),DJ(t),DJ-1(t),…,D1(t)}。在金融时间序列很粗糙的情况下,离散小波变换的可重复应用可以减少过程中的风险。

在对股票组合中各支股票的特征数据进行去噪处理之后,将特征数据输入至LSTM,输出关于所述股票组合中各支股票的价格预测结果。在LSTM中,每个神经元是一个记忆细胞,细胞里面有一个输入门(input gate),一个遗忘门(forget gate)和一个输出门(output gate),LSTM模型的关键之一就在于其中的遗忘门,其能够控制训练时候梯度在这里的收敛性,同时也能够保持长期的记忆性。图6示出了LSTM一个简易记忆细胞的运算图。结合图6来看,一个简易记忆细胞在运算时所涉及的主要数学符号如下:

1、xt为t时刻记忆细胞里的输入向量;

2、Wi,Wf,Wc,Wo,Ui,Uf,Uc,Uo和Vo均为网络权重方阵;

3、bi,bf,bc和bo为网络偏差向量;

4、ht为记忆细胞t时刻的值;

5、it(即图6所示的输入门)和分别为t时刻记忆细胞输入门与候选状态的计算公式:

it=σ(Wixt+Uiht-1+bi);

6、ft(即图6所示的遗忘门)和Ct分别为t时刻记忆细胞遗忘门与候选状态各自的计算公式:

ft=σ(Wfxt+Ufht-1+bf)

7、ot(即图6所示的输出门)和ht分别为t时刻记忆细胞输出门与记忆细胞各自的计算公式:

ot=σ(Woxt+Uoht-1+VoCt+bo)

ht=ot*tanh(Ct)

本发明实施例中,基于各支股票的预设指标数据来筛选出适宜投资的股票组合,再基于多种影响股份波动的数据源来提取出股票组合中各支股票的特征数据,以通过长短期记忆网络计算得到这些股票的价格预测结果,整个预测过程充分考虑了金融市场的行为特点,有效地减少了预测结果与股票后续的实际价格走势之间的偏差。由此一来,用户可以更为合理地基于该价格预测结果进行选股及择时入股的投资行为,有效降低了用户的投资风险。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

对应于上文实施例所述的基于机器学习的择时入股方法,图7示出了本发明实施例提供的基于机器学习的择时入股装置的结构框图,为了便于说明,仅示出了与本发明实施例相关的部分。

参照图7,该装置包括:

选股单元71:将各支股票的预设指标数据输入预设的选股模型,输出股票组合。

获取单元72:分别获取股票组合中各支股票的特征数据,其中,股票的特征数据包括述股票的股市交易数据或股票的技术指标数据。

预测单元73:对长短期记忆网络进行预训练,并将股票组合中各支股票的特征数据输入至完成预训练的长短期记忆网络,输出关于股票组合中各支股票的价格预测结果,以使用户根据价格预测结果确定择时入股策略。

可选地,特征数据还包括与股票相关的社交媒体数据,则获取单元72包括:

第一采集子单元:采集并存储网络社交平台上的用户生成内容。

第一提取子单元:提取与检索关键词匹配的用户生成内容,其中,检索关键词包括股票组合中各支股票的股票名称或者股票代码。

第一分析子单元:对提取出的用户生成内容进行分析,分别得到股票组合中各支股票的特征数据。

可选地,特征数据的还包括与股票相关的消息数据,则获取单元72包括:

第一采集子单元:采集新闻客户端或新闻网站上的新闻数据并存储。

第一提取子单元:提取与检索关键词匹配的新闻数据,其中,检索关键词包括股票组合中各支股票对应的上市公司相关的人名或公司名称。

第一分析子单元:对提取出的新闻数据进行分析,得到股票组合中各支股票的消息数据。

可选地,选股单元71包括:

训练子单元:将预设年度全年收益排名在前M位的M支股票设置为第一类,将预设年度全年收益排名在后N位的N支股票设置为第二类,对初始的选股模型进行训练,以得到预设的选股模型;

选取子单元:基于决策树算法,选取对预设年度全年收益贡献度最大的P类预设指标数据;

计算子单元:将各支股票的P类预设指标数据分别输入预设的选股模型,计算各支股票在P类预设指标数据上的综合得分;

第一输出子单元:将综合得分排在前Q位的股票输出为股票组合;

其中,所述M、N、P和Q均为正整数。

可选地,预测单元73包括:

变换子单元:将所述股票组合中各支股票的特征数据分别进行去噪处理;

第二输出子单元:将去噪处理后的所述股票组合中各支股票的特征数据输入至完成预训练的长短期记忆网络,输出关于所述股票组合中各支股票的价格预测结果。

图8是本发明一实施例提供的终端设备的示意图。如图8所示,该实施例的终端设备8包括:处理器80、存储器81以及存储在存储器81中并可在处理器80上运行的计算机程序82,例如发票的票面内容处理程序。处理器80执行计算机程序82时实现上述各个发票的票面内容处理方法实施例中的步骤,例如图1所示的步骤101至103。或者,处理器80执行计算机程序82时实现上述各装置实施例中各单元的功能,例如图7所示模块71至73的功能。

示例性的,计算机程序82可以被分割成一个或多个单元,一个或者多个单元被存储在存储器81中,并由处理器80执行,以完成本发明。一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序82在所述终端设备8中的执行过程。例如,计算机程序82可以被分割成选股单元、获取单元、预测单元,各单元具体功能如下:

选股单元:将各支股票的预设指标数据输入预设的选股模型,输出股票组合。

获取单元:分别获取股票组合中各支股票的特征数据,其中,股票的特征数据包括述股票的股市交易数据或股票的技术指标数据。

预测单元:对长短期网络进行预训练,并将股票组合中各支股票的特征数据输入至完成预训练的长短期记忆网络,输出关于股票组合中各支股票的价格预测结果,以使用户根据价格预测结果确定择时入股策略。

可选地,特征数据还包括与股票相关的社交媒体数据,则获取单元包括:

第一采集子单元:采集并存储网络社交平台上的用户生成内容。

第一提取子单元:提取与检索关键词匹配的用户生成内容,其中,检索关键词包括股票组合中各支股票的股票名称或者股票代码。

第一分析子单元:对提取出的用户生成内容进行分析,分别得到股票组合中各支股票的社交媒体数据。

可选地,特征数据的还包括与股票相关的消息数据,则获取单元包括:

第一采集子单元:采集新闻客户端或新闻网站上的新闻数据并存储。

第一提取子单元:提取与检索关键词匹配的新闻数据,其中,检索关键词包括股票组合中各支股票对应的上市公司相关的人名或公司名称。

第一分析子单元:对提取出的新闻数据进行分析,得到股票组合中各支股票的消息数据。

可选地,选股单元包括:

训练子单元:将预设年度全年收益排名在前M位的M支股票设置为第一类,将预设年度全年收益排名在后N位的N支股票设置为第二类,对初始的选股模型进行训练,以得到预设的选股模型;

选取子单元:基于决策树算法,选取对预设年度全年收益贡献度最大的P类预设指标数据;

计算子单元:将各支股票的P类预设指标数据分别输入预设的选股模型,计算各支股票在P类预设指标数据上的综合得分;

第一输出子单元:将综合得分排在前Q位的股票输出为股票组合;

其中,所述M、N、P和Q均为正整数。

可选地,预测单元包括:

变换子单元:将所述股票组合中各支股票的特征数据分别进行去噪处理;

第二输出子单元:将去噪处理后的所述股票组合中各支股票的特征数据输入至完成预训练的长短期记忆网络,输出关于所述股票组合中各支股票的价格预测结果。

终端设备8可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。终端设备8可包括,但不仅限于,处理器80、存储器81。本领域技术人员可以理解,图8仅仅是终端设备8的示例,并不构成对终端设备8的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如终端设备8还可以包括输入输出设备、网络接入设备、总线等。

处理器80可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器81可以是终端设备8的内部存储单元,例如终端设备8的硬盘或内存。存储器81也可以是终端设备8的外部存储设备,例如终端设备8上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器81还可以既包括终端设备5的内部存储单元也包括外部存储设备。存储器81用于存储所述计算机程序以及终端设备所需的其他程序和数据。存储器81还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

再多了解一些
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1