基于舆情因子的投资选股方法、装置及存储介质与流程

文档序号:15762375发布日期:2018-10-26 19:27
基于舆情因子的投资选股方法、装置及存储介质与流程

本发明涉及金融大数据挖掘领域,尤其涉及一种基于舆情因子的投资选股方法、电子装置及计算机可读存储介质。



背景技术:

股票的舆情因子(例如,新闻热度及大众对相应新闻的情绪态度)在一定程度上可以表达为该股票的市场潜在能量,当一只股票的舆情因子异常(例如,当一只股票有重大负面新闻出现或者获得新一轮投资)时,需要即时更改该股票的投资策略。一般都是预先为股票的某个指标设置阈值,然后等权重投资指标满足阈值条件的股票,或者根据专业投资人员市场经验对相应股票设定投资策略。这种方式对做决策投资人员的专业技能要求较高,很容易出错,可能会增加误操作的风险。



技术实现要素:

本发明提供一种基于舆情因子的投资选股方法、电子装置及计算机可读存储介质,其主要目的在于通过计算股票评分,直观地展示舆情因子对股票未来收益的影响,选择评分高的股票作为目标投资股票,减小投资风险、提高投资收益。

为实现上述目的,本发明提供一种基于舆情因子的投资选股方法,该方法包括:

获取预先确定的多只股票在第一预设时间内的舆情因子观测值及第二预设时间内的收益率;

根据所述舆情因子观测值及收益率,计算各舆情因子的第一信息系数;

分别将各舆情因子的第一信息系数输入预先训练好的信息系数预测模型中,预测未来各舆情因子的第二信息系数;

根据各舆情因子观测值及各舆情因子的第二信息系数,分别计算所述多只股票的评分;及

根据评分的高低顺序对所述多只股票进行排序,筛选出排序靠前的第一预设数量的股票,作为目标投资股票。

此外,为实现上述目的,本发明还提供一种电子装置,该电子装置包括:存储器、处理器,所述存储器上存储有基于舆情因子的投资选股程序,所述基于舆情因子的投资选股程序被所述处理器执行时实现如下步骤:

获取预先确定的多只股票在第一预设时间内的舆情因子观测值及第二预设时间内的收益率;

根据所述舆情因子观测值及收益率,计算各舆情因子的第一信息系数;

分别将各舆情因子的第一信息系数输入预先训练好的信息系数预测模型中,预测未来各舆情因子的第二信息系数;

根据各舆情因子观测值及各舆情因子的第二信息系数,分别计算所述多只股票的评分;及

根据评分的高低顺序对所述多只股票进行排序,筛选出排序靠前的第一预设数量的股票,作为目标投资股票。

此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于舆情因子的投资选股程序,所述基于舆情因子的投资选股程序被处理器执行时实现如上所述的基于舆情因子的投资选股方法的步骤。

相较于现有技术,本发明提出的基于舆情因子的投资选股方法、电子装置及计算机可读存储介质,根据股票舆情因子观测值及收益率数据,计算股票各舆情因子的第一信息系数,利用第一信息系数及信息系数预测模型预测第二信息系数,反映各舆情因子对股票未来收益的预测能力;根据第二信息系数对各舆情因子进行赋权,实现了对各舆情因子的动态赋权,提高了各舆情因子的可靠性;根据各舆情因子观测值及相应的权重计算股票评分,选择评分较高的股票作为目标投资股票,提高了股票评分的真实性,直观地展示了舆情因子观测值对股票未来收益的影响,有助于投资者控制风险、提高投资收益。

附图说明

图1为本发明电子装置较佳实施例的示意图;

图2为图1中基于舆情因子的投资选股程序的程序模块图;

图3为本发明基于舆情因子的投资选股方法较佳实施例的流程图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明提供一种电子装置1。参照图1所示,为本发明电子装置1较佳实施例的示意图。

在本实施例中,该电子装置1包括存储器11、处理器12,网络接口13及通信总线14。其中,通信总线14用于实现这些组件之间的连接通信。

网络接口13可以包括标准的有线接口、无线接口(如WI-FI接口)。

存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中,所述可读存储介质可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘。在另一些实施例中,所述可读存储介质也可以是所述电子装置1的外部存储设备,例如所述电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。

在本实施例中,所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的基于舆情因子的投资选股程序10等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行基于舆情因子的投资选股程序10等。

图1仅示出了具有组件11-14以及基于舆情因子的投资选股程序10的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。

可选的,该电子装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。

可选地,该电子装置1还可以包括显示器,在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在电子装置中处理的信息以及用于显示可视化的用户界面。

在图1所示的装置实施例中,作为一种计算机存储介质的存储器11中包括基于舆情因子的投资选股程序10,处理器12执行存储器11中存储的基于舆情因子的投资选股程序10时实现以下步骤:

获取预先确定的多只股票在第一预设时间内的舆情因子观测值及第二预设时间内的收益率;

在本实施例中,股票的舆情因子包括舆情热度因子及舆情情感因子,故各只股票的舆情因子观测值即为第一预设时间内的舆情热度观测值及舆情情感观测值。

假设有预先确定的M只股票,用户可根据需要设置第一预设时间及第二预设时间。可以理解的是,从预先约定的M只股票中选择N只目标股票,作为下一期投资的对象,选股频率可以是每隔一周进行一次,也可以是每隔一个月进行一次,在本实施例中为每隔一周进行一次。假设选股时间为t时刻,相应地,例如,第一预设时间可以设置为t-1时刻(即,选股当期的上一期),第二预设时间可以设置为t时刻(即,选股当期),每两期之间的时间间隔为一周。

需要说明的是,在获取第一预设时间内的各舆情因子观测值及第二预设时间内的收益率时,对于舆情因子观测值而言,不需要通过收集、处理各只股票相关的舆情信息,而是直接从一些网站上手动提取,或者通过程序对外接口直接提取,例如,从通联数据或新浪股吧提取预先确定的M只股票在第一预设时间内的舆情热度观测值及舆情情感观测值。

对于收益率而言,则需要通过计算得到。在本实施例中,M只股票在第二预设时间内对应的收益率为周收益率,在计算周收益率时,采用的是M只股票的以一周为时间间隔的收盘价,具体地,计算公式为:

R=(Pt-Pt-1)/Pt-1

其中,R为股票在t时刻(当期)的周收益率,Pt为股票在t时刻(当期)的收盘价,Pt-1为股票在t-1时刻(上一期)的收盘价。

根据所述舆情因子观测值及收益率,计算各舆情因子的第一信息系数;

为了直观地展示出各舆情因子对股票收益的预测能力,需根据M只股票在第一预设时间内的各舆情因子观测值及第二预设时间内的收益率,计算M只股票的各舆情因子在第二预设时间对应的信息系数(Information Coefficient,IC)。具体地,上述第一信息系数指在t时刻(当期)股票各舆情因子的信息系数。

在本实施例中,将斯皮尔曼相关系数(Rank IC)作为股票的各舆情因子的信息系数。Rank IC,即在某时刻,全部股票在某因子上的排序与下一期全部股票收益的排序之间的截面相关系数,计算公式为:

其中,为t-1时刻(上一期)各股票的舆情因子f的观测值排名,X为t-1时刻(上一期)舆情因子f的观测值;为t时刻(当期)各股票的收益率排名,Y为t时刻(当期)股票的收益率。

利用上述步骤,分别计算M只股的舆情热度因子及舆情情感因子在t时刻(当期)的IC值,即第一IC值。

分别将各舆情因子的第一信息系数输入预先训练好的信息系数预测模型中,预测未来各舆情因子的第二信息系数;

可以理解的是,各舆情因子的IC值能够很好地反映各舆情因子的预测能力,IC值越大,就说表明该因子其在该期对股票收益的预测能力越强。鉴于本发明的目的在于选择下一期的目标股票,则需要了解各舆情因子在下一期对股票收益的预测能力,也就是各舆情因子在下一期的IC值。具体地,上述第二信息系数指股票的各舆情因子在t+1时刻(下一期)的IC值。

在确定M只股票的舆情热度因子及舆情情感因子的第一IC值后,将M只股票的舆情热度因子及舆情情感因子的第一IC值输入预先确定的信息系数预测模型中,预测M只股票的舆情热度因子及舆情情感因子在t+1时刻(下一期)的IC值,即第二IC值。

具体地,假设M只股票的舆情热度因子及舆情情感因子的第一IC值分别为ICAt、ICBt,将其以[ICAt,ICBt]的形式输入信息系数预测模型中,模型输出的结果为[ICA(t+1),ICB(t+1)],其中,ICA(t+1)、ICB(t+1)分别为该M只股票的舆情热度因子及舆情情感因子的第二IC值。

在本实施例中,所述预先确定的信息系数预测模型通过训练神经网络得到。鉴于模型的输入数据只是各舆情因子在某个时刻的IC值,数据形式比较简单,故选用用含有一层隐藏层的三层前馈神经网络进行训练。具体地,该信息系数预测模型的训练步骤包括:

在计算得到预先确定的第二预设数量(例如,3000只)的股票的各舆情因子在第三预设时间(两年)内的每个时刻对应的信息系数后,确定样本数据[IK,IK+1],其中,IK表示各舆情因子在K时刻对应的IC值,IK+1表示各舆情因子在K+1时刻对应的IC值(即,后面提到的实际值)。

具体地,每两个时刻之间的时间间隔可以为一天,也可以为一周。例如,当两个时刻之间的时间间隔为一天时,则样本数据为各舆情因子在每一天的IC值;当两个时刻之间的时间间隔为一周时,则样本数据需要采集的是时间间隔为一周的数据,该数据可以是各舆情因子在连续一周的五个交易日的IC值的平均值,也可以是取连续一周的五个交易日中最后一个交易日的IC值。

基于交叉验证法(cross-validation)将样本数据划分为训练集、评估集和测试集(例如,70%的样本数据作为训练集,10%的样本数据作为评估集,20%的样本数据作为测试集)。

将训练集的样本数据输入至三层前馈神经网络模型,对模型进行训练,初步确定模型参数;所述测试集用于在训练过程中对三层前馈神经网络模型的准确率进行测试,将所述测试集的样本数据输入训练得到的所述三层前馈神经网络模型中,以对训练得到的所述三层前馈神经网络模型进行测试,当训练得到的所述三层前馈神经网络模型满足预设验证条件(例如,模型预测准确率大于或等于小于预设阈值),则训练完成,将训练完成的三层前馈神经网络模型设置为信息系数预测模型。

根据各舆情因子观测值及各舆情因子的第二信息系数,分别计算所述多只股票的评分;

具体地,该步骤可以细化为以下步骤:

根据各舆情因子对应的第二信息系数,分别确定所述M只股票的各舆情因子对应的权重;根据所述舆情因子观测值及各舆情因子所占的权重,分别计算每只股票的评分。

在t时刻,利用信息系数预测模型预测得到M只股票的舆情热度因子、舆情情感因子未来一期的信息系数分别为ICA(t+1)、ICB(t+1)后,需要确定舆情热度因子、舆情情感因子在计算股票评分时分别对应的权重。

在确定各舆情因子对应的权重之前,需判断各舆情因子的因子种类,其中,因子种类包括:正向因子和负向因子。具体地,舆情热度因子为正向因子,表示股票的舆情热度观测值越高,该股票的未来收益会比较高;舆情情感因子既可能是正向因子,又可能是负向因子,需要说明的是,舆情情感观测值的取值范围为[-1,1],舆情情感观测值的绝对值越高,正面(负面)的情感越强烈,当某只股票的舆情情感观测值为负时,对该股票的未来收益存在负面影响,此时,舆情情感因子为负向因子;相反,当某只股票的舆情情感观测值为正时,对该股票的未来收益存在正面影响,此时,舆情情感因子为正向因子。

具体地,对于正向因子,当ICi(t+1)>0时,该因子i对应的第一权重ωi1=ICi(t+1),否则,ωi1=0,表示该因子在未来一期失效;对于负向因子,当ICi(t+1)<0时,该因子i对应的第一权重ωi1=-ICi(t+1),否则,ωi1=0,表示该因子在未来一期失效。

利用上述步骤确定舆情热度因子、舆情情感因子对应的第一权重分别为ωA1、ωB1,为了便于后续计算股票对应的评分,对股票的舆情热度因子及舆情情感因子对应的第一权重进行归一化,根据归一化结果确定股票的两个因子对应的第二权重ωA2、ωB2,作为计算股票评分时两个因子对应的权重ωA、ωB。在本实施例中,ωA、ωB的计算公式为:

ωA=ωA2=ωA1/(ωA1+ωB1)

ωB=ωB2=ωB1/(ωA1+ωB1)

分别获取M只股票的舆情热度观测值XA、舆情情感观测值XB、舆情热度因子A对应的权重ωA及舆情情感因子B对应的权重ωB,根据预设的计算公式,计算M只股票的评分。具体地,股票的评分的计算公式为:

S=Σωi*Xi

其中,i为股票的舆情因子,i={A,B},ωi为股票的舆情因子i对应的权重,ωi={ωA,ωB},Xi为t时刻股票的各舆情因子的观测值,Xi={XA,XB}。

根据评分的高低顺序对所述多只股票进行排序,筛选出排序靠前的第一预设数量的股票,作为目标投资股票。

可以理解的是,利用上述步骤计算得到的股票的评分,在一定程度上可以反映出股票在未来收益的走势,股票的评分越高,其未来收益可能越高。因此,在得到M只股票中的每只股票评分后,按照评分高低顺序对M只股票进行排序,从M只股票中筛选出评分最高的第一预设数量(例如,N只)的股票,作为待投资的目标股票。

在其他实施例中,确定包含待投资的目标股票的投资组合后,还需要分别确定各只目标股票占投资总额的比重,例如,对目标股票进行等权投资,或者,根据目标股票的评分确定相应的比重,评分高的股票对应的比重较大,评分低的股票对应的比重较小),具体操作可根据投资者的实际需求进行设置。最后,根据目标股票及目标股票对应的比重确定最终投资组合。

上述实施例提出的电子装置,根据股票舆情因子观测值及收益率数据,计算股票各舆情因子的第一信息系数,利用第一信息系数及信息系数预测模型预测第二信息系数,反映各舆情因子对股票未来收益的预测能力;根据第二信息系数对各舆情因子进行赋权,实现了对各舆情因子的动态赋权,提高了各舆情因子的可靠性;根据各舆情因子观测值及相应的权重计算股票评分,选择评分较高的股票作为目标投资股票,提高了股票评分的真实性,直观地展示了舆情因子观测值对股票未来收益的影响,有助于投资者控制风险、提高投资收益。

可选地,在其他的实施例中,基于舆情因子的投资选股程序10还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器12所执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。参照图2所示,为图1中基于舆情因子的投资选股程序的程序模块图。在本实施例中,基于舆情因子的投资选股程序10可以被分割为:获取模块110、信息系数计算模块120、预测模块130、评分计算模块140及选股模块150。所述模块110-150所实现的功能或操作步骤均与上文类似,此处不再详述,示例性地,例如其中:

获取模块110,用于获取预先确定的多只股票在第一预设时间内的舆情因子观测值及第二预设时间内的收益率;

信息系数计算模块120,用于根据所述舆情因子观测值及收益率,计算各舆情因子的第一信息系数;

预测模块130,用于分别将各舆情因子的第一信息系数输入预先训练好的信息系数预测模型中,预测未来各舆情因子的第二信息系数;

评分计算模块140,用于根据各舆情因子观测值及各舆情因子的第二信息系数,分别计算所述多只股票的评分;及

选股模块150,用于根据评分的高低顺序对所述多只股票进行排序,筛选出排序靠前的第一预设数量的股票,作为目标投资股票。

此外,本发明还提供一种基于舆情因子的投资选股方法。参照图3所示,为本发明基于舆情因子的投资选股方法较佳实施例的流程图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。

在本实施例中,基于舆情因子的投资选股方法包括:步骤S1-S5。

S1、获取预先确定的多只股票在第一预设时间内的舆情因子观测值及第二预设时间内的收益率;

在本实施例中,股票的舆情因子包括舆情热度因子及舆情情感因子,故各只股票的舆情因子观测值即为第一预设时间内的舆情热度观测值及舆情情感观测值。

假设有预先确定的M只股票,用户可根据需要设置第一预设时间及第二预设时间。可以理解的是,从预先约定的M只股票中选择N只目标股票,作为下一期投资的对象,选股频率可以是每隔一周进行一次,也可以是每隔一个月进行一次,在本实施例中为每隔一周进行一次。假设选股时间为t时刻,相应地,例如,第一预设时间可以设置为t-1时刻(即,选股当期的上一期),第二预设时间可以设置为t时刻(即,选股当期),每两期之间的时间间隔为一周。

需要说明的是,在获取第一预设时间内的各舆情因子观测值及第二预设时间内的收益率时,对于舆情因子观测值而言,不需要通过收集、处理各只股票相关的舆情信息,而是直接从一些网站上手动提取,或者通过程序对外接口直接提取,例如,从通联数据或新浪股吧提取预先确定的M只股票在第一预设时间内的舆情热度观测值及舆情情感观测值。

对于收益率而言,则需要通过计算得到。在本实施例中,M只股票在第二预设时间内对应的收益率为周收益率,在计算周收益率时,采用的是M只股票的以一周为时间间隔的收盘价,具体地,计算公式为:

R=(Pt-Pt-1)/Pt-1

其中,R为股票在t时刻(当期)的周收益率,Pt为股票在t时刻(当期)的收盘价,Pt-1为股票在t-1时刻(上一期)的收盘价。

S2、根据所述舆情因子观测值及收益率,计算各舆情因子的第一信息系数;

为了直观地展示出各舆情因子对股票收益的预测能力,需根据M只股票在第一预设时间内的各舆情因子观测值及第二预设时间内的收益率,计算M只股票的各舆情因子在第二预设时间对应的信息系数(Information Coefficient,IC)。具体地,上述第一信息系数指在t时刻(当期)股票各舆情因子的信息系数。

在本实施例中,将斯皮尔曼相关系数(Rank IC)作为股票的各舆情因子的信息系数。Rank IC,即在某时刻,全部股票在某因子上的排序与下一期全部股票收益的排序之间的截面相关系数,计算公式为:

其中,为t-1时刻(上一期)各股票的舆情因子f的观测值排名,X为t-1时刻(上一期)舆情因子f的观测值;为t时刻(当期)各股票的收益率排名,Y为t时刻(当期)股票的收益率。

利用上述步骤,分别计算M只股的舆情热度因子及舆情情感因子在t时刻(当期)的IC值,即第一IC值。

S3、分别将各舆情因子的第一信息系数输入预先训练好的信息系数预测模型中,预测未来各舆情因子的第二信息系数;

可以理解的是,各舆情因子的IC值能够很好地反映各舆情因子的预测能力,IC值越大,就说表明该因子其在该期对股票收益的预测能力越强。鉴于本发明的目的在于选择下一期的目标股票,则需要了解各舆情因子在下一期对股票收益的预测能力,也就是各舆情因子在下一期的IC值。具体地,上述第二信息系数指股票的各舆情因子在t+1时刻(下一期)的IC值。

在确定M只股票的舆情热度因子及舆情情感因子的第一IC值后,将M只股票的舆情热度因子及舆情情感因子的第一IC值输入预先确定的信息系数预测模型中,预测M只股票的舆情热度因子及舆情情感因子在t+1时刻(下一期)的IC值,即第二IC值。

具体地,假设M只股票的舆情热度因子及舆情情感因子的第一IC值分别为ICAt、ICBt,将其以[ICAt,ICBt]的形式输入信息系数预测模型中,模型输出的结果为[ICA(t+1),ICB(t+1)],其中,ICA(t+1)、ICB(t+1)分别为该M只股票的舆情热度因子及舆情情感因子的第二IC值。

在本实施例中,所述预先确定的信息系数预测模型通过训练神经网络得到。鉴于模型的输入数据只是各舆情因子在某个时刻的IC值,数据形式比较简单,故选用用含有一层隐藏层的三层前馈神经网络进行训练。具体地,该信息系数预测模型的训练步骤包括:

分别采集预先确定的第二预设数量的股票在第三预设时间内各舆情因子在每个时刻的历史观测值、及各只股票在每个时刻的历史收益率,计算各舆情因子在每个时刻对应的信息系数,以获取样本数据;及

将样本数据划分为训练集、评估集和测试集,并利用训练集的样本数据对神经网络进行训练,得到信息系数预测模型,利用测试集的样本数据对信息系数预测模型的准确率进行测试,得到最终的信息系数预测模型。

同理,根据Rank IC的计算公式计算得到预先确定的第二预设数量(例如,3000只)的股票的各舆情因子在第三预设时间(两年)内的每个时刻对应的信息系数后,确定样本数据[IK,IK+1],其中,IK表示各舆情因子在K时刻对应的IC值,IK+1表示各舆情因子在K+1时刻对应的IC值(即,后面提到的实际值)。

具体地,每两个时刻之间的时间间隔可以为一天,也可以为一周。例如,当两个时刻之间的时间间隔为一天时,则样本数据为各舆情因子在每一天的IC值;当两个时刻之间的时间间隔为一周时,则样本数据需要采集的是时间间隔为一周的数据,该数据可以是各舆情因子在连续一周的五个交易日的IC值的平均值,也可以是取连续一周的五个交易日中最后一个交易日的IC值。

基于交叉验证法(cross-validation)将样本数据划分为训练集、评估集和测试集(例如,70%的样本数据作为训练集,10%的样本数据作为评估集,20%的样本数据作为测试集)。

将训练集的样本数据输入至三层前馈神经网络模型,对模型进行训练,初步确定模型参数;所述测试集用于在训练过程中对三层前馈神经网络模型的准确率进行测试,将所述测试集的样本数据输入训练得到的所述三层前馈神经网络模型中,以对训练得到的所述三层前馈神经网络模型进行测试,当训练得到的所述三层前馈神经网络模型满足预设验证条件(例如,模型预测准确率大于或等于小于预设阈值),则训练完成,将训练完成的三层前馈神经网络模型设置为信息系数预测模型。

鉴于反向传播算法(Backpropagation)是目前用来训练人工神经网络(Artificial Neural Network,ANN)的最常用且最有效的算法,因此,本实施例中,基于反向传播法对三层前馈神经网络模型进行训练,具体包括:

将训练集数据输入到模型的输入层,经过隐藏层,最后达到输出层并输出结果;计算模型输出的预测值与样本数据中的实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层;根据误差调整模型参数的值;不断迭代上述过程,直至收敛。

需要说明的是,为了提高模型训练速度,在训练过程中输入数据时,不会每次只输入一个时刻的数据进行训练,而是每次固定输入batch size=k的样本数据进行训练,其中,k的大小可以根据需要设置,在本实施例中可设置为1024。

优选地,在模型训练过程中,为了增加模型的泛化能力和防止过拟合,例如,将K时刻的IC值的实际值输入三层前馈网络模型中,输出K+1时刻的IC值的预测值时,在K+1时刻的IC值的预测值的基础上增加一个随机噪声值(例如,用从标准正态分布的采样值乘以0.01来当作噪声值)。进一步地,在计算K+1时刻的IC值的预测值(含噪声值)与实际值之间的误差时,利用最小二乘法来最小化预测值(含噪声值)与实际值之间的误差。

需要注意的是,上述基于交叉验证法将样本数据划分为训练集、评估集和测试集的步骤可替换为:基于交叉验证法将样本数据划分为训练集和测试集。且训练集、评估集和测试集中样本数据的数量可根据需要设置,并不限于上述例举的方案。

S4、根据各舆情因子观测值及各舆情因子的第二信息系数,分别计算所述多只股票的评分;

具体地,该步骤可以细化为以下步骤:

根据各舆情因子对应的第二信息系数,分别确定所述M只股票的各舆情因子对应的权重;及

根据所述舆情因子观测值及各舆情因子所占的权重,分别计算每只股票的评分。

在t时刻,利用信息系数预测模型预测得到M只股票的舆情热度因子、舆情情感因子未来一期的信息系数分别为ICA(t+1)、ICB(t+1)后,需要确定舆情热度因子、舆情情感因子在计算股票评分时分别对应的权重。

在确定各舆情因子对应的权重之前,需判断各舆情因子的因子种类,其中,因子种类包括:正向因子和负向因子。具体地,舆情热度因子为正向因子,表示股票的舆情热度观测值越高,该股票的未来收益会比较高;舆情情感因子既可能是正向因子,又可能是负向因子,需要说明的是,舆情情感观测值的取值范围为[-1,1],舆情情感观测值的绝对值越高,正面(负面)的情感越强烈,当某只股票的舆情情感观测值为负时,对该股票的未来收益存在负面影响,此时,舆情情感因子为负向因子;相反,当某只股票的舆情情感观测值为正时,对该股票的未来收益存在正面影响,此时,舆情情感因子为正向因子。

具体地,对于正向因子,当ICi(t+1)>0时,该因子i对应的第一权重ωi1=ICi(t+1),否则,ωi1=0,表示该因子在未来一期失效;对于负向因子,当ICi(t+1)<0时,该因子i对应的第一权重ωi1=-ICi(t+1),否则,ωi1=0,表示该因子在未来一期失效。

利用上述步骤确定舆情热度因子、舆情情感因子对应的第一权重分别为ωA1、ωB1,为了便于后续计算股票对应的评分,对股票的舆情热度因子及舆情情感因子对应的第一权重进行归一化,根据归一化结果确定股票的两个因子对应的第二权重ωA2、ωB2,作为计算股票评分时两个因子对应的权重ωA、ωB。在本实施例中,ωA、ωB的计算公式为:

ωA=ωA2=ωA1/(ωA1+ωB1)

ωB=ωB2=ωB1/(ωA1+ωB1)

在其他实施例中,为了防止所有的因子都失效,即所有因子对应的权重均为0的情况,在对各因子的第一权重进行归一化之前,采用smoothing的方法,在每个因子的第一权重的基础上加上ω0,然后再进行归一化处理。此时,ωA、ωB的计算公式为:

ωA=ωA2=(ωA1+ω0)/(ωA1+ωB1+1)

ωB=ωB2=(ωB1+ω0)/(ωA1+ωB1+1)

ω0=1/c

其中,c为因子总数。在本实施例中,考虑的舆情因子只有两个:舆情热度因子及舆情情感因子,故ω0=1/2。

也就是说,当舆情热度因子、舆情情感因子都失效时,采用的就是因子等权重策略,即每个因子对应的权重都相同。

分别获取M只股票的舆情热度观测值XA、舆情情感观测值XB、舆情热度因子A对应的权重ωA及舆情情感因子B对应的权重ωB,根据预设的计算公式,计算M只股票的评分。具体地,股票的评分的计算公式为:

S=∑ωi*Xi

其中,i为股票的舆情因子,i={A,B},ωi为股票的舆情因子i对应的权重,ωi={ωA,ωB},Xi为t时刻股票的各舆情因子的观测值,Xi={XA,XB}。

S5、根据评分的高低顺序对所述多只股票进行排序,筛选出排序靠前的第一预设数量的股票,作为目标投资股票。

可以理解的是,利用上述步骤计算得到的股票的评分,在一定程度上可以反映出股票在未来收益的走势,股票的评分越高,其未来收益可能越高。因此,在得到M只股票中的每只股票评分后,按照评分高低顺序对M只股票进行排序,从M只股票中筛选出评分最高的第一预设数量(例如,N只)的股票,作为待投资的目标股票。

在其他实施例中,确定包含待投资的目标股票的投资组合后,还需要分别确定各只目标股票占投资总额的比重,例如,对目标股票进行等权投资,或者,根据目标股票的评分确定相应的比重,评分高的股票对应的比重较大,评分低的股票对应的比重较小),具体操作可根据投资者的实际需求进行设置。最后,根据目标股票及目标股票对应的比重确定最终投资组合。

需要说明的是,本发明的方案还适用于对已有投资组合进行优化,分别计算已有投资组合中各股票的评分,选择评分较高的股票作为目标股票,并对目标股票所占的比重进行调整,得到优化后的投资组合。

上述实施例提出的基于舆情因子的投资选股方法,根据股票舆情因子观测值及收益率数据,计算股票各舆情因子的第一信息系数,利用第一信息系数及信息系数预测模型预测第二信息系数,反映各舆情因子对股票未来收益的预测能力;根据第二信息系数对各舆情因子进行赋权,实现了对各舆情因子的动态赋权,提高了各舆情因子的可靠性;根据各舆情因子观测值及相应的权重计算股票评分,选择评分较高的股票作为目标投资股票,提高了股票评分的真实性,直观地展示了舆情因子观测值对股票未来收益的影响,有助于投资者控制风险、提高投资收益。

此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有基于舆情因子的投资选股程序,所述基于舆情因子的投资选股程序被处理器执行时实现如下操作:

获取预先确定的多只股票在第一预设时间内的舆情因子观测值及第二预设时间内的收益率;

根据所述舆情因子观测值及收益率,计算各舆情因子的第一信息系数;

分别将各舆情因子的第一信息系数输入预先训练好的信息系数预测模型中,预测未来各舆情因子的第二信息系数;

根据各舆情因子观测值及各舆情因子的第二信息系数,分别计算所述多只股票的评分;及

根据评分的高低顺序对所述多只股票进行排序,筛选出排序靠前的第一预设数量的股票,作为目标投资股票。

本发明之计算机可读存储介质的具体实施方式与上述基于舆情因子的投资选股方法的具体实施方式大致相同,在此不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

再多了解一些
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1