主成分与变异系数的股市投资者情绪代理指标选择方法与流程

文档序号:16508644发布日期:2019-01-05 09:11阅读:880来源:国知局
主成分与变异系数的股市投资者情绪代理指标选择方法与流程

本发明属于投资者情绪测度领域,尤其涉及一种主成分与变异系数的股市投资者情绪代理指标选择方法。



背景技术:

维护股票市场的稳定有赖于投资者情绪的稳定,现阶段很多行为金融研究都是建立在投资者情绪的基础上,其中,投资者情绪的测度是投资者情绪研究中的关键问题,科学合理选择投资者情绪代理指标是测度的基础。

关于情绪测度指标的研究主要有以下两个特点:

第一,测度指标众多,尚无理论依据和规范方法来优选这些指标。当前关于投资者情绪的涵义、投资者决策的情绪过程的作用机理、投资者情绪的测度方法等没有一个可以统驭全局的系统性论述,关于情绪测度没有专门提出其理论依据,学者们从各个微观视角,建立了各具特色的单项情绪测度指标——多达上百个(大量文献,不再赘述),丰富了该研究,但这些指标随机零散,莫衷一是,良莠不齐,对于如何更为规范地选取情绪测度指标,尚缺乏科学、统一、标准的方法。

第二,测度指标的选择具有主观性与从众性。学者们构建的众多情绪测度指标,哪些需要剔除、哪些更重要、哪些更有效,需要通过规范的方法来优选。投资者情绪的测度不应该只主观随意地偏向于某一个或几个指标因素,而应采用一定的方法首先对所有指标进行优选,去芜存精,去伪存真,而学界当前恰好缺乏这样一套规范的方法。

综上可见,亟需完善关于投资者情绪测度的基础理论,创建一套投资者情绪测度指标优选的规范方法,以得到更好的情绪测度指标。这将为投资者情绪的综合测度奠定可靠基础,并将丰富投资者情绪的理论,同时也为现实中金融监管部门的监管和投资者的决策提供参考依据。



技术实现要素:

(一)解决的技术问题

本发明要解决的技术问题是克服上述缺陷,提供一种主成分与变异系数的股市投资者情绪代理指标选择方法,提供了一套科学、开放、可行的系统优选方法,使得选择的代理指标更有效、更简便,为投资者情绪综合测度的研究奠定坚实的基础,同时也为现实中金融监管部门的监管和投资者的决策提供参考依据。

(二)技术方案

为解决上述问题,本发明所采用的技术方案是:主成分与变异系数的股市投资者情绪代理指标选择方法,其特征在于,所述方法包括:

海选模块,任何与股市或投资者有关的指标均可纳入到备选指标库;

初选模块,剔除数据不可得或数据不连续的无效指标;

筛选模块,通过无关分析剔除无关指标,计算各指标与股市大盘指数和股市收益率的相关系数,可以得到无关程度与显著性检验值,剔除显著性较差的指标;

遴选模块,通过相关分析和聚类分析删除冗余信息量大于阈值的指标,计算各指标之间的相关系数,将相关系数大于阈值的指标进行归类,删除信息重叠指标;

优选模块,通过计算变异系数与主成分分析,结合聚类分析的树状分类图谱与指标数量复杂度,最终留选显著性最高的指标。

作为优选,海选模块的任何指标可以是当期指标,也可以是提前p期的衍生指标,即为{an,an-1,an-2...an-p},其中p为大于1的正整数。

作为优选,筛选模块无关程度相关性系数为0.3及以下。

作为优选,筛选模块显著性值为t统计量,该统计量服从n-2个自由度的t分布,概率界限可选择1%至5%。

作为优选,遴选模块的阈值为0.9及以上。

作为优选,聚类分析的距离为相关系数距离。

作为优选,优选模块的显著性可以使用表示信息量的变异系数来判别,变异系数

其中,σ为标准差,u为均值,c为变异系数值。

作为优选,所述优选模块复杂度,通过主成分分析,获得特征根大于1的主成分数量,即确定投资者情绪代理指标的理论最佳数量;再结合人为经验与需求留选指标,在聚类分析图谱中,由大类到小类进行分类,在每个类别中均衡选择指标。

(三)有益效果

本发明提供了一种主成分与变异系数的股市投资者情绪代理指标选择方法,与现有技术相比,具备以下有益效果:

本发明设计合理,开放式选择指标,进一步扩大指标的选择范围,提高指标选择代表性,为得到更包容、更广泛的投资者情绪测度的代理指标做好基础。

经过一系列的无关分析、相关分析、聚类分析、主成分分析、显著性分析,进一步优化指标的选择、量化选择标准,避免了以往指标筛选中的信息重叠与共线性,更均衡地选择指标,使得留选指标冗余信息更少;能够较好地确定情绪指标测度的维度数量,进一步提升指导指标选择的准确性,均衡测度系统的复杂度与准确度,减少测度系统的复杂程度与盲目性;同时,将指标的选择过程完全可视化,黑箱过程透明化,使得优选过程更加明确、更加科学;为投资者情绪综合测度的研究奠定坚实的基础,同时也为现实中金融监管部门的监管和投资者的决策提供参考依据。

附图说明

图1股市投资者情绪测度代理指标选择流程图

图2筛选22指标聚类树状图谱、相关系数与变异系数图

图3主成分碎石图

图4主成分与累计贡献率关系图

具体实施方式

对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

选取了2005年1月到2015年12月的时间作为样本区间,共搜集到了60个潜在指标。

海选模块:搜集得到60个指标,得到60x132阶矩阵;

初选模块:考虑到信息搜集成本与数据的可得性、连续性,同时也考虑到指标的客观性,剔除数据不可得或数据不连续的无效指标后,保留了33个指标,得到一个33x132阶的原始矩阵;

筛选模块:计算33个指标与上证综指相关系数及伴随概率,再计算与上证综指收益率的相关系数及伴随概率,可以使用spss软件计算得到相关系数表,如下表1所示:

表1

按照相关系数0.3以下与伴随概率大于1%标准剔除显著性较差的指标,可以综合留选22个指标,删除11个无关指标。

遴选模块:为删除冗余信息量大于阈值的指标,通过相关聚类分析,得到系统树状图谱,根据图谱明确了22个指标的亲疏关系,如图2。遴选模块的相关系数阈值选为1,剔除冗余信息最大的指标,并将相关系数标记在22指标聚类图谱中,如图2所示相关系数列。需要说明的是,相关系数为1,意味着其地位相同,可以相互代表,只需留选1个指标。22个指标中,有6个相关系数为1,故缩减为16个指标。为了更好地说明本技术方案,在下一步仍然按照22个指标进行计算分析。

优选模块:计算22个待选指标的变异系数值

其中,σ为标准差,u为均值,c为变异系数值。将变异系数标记在22个待选指标中,如表3、表4、图2。变异系数越大,则说明指标的信息含量越大,具有更显著的信息特征,具有更强的代表性。

遴选模块在一定程度上缩减了冗余信息,根据树状分析图谱也能够明确各指标的亲疏状况,但仍有信息冗余,且不知应该留选哪些维度的指标、每一个维度中应该留选哪几个指标作为情绪的测度指标。通过主成分分析,可进一步将冗余信息压缩到最小,进而确定描述情绪的内在维度。这里,我们仍将使用22个指标进行分析,以便对上一步的结果进行检验。我们将上述数据进行主成分分析以后,得到结果如表2所示。22个指标经过主成分分析后,可得到22个主成分。主成分的信息含量用特征根表示,按照降序排列,自上而下,每一主成分的信息含量逐渐减少,累计信息含量逐渐增多,直至100%。例如,当选择第一主成分时,所包含的信息含量为原来全部的41.594%。当选择前6个主成分时,所包含的信息量为原来的89.419%。当选择16个主成分时,累计贡献率为100%,验证了上一步22个指标中,存在6个完全相关的指标,这6个指标的有无对整体无显著影响。这可以表明,删除完全相关指标不影响总体信息含量,或者说删除高度相关指标,对整体信息含量的影响十分微小。

表2

另一方面,前16个主成分的累计信息含量为100%,说明只需要16个指标就能无损表达原始信息。因此,存在6个主成分的冗余信息。这里22个主成分,说明存在22个情绪描述维度,但有些维度的作用十分微小,甚至为零。如图3与图4,根据边际效应原理,随着选取主成分个数的增加,整体信息含量逐渐增多,其单个主成分信息含量会逐渐减少。因此,应汰弱留强以确定情绪描述维度。一般情况下,把特征根大于1作为界限标准,当主成分的特征值小于1时,其信息解释度,不具有原释能力。谨慎起见,可选择6个主成分,把接近于1的主成分选入,此时的信息含量为89.419%。意味着,存在6个维度描述投资者情绪,包含了89.419%的影响力(原信息量)。由原来的22个指标缩减为6个指标,信息含量仅减少了11%,而平均单个指标的信息含量却提高为原来的3.3倍。

通过聚类分析图谱结合变异系数,在所分的大类中,选择变异系数最大的指标作为留选指标。留选个数可以结合经验与复杂程度确定。事实上,可以将22个指标分为2类、3类、4类甚至22类。留选指标个数越多,描述情绪的精确度会相应增加,且符合边际递减效应,但系统复杂度也会相应提升。

如图2聚类图谱右半部分所示,从右至左,类别数量逐渐增多,虚线与图谱交点数量逐渐增多,其中,交点数量即为分类数量。本文按照分3大类与6大类举例说明,为了使表述更加清晰,在图2中,已经作出2条分类虚线。

若将22个指标分为3大类,则可按图2中最右侧虚线分为a1、a2、a3共三类。其中22个指标的类别归属情况如表3、图2所示。

表3

在a1、a2、a3各类中,分别选择变异系数最大的指标作为留选指标。如在a1类的18个指标中,应选择变异系数最大的“ipo流通股数加权的平均收益率作”作为此类留选指标。在a2类的1个指标中,应选择变异系数最大的“居民消费价格指数”作为此类留选指标。在a3类的3个指标中,应选择变异系数最大的“换手率差一阶分”作为此类留选指标。最终,在分3类的情形下,可以得到3个投资者情绪代理指标。

若将22个指标分为6大类,则可按图2中右侧虚线分为b1、b2、b3、b4、b5、b6共六类。其中22个指标的类别归属情况如表4、图2所示。

表4

在b1、b2、b3、b4、b5、b6类中,分别选择变异系数最大的指标作为留选指标。如在b1类的5个指标中,应选择变异系数最大的“封闭基金折价率”作为此类留选指标。在b2类的2个指标中,应选择变异系数最大的“ipo流通股数加权的平均收益率”作为此类留选指标。在b3类的11个指标中,应选择变异系数最大的“新增开户数”作为此类留选指标。在b4类的1个指标中,应选择变异系数最大的“居民消费价格指数”作为此类留选指标。在b5类的2个指标中,应选择变异系数最大的“换手率一阶差分”作为此类留选指标。在b6类的1个指标中,应选择变异系数最大的“上证综指收益率”作为此类留选指标。最终,在分6类的情形下,可以得到6个投资者情绪代理指标。

综上所述,建立了投资者情绪测度指标的筛选标准,使得指标筛选更规范合理;开放式系统,提高了筛选范围,使得指标更具有代表性;经过一系列无关分析、相关分析、聚类分析、显著性分析的系统量化分析,使得筛选更科学,同时,过程完全可视化,为人为决策提供依据;为投资者情绪综合测度的研究奠定了坚实的基础,同时也为现实中金融监管部门的监管和投资者的决策提供参考依据。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1