一种基于网络分析和多模型融合的股市投资决策方法

文档序号：7805241阅读：202来源：国知局

一种基于网络分析和多模型融合的股市投资决策方法
【专利摘要】本发明公开了一种基于网络分析和多模型融合的股市投资决策方法，首先从网络中抓取基本面信息，在此基础上构建网络节点和网络连接，构建复杂社会网络模型；利用网络分析的方法选择投资组合，再把投资组合所涉及的数据输入到多模型融合框架中；所述的多模型融合框架包括多个子模型，每个子模型针对从网络中抓取的不同特征的技术面信息，分别进行不同特点的市场趋势预测，生成各自的预测值，再将预测值加权求和，得到综合的市场趋势预测值，根据该值生成相应的投资策略。本发明从多元性的角度综合考虑了一般研究中被忽略的投资组合风险因素，以及通过基本面的预选降维数据和技术面的特征选择方法保证了决策的实时性要求，以提供更加可靠的投资策略。
【专利说明】一种基于网络分析和多模型融合的股市投资决策方法
【技术领域】
[0001]本发明属于股市投资策略分析【技术领域】，涉及一种基于网络分析和多模型融合的股市投资决策方法。
【背景技术】
[0002]金融市场是国家经济运行的核心，因此，证券投资策略问题一直是各国投资理论界与投资实务界最为关注的核心问题之一，证券投资策略反映了我们基于对金融市场规律和投资者心理的认识，是根据投资目标指定的指导投资行为的规则体系和行动计划方案。其中，技术分析和基本面分析方法是两种主要的投资分析方法。其中技术分析主要应用于具体投资操作的时间和空间判断上，基本面分析则主要应用于投资标的物的选择上，作为提高投资分析有效性和可靠性的重要手段。
[0003]随着互联网技术的迅速发展，大量与金融市场相关的信息在互联网上传播，这些实时信息规模巨大、形式多样，其中隐含着重要的、与投资决策相关的信息。如何综合利用信息进行市场预测和分析是金融市场投资决策中的重要问题。
[0004]近年来，有许多研究者对投资决策方法问题进行了一系列的研究。其中一个比较新的研究方向是分析文本信息与股票价格之间的关系。例如著名的亚利桑纳州立大学研发了 Arizona Financial Text系统,通过对财经新闻和有关股票价格的文章进行分析并预测；在最近的2009年，Schumaker的研究团队分析了通过财经新闻消息利用基于文本的系统进行预测的可行性，并给出了肯定的结论；Nizer的研究团队在2012年进一步地对识别哪些新闻对股市产生可见的影响进行了研究。研究结果都表明，采用自动分析方法指导的投资策略可以获得超额利润。但是注意到，这些基于文本分析的研究所提供的分析方法利用的信息有限，局限于金融新闻这样的有强情感倾向性的文本。事实上，在这些基于文本分析的决策方法中，又通常忽略了在技术分析中使用的数据信息(如股价和股指)，这些预测和分析方法显然是使用不全面的信息的方法。
[0005]另一方面，对传统的分析方法(即股价预测方法)的研究进行已久，并已有一系列比较成熟的研究成果。MIT金融专家罗耀宗说:“技术分析是一个从市场价格中撷取出有用资讯的有效方法。”美国联邦准备理事会和学术界里也有一些研究表示，支持技术分析的证据是存在着的。国内例如最近刘海玥(2011)、江龙(2012)、郑晓薇(2013)的研究团队分别从神经网络、灰色RBF网络和LSSVM方法对股价趋势变化规律进行建模和预测，也都取得了较理想的成果。但是，这些预测方法是基于历史数据的规律进行预测分析，属于技术分析的思想，其理论为效率市场假说所反驳，而且其利用的信息也有限。并且传统的研究只考虑预测准确率，而考虑到实际的股价频繁波动情况，准确率并不能直接对应实际投资收益，甚至高预测准确率也可能带来负收益的结果，此外，这样的投资组合可能带来较高的投资风险。
[0006]同时，传统的股票价格趋势分析与预测方法并没有考虑数据的规模和时效性，因此使用的信息量十分有限，在大数据量下进行预测时训练耗时十分大，考虑到实际投资决策时的实时性要求，已经无法适应网络环境中、海量数据规模下的股票市场分析和预测要求。而且，现有的股票预测多忽略股票间的相关关系，认为股票直接的价格变化是相互独立的，在此基础上进行股价趋势变化的规律研究和分析，这种简化假设明显违背了我们对金融市场的一般认识，因为各股票所对应的上市公司之间是相互有联系的，会受到彼此的影响与作用。
[0007]如前所述，技术分析主要应用于具体投资操作的时间和空间判断上，基本面分析则主要应用于投资标的物的选择上，作为提高投资分析有效性和可靠性的重要手段。

【发明内容】

[0008]本发明解决的问题在于提供一种基于网络分析和多模型融合的股市投资决策方法，综合利用了基本面分析和技术面分析进行市场投资决策，能够有效的降低投资风险，提高投资收益。
[0009]本发明是通过以下技术方案来实现:
[0010]一种基于网络分析和多模型融合的股市投资决策方法，包括以下操作:
[0011]首先从网络中抓取基本面信息，在此基础上构建网络节点和网络连接，构建复杂社会网络模型；利用网络分析的方法选择投资组合，再把投资组合所涉及的数据输入到多模型融合框架中；
[0012]所述的多模型融合框架包括多个子模型，每个子模型针对从网络中抓取的不同特征的技术面信息，分别进行不同特点的市场趋势预测，生成各自的预测值，再将预测值加权求和，得到综合的市场趋势预测值，根据该值生成相应的投资策略；
[0013]向子模型提供信息的特征选择器、子模型涉及的参数、子模型的预测值的权重均通过单变量分布估计算法进行封装训练。
[0014]所述的复杂社会网络模型的构建包括以下操作:
[0015]1.1)网络节点
[0016]向量空间模型中，从网络中抓取的基本面信息文本以二元特征向量模式的词袋表示，如下所示:
[0017]Infi = (〈t” wn>, <t2, wi2>,...<tM, wiM>)
[0018]其中M是特征的数量，wik是文本特征tk权值,通过tf*idf方法计算权值,对固定特征化简为 infi = (wn, wi2,...wiM)；
[0019]对利用数据挖掘的方法从网络中获得的基本面信息中的文本进行如下操作:
[0020]I)过滤:滤掉信息中无用的部分；
[0021]2)分词:将经过过滤的信息分割成多个词汇，将分词后的结果存入词汇库中，标识词汇的词性；
[0022]3)对词汇库中的词汇进行进一步的停词处理，包括去除虚词并绑定否定词；
[0023]获取基本面信息当中的文本特征后，进行其权值的计算，将基本面信息整理成向量空间模型，对于时变的信息，该向量空间模型则成为一时变向量:
[0024]infi(t) = (Wil (t), wi2(t),...wiM(t)),其中 t 为时间变量；
[0025]1.2)网络连接
[0026]对网络G(t) = (V(t)，E(t))，用上市公司的基本面信息对其作为网络节点建模，即有 V(t) = {infi (t)},E(t) = {(i, j, edgij(t)) | i, j e V (t)}；[0027]V(t)为利用基本面信息所构建的网络节点的集合，E(t)为网络节点当中的两个节点1、j以及它们之间的连接强度edgijU)的集合；
[0028]使用余弦相似度
【权利要求】
1.一种基于网络分析和多模型融合的股市投资决策方法，其他在在于，包括以下操作: 首先从网络中抓取基本面信息，在此基础上构建网络节点和网络连接，构建复杂社会网络模型；利用网络分析的方法选择投资组合，再把投资组合所涉及的数据输入到多模型融合框架中；所述的多模型融合框架包括多个子模型，每个子模型针对从网络中抓取的不同特征的技术面信息，分别进行不同特点的市场趋势预测，生成各自的预测值，再将预测值加权求和，得到综合的市场趋势预测值，根据该值生成相应的投资策略；向子模型提供信息的特征选择器、子模型涉及的参数、子模型的预测值的权重均通过单变量分布估计算法进行封装训练。
2.权利要求1所述的基于网络分析和多模型融合的股市投资决策方法，其特征在于，所述的复杂社会网络模型的构建包括以下操作: `1.D网络节点向量空间模型中，从网络中抓取的基本面信息文本以二元特征向量模式的词袋表示，如下所示:
infi 一(〈t” Wn〉，〈t2，Wi2〉，...〈tj(，WiM〉) 其中M是特征的数量，Wik是文本特征tk权值,通过tf*idf方法计算权值,对固定特征化简为 Infi = (wn, wi2,...wiM)；对利用数据挖掘的方法从网络中获得的基本面信息中的文本进行如下操作: ` 1)过滤:滤掉信息中无用的部分； `2)分词:将经过过滤的信息分割成多个词汇，将分词后的结果存入词汇库中，标识词汇的词性； `3)对词汇库中的词汇进行进一步的停词处理，包括去除虚词并绑定否定词；获取基本面信息当中的文本特征后，进行其权值的计算，将基本面信息整理成向量空间模型，对于时变的信息，该向量空间模型则成为一时变向量:
Infi (t) = (wn (t), wi2(t),...wiM(t)),其中 t 为时间变量; `1.2)网络连接对网络G(t) = (V(t)，E(t))，用上市公司的基本面信息对其作为网络节点建模，即有V (t) = Unfi ⑴}，E (t) = {(i, j, edg^.(t)) | i, j e V (t)}； V(t)为利用基本面信息所构建的网络节点的集合，E(t)为网络节点当中的两个节点`1、j以及它们之间的连接强度edgijU)的集合；

Σ wJOwjM 使用余弦相似度Cosimfi(I),infβ)) ==.....................................-计算网络连

\ ln^接强度，其中Tm为基本面信息文本特征的全集，并使用阈值Θ进行过滤，即有 _ J O ,Cos(MfXt)Jnf ^t)) <θ。“kn/f、^cm(inft(t)Jnf^t)) ,cosihif^tXinf^t)) > Θ * θ 取 cos45 ，以如infjt) = (wn(t), wi2(t),...wiM(t))所示的向量空间模型描述网络节点,构建成所需要的网络节点；
再将网络节点按照如 V(t) = {infi (t)},E(t) = {(i, j, edgij(t)) | i, j e V (t)}所示的网络连接方式连接，从而复杂社会网络模型，该模型是一个动态的网络模型。
3.权利要求1所述的基于网络分析和多模型融合的股市投资决策方法，其特征在于，所述利用网络分析方法选择投资组合是选择最相互无关的股票组成投资组合，包括以下基于社团检测聚类的多元性划分方法: 使用社团检测方法进行划分，使用Girvan-Newman聚类方法进行网络聚类，其评价指标为模块度
4.权利要求1所述的基于网络分析和多模型融合的股市投资决策方法，其特征在于，所述利用网络分析方法选择投资组合是选择最相互无关的股票组成投资组合，包括以下基于最大全连通无关子网的多元性分割方法: 采用Bron - Kerbosch算法提取补网中的最大全连接子网，其基础形式是一个递归回溯的搜索算法，流程如下: Bron-Kerbosch 算法: Stepl:给定三个集合(R，P，X)，初始化集合R，X分别为空，而集合P为所有网络节点的集合； Step2:若集合P，X分别为空，则输出R为最大团； Step3:对于每一个从集合P中取得得网络节点{v}，有如下处理: 1)将网络节点M加到集合R中，集合P，X与网络节点M得邻接网络节点集合N{v}相交，之后递归集合R，P，X (转St印2)； 2)从集合P中删除网络节点Ιν}，并将网络节点M添加到集合X中；此时基本面分析选择投资组合的策略模型表示为:/F鄭)= {JWT(G(if))h即按照Bron-Kerbosch算法生成的补网中的最大全连接子网。
5.权利要求1所述的基于网络分析和多模型融合的股市投资决策方法，其特征在于，所述的多模型融合的框架是把一个复杂的系统化为若干个子系统，一个子系统对应一个子模型，然后将这些子系统对应的子模型组合起来共同描述同一个模型以提高模型拟合度；所述子模型连接方法采用加权求和方式，将每一个子模型的输出按一定的权值进行求和，得到最终的输出；所述的子模型是可加减或替换的，经过基本数据的训练，整体模型会通过调节自身子模型权值大小对预测模型进行自适应的选择；所述的的子模型包括以下几种: 1)基于矢量符号序列的趋势预测方法首先采用最小二乘拟合法对历史股价数据进行矢量化，若定义第Xi日的价格为Yi，最

小化η日的误差
6.权利要求5所述的基于网络分析和多模型融合的股市投资决策方法，其特征在于，所述的聚类算法中，把各个趋势矢量用其所在的聚类中心所对应的矢量代替，而该矢量表征了趋势的类型，若将其表征为符号，则最终可以将连续变化的趋势矢量离散化成一系列符号序列；使用股票的交易日、开盘价、最高价、最低价、收盘价、成交量和成交额作为技术分析的主要数据，股票S的历史信息表示为符号序列
7.权利要求5所述的基于网络分析和多模型融合的股市投资决策方法，其特征在于，所述的时间序列波动特征点提取算法的步骤如下: 第一步:输入待提取序列的起点坐标start和终点坐标end,判断start与end间的距离是否满足子序列小于最小区间长度，若满足则转第三步；若不满足则按波动特征点的定义寻找起点与终点间VD值最大的点，若VD大于算法幅度的终止条件，则将该点作为波动特征点加入到波动特征点结果序列中，并将该点记做fp ; 第二步:用fp将原序列划分成两段，即start到fp子段、fp到end子段，对这两个子段执行第一步；第三步:将波动特征点结果序列按时间排序后保存与输出；第四步:基于转折点判定最小时间间隔阈值，用最大/最小值原则在波动特征点结果序列上提取出转折点种子集；第五步:基于转折点种子集，在任意的两个连续转折点之间基于波动特征点序列用反向波幅最大原则寻找转折点，并加入到转折点种子集中，重复上述操作，直到按设定的转折点提取参数无法再找到新的转折点为止；第六步:将转折点种子集按时间排序后保存与输出；以上抽取的转折点种子则表征了较大时间尺度下的股价变化趋势，通过神经网络或者支持向量机等机器学习方法进行训练，得到最优分类器，则该分类器可以自动地对新数据进行分类，输出对应日期是否转折点，即对未来趋势预测的结果，将最近转折点对应的趋势预测值即为最终趋势的预测值。
8.权利要求5所述的基于网络分析和多模型融合的股市投资决策方法，其特征在于，所述的基于词汇情感倾向性判定的投资推荐算法采用SWSOA算法，该算法从SORN最大连通子图的任何一个节点开始，便对该子图中的所有节点进行情感倾向性分类；SWS0A算法的输入为一个具体的S0RN，将该算法表示成函数SWSOA (SORN)，其中SORN表示SORN变量；该算法的具体步骤如下: 步骤1.利用广度优先遍历算法获得SORN的最大连通子图Gs，Gs中包含的词汇节点组成的集合被记为Wes ；步骤2.指定Wgs中的任意一个节点Wi，且使得Wgs = Wgs- {wj，U = {wj和F=0; 步骤3.计算D(i)来获得Wi到Wes中任意节点的最少噪声路径；步骤4.对Wes中的每一个词汇节点Wj,执行a)~c): a)依据D(i)中的D(i,j),计算从Wi到Wj的最少噪声路径上经过的转折

关系边的数量
9.权利要求5所述的基于网络分析和多模型融合的股市投资决策方法，其特征在于，考虑到多模型融合使得整个模型的计算量和复杂度，还包括基于单变量分布估计封装方法的训练、优化和特征选择方法: 所述的单变量分布估计算法，针对数据，算法中用一个n (n = N+Dim)维染色体进行编码；染色体分为两个部分，第一部分是被封装算法参数编码部分，共N位二进制码；并且启用精英保留过程，并对每只股票分别存储历史最优值进行初始化以提高寻优效率，保证技术分析过程的实时性:对种群q(t)，t为时间变量，设其是一个m*n阶矩阵，记录了按照适应度值Q9从高到低排列的染色体，前r行[qi q2…qJT被作为精英保留下来，则估计的分布概率矩阵为
10.权利要求1所述的基于网络分析和多模型融合的股市投资决策方法，其特征在于，所述的利用综合的市场趋势预测值设计综合投资策略是基于以下修正因子:

【文档编号】H04L29/06GK103985055SQ201410240496
【公开日】2014年8月13日申请日期:2014年5月30日优先权日:2014年5月30日
【发明者】彭勤科, 钟韬, 关新宇, 王晓, 秦小雨, 朱志博, 孙智申请人:西安交通大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：彭勤科;钟韬;关新宇;王晓;秦小雨;朱志博;孙智
技术所有人：西安交通大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。