一种互联网环境下的金融市场风险预警方法与流程

文档序号：18012213发布日期：2019-06-26 00:16阅读：145来源：国知局

本发明涉及文本数据挖掘以及风险预警领域，具体的说是一种互联网环境下的金融市场风险预警方法。

背景技术：

金融市场在国民经济中扮演重要的角色，是中国市场经济发展过程中的重要一环。对金融市场风险进行预警从宏观层面来说不仅可以保证社会经济健康稳定发展，使得中国经济形成良性循环，而且可以对金融市场的实施较为有效的监管和分析；从微观层面上看，为降低广大投资者投资风险，为投资决策提供参考，获取投资利益，对金融市场进行科学分析，预警建模是很有必要的。

国内外学者对金融市场风险预警的研究从传统的通过股票市场内部历史数据以及相关指标进行预测逐渐向互联网金融领域转变，预警模型中使用了媒体因素作为特征指标，通过新闻数量，新闻情感倾向或对新闻进行分类，在不同的新闻类别下对金融风险进行预测。此外，还有研究将在线评论文本数据作为风险预警的影响因素，包括评论的数量，评论的情感值指数，但是传统方法在情感强度的计算过程中对并没有完全覆盖领域内及网络情感词，程度副词权重的定义主观性较强，缺少客观评测，导致情感强度计算不够准确。此外，目前对金融市场风险预警的研究方法并没有统一的认识，没有将市场内外因素同时加入到模型中，忽略了各因素间相互作用，综上所述，目前的风险预警模型准确度欠佳。

技术实现要素：

本发明是为了解决上述现有技术的不足之处，提出一种互联网环境下的金融市场风险预警方法，以期能构建出更加精准的风险预警模型，从而实现更加准确的风险预测，为金融市场监管提供依据，为投资者投资决策提供参考。

为达到上述目的，本发明采用的技术方案为：

本发明一种互联网环境下的金融市场风险预警方法的特点是按照如下步骤进行：

步骤1、数据预处理：

步骤1.1、定义时间段为t，t＝{t1,…tt,…tf}，1≤t≤f，tt表示第t个时间段，在第t个时间段tt内选取任意一支股票i所对应的股吧评论文本集合，记为

步骤1.2、对第t个时间段tt内股票i所对应的股吧评论文本集合进行去停用词及分词处理，得到股票i在第t个时间段tt内文本向量表示第t个时间段tt内股票i所对应的股吧评论文本集合中第r个句子；r表示第t个时间段tt内股票i所对应的股吧评论文本集合中句子总数；

步骤2、计算情感指数：

步骤2.1、在股票i上涨时刻后的一段时间内对股票i所对应的股吧评论进行抓取后使用tf词频算法，选出词频最高的n个积极情感词语，记为{posn|n＝1,2,…,n}，并作为积极情感词典的种子词语；

同理，在所选股票i下跌时刻后的一段时间内对股票i所对应的股吧评论进行抓取后使用tf词频算法，选出词频最高的n个消极情感词语，记为{negn|n＝1,2,…,n}，并作为消极情感词典的种子词语；

由n个积极情感词典的种子词语和n个消极情感词典的种子词语合并为2n个情感词典的种子词语；

步骤2.2、使用word2vec模型将文本语料库中的词语映射到高维连续向量空间中，以实现词向量训练，并得到词向量集合为第t个词语wt的词向量表示，1≤t≤|v|，|v|表示词向量集合中词语的总数；

步骤2.3、计算词向量集合中的第t个词语的词向量表示分别与所述2n个情感词典种子词语的余弦相似度，得到第t个余弦相似度集合sim(wt)，从而得到相似度向量集合{sim(wt)|t＝1,2,…,|v|}；

设置相似值阈值为ε，当max(sim(wt))≥ε时，将第t个词语wt加入max(sim(wt))所对应的情感词典种子词语所属的情感词典中，从而得到扩充后的情感词典集，记为se＝{sep,sen}，sep为积极情感词典，sen为消极情感词典；

步骤2.4、确定程度副词权重：

获取基础程度副词词典，记为adv＝{adv1,…,advd,…,advu}，1≤d≤u，advd为基础程度副词词典adv中第d个程度副词；

从基础程度副词词典adv中选择最轻程度副词advs和最重程度副词advh并分别赋予初始权重和

使用word2vec模型训练所述基础程度副词词典adv，得到基础程度副词词典adv中所有程度副词的词向量；计算最轻程度副词advs和最重程度副词advh分别与基础程度副词词典adv中所有程度副词的词向量的余弦相似度，得到相似值向量组其中，为第d个程度副词advd与最轻程度副词advs的余弦相似度，为第d个程度副词advd与最重程度副词advh的余弦相似度；

步骤2.5、利用式(1)计算第d个程度副词advd的权重

步骤2.6、计算单词的情感值：

从在第t个时间段tt内股票i所对应的股吧评论文本集合中抽取k个情感词记为其中，为股吧评论文本集合中第g个情感词，1≤g≤k≤m，若第g个情感词有程度副词修饰，则利用式(2)得到第g个情感词的情感强度

式(2)中，表示股吧评论文本集合中第g个示情感词的正负情感属性，且n表示否定词的数量；

步骤2.7、计算文本的情感值：

假设第t个时间段tt内股票i所对应的股吧评论文本集合中第r句子含有的情感词集合为其中，表示第t个时间段tt内股票i所对应的股吧评论文本集合中第r个句子的第e个情感词，1≤e≤e≤k；

利用式(3)得到第t个时间段tt内股票i所对应的股吧评论文本集合中第r个句子的情感强度从而得到第t个时间段tt内股票i所对应的股吧评论文本集合中所有句子情感强度并求取平均值，得到第t个时间段tt内股票i的情感强度进而得到t时间段内股票i的情感强度序列以及t时间段的情感总强度

步骤3、计算交叉多重分形谱：

步骤3.1、根据t时间段内股票i的情感强度获取相应的百度媒体指数从而形成两个长度相等的时间序列；

步骤3.3、对两个时间序列进行多重交叉分形分析处理，得到t时间段的奇异指数序列表示t时间段内股票i的第b个奇异指数，1≤b≤b，b表示奇异指数的总数；q表示多重交叉分形模型中去趋势协方差的阶数；

步骤3.4、利用式(4)计算t时间段内股票i的多重分型谱的宽度

步骤4、构建t时间段内股票i的风险特征变量包括：市场内部特征指标和市场外部特征指标；所述风险变量的状态变量为其中0表示t时间段内股票i发生金融风险，1表示t时间段内股票i未发生金融风险；

所述市场内部特征指标包括：t时间段内股票i的价格记为t时间段内股票i的对数收益记为t时间段股票i的交易量记为t时间段内股票i的流通市值记为t时间段内股票i的最高价记为t时间段内股票i的最低价记为

所述市场外部特征指标包括：t时间段内股票i的媒体关注度为t时间段内股票i的的异常媒体关注度的平均值为且t时间段内股票i的的投资者情感强度为t时间段内股票i的的异常投资者情感强度为且t时间段内股票i的多重分型谱的宽度

步骤5、构建预测分析模型：

步骤5.1、构建样本集：

由所述风险特征变量与其状态变量构成股票i的第t个样本点并根据步骤2.6-步骤4的方法，得到m个样本点构成的样本集合

步骤5.2、利用twin-svm分类方法对所述样本集合进行训练，得到训练后的twin-svm分类预测模型，以实现股票i的风险预警。

与现有技术相比，本发明的有益效果体现在：

1、本发明在特定场景下结合tf词频算法构建情感词典种子词语，通过该算法选择情感词典种子词语更加具有互联网环境下和金融领域情感词的代表性，克服了现有方法中使用基础情感词典而不能完全适用于网络环境，缺乏领域知识的文本情感分类的缺陷。

2、本发明利用word2vec算法扩展情感词典，使得情感词典涵盖面更广，从而对文本的情感计算更加的精准和确切，克服了由于目前网络发展迅速，而基础情感词典已经不能涵盖全部网络用语，从而对情感计算上精度缺失的问题。

3、本发明结合word2vec算法以及向量归一化算法重新定义了程度副词权重。以往研究使用的程度副词权重往往是人工标注，而本发明定义的权重克服了主观性，更加客观地定义程度副词的权重，从而使得最终情感强度的计算也更加的客观真实。

4、本发明利用多重交叉分形mf-dcca算法计算出投资者情感强度为与媒体关注度的多重分形谱，并创造性地将多重分形谱作为投资者情感强度与媒体关注度的交互作用的量化指标，此方法更能体现出在金融市场上投资者情感强度与媒体关注度的交互作用，将这种交互作用作为模型的风险特征指标之一，从而使得模型预测结果更加准确。

5、本发明从市场内部及市场外部两个方面构建了影响股票市场风险的特征指标，并通过文本挖掘技术计算出的投资者情感强度以及通过和交叉多重分形方法得到投资者情感强度与媒体关注度之间的多重分型谱共同作为市场外部指标，结合机器学习算法构建金融市场风险预警模型，模型指标的计算和选择使得风险预警模型更加稳健，效果更加精准。

附图说明

图1为本发明方法的流程示意图。

具体实施方式

本实施例中，如图1所示，一种互联网环境下的金融市场风险预警方法，是通过文本挖掘技术并结合机器学习算法更加准确地计算出投资者情感强度，结合市场内外指标构建出更加稳健和精准的风险预警模型，具体的说，是按照如下步骤进行：

步骤1、数据预处理，本实施例中，选取的文档合集是股吧评论数据：

步骤1.1、定义时间段为t，t＝{t1,…tt,…tf}，1≤t≤f，tt表示第t个时间段，在第t个时间段tt内选取任意一支股票i所对应的股吧评论文本集合，记为

步骤2、计算情感指数：

由n个积极情感词典的种子词语和n个消极情感词典的种子词语合并为2n个情感词典的种子词语；

步骤2.2、本实施例中word2vec模型向量维数选取为150维，基于搜狗新闻语料库进行训练。使用word2vec模型将文本语料库中的词语映射到高维连续向量空间中，以实现词向量训练，并得到词向量集合为第t个词语wt的词向量表示，1≤t≤|v|，|v|表示词向量集合中词语的总数；

步骤2.3、计算词向量集合中的第t个词语的词向量表示分别与2n个情感词典种子词语的余弦相似度，得到第t个余弦相似度集合sim(wt)，从而得到相似度向量集合{sim(wt)|t＝1,2,…,|v|}；

设置相似值阈值为ε，本实施例中阈值ε设定为0.7，当max(sim(wt))≥ε时，将第t个词语wt加入max(sim(wt))所对应的情感词典种子词语所属的情感词典中，从而得到扩充后的情感词典集，记为se＝{sep,sen}，sep为积极情感词典，sen为消极情感词典；

步骤2.4、确定程度副词权重：

获取基础程度副词词典，记为adv＝{adv1,…,advd,…,advu}，1≤d≤u，advd为基础程度副词词典adv中第d个程度副词；

从基础程度副词词典adv中选择最轻程度副词advs和最重程度副词advh并分别赋予初始权重和

使用word2vec模型训练基础程度副词词典adv，得到基础程度副词词典adv中所有程度副词的词向量；计算最轻程度副词advs和最重程度副词advh分别与基础程度副词词典adv中所有程度副词的词向量的余弦相似度，得到相似值向量组其中，为第d个程度副词advd与最轻程度副词advs的余弦相似度，为第d个程度副词advd与最重程度副词advh的余弦相似度；

步骤2.5、利用式(1)计算第d个程度副词advd的权重

步骤2.6、计算单词的情感值：

式(2)中，表示股吧评论文本集合中第g个示情感词的正负情感属性，且n表示否定词的数量；

步骤2.7、计算文本的情感值：

步骤3、计算交叉多重分形谱：

步骤3.1、根据t时间段内股票i的情感强度获取相应的百度媒体指数从而形成两个长度相等的时间序列；

步骤3.4、利用式(4)计算t时间段内股票i的多重分型谱的宽度

步骤4、构建t时间段内股票i的风险特征变量包括：市场内部特征指标和市场外部特征指标；风险变量的状态变量为其中0表示t时间段内股票i发生金融风险，1表示t时间段内股票i未发生金融风险；

市场内部特征指标包括：t时间段内股票i的价格记为t时间段内股票i的对数收益记为t时间段股票i的交易量记为t时间段内股票i的流通市值记为t时间段内股票i的最高价记为t时间段内股票i的最低价记为

市场外部特征指标包括：t时间段内股票i的媒体关注度为t时间段内股票i的的异常媒体关注度的平均值为且t时间段内股票i的的投资者情感强度为t时间段内股票i的的异常投资者情感强度为且t时间段内股票i的多重分型谱的宽度

步骤5、构建预测分析模型：

步骤5.1、构建样本集：

由风险特征变量与其状态变量构成股票i的第t个样本点并根据步骤2.6-步骤4的方法，得到m个样本点构成的样本集合

步骤5.2、利用twin-svm分类方法对样本集合进行训练，得到训练后的twin-svm分类预测模型，以实现股票i的风险预警，通过剩余样本点对金融风险预警模型进行风险预测，对预测结果评价。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：倪丽萍;李莹;倪志伟;朱旭辉;李想;夏千姿
技术所有人：合肥工业大学
我是此专利的发明人

上一篇：一种装配式建筑外墙的施工设备及施工方法与流程
上一篇：一种多功能机械使用工具的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。