一种基于社区结构分析的大盘股指预测系统的制作方法

文档序号:14176113阅读:289来源:国知局
一种基于社区结构分析的大盘股指预测系统的制作方法

本发明涉及一种预测系统,具体讲是一种基于社区结构分析的大盘股指预测系统。



背景技术:

在金融交易市场中流动性起到了至关重要的作用,金融产品的价格随市场的流动性改变而发生变化。当市场的流动性出现急剧变化时,市场中的金融产品价格也会发生剧烈变化,从而导致市场的异常波动。如何有效地预测异常波动,从而避免股灾的发生,已成为监管层亟需解决的问题。经过检索发现,现有技术中并没有从社区划分和情绪指数两方面切入对股市行情预测,没有利用到网络海量的文本信息。我们将两者结合,利用社区发现算法,可以准确划分出网络中的不同社团。我们分析社团成员所发布的文本包含的情绪,结果可以作为预测股民对未来市场信心的重要因子。



技术实现要素:

因此,为了解决上述不足,本发明在此提供一种基于社区结构分析的大盘股指预测系统;主要解决了现有专利在预测分析股市未来行情时,未考虑社会舆论倾向的问题。我们通过分析各大网络论坛发布的海量文本信息,计算网络不同社团的情绪指数的时间序列与大盘指数的相关系数,找到情绪波动与大盘最相关的社团。最终该社团的情绪倾向,可作为预测股市波动的一个重要因素。

本发明是这样实现的,构造一种基于社区结构分析的大盘股指预测系统,其特征在于:

构建网络社团划分模块:用于对网络社区进行划分,这里使用标签传播算法,划分出网络的社团结构;

构建文本情绪分类模块:首先标注训练集,选取部分从金融论坛爬取的文本内容,人工标注出这些帖子的情绪倾向;将标注好的标注集中,选取k%作为训练集,剩余的1-k%作为预测集,训练出分类模型;使用训练集,训练出分类模型,预测集用来检验模型效果,并适当调整模型参数;

分别训练出逻辑回归、支持向量机、贝叶斯分类等分类模型,然后使用了集成学习,对之前训练出的模型聚合,这里使用投票聚合的方式,对各个不同模型预测的结果进行投票,占多数的模型分类结果就是聚合模型的结果;使用训练好的模型,对于已经向量化的待分类文本进行分类,得到每个文本的情绪分类结果(积极(1),消极(-1),中性(0));

构建社团情绪指数计算模块:由于每个社团的成员结构,影响力都有所不同,所以只需关注影响力最大的前n个社团即可;将各个社团内部的所有成员发布的文本汇总,然后分析各个社团的每天的情绪倾向;

计算每个社团所发的每条文本的情绪,然后将持积极情绪的文本占比作为该社团当天的情绪指数;公式如下所示:

其中postijn表示第i个社团在第j天所发的编号为n的帖子的情绪倾向,函数ε识别出发布文本中中持积极情绪的那部分结果,indexik表示第i个社团在第k天的情绪指数;

构建检测与大盘股指波动最相关社团模块:得到每个社团情绪指数时间序列之后,我们分别设置延迟k(k=0,1,2,...)天,计算每个社团的情绪指数与股市大盘指数的相关系数,得到相关系数最大的前n个社团,将这些社团成员的情绪作为衡量股市波动的重要指标。

根据本发明所述一种基于社区结构分析的大盘股指预测系统,其特征在于:对于网络社团划分模块来讲,这里使用标签传播算法:

<1>初始时,给每个节点分配一个唯一的标签;

<2>每个节点使用其邻居节点的标签中最多的标签来更新自身的标签;如果存在多个相同标签,就随机选择一个;

<3>反复执行步骤(2),直到每个节点的标签都不再发生变化为止;

最终标签相同的节点归属同一社团。由以上算法,划分出网络的社团结构。本发明具有如下优点:本发明提供一种基于社区结构分析的大盘股指预测系统;主要解决了现有专利在预测分析股市未来行情时,未考虑社会舆论倾向的问题。我们通过分析各大网络论坛发布的海量文本信息,计算网络不同社团的情绪指数的时间序列与大盘指数的相关系数,找到情绪波动与大盘最相关的社团。最终该社团的情绪倾向,可作为预测股市波动的一个重要因素。本发明通过上述实施具有以下有益效果:本系统将社区发现和情绪指数计算两者结合,并做出创新。对于情绪指数,现有专利比较少,算法比较局限,主要是直接使用股市数据或对微博文本表情进行简单处理。而我们通过大量标注集,训练出分类模型,可对样本进行准确的分类。在通过划分出的不同社团的情绪指数,找出与股市波动最相关的社团,以此进一步预测未来走势,有很强的现实用途。

附图说明

图1是最相关社团算法流程图;

图2是社团划分算法流程;

图3是社团划分;

图4是社团活跃度及情绪变化;

图5是社团情绪指数与大盘指数变化趋势。

具体实施方式

下面将结合附图1-图5对本发明进行详细说明,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明通过改进在此提供一种基于社区结构分析的大盘股指预测系统,按照如下方式实现;

构建网络社团划分模块:首先对网络社区进行划分,这里我们使用标签传播算法:

<1>初始时,给每个节点分配一个唯一的标签;

<2>每个节点使用其邻居节点的标签中最多的标签来更新自身的标签;如果存在多个相同标签,就随机选择一个;

<3>反复执行步骤(2),直到每个节点的标签都不再发生变化为止;

最终标签相同的节点归属同一社团。由以上算法,划分出网络的社团结构。构建文本情绪分类模块:首先标注训练集,选取部分从金融论坛爬取的文本内容,人工标注出这些帖子的情绪倾向。将标注好的标注集中,选取k%作为训练集,剩余的1-k%作为预测集,训练出分类模型。使用训练集,训练出分类模型,预测集用来检验模型效果,并适当调整模型参数。我们分别训练出逻辑回归、支持向量机、贝叶斯分类等分类模型,然后使用了集成学习,对之前训练出的模型聚合,这里我们使用投票聚合的方式,对各个不同模型预测的结果进行投票,占多数的模型分类结果就是聚合模型的结果。使用训练好的模型,对于已经向量化的待分类文本进行分类,得到每个文本的情绪分类结果(积极(1),消极(-1),中性(0))。

构建社团情绪指数计算模块:由于每个社团的成员结构,影响力都所有不同,所以我们只需关注影响力最大的前n个社团即可。将各个社团内部的所有成员发布的文本汇总,然后分析各个社团的每天的情绪倾向。我们计算每个社团所发的每条文本的情绪,然后将持积极情绪的文本占比作为该社团当天的情绪指数。公式如下所示:

其中postijn表示第i个社团在第j天所发的编号为n的帖子的情绪倾向,函数ε识别出发布文本中中持积极情绪的那部分结果,indexik表示第i个社团在第k天的情绪指数。

构建检测与大盘股指波动最相关社团模块:得到每个社团情绪指数时间序列之后,我们分别设置延迟k(k=0,1,2,...)天,计算每个社团的情绪指数与股市大盘指数的相关系数,得到相关系数最大的前n个社团,将这些社团成员的情绪作为衡量股市波动的重要指标。

本发明通过上述实施具有以下有益效果:本系统将社区发现和情绪指数计算两者结合,并做出创新。对于情绪指数,现有专利比较少,算法比较局限,主要是直接使用股市数据或对微博文本表情进行简单处理。而我们通过大量标注集,训练出分类模型,可对样本进行准确的分类。在通过划分出的不同社团的情绪指数,找出与股市波动最相关的社团,以此进一步预测未来走势,有很强的现实用途。

下面结合示例进行说明:

一、社团划分:爬取得到金融论坛的用户的关注网络数据,使用模块1所述的网络社团划分算法,我们将网络划分为不同社团,如图3所示:

其中节点表示用户,连线表示节点之间的关注关系。密集的节点团表示这些节点的集合被划分到同一个社团。

二、文本情绪分类:首先标注训练集,我们随机抽取了一些从金融论坛爬取的文本内容,人工标注出这些帖子的情绪倾向。表1是标注的部分结果。

表1标注集结果

三、计算各个社团每天的发帖量以及情绪指数:分析该社区内不同社团的发帖数等相关数据,其中图4中散点的颜色代表不同社团,散点的大小表示社团规模,横轴表示时间,纵轴表示该社团在当天的发帖数,散点的明暗变化表示情绪指数的高低,显然,划分出的社团的发帖数相差较大,其中一个社团非常活跃,另一个则发帖较少。

四、检测与大盘股指波动最相关社团:分析整个社区的所有用户数据,最终找出了与大盘指数相关性最高的一个社团,其中图5中虚线是该社团在某段时间内的情绪指数,实线是该段时间的大盘指数,此处大盘指数的数据相对与情绪指数延迟一天。对二者进行相关性检验,发现该社团的情绪变化与大盘指数的波动呈正相关关系。

我们最终发掘出与大盘指数波动最相关的社团结构。找出那些与大盘指数强相关的社团,那么这些社区成员对股市行情的看法,在预测时可以作为一个变量适当考虑。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1