一种用于股市运行逻辑理解的强关联规则挖掘方法与流程

文档序号:12366743阅读:241来源:国知局
一种用于股市运行逻辑理解的强关联规则挖掘方法与流程

本发明涉及股票数据挖掘技术领域,尤其是涉及一种用于股市运行逻辑理解的强关联规则挖掘方法。



背景技术:

股票市场自建立以来一直是众多学者和投资者的研究对象,股票价格走势的预测是投资和证券理论界普遍关注的课题。由于受到国内外政治经济环境以及企业自身等各种因素的影响,股票价格总是处在不断波动之中,各种因素的影响方式又极其复杂,所以股票价格涨跌无序,有很大的随机游走性。

大量学者对股票价格进行了深入研究,其预测原理为: 通过对历史和当前的股票数据进行分析,对股票未来的价格走势进行预测,从而为股民提供参考依据。常用的股票价格预测方法有:时间序列分析法、神经网络预测方法、回归分析法、时间序列平滑法、趋势曲线模型法、随机时间序列预测方法、马尔柯夫预测法和判别分析预测法等。股价系统内部结构的复杂性、外部因素的多变性决定了股市预测的艰巨性,现有的分析预测方法应用效果并不理想。

虽然有各种因素导致了股票的不好预测性,但是我们仍可以通过一些方法对股票的运行逻辑有个基本的了解。本发明方法所说的股市运行逻辑并不是指股市的运作机制,而是指股票涨跌幅前后组合的逻辑,比如常见的追涨杀跌,即今天大涨了,明天跟着大涨的概率很大;反之今天大跌了,明天大跌的概率也很大。



技术实现要素:

本发明公开了一种用于股市运行逻辑理解的强关联规则挖掘方法。方法的主要思想是:把所有股票的涨跌幅数值量化后,这些值看作是关联规则中项的集合,而每只股票的近期相邻小段时间序列的量化值则看作是一个事务的交易;而后以关联规则算法的思想对所有股票数据进行统计和规则发现;最后获取满足支持度阈值并且置信度相对较高的强关联规则并加以分析,从而对股市的运行逻辑进行理解并做出解释。

本发明方法与传统关联规则方法的不同之处在于:传统关联规则的项是无序的集合,而本方法则要求项是有序的。本发明方法结合了股票的实际,可以较深刻理解股市运行逻辑,为股票操作提供决策支持。

假设股票列表为S,S=[S1, S2,…,Si,…,Sm],m为股票池中股票的数量,如中国上市股票的数量或美国上市股票的数量。本发明方法针对所有的股票学习共同的规则。本发明方法的步骤如下:

(1)对所有股票的涨跌幅值进行量化;

(2)对所有股票的相邻项进行有序频繁项集统计;

(3)基于支持度和置信度排序提取股市强关联规则;

(4)对股市运行逻辑进行理解并做出解释。

其中,步骤(1)的对所有股票的涨跌幅值进行量化,具体为:对于每只股票,获取某个时间点以来(如2005年1月1日)的涨跌幅数据,而后对涨跌幅值进行量化,即对涨跌幅值进行四舍五入的操作,变换为[-10,10]区间的整数值;最后股票池中的每只股票都变换为包含股票涨跌幅整数值的数组。

其中,步骤(2)的对所有股票的相邻项进行有序频繁项集统计,具体为:以所有股票的涨跌幅整数值为统计对象,同时在要求有序获取相邻量化值的基础上,进行k-项集的频度统计,这里的k取1到5。在进行k-项集统计时,首先定义一个k维数组,每一维的长度为21,而后遍历所有股票的涨跌幅整数值数组,每次取相邻的k个值,对这k个值的共同出现的次数进行累加统计,并放入k维数组对应的槽中。

其中,步骤(3)的基于支持度和置信度排序提取股市强关联规则,具体为:基于每组k项集和k-1项集的统计,计算在每组k项集下的支持度和置信度,这里k取2到5。k项集下的支持度为k维数组每个槽中的次数值占所有次数和的比例;置信度的分子为k-项集的统计次数,分母为k-项集去除尾项后其余项在k-1项集中相应的统计次数。对大于最小支持度的频繁项集按照置信度值从大到小排序,前t个置信度值所对应的规则即为强关联规则。

对于每组k项集,获取的强关联规则分为前件和后件,前件是指k项集去除尾项后的剩余其他项,而后件则是指尾项,即最后一项。

其中,步骤(4)的对股市运行逻辑进行理解并做出解释,具体为:根据前一步骤获取的各种不同前件数的强关联规则,学习这些规则、挑选显著的规则,并当待预测股票当前近期的交易数据匹配上股市的运行逻辑时,即股票涨跌幅的前后组合能搭配上提取的规则时,提示用户重点关注,并告知历史运行逻辑后续可能的组合及其发生的概率。

附图说明

图1 是本发明用于股市运行逻辑理解的强关联规则挖掘方法的流程图。

图2是基于本发明方法输出的一小部分强关联规则。这里的规则是基于股票进行数据挖掘后得到的支持度和置信度较高的规则。由于强关联规则较多,这里仅列出很少的一部分。规则可用于帮助理解股市的运行逻辑。

具体实施方式

下面结合附图和实例,对本发明进行详细的描述。

关联规则是形如X→Y的蕴涵式,X和Y分别称为关联规则的前件和后件。其中,关联规则XY,存在支持度和置信度。关联规则定义为:假设I={I1,I2,….Im}是项的集合。给定一个交易数据库D,其中每个事务t是I的非空子集,即,每一个交易都与一个唯一的TID对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是D中事务已经包含X的情况下,包含Y的百分比,即条件概率。如果项集满足最小支持度阈值,则该项集为频繁项集;如果满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值是根据挖掘需要人为设定的。

把所有股票的涨跌幅数值量化后,这些值看作是关联规则中项的集合;而每只股票近期小段时间序列的量化值则可看作是一个事务的交易。本发明方法结合股票实际,以关联规则算法思想,对所有股票数据进行统计和规则发现,获取满足支持度阈值并且置信度相对较高的强关联规则并加以分析,从而加强对股市运行逻辑的理解。

本发明方法与传统关联规则方法的不同之处在于:传统关联规则的项是无序的集合,而本方法则要求项是有序的。

假设股票列表为S,S=[S1, S2,…,Si,…,Sm],m为股票池中股票的数量,如中国上市股票的数量或美国上市股票的数量。方法针对所有股票学习共同的规则。股市强关联规则的挖掘过程具体如下。

一、对股票的涨跌幅值进行量化。

对于每只股票,获取某个时间点以来(如2005年1月1日)的涨跌幅数据,而后对涨跌幅值进行量化,即对涨跌幅值进行四舍五入的操作,变换为[-10,10]区间的整数值;最后股票池中的每只股票都变换为包含股票涨跌幅整数值的数组。

二、股票频繁项集统计。

2.1进行1-项集统计。由于股票有涨跌幅限制,量化后的整数值有21种情况,即[-10,10]区间的整数,因此设置一个有21槽的数组,遍历所有股票的涨跌幅整数值数组,根据涨跌幅整数值的出现次数进行累加统计,并放入对应的槽中。

2.2进行2-项集统计。设置一个21X21的二维数组,遍历所有股票的涨跌幅整数值数组,每次取相邻的两个值,对这两个值的共同出现的次数进行累加统计,并放入二维数组对应的槽中。

2.3进行3-项集统计。设置一个21X21X21的三维数组,遍历所有股票的涨跌幅整数值数组,每次取相邻的三个值,对这三个值的共同出现的次数进行累加统计,并放入三维数组对应的槽中。

2.4进行4-项集统计。设置一个21X21X21X21的四维数组,遍历股票涨跌幅整数值数组,每次取相邻的四个值,对这四个值的共同出现的次数进行累加统计,并放入四维数组对应的槽中。

2.5进行5-项集统计。设置一个21X21X21X21X21的五维数组,遍历股票涨跌幅整数值数组,每次取相邻的五个值,对这五个值的共同出现的次数进行累加统计,并放入五维数组对应的槽中。

由于股票数据有限,一般进行到5-项集统计时,共现元组的出现频率就已经很小了,统计得到的高维数组已经很稀疏,因此没有再进行更高项集统计的必要。

三、提取股市强关联规则。

由于股票应用的特殊性,只关心频繁项集里面最后一项,即下一交易日涨跌幅出现的概率,因此不同于传统的关联规则挖掘算法,这里提取的规则的后件数都固定为1。

3.1 获取2-频繁项集及强关联规则。对2-项集计算支持度,即计算二维数组每个槽中的次数值占所有次数和的比例。设定一个支持度阈值,过滤掉支持度小于支持度阈值的槽,剩余项集即为频繁项集。对于每个2-项频繁项集,去掉最后一项的剩余项在1-项集中获取相应的统计次数,2-项集的统计次数除以相应1-项集的统计次数即可得置信度。对获得的所有置信度值从大到小排序,前t个置信度值所对应的规则即为强关联规则。

如下表为获取的一些1-前件的强关联规则。

3.2 获取3-频繁项集及强关联规则。对3-项集计算支持度,即计算三维数组每个槽中的次数值占所有次数和的比例。设定一个支持度阈值,过滤掉支持度小于支持度阈值的槽,剩余项集即为频繁项集。对于每个3-项频繁项集,去掉最后一项的剩余项在2-项集中获取相应的统计次数,3-项集的统计次数除以相应2-项集的统计次数即可得置信度。对获得的所有置信度值从大到小排序,前t个置信度值所对应的规则即为强关联规则。

如下表为获取的一些2-前件的强关联规则。

3.3 获取4-频繁项集及强关联规则。对4-项集计算支持度,即计算四维数组每个槽中的次数值占所有次数和的比例。设定一个支持度阈值,过滤掉支持度小于支持度阈值的槽,剩余项集即为频繁项集。对于每个4-项频繁项集,去掉最后一项的剩余项在3-项集中获取相应的统计次数,4-项集的统计次数除以相应3-项集的统计次数即可得置信度。对获得的所有置信度值从大到小排序,前t个置信度值所对应的规则即为强关联规则。

如下表为获取的一些3-前件的强关联规则。

3.4 获取5-频繁项集及强关联规则。对5-项集计算支持度,即计算五维数组每个槽中的次数值占所有次数和的比例。设定一个支持度阈值,过滤掉支持度小于支持度阈值的槽,剩余项集即为频繁项集。对于每个5-项频繁项集,去掉最后一项的剩余项在4-项集中获取相应的统计次数,5-项集的统计次数除以相应4-项集的统计次数即可得置信度。对获得的所有置信度值从大到小排序,前t个置信度值所对应的规则即为强关联规则。

如下表为获取的一些4-前件的强关联规则。

四、股市运行逻辑理解和解释。

根据前一步骤获取的各种不同前件数的强关联规则,学习这些规则、挑选显著的规则。从以上各种不同前件数的强关联规则可知,一般情况下股市以趋稳为主,即下一个交易日的涨跌幅整数值都接近于0。当股票涨停时(涨幅10%),下一交易日具有很大的概率会继续涨停;当股票跌停时(跌幅-10%),下一交易日具有很大的概率会继续跌停;这也说明了股市中的追涨杀跌是有道理的。由于强关联规则较多,这里不再一一说明。

基于股票的运行逻辑,即股票强关联规则,在当待预测股票当前近期的交易数据匹配上股市的运行逻辑时,即股票涨跌幅的前后组合能搭配上提取的规则时,这时提示用户重点关注,并告知历史运行逻辑后续可能的组合及其发生的概率。

综上所述,本发明公开了一种用于股市运行逻辑理解的强关联规则挖掘方法。方法以关联规则算法的思想对所有股票数据进行统计和规则发现。不同于传统关联规则方法的项是无序的集合,本方法要求项是有序的,并且规则的后件仅有一个项。方法结合了股票的实际,可以较深刻理解股市运行逻辑,为股票操作提供决策支持。

本发明方法同样可应用于证券类具有时间序列特征的数据,如基金、期货等。因此,尽管为说明目的公开了本发明的具体实施例和附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是不可能的。因此,本发明不应局限于最佳实施例和附图所公开的内容。当前公开的实施例在所有方面应被理解为说明性的而非对其请求保护的范围的限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1