基于分组朴素贝叶斯模型的多因子在线预测方法及系统的制作方法

文档序号:10553041阅读:275来源:国知局
基于分组朴素贝叶斯模型的多因子在线预测方法及系统的制作方法
【专利摘要】本发明公开了基于分组朴素贝叶斯模型的多因子在线预测方法及系统,利用分类或聚类方式对多因子进行分组,实现各因子组之间相互独立而因子组内部高度相关,从而能够适用朴素贝叶斯模型来进行有效的模型学习,使因子预测能满足朴素贝叶斯模型的要求,以此来实现训练数据集有限的条件下的多因子学习;同时,还通过引入动态离散分级的方法,大大降低了在线学习的计算量和时间复杂度,实现在线实时学习和预测,可用于模型特征数据随时间动态变化较快的复杂系统中进行多因子在线预测,尤其适合用于股票数据模型中超额收益的在线预测。
【专利说明】
基于分组朴素贝叶斯模型的多因子在线预测方法及系统
技术领域
[0001] 本发明属于数据挖掘技术领域,尤其涉及基于分组朴素贝叶斯模型的多因子在线 预测方法及系统。
【背景技术】
[0002] 数据挖掘的主要任务有两个,它们分别为预测和分类。预测是指通过数据库中已 存在的数据信息来推测其他可能存在的未知的数据情况,是一种连续函数值模型;分类是 根据训练数据集和类标号属性,构建模型来分类现有数据,并对新数据的分类,是一种离散 模型。分类技术是数据挖掘中最有应用价值的技术之一,其应用遍及社会各个领域。它的原 理是利用已知数据生成特定的模型或者函数,然后通过该模型或函数将其他未知的数据分 派给某个类别,从而用于预测未知的样本的类别或者取值。
[0003] 目前所使用的分类模型主要有以下几种:贝叶斯分类、决策树、粗糙集、神经网络、 遗传算法等。众多的分类方法中,贝叶斯分类器由于具有坚实的数学理论基础并能综合先 验信息和数据样本信息,成为当前数据分类的研究热点之一。贝叶斯学习理论将先验知识 与样本信息相结合、依赖关系与概率表示相结合,是数据挖掘和不确定性知识表示的理想 模型。贝叶斯学习能够方便地处理不完全数据,还能够学习变量间的因果关系。因果关系是 数据挖掘中极为重要的模式。原因有二:①在数据分析中,因果关系有利于对领域知识的理 解;②在干扰较多时,便于做出精确的预测。
[0004] 朴素贝叶斯方法是一种最简单的非线性模型,它的原理是基于贝叶斯定理,即对 于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为待分 类项属于哪个类别。朴素贝叶斯模型原理简单、预测效果好。但是,朴素贝叶斯方法的一个 重要基础是:在训练阶段需要计算因子划分对于每个类别的条件概率,这里要求各因子相 对于分类的条件概率相互独立,彼此无相关性。对于许多复杂的系统,所有因子可能都从一 个数据集中提炼得到,这样在因子数量较大时难以保证其独立性,因此,在实际运用中进行 多因子预测时可能出现不同的因子间高度相关,这样就不符合朴素贝叶斯方法的使用条 件。
[0005] 而且,利用朴素贝叶斯模型进行估计所要求的样本点数量随着因子数量的增加而 呈指数级增加,所以,如采用朴素贝叶斯模型进行多因子预测则需要有大量历史数据,进而 计算量巨大,基于此,朴素贝叶斯模型在多因子预测领域的应用受到极大的限制。
[0006] 此外,朴素贝叶斯模型一般不处理连续性数据,在模型特征数据随时间动态变化 较快或实时性要求高的预测系统中,需要预先对各因子数据进行离散化分级,为了实现在 线学习,每一个新的实例到来时,会涉及到各因子的重新离散分级,这会耗费大量时间,并 产生巨大的计算量。
[0007] 因此,现实情况下,迫切需要提出一种改进的贝叶斯模型,以克服以上问题。

【发明内容】

[0008] 有鉴于此,本发明的目的在于提供一种基于分组朴素贝叶斯模型的多因子在线预 测方法及系统,以用于模型特征数据随时间动态变化较快的复杂系统中进行多因子在线预 测 。
[0009] -种基于分组朴素贝叶斯模型的多因子在线预测方法,包括以下步骤:
[0010] 1)从原始数据集中提取N个实例数据,每个所述实例数据包含F个因子数据和1个 目标数据;
[0011] 2)对所提取的各因子数据和目标数据进行预处理,得到基于相同级别的时间粒度 的各因子数据和目标数据;然后,对预处理后的各因子数据和目标数据分别进行离散化,并 按值大小将每个因子的数据分别划分为BV个区间得到因子分级数据,按值大小将目标数据 划分为BR个区间得到目标分类数据,所述因子分级数据和目标分类数据构成训练数据集;
[0012] 3)通过分类或聚类的方式对各因子进行分组,将F个因子分为G组,使每组因子之 间相互独立且组内因子间有相关性;其中,BR X BVFA < < N;
[0013] 4)基于朴素贝叶斯模型对所述训练数据集进行统计,得到各因子组的先验分布概 率和各因子组相对于目标分类的条件概率,并对所述先验分布概率和条件概率进行拉普拉 斯(Laplace)校准,所述拉普拉斯校准是指对于所述先验分布概率和条件概率的统计公式 中的分子、分母各加1;
[0014] 5)对于每一个新的实例,先对其经预处理所得的相同级别的时间粒度的各因子数 据和目标数据进行离散化,并归类到各因子数据和目标数据相对应的区间分级中,然后代 入分组朴素贝叶斯模型预测目标分类的后验分布概率;其中,采用动态离散分级方法将离 散化后的所述因子数据归类到相应的区间分级中,具体如下:
[0015] 设所述BV个区间的每个区间中离散值的数量为M,当取值属于某一区间的因子离 散值插入所述区间时,]?£[]\^11,]\1_)(8_取正整数并且^]\1<]\1_),其中]\1_ = 21^11,则 直接将所述因子离散值归类于所述区间并更新;当取值属于某一区间的因子离散值插入所 述区间时,M达到M max,则将所述因子离散值归类于所述区间,并按取值大小将所述区间拆分 为2个M=MmiW区间并更新。
[0016] 本发明的步骤(1)中,所述N个实例数据可以是随机提取,也可以是按时间序列提 取。
[0017] 本发明的步骤(3)中,所述分类可以先根据因子性质人工做大致分类,也可直接利 用线性或非线性分类器进行自动分类,分类完成后检验组别之间的独立性。
[0018] 本发明的步骤(3)中,所述的聚类优选K均值(K-means)聚类算法:指定聚类后的目 标类别数量K,算法不断迭代,最终使每个观测点到其所属的聚类中心距离之和最小。
[0019] 本发明的再一个目的在于提供一种基于分组朴素贝叶斯模型的多因子在线预测 系统,包括:
[0020] (1)训练数据提取模块,用于从原始数据集中提取N个实例数据,每个所述实例数 据包含F个因子数据和1个目标数据;
[0021] (2)训练数据预处理模块,对所提取的各因子数据和目标数据进行预处理,得到基 于相同级别的时间粒度的各因子数据和目标数据;然后,对预处理后的各因子数据和目标 数据分别进行离散化,并按值大小将每个因子的数据分别划分为BV个区间得到因子分级数 据,按值大小将目标数据划分为BR个区间得到目标分类数据,所述因子分级数据和目标分 类数据构成训练数据集;
[0022] (3)训练因子分组归类模块,用于对各因子数据采用分类或聚类的方式进行分组, 将F个因子分为G组,使每组因子之间相互独立且组内因子间有相关性;其中,BRXBV f/g<< N;
[0023] (4)贝叶斯预测分析模块,用于基于朴素贝叶斯模型对所述训练数据集进行统计, 得到各因子组的先验分布概率和各因子组相对于目标分类的条件概率,并对所述先验分布 概率和条件概率进行拉普拉斯(Laplace)校准,所述拉普拉斯校准是指对于所述先验分布 概率和条件概率的统计公式中的分子、分母各加1;
[0024] (5)数据预测模块,用于对于每一个新的实例,先对其经预处理所得的相同级别的 时间粒度的各因子数据和目标数据进行离散化,并归类到各因子数据和目标数据相对应的 区间分级中,然后代入分组朴素贝叶斯模型预测目标分类的后验分布概率;其中,采用动态 离散分级模块实现将离散化后的所述因子数据归类到相应的区间分级中,具体如下:
[0025] 设所述BV个区间的每个区间中离散值的数量为M,当取值属于某一区间的因子离 散值插入所述区间时,]?£[]\^11,]\1_)(8_取正整数并且^]\1<]\1_),其中]\1_ = 21^11,则 直接将所述因子离散值归类于所述区间并更新;当取值属于某一区间的因子离散值插入所 述区间时,M达到M max,则将所述因子离散值归类于所述区间,并按取值大小将所述区间拆分 为2个M=MmiW区间并更新。
[0026] 本发明所述的训练数据提取模块中,所述N个实例数据可以是随机提取,也可以是 按时间序列提取。
[0027] 本发明所述的训练因子分组归类模块中,所述分类可以先根据因子性质人工做大 致分类,也可直接利用线性或非线性分类器进行自动分类,分类完成后检验组别之间的独 立性。
[0028] 本发明所述的训练因子分组归类模块中,所述的聚类优选K均值(K-means)聚类算 法:指定聚类后的目标类别数量K,算法会不断迭代最终使每个观测点到其所属的聚类中心 距离之和最小。
[0029] 本发明的又一个目的在于提供上述基于分组朴素贝叶斯模型的多因子在线预测 方法及系统在股票超额收益预测上的应用。
[0030] -种基于分组朴素贝叶斯模型的多因子股票超额收益在线预测方法,包括以下步 骤:
[0031] 1)选取一段时间的股票数据提取N个实例数据,每个所述实例数据包含F个因子数 据和1个目标数据;
[0032] 2)对所提取的各因子数据和目标数据进行预处理,得到基于相同级别的时间粒度 的各因子数据和目标数据;然后,对预处理后的各因子数据和目标数据分别进行离散化,并 按值大小将每个因子的数据分别划分为BV个区间得到因子分级数据,按值大小将目标数据 划分为BR个区间得到目标分类数据,所述因子分级数据和目标分类数据构成训练数据集;
[0033] 3)通过分类或聚类的方式对各因子进行分组,将F个因子分为G组,使每组因子之 间相互独立且组内因子间有相关性;其中,BR X BVFA < < N;
[0034] 4)基于朴素贝叶斯模型对所述训练数据集进行统计,得到各因子组的先验分布概 率和各因子组相对于目标分类的条件概率,并对所述先验分布概率和条件概率进行拉普拉 斯(Laplace)校准,所述拉普拉斯校准是指对于所述先验分布概率和条件概率的统计公式 中的分子、分母各加1;
[0035] 5)对于每一个新的实例,先对其经预处理所得的相同级别的时间粒度的各因子数 据和目标数据进行离散化,并归类到各因子数据和目标数据相对应的区间分级中,然后代 入分组朴素贝叶斯模型预测目标分类的后验分布概率;其中,采用动态离散分级方法将离 散化后的所述因子数据归类到相应的区间分级中,具体如下:
[0036] 设所述BV个区间的每个区间中离散值的数量为M,当取值属于某一区间的因子离 散值插入所述区间时,]?£[]\^11,]\1_)(8_取正整数并且^]\1<]\1_),其中]\1_ = 21^11,则 直接将所述因子离散值归类于所述区间并更新;当取值属于某一区间的因子离散值插入所 述区间时,M达到M max,则将所述因子离散值归类于所述区间,并按取值大小将所述区间拆分 为2个M=MmiW区间并更新。
[0037]本发明中,利用分类或聚类方式对多因子进行分组,实现各因子组之间相互独立 而因子组内部高度相关,从而能够适用朴素贝叶斯模型来进行有效的模型学习,使因子预 测能满足朴素贝叶斯模型的要求,以此来实现训练数据集有限的条件下的多因子学习;同 时,还通过引入动态离散分级的方法,大大降低了在线学习的计算量和时间复杂度,实现在 线实时学习和预测,可用于模型特征数据随时间动态变化较快的复杂系统中进行多因子在 线预测,特别适合用于股票超额收益在线预测。
[0038]与现有技术相比,本发明具有以下有益的技术效果:
[0039] (1)基于朴素贝叶斯原理,通过对因子池进行分组,使因子组能够适用于朴素贝叶 斯模型,即在有限的训练数据集条件下也能进行有效的分类训练,特别适合有大量信号因 子且部分因子相关性高以及历史数据有限的目标预测模型,例如股票超额收益预测模型。
[0040] (2)现有技术中因子区间中离散值的数量通常是固定的,当一个新的因子值插入 时,一个因子区间的阈值发生改变,并且会引起随后多个因子区间的阈值发生改变,因此, 先验分布都需要重新统计,对于其它因子也是类似的情况,这样,每一个新的实例进来时, 若要能吸收新的信息,涉及到几乎所有历史数据一次新的学习,这样计算量巨大,在线学习 的时间复杂度高。或者,现有技术中的方法不能直接用于在线学习和预测,只能每次基于一 个数据集训练模型,不能在预测过程中动态的利用新信息完善模型,在模型特征随时间动 态变化较快的场合下表现不佳。相对于此,本发明引入动态离散分级的方法,当新的因子值 插入时,只要因子区间中离散值的数量在规定的范围内,因子区间阈值不做调整,只有在因 子区间中离散值的数量达到最大值时,才对因子区间进行拆分,这样每次一个新的实例进 来时只会影响一个或两个因子区间,这样就大大降低了在线学习的计算量和时间复杂度, 从而实现在线实时学习和预测,可用于模型特征数据随时间动态变化较快的复杂系统中进 行多因子在线预测,特别适合用于股票超额收益预测。
【具体实施方式】
[0041] 下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明 而不用于限制本发明的范围。
[0042] -种基于分组朴素贝叶斯模型的多因子在线预测方法,包括以下步骤:
[0043] 1)从原始数据集中提取N个实例数据,每个所述实例数据包含F个因子数据和1个 目标数据;
[0044] 2)对所提取的各因子数据和目标数据进行预处理,得到基于相同级别的时间粒度 的各因子数据和目标数据;然后,对预处理后的各因子数据和目标数据分别进行离散化,并 按值大小将每个因子的数据分别划分为BV个区间得到因子分级数据,按值大小将目标数据 划分为BR个区间得到目标分类数据,所述因子分级数据和目标分类数据构成训练数据集;
[0045] 3)通过分类或聚类的方式对各因子进行分组,将F个因子分为G组,使每组因子之 间相互独立且组内因子间有相关性;其中,BR X BVFA < < N;
[0046] 4)基于朴素贝叶斯模型对所述训练数据集进行统计,得到各因子组的先验分布概 率和各因子组相对于目标分类的条件概率,并对所述先验分布概率和条件概率进行拉普拉 斯(Laplace)校准,所述拉普拉斯校准是指对于所述先验分布概率和条件概率的统计公式 中的分子、分母各加1,以避免出现概率为〇的情况;
[0047] 5)对于每一个新的实例,先对其经预处理所得的相同级别的时间粒度的各因子数 据和目标数据进行离散化,并归类到各因子数据和目标数据相对应的区间分级中,然后代 入分组朴素贝叶斯模型预测目标分类的后验分布概率;其中,采用动态离散分级方法将离 散化后的所述因子数据归类到相应的区间分级中,具体如下:
[0048]设所述BV个区间的每个区间中离散值的数量为M,当取值属于某一区间的因子离 散值插入所述区间时,]?£[]\^11,]\1_)(8_取正整数并且^]\1<]\1_),其中]\1_ = 21^11,则 直接将所述因子离散值归类于所述区间并更新;当取值属于某一区间的因子离散值插入所 述区间时,M达到M max,则将所述因子离散值归类于所述区间,并按取值大小将所述区间拆分 为2个M=MmiW区间并更新。
[0049] -种基于分组朴素贝叶斯模型的多因子在线预测系统,包括:
[0050] (1)训练数据提取模块,用于从原始数据集中提取N个实例数据,每个所述实例数 据包含F个因子数据和1个目标数据;
[0051] (2)训练数据预处理模块,对所提取的各因子数据和目标数据进行预处理,得到基 于相同级别的时间粒度的各因子数据和目标数据;然后,对预处理后的各因子数据和目标 数据分别进行离散化,并按值大小将每个因子的数据分别划分为BV个区间得到因子分级数 据,按值大小将目标数据划分为BR个区间得到目标分类数据,所述因子分级数据和目标分 类数据构成训练数据集;
[0052] (3)训练因子分组归类模块,用于对各因子数据采用分类或聚类的方式进行分组, 将F个因子分为G组,使每组因子之间相互独立且组内因子间有相关性;其中,BRXBV f/g<< N;
[0053] (4)贝叶斯预测分析模块,用于基于朴素贝叶斯模型对所述训练数据集进行统计, 得到各因子组的先验分布概率和各因子组相对于目标分类的条件概率,并对所述先验分布 概率和条件概率进行拉普拉斯(Laplace)校准,所述拉普拉斯校准是指对于所述先验分布 概率和条件概率的统计公式中的分子、分母各加1,以避免出现概率为〇的情况;
[0054] (5)数据预测模块,用于对于每一个新的实例,先对其经预处理所得的相同级别的 时间粒度的各因子数据和目标数据进行离散化,并归类到各因子数据和目标数据相对应的 区间分级中,然后代入分组朴素贝叶斯模型预测目标分类的后验分布概率;其中,采用动态 离散分级模块实现将离散化后的所述因子数据归类到相应的区间分级中,具体如下:
[0055] 设所述BV个区间的每个区间中离散值的数量为M,当取值属于某一区间的因子离 散值插入所述区间时,]?£[]\^11,]\1_)(8_取正整数并且^]\1<]\1_),其中]\1_ = 21^11,则 直接将所述因子离散值归类于所述区间并更新;当取值属于某一区间的因子离散值插入所 述区间时,M达到M max,则将所述因子离散值归类于所述区间,并按取值大小将所述区间拆分 为2个M=MmiW区间并更新。
[0056] 上述实施例中,N个实例数据可以是随机提取,也可以是按时间序列提取。
[0057]上述实施例中,通过分类方式对各因子进行分组,可以先根据因子性质人工做大 致分类,也可直接利用线性或非线性分类器进行自动分类,分类完成后检验组别之间的独 立性。
[0058] 上述实施例中,通过聚类方式对各因子进行分组,采用K均值(K-means)聚类算法: 指定聚类后的目标类别数量K,算法不断迭代,最终使每个观测点到其所属的聚类中心距离 之和最小。
[0059] 为了更加清楚说明上述方法和系统在实际中的应用,以下将以股票超额收益预测 为例进行详细说明:
[0060] 一种基于分组朴素贝叶斯模型的多因子股票超额收益在线预测方法,包括以下步 骤:
[0061] 1)选取?个因子,建立因子池{¥1,¥2,¥3,¥4,.....Vf}:有众多因子信号对未来的股 价有预测作用,包括基于量价特征的技术因子、基于股票基本面的价值、财务因子、基于投 资者短期行为偏差带来的行为因子以及公司事件因子等;
[0062] 2)选择以主要指数成分股作为交易范围的S只股票在过去T年内的日数据,则选取 的实例样本数为N=SXTX 250;此处选取沪深300+中证500成分股共800只股票,从2011-2014共4年数据,则N大约为4 X 250 X 800 即80万,每个股票有4 X 250 即1000个数据点;
[0063] 3)由于不同的因子基于的数据粒度不同,在此统一采用日级别数据计算各因子值 并离散化,将其分为BV个区间得到因子分级数据;同时,计算每日的目标值超额收益并离散 化,将其分为BR个区间得到目标分类数据;因子分级数据和目标分类数据构成训练数据集;
[0064] 4)通过分类或聚类的方式对各因子进行分组,将F个因子分为G组,使每组因子之 间相互独立且组内因子间有相关性;为了满足有足够的样本点进行模型估计,需满足BRX BVFA<<N,例如,当F取值为24,G取值为6,每组内有4个因子,为了估计一个因子组相对于 目标分类的条件概率f (Vi,V2,V3,V41 r),需要4 X 44= 1024个样本点;
[0065] 这里通过分类方式对各因子进行分组,可以先根据因子性质人工做大致分类,也 可直接利用线性或非线性分类器进行自动分类,分类完成后检验组别之间的独立性。
[0066] 这里通过聚类方式对各因子进行分组,可以采用K-means聚类算法,即:指定聚类 后的目标类别数量K,算法不断迭代,最终使每个观测点到其所属的聚类中心距离之和最 小。
[0067] 5)基于朴素贝叶斯模型对所述训练数据集进行统计,得到各因子组的先验分布概 率和各因子组相对于目标分类的条件概率,并对得到的先验分布概率和条件概率进行拉普 拉斯(Laplace)校准,拉普拉斯校准是指对于先验分布概率和条件概率的统计公式中的分 子、分母各加1,以避免出现概率为〇的情况;
[0068] 例如,当F取值为24,G取值为6,每组内有4个因子,则各因子组的先验分布记为:f (Vl,V2,V3,V4),f(V5,V6,V7,V8),???,f(V21,V22,V23,V24),各因子组相对于目标分类的条件概 率记为出¥1,¥2,¥3,¥4^),汽¥5,¥6,¥7,¥8^),~彳(¥21,¥ 22,¥23,¥24卜),其中』代表预测的 目标:超额收益。
[0069] 6)根据分组朴素贝叶斯模型预测股票超额收益的后验分布:
[0070] 对于每一个新的实例,需要先计算其日级别的F个因子数据和1个目标数据,并进 行离散化后归类于相对应的区间分级:
[0071 ]设当前每个区间中离散值的数量M取值为3,因子I现在的区间划分为:
[0072] [1.2,1.7,1.79],[1.9,2.24,2.5],[2.6,2.8,2.9],[3.04,3.12,3.15],[3.5, 3.67]
[0073]在现有技术中,若该实例中因子V:的离散值为2.44时,将该值插入第2个区间后, 第2个区间以及随后3个区间的阈值都将发生调整,新的区间划分为:
[0074] [1.2,1.7,1.79],[1.9,2.24,2.44],[2.5,2.6,2.8],[2.9,3.04,3.12],[3.15, 3.5.3.67]
[0075] 此时5个区间中的4个都发生了改变,之前统计的先验分布fai+V^Vi+hVi^WP 条件分布以1-1,^1+1,¥1+2|〇都需要重新统计,对于其它因子也是类似的情况,每一个新 的实例进来时,若要能吸收新的信息,涉及到几乎所有历史数据一次新的学习。
[0076] 而在本实施例中,若该实例中因子Vi的离散值为2.44时,将该值插入第2个区间 后,该区间中离散值的数量M值为4,因离散值的数量是动态的,MG[3,6)(即M取正整数并且 3<M<6),因此,所有区间的阈值均不发生调整,新的区间划分为:
[0077] [1.2,1.7,1.79],[1.9,2.24,2.44,2.5],[2.6,2.8,2.9],[3.04,3.12,3.15], [3.5,3.67]
[0078] 可见,该因子值插入只影响一个因子区间,其它因子也是如此,只有当插入区间后 离散值的数量M值到6时,会拆分为2个大小为3的区间,这样也只影响2个因子区间,这样在 线学习的计算量和时间复杂度就大大降低了。
[0079]在完成归类后,由于G组因子之间相互独立,可以对G组因子采用朴素贝叶斯模型 来估计超额收益的后验分布:
[0081] 其中,r代表预测的目标:超额收益;f(r)代表目标的先验分布。比如,r分为3个区 间,r = 0,代表大跌;r = 1,代表小幅波动;r = 2,代表大涨,f (r)表示属于这三个类别的先验 概率。对于每一个新的实例,就能算出后验概率HrzOlVhVs......)、f(r=1 |Vl, V2......),f(r = 2|Vi,V2......)分布的概率,哪个概率最大,就预测r属于哪一个区间。
[0082] 本领域的技术人员应理解,上述的实例数据可以采用日级别数据,也可以统一采 用其他级别数据,同样能够实现本发明的技术效果。
[0083] 本领域的技术人员应理解,上述描述中所示的本发明的实施例只作为举例用于说 明本发明,而不应视为限定本发明的范围。
[0084]由此可见,本发明的目的已经完整并有效的予以实现。本发明的功能及结构原理 已在实施例中予以展示和说明,在不背离所述原理的情况下,实施方式可作任意修改。所 以,本发明包括了基于权利要求精神及权利要求范围的所有变形实施方式。
【主权项】
1. 一种基于分组朴素贝叶斯模型的多因子在线预测方法,其特征在于,包括以下步骤: 1) 从原始数据集中提取N个实例数据,每个所述实例数据包含F个因子数据和1个目标 数据; 2) 对所提取的各因子数据和目标数据进行预处理,得到基于相同级别的时间粒度的各 因子数据和目标数据;然后,对预处理后的各因子数据和目标数据分别进行离散化,并按值 大小将每个因子的数据分别划分为BV个区间得到因子分级数据,按值大小将目标数据划分 为BR个区间得到目标分类数据,所述因子分级数据和目标分类数据构成训练数据集; 3) 通过分类或聚类的方式对各因子进行分组,将F个因子分为G组,使每组因子之间相 互独立且组内因子间有相关性;其中,BRXBV f/g<<N; 4) 基于朴素贝叶斯模型对所述训练数据集进行统计,得到各因子组的先验分布概率和 各因子组相对于目标分类的条件概率,并对所述先验分布概率和条件概率进行拉普拉斯校 准; 5) 对于每一个新的实例,先对其经预处理所得的相同级别的时间粒度的各因子数据和 目标数据进行离散化,并归类到各因子数据和目标数据相对应的区间分级中,然后代入分 组朴素贝叶斯模型预测目标分类的后验分布概率;其中,采用动态离散分级方法将离散化 后的所述因子数据归类到相应的区间分级中,具体如下: 设所述BV个区间的每个区间中离散值的数量为M,当取值属于某一区间的因子离散值 插入所述区间时,M e [Mmin,Mmax ),其中Mmax = 2Mmin,则直接将所述因子离散值归类于所述区 间并更新;当取值属于某一区间的因子离散值插入所述区间时,M达到Mmax,则将所述因子离 散值归类于所属区间,并按取值大小将所述区间拆分为2个M=M min的区间并更新。2. 如权利要求1所述的基于分组朴素贝叶斯模型的多因子在线预测方法,其特征在于, 所述的聚类采用K均值聚类算法。3. -种基于分组朴素贝叶斯模型的多因子在线预测系统,其特征在于,包括: (1) 训练数据提取模块,用于从原始数据集中提取N个实例数据,每个所述实例数据包 含F个因子数据和1个目标数据; (2) 训练数据预处理模块,对所提取的各因子数据和目标数据进行预处理,得到基于相 同级别的时间粒度的各因子数据和目标数据;然后,对预处理后的各因子数据和目标数据 分别进行离散化,并按值大小将每个因子的数据分别划分为BV个区间得到因子分级数据, 按值大小将目标数据划分为BR个区间得到目标分类数据,所述因子分级数据和目标分类数 据构成训练数据集; (3) 训练因子分组归类模块,用于对各因子数据采用分类或聚类的方式进行分组,将F 个因子分为G组,使每组因子之间相互独立且组内因子间有相关性;其中,BRXBVf/g<<N; (4) 贝叶斯预测分析模块,用于基于朴素贝叶斯模型对所述训练数据集进行统计,得到 各因子组的先验分布概率和各因子组相对于目标分类的条件概率,并对所述先验分布概率 和条件概率进行拉普拉斯校准; (5) 数据预测模块,用于对于每一个新的实例,先对其经预处理所得的相同级别的时间 粒度的各因子数据和目标数据进行离散化,并归类到各因子数据和目标数据相对应的区间 分级中,然后代入分组朴素贝叶斯模型预测目标分类的后验分布概率;其中,采用动态离散 分级模块实现将离散化后的所述因子数据归类到相应的区间分级中,具体如下: 设所述BV个区间的每个区间中离散值的数量为M,当取值属于某一区间的因子离散值 插入所述区间时,M e [Mmin,Mmax ),其中Mmax = 2Mmin,则直接将所述因子离散值归类于所述区 间并更新;当取值属于某一区间的因子离散值插入所述区间时,M达到Mmax,则将所述因子离 散值归类于所述区间,并按取值大小将所述区间拆分为2个M=M miW区间并更新。4. 如权利要求3所述的基于分组朴素贝叶斯模型的多因子在线预测系统,其特征在于, 所述的聚类采用K均值聚类算法。5. 如权利要求1或2所述的基于分组朴素贝叶斯模型的多因子在线预测方法在股票超 额收益预测上的应用。6. 如权利要求5所述的基于分组朴素贝叶斯模型的多因子在线预测方法在股票超额收 益预测上的应用,其特征在于,包括以下步骤: 选取F个因子,选择S只股票在过去T年内的日数据,则选取的实例样本数为N = S X T X 250;统一采用日级别数据计算各因子值并离散化,将其分为BV个区间得到因子分级数据; 同时,计算每日的目标值超额收益并离散化,将其分为BR个区间得到目标分类数据;所述因 子分级数据和目标分类数据构成训练数据集; 通过分类或聚类的方式对各因子进行分组,将F个因子分为G组,使每组因子之间相互 独立且组内因子间有相关性;其中,BR X BVfa << N; 基于朴素贝叶斯模型对所述训练数据集进行统计,得到各因子组的先验分布概率和各 因子组相对于目标分类的条件概率,并对所述先验分布概率和条件概率进行拉普拉斯校 准; 对于每一个新的实例,先计算其日级别的F个因子数据和1个目标数据,并进行离散化, 然后归类于各因子数据和目标数据相对应的区间分级中,最后代入分组朴素贝叶斯模型预 测目标分类的后验分布概率;其中,采用动态离散分级方法将离散化后的所述因子数据归 类到相应的区间分级中,具体如下: 设所述BV个区间的每个区间中离散值的数量为M,当取值属于某一区间的因子离散值 插入所述区间时,M e [Mmin,Mmax ),其中Mmax = 2Mmin,则直接将所述因子离散值归类于所述区 间并更新;当取值属于某一区间的因子离散值插入所述区间时,M达到Mmax,则将所述因子离 散值归类于所述区间,并按取值大小将所述区间拆分为2个M=M miW区间并更新。7. 如权利要求6所述的基于分组朴素贝叶斯模型的多因子在线预测方法在股票超额收 益预测上的应用,其特征在于,所述的聚类采用K均值聚类算法。8. 如权利要求3或4所述的基于分组朴素贝叶斯模型的多因子在线预测系统在股票超 额收益预测上的应用。
【文档编号】G06N5/02GK105912690SQ201610246700
【公开日】2016年8月31日
【申请日】2016年4月20日
【发明人】沈天瑞, 涂世涛
【申请人】上海垒土资产管理有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1