因子聚类方法与装置、设备与存储介质与流程

文档序号:13943745阅读:138来源:国知局

本发明涉及金融领域,尤其涉及金融数据处理领域中关于因子聚类方法装置、设备和存储介质。

技术背景

随着理财观念的不断普及,越来越多的投资理财产品应运而生,如基金、债券、股票以及保险等金融产品逐渐在金融市场中发展成熟,投资理财也不再是富人们的专利,普通百姓也改变了传统的理财观念,而不只是选择把资金存放在银行。

但是对于普通百姓,尤其是对于那些没有经济金融专业背景的人们来说,纷繁复杂的投资理财产品常常会让他们感到不知所措,从而只能盲目地跟风。此外,购买理财产品时,首先需要读懂产品说明书,包括说明书中产品投资方向、风险等级以及相应的附加条款,而通常各种金融产品说明书上的用词术语都比较专业,投资者如不具备一定的知识基础则很容易被忽悠,这就需要该领域的专业人士来为这些投资者进行相关方面的投资指导和规划。

针对上述问题,目前市面上已经出现了不少量化交易投资理财的平台,为个人或者企业投资者在制定投资策略、理财规划等方面提供了许多数据分析和建议。

现有的量化交易策略大多数经过金融工程师编写产生,并通过回测历史数据进行甄别策略好坏的方法,这种方法所产生的策略耗时耗力,并且大多数都是无效策略。还有一种方法是通过定义多因子进行因子有效性检验,然后进行人工考察判别因子的有效性,此种方法也需要有经验的人员,效率低下,难以适应瞬息多变的市场。

总之,若能提供一种基于自动因子聚类的量化策略生成方法,用于产生较好的模板,减少大量数据参与策略生成和运算,降低计算机运算时间,将极大提高工作效率,让策略快速落地。



技术实现要素:

本发明提供一种因子聚类方法,用以解决现有技术中策略生成运算时间长,效率低的问题。

为解决上述问题,本发明公开了一种因子聚类方法,适于在因子聚类设备中执行,包括以下步骤:

从多个数据样本中抽取多个数据子样本,每个数据样本包含的同一特征量的数据子样本为时间不相交的数据集合;

将所述子样本按同一特征量进行归集;

计算所述多个子样本的因子参数值,所述的参数值包括因子的统计量、形状或者形态的特征值;

归集所述相同特征量子样本的同类因子,并依同类因子参数值大小进行排序;

将所述同类因子按定义参数值进行聚类,生成多个聚类因子。

在所述将所述子样本按同一特征量进行归集步骤后,所述计算所述多个子样本的因子参数值步骤前,还包括:将相同特征量的子样本进行排列的步骤。

所述将相同特征量的子样本进行排列的步骤,具体包括:将所述相同特征量的子样本以起始时间先后为优先顺序排列,以所述数据样本排序为次优顺序排列。本发明一种因子聚类方法,还包括策略生成步骤,对所述聚类因子进行排列组合生成多个策略,所述策略至少包含一个所述聚类因子。

本发明还提供了一种因子聚类装置,适于驻留在因子聚类设备中,该装置包括以下模块:

数据提取模块,用于从多个数据样本中抽取多个数据子样本,每个数据样本包含的同一特征量的数据子样本为时间不相交的数据集合;

特征量归集模块,用于将所述子样本按同一特征量进行归集;

计算模块,用于计算所述多个子样本的因子参数值,所述的参数值包括因子的统计量、形状或者形态的特征值;

同类因子归集排序模块,用于归集所述相同特征量子样本的同类因子,并依同类因子参数值大小进行排序;

因子聚类模块,用于将所述同类因子按定义参数值进行聚类,生成多个聚类因子。

所述子样本排列模块具体用于将所述相同特征量的子样本以起始时间先后为优先顺序排列,以所述数据样本排序为次优顺序排列。

本发明还提供了一种因子聚类设备,包括:

一个或多个处理器;

存储器;以及

一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行因子聚类方法中的任一方法的指令。

本发明还提供了一种计算机存储介质,所述存储介质存储有一个或多个程序,所述一个或多个程序包括指令,所述指令当由因子聚类设备执行时,使得所述因子聚类设备执行因子聚类方法中的任一方法。

与现有技术相比,本发明具有以下有益效果:

本发明通过对因子按定义范围聚类,对聚类因子进行排列组合生成初级策略,减少了初级策略生成量及相应的回测运算,进一步减少系统资源的负担,降低了策略运算时间,提高了策略生成效率。

附图说明

说明书附图

图1是本发明因子聚类方法流程图。

图2是本发明因子聚类装置构架图。

图3是本发明因子聚类设备框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明可用于众多通用或专用的计算机系统环境或配置中如个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、包括以上任何系统或设备的分布式计算机环境等。

本发明因子聚类方法,适用但不局限于证券交易市场中的股票、期货、外汇、期权等交易品种。数据样本可从公共平台获取,用户可根据需要选定金融数据样本标的或某时间区域的金融数据样本标的。

本发明在量化交易平台上经用户定义由计算机自动执行指令完成因子聚类、聚类因子经排列组合生成多个初级策略,以该初级策略作为模板进行回测优化生成交易策略。

实施例一

参考图1,示出了本发明一种因子聚类方法实施例一的流程图,以股票因子聚类为例,本实施例可理解为本发明应用于实际中的一个具体案例,包括以下步骤:

步骤101,从多个数据样本中抽取多个数据子样本,每个数据样本包含的同一特征量的数据子样本为时间不相交的数据集合。

在本实施例中,多个数据样本为用户定义的某时间段的多支股票的行情数据,数据样本包括但不限于股票的开盘价、收盘价、最高价、最低价、成交量等特征量,上述数据样本可从数据公共服务平台或共享平台获取。从每支股票数据样本的各特征量中抽取一个或多个子样本,从每支股票的同一特征量中抽取的子样本为时间不相交的数据集合,并至少抽取一个样本。具体地,在公共平台上获取a、b、c三支股票前一年的行情数据作为数据样本,从a股票前一年数据中的开盘价中随机抽取时间不相交的若干时间段数据集合,比如第1周,第20周,第48周,第52周开盘价的数据子样本,以上1周时间段内的开盘价为一个子样本数据,上述时间段的长短可随机定义,并不一定需要相同。同样地,抽取a股票收盘价、最高价、最低价、成交量等行情数据的若干时间段数据,组成a股票的行情数据子样本集合。依此步骤获得股票b、c的行情数据子样本集合,不同股票的相同特征量的时间段可自定义抽取,可选相同时间段数据或不同时间段数据,但至少抽取一个子样本。从样本中抽取少量数据作为子样本,大大降低了计算机系统的运算量,减少系统资源的负担。

步骤102,将子样本按同一特征量进行归集。

将步骤101抽取的abc三支股票的行情数据子样本集合按相同特征量进行归集,如归集abc股票开盘价的数据子样本、收盘价的数据子样本、最高价的数据子样本、最低价的数据子样本、成交量的数据子样本,获得多个不同特征量的行情数据子样本集合。

可选地,本发明在将行情数据子样本集合按同一特征量进行归集步骤后,还包括将相同特征量的子样本进行排列的步骤。通过排序可以根据用户定义的排序的范围进行有效的因子归集,大大提高归集的效率。

在本实施例中,将步骤102归集的同一特征量的子样本进行排列或排序,可选地,按子样本的起始时间优先顺序排列,按子样本性质为次优顺序排列。本步骤具体还包括子样本起始时间判断步骤,若多个子样本的起始时间相同,则以次优顺序排列。

分别归集a、b、c三支股票的开盘价、收盘价、最高价、最低价、成交量等子样本数据并排列。具体地,对子样本的开盘价进行排列,按三支股票子样本的起始时间先后顺序排列,如起始时间冲突,可按abc股票在数据平台的先后顺序排列,获得多个不同特征量的子样本集合。

步骤103,计算数据子样本的因子参数值,所述的参数值包括因子的统计量,形状或者形态的特征值。依各特征量的子样本集合,计算每个特征量中各子样本相应的因子参数值,所述因子参数值包括但不限于平均值、方差、标准差、最高值、最低值、中间值等统计量,和描述走势形态的特征值。

计算上述经归集的每个子样本的参数值,每个子样本分别得到上述各因子的一个值。具体地,以计算统计量中开盘价数据子样本集合为例,包含10个子样本,计算每个子样本的平均值分别为12、13、14.5、16、16.8、19.8、21、24.5、28、30;相应地,计算各子样本的方差、标准差、最高值、最低值、中间值等统计量,得到各个子样本的相应因子参数值。

以计算描述走势形态的特征值为例,比如用子样本k线的组合与标准形态进行相似度计算,计算获得相关系数代表特征值描述形态,进行相似度聚类,所述标准形态由用户设定。评价相似度的子样本个体可以为k线的高度,设定相似度比较的多组标准形态,第m组标准形态设定最高价y1m,开盘价y2m,收盘价y3m,最低价y4m,各个子样本的第i根k线的高度分为当天最高价x1i,开盘价x2i,收盘价x3i,最低价x4i,计算子样本中k线高度与多组标准形态的相似度,可以欧氏距离进行相似度计算,各子样本同各组标准形态的相似度的计算公式:

其中,n表示子样本中k线的数量,i表示子样本中第i根k线。

对相似度进行归一化处理,子样本形态同标准形态的相似度范围为(0,1)。在本实施例中,需要预设相似度阈值,将阈值设置为0.9,即与标准形态相似度大于等于0.9的子样本进行聚类,生成一个聚类因子,聚类因子数量与定义的标准形态数量相同。若有与各标准形态相似度均不满足阈值的子样本,则该子样本可不纳入因子聚类范畴,若有某个子样本与多个标准形态相似,可聚类到相似度较高的一类标准形态。该描述形态特征的聚类因子与步骤105生成的可量化聚类因子排列组合生成多个量化策略。

步骤104,将相同特征量子样本的同类因子的参数值进行归集排序。

本发明中将所述平均值、方差、标准差、最高值、最低值、中间值等统计量,和描述走势形态的特征值等定义为不同的因子类别。将相同特征量的因子参数值按因子类别进行归集,并将相同特征量的同类因子按因子参数值大小进行排序,可选地自小到大排列或自大到小排列。具体地,将股票开盘价的多个子样本数据集合中的平均值、方差、标准差、最高值、最低值、中间值等统计量等因子归类后,分别按照参数值大小进行排序。

步骤105,将所述同类因子按定义参数值进行聚类,生成多个聚类因子。

将上述同类因子的参数值按定义范围值进行聚类,每一定义范围值为一聚类因子。具体地,仍以开盘价的数据子样本为例,各子样本的平均值为12、13、14.5、16、16.8、19.8、21、24.5、28、30,定义该因子范围值,如将平均值划分为11-15,16-20,21-25,26-30五个范围,并依该定义的范围值进行聚类,即平均值11-15为一个聚类因子,平均值16-20为一个聚类因子,每一范围值生成一个聚类因子,该开盘价的数据子样本的平均值生成5个聚类因子。相应地,开盘价数据子样本的方差、标准差、最高值、最低值、中间值等等生成n1、n2、n3……个聚类因子。依此类推,子样本的收盘价、最高价、最低价、成交量等特征量按因子类别的参数值范围进行聚类,生成多个聚类因子。

本发明生成的聚类因子用于生成初级策略,经过提取数据子样本和因子聚类,减少了大量数据参与策略的生成和运算,降低运算时间,提高运算效率。

本发明还包括策略生成步骤。本实施例中,一个聚类因子为组成策略的一个因子,将各聚类因子进行排列组合,生成初级策略。该第初级策略至少包含一个聚类因子,其可以为单因子策略,也可以为多因子策略。可选地,从一类因子中抽取一个聚类因子组成单因子策略;或从一类因子中抽取多个聚类因子组成多因子策略;或从多个类别因子中分别抽取一个聚类因子组成多因子策略;或从多个类别因子中分别抽取多个聚类因子组成多因子策略。用户或策略开发工程师以此初级策略为基础进行优化回测,并完善,形成交易策略,可极大地提高了策略生成效率。

实施例二

与上述本发明一种因子聚类方法实施例一所提供的方法相对应,参见图2,本发明还提供了一种因子聚类系统实施例,在本实施中,该系统包括:

数据提取模块201,用于从多个数据样本中抽取多个数据子样本,每个数据样本包含的同一特征量的数据子样本为时间不相交的数据集合。

在本实施例中,多个数据样本为用户定义的某时间段的多支股票的行情数据,数据样本包括但不限于股票的开盘价、收盘价、最高价、最低价、成交量等特征量,上述数据样本可从数据公共服务平台或共享平台获取。从每支股票数据样本的各特征量中抽取一个或多个子样本,从每支股票的同一特征量中抽取的子样本为时间不相交的数据集合,并至少抽取一个样本。具体地,在公共平台上获取a、b、c三支股票前一年的行情数据作为数据样本,从a股票前一年数据中的开盘价中随机抽取时间不相交的若干时间段数据集合,比如第1周,第20周,第48周,第52周开盘价的数据子样本,以上1周时间段内的开盘价为一个子样本数据,上述时间段的长短可随机定义,并不一定需要相同。同样地,抽取a股票收盘价、最高价、最低价、成交量等行情数据的若干时间段数据,组成a股票的行情数据子样本集合。依此步骤获得股票b、c的行情数据子样本集合,不同股票的相同特征量的时间段可自定义抽取,可选相同时间段数据或不同时间段数据,但至少抽取一个子样本。从样本中抽取少量数据作为子样本,大大降低了计算机系统的运算量,减少系统资源的负担。

特征量归集模块202,用于将所述子样本按同一特征量进行归集。

将步骤101抽取的abc三支股票的行情数据子样本集合按相同特征量进行归集,如归集abc股票开盘价的数据子样本、收盘价的数据子样本、最高价的数据子样本、最低价的数据子样本、成交量的数据子样本,获得多个不同特征量的行情数据子样本集合。

可选地,本发明在将行情数据子样本集合按同一特征量进行归集步骤后,还包括将相同特征量的子样本进行排列的步骤。通过排序可以根据用户定义的排序的范围进行有效的因子归集,大大提高归集的效率。

在本实施例中,将步骤102归集的同一特征量的子样本进行排列或排序,可选地,按子样本的起始时间优先顺序排列,按子样本性质为次优顺序排列。本步骤具体还包括子样本起始时间判断步骤,若多个子样本的起始时间相同,则以次优顺序排列。

分别归集a、b、c三支股票的开盘价、收盘价、最高价、最低价、成交量等子样本数据并排列。具体地,对子样本的开盘价进行排列,按三支股票子样本的起始时间先后顺序排列,如起始时间冲突,可按abc股票在数据平台的先后顺序排列,获得多个不同特征量的子样本集合。

计算模块203,用于计算所述多个子样本的因子参数值,所述的参数值包括因子的统计量,形状或者形态的特征值。

依各特征量的子样本集合,计算每个特征量中各子样本相应的因子参数值,所述因子参数值包括但不限于平均值、方差、标准差、最高值、最低值、中间值等统计量,和描述走势形态的特征值。

计算上述经归集的每个子样本的参数值,每个子样本分别得到上述各因子的一个值。具体地,以计算统计量因子参数值为例,开盘价数据子样本集合包含10个子样本,计算每个子样本的平均值分别为12、13、14.5、16、16.8、19.8、21、24.5、28、30;相应地,计算各子样本的方差、标准差、最高值、最低值、中间值等统计量,得到各个子样本的相应因子参数值。

以计算描述走势形态的特征值为例,比如用子样本k线的组合与标准形态进行相似度计算,计算获得相关系数代表特征值描述形态,进行相似度聚类,所述标准形态由用户设定。评价相似度的子样本个体可以为k线的高度,设定相似度比较的多组标准形态,第m组标准形态设定最高价y1m,开盘价y2m,收盘价y3m,最低价y4m,各个子样本的第i根k线的高度分为当天最高价x1i,开盘价x2i,收盘价x3i,最低价x4i,计算子样本中k线高度与多组标准形态的相似度,可以欧氏距离进行相似度计算,各子样本同各组标准形态的相似度的计算公式:

其中,n表示子样本中k线的数量,i表示子样本中第i根k线。

对相似度进行归一化处理,子样本形态同标准形态的相似度范围为(0,1)。

在本实施例中,需要预设相似度阈值,将阈值设置为0.9,即与标准形态相似度大于等于0.9的子样本进行聚类,生成一个聚类因子,聚类因子数量与定义的标准形态数量相同。若有与各标准形态相似度均不满足阈值的子样本,则该子样本可不纳入因子聚类范畴,若有某个子样本与多个标准形态相似,可聚类到相似度较高的一类标准形态。该描述形态特征的聚类因子与步骤105生成的可量化聚类因子排列组合生成多个量化策略。

同类因子归集排序模块204,用于归集所述相同特征量子样本的同类因子,并依同类因子参数值大小进行排序。

本发明中将所述平均值、方差、标准差、最高值、最低值、中间值等统计量,和描述走势形态的特征值等定义为不同的因子类别。将相同特征量的因子参数值按因子类别进行归集,并将相同特征量的同类因子按因子参数值大小进行排序,可选地自小到大排列或自大到小排列。具体地,将股票开盘价的多个子样本数据集合中的平均值、方差、标准差、最高值、最低值、中间值等统计量等因子归类后,分别按照参数值大小进行排序。

因子聚类模块205,用于将所述同类因子按定义参数值进行聚类,生成多个聚类因子。

将上述同类因子的参数值按定义范围值进行聚类,每一定义范围值为一聚类因子。具体地,仍以开盘价的数据子样本为例,各子样本的平均值为12、13、14.5、16、16.8、19.8、21、24.5、28、30,定义该因子范围值,如将平均值划分为11-15,16-20,21-25,26-30五个范围,并依该定义的范围值进行聚类,即平均值11-15为一个聚类因子,平均值16-20为一个聚类因子,每一范围值生成一个聚类因子,该开盘价的数据子样本的平均值生成5个聚类因子。相应地,开盘价数据子样本的方差、标准差、最高值、最低值、中间值等生成n1、n2、n3……个聚类因子。依此类推,子样本的收盘价、最高价、最低价、成交量等特征量按因子类别的参数值范围进行聚类,生成多个聚类因子。

本发明还包括策略生成模块。将统计量相关聚类因子和形态特征量相关聚类因子进行排列组合,生成初级策略。该第初级策略至少包含一个聚类因子,其可以为单因子策略,也可以为多因子策略。可选地,从一类因子中抽取一个聚类因子组成单因子策略;或从一类因子中抽取多个聚类因子组成多因子策略;或从多个类别因子中分别抽取一个聚类因子组成多因子策略;或从多个类别因子中分别抽取多个聚类因子组成多因子策略。用户或策略开发工程师以此初级策略为基础进行优化回测,并完善,形成交易策略,可极大地提高了策略生成效率。

实施例三

本发明还提供一种因子聚类设备,如图3所示,包括:

一个或多个处理器301、存储器302、以及一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行因子聚类方法中的任一方法的指令。其中,该方法包括以下步骤:

从多个数据样本中抽取多个数据子样本,每个数据样本包含的同一特征量的数据子样本为时间不相交的数据集合;

将所述子样本按同一特征量进行归集,所述特征量包括但不限于开盘价、收盘价、最高价、最低价、成交量;

计算所述多个子样本的因子参数值,所述的参数值包括因子的统计量,形状或者形态的特征值;

归集所述相同特征量子样本的同类因子,并依同类因子参数值大小进行排序;

将所述同类因子按定义参数值进行聚类,生成多个聚类因子。

本实施例中的计算设备可以实现为众多通用或专用的计算机系统环境或配置中如个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、包括以上任何系统或设备的分布式计算机环境等。

实施例四

本发明还提供一种计算机存储介质,该存储介质存储有一个或多个程序,一个或多个程序包括指令,该指令当由因子聚类设备执行时,使得所述因子聚类设备执行因子聚类方法中的任一方法。

本领域技术人员应该明白,本发明的实施例可提供为方法、设备或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或者软件与硬件结合的实施例的形式。本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

以上对本发明所提供的一种因子聚类方法和系统进行了详细的介绍,并应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及核心思想。同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1