一种基于指标预测的自动建模系统及其方法

文档序号:6541381阅读:332来源:国知局
一种基于指标预测的自动建模系统及其方法
【专利摘要】本发明提供一种基于指标预测的自动建模系统,包括:数据加载和存储模块,用于加载数据与存储后续流程完成后产生的结果数据;核心算法模块,具有算法库,所述核心算法模块运行所述算法库中的各个算法族的脚本,获取所述各个算法族中的最优参数;模型评估/整合模块,根据所述核心算法模块中获取的最优参数,获取最优算法或集成算法;企业应用模块,运行所述模型评估/整合模块所获得的所述最优算法或集成算法,并标准化运行结果后输出所述结果数据;配置模块,用于控制和驱动所述数据加载和存储模块、所述核心算法模块、所述模型评估/整合模块和所述企业应用模块的运行。本发明还提供一种基于指标预测的自动建模和部署的处理方法。
【专利说明】一种基于指标预测的自动建模系统及其方法
[0001]【技术领域】:
本发明涉及数据挖掘技术的应用领域,尤其是涉及一种基于指标预测的自动建模系统及其方法。
[0002]【背景技术】:
随着各行各业业务数量不断膨胀,市场的饱和、竞争的白热化以及市场覆盖范围的不断扩展,需要全面的了解自身市场的变化;随着市场竞争的加剧,市场变化速度加快,要求对市场具备前瞻性的分析能力;随着业务的影响因素的复杂,量化判断市场发展异常成为难题。需要人们对市场指标进行全面性分析、前瞻性预测、异常发展提前预警等动作,当前从理论方法上已经有数据挖掘技术给以实现,其中最常见的就是时间序列分析方法,数据库技术为该方法的生产运营提供了基础。
[0003]目前各行业的指标预测建模及应用方法也已经有了一定积累,而且很多企业也已经有很多建模师在从事预测建模、模型上线的一些事情,当前业界也已经积累了一些预测模型开发和部署经验,当前已经采用的预测模型开发和部署的主要方式为:从数据库将数据导出到本地,由建模师利用第三方建模工具,根据业务需求训练模型,不断的人工调试模型,得到模型参数或规则,再将参数或规则转化成sql语言固化到生产环境,然后根据模型输出的结果人工分析市场异常的原因或新资费推出后对市场产生的影响。
[0004]上述预测模型的开发和部署的方式已经比较好的满足常见的时间序列类的业务需求。然而,上述模型开发和部署方式及后期业务处理方式都存在很大弊端,如当指标过多时,比如上百或上万个指标时,需要建模师分别去人工完成抽取数据、训练模型、开发固化脚本、测试上线等过程,这个需求耗费大量的人力成本,而且还有一个弊端:当当前数据分布不满足之前训练的参数分布时或业务需求更改时,如原来的需求为预测一期,而后需求改为预测多期时,需要建模师将原先的每个指标建模过程分别重新开发一遍,这种方式对于人力资源造成巨大的浪费;此外,对预测反馈出的业务问题需要人工去判断,势必会造成过多的主观判断参与其中。
[0005]
【发明内容】
:
为解决上述技术问题,本发明提供一种基于指标预测的自动建模系统,包括:数据加载和存储模块,用于加载数据与存储后续流程完成后产生的结果数据;核心算法模块,具有算法库,所述核心算法模块运行所述算法库中的各个算法族的脚本,获取所述各个算法族中的最优参数;模型评估/整合模块,根据所述核心算法模块中获取的最优参数,获取最优算法或集成算法;企业应用模块,运行所述模型评估/整合模块所获得的所述最优算法或集成算法,并标准化运行结果后输出所述结果数据;配置模块,用于控制和驱动所述数据加载和存储模块、所述核心算法模块、所述模型评估/整合模块和所述企业应用模块的运行。
[0006]优选地,所述数据加载和存储模块对加载后的数据进行第一预处理;所述核心算法模块对进行了所述第一预处理后的数据进行第二预处理、样本准备、模型训练和测试,并输出模型训练参数、残差、预测结果和配置文件。
[0007]优选地,所述第一预处理包括序列化处理和多指标合并;所述核心算法模块将所获取的所述各个算法族中的最优参数存储在所述配置文件中。
[0008]优选地,所述模型评估/整合模块对所述核心算法模块中所获取的最优参数进行评估,根据评估结果获取所述最优算法,或根据所述评估结果对相应的算法进行整合以获取所述集成算法。
[0009]优选地,所述配置模块包括数据加载配置单元、模型评估配置单元、企业应用配置单元和主函数配置单元;所述主函数配置单元能够驱动所述数据加载配置单元、所述模型评估配置单元、所述企业应用配置单元和所述核心算法模块,以此驱动整个流程,其中所述数据加载配置单元用于驱动所述数据加载和存储模块,所述模型评估配置单元用于驱动所述模型评估/整合模块,所述企业应用配置单元用于驱动所述企业应用模块。
[0010]优选地,可扩展资源模块,具有可扩展资源库,所述可扩展资源模块运行所述可扩展资源库中的不同算法族的脚本,获取所述不同算法族中的最优参数。
[0011]优选地,当所述配置模块搜索不到所述核心算法模块的配置时,驱动所述可扩展资源模块的运行。
[0012]优选地,所述模型评估/整合模块对所述可扩展资源模块中所获取的最优参数进行评估,根据评估结果获取所述最优算法,或根据所述评估结果对相应的算法进行整合以获取所述集成算法。
[0013]优选地,所述配置模块具有企业应用配置单元和主函数配置单元;
当所述主函数配置单元搜索不到所述核心算法模块的配置时,驱动所述企业应用配置单元,并由所述企业应用配置单元驱动所述可扩展资源模块的运行。
[0014]优选地,展示模块,用于展示所述结果数据。
[0015]优选地,当所述配置模块搜索到所述展示模块的配置时,驱动所述展示模块展示所述结果数据。
[0016]优选地,所述配置模块具有企业应用配置单元和主函数配置单元;
当所述主函数配置单元搜索到所述展示模块的配置时,驱动所述企业应用配置单元,并由所述企业应用配置单元驱动所述展示模块的运行。
[0017]优选地,所述模型评估/整合模块,首先评估所述最优算法是否满足需求,如果满足,则所述企业应用模块运行所述最优算法并标准化运行结果后输出所述结果数据,如果不满足需求,则所述模型评估/整合模块根据评估结果对相应的算法进行整合以获取所述集成算法,然后所述企业应用模块运行所述集成算法并标准化运行结果后输出所述结果数据。
[0018]另一方面,本发明还提供一种基于指标预测的自动建模方法,包括:数据加载步骤,加载后续流程所需数据;核心算法运行步骤,运行算法库中的各个算法族的脚本,获取所述各个算法族中的最优参数;模型评估/整合步骤,根据所述核心算法运行步骤中获取的最优参数,获取最优算法或集成算法;企业应用步骤,运行所述模型评估/整合步骤中所获得的所述最优算法或集成算法,并标准化运行结果后输出所述结果数据;控制步骤,控制和驱动所述数据加载步骤、所述核心算法运行步骤、所述模型评估/整合步骤和所述企业应用步骤。
[0019]优选地,在所述数据加载步骤中,对加载后的数据进行第一预处理;在所述核心算法运行步骤中,对进行了所述第一预处理后的数据进行第二预处理、样本准备、模型训练和测试,并输出模型训练参数、残差、预测结果和配置文件。
[0020]优选地,所述第一预处理包括序列化处理和多指标合并;在所述核心算法运行步骤中,将所获取的所述各个算法族中的最优参数存储在所述配置文件中。
[0021]优选地,在所述模型评估/整合步骤中,对所述核心算法运行步骤中所获取的最优参数进行评估,根据评估结果获取所述最优算法,或根据所述评估结果对相应的算法进行整合以获取所述集成算法。
[0022]优选地,存储步骤,存储所述企业应用步骤中所获得的所述结果数据。
[0023]优选地,扩展资源步骤,运行可扩展资源库中的不同算法族的脚本,获取所述不同算法族中的最优参数。
[0024]优选地,当在所述控制步骤中搜索不到所述核心算法运行步骤的配置时,驱动所述扩展资源步骤的运行。
[0025]优选地,在所述模型评估/整合步骤中,对所述扩展资源步骤中所获取的最优参数进行评估,根据评估结果获取所述最优算法,或根据所述评估结果对相应的算法进行整合以获取所述集成算法。
[0026]优选地,展示步骤,展示所述结果数据。
[0027]优选地,当在所述控制步骤中搜索到所述展示步骤的配置时,驱动所述展示步骤展示所述结果数据。
[0028]优选地,在所述模型评估/整合步骤中,首先评估所述最优算法是否满足需求,如果满足,则在所述企业应用步骤中运行所述最优算法并标准化运行结果后输出所述结果数据,如果不满足需求,则在所述模型评估/整合步骤中根据评估结果对相应的算法进行整合以获取所述集成算法,然后在所述企业应用步骤中运行所述集成算法并标准化运行结果后输出所述结果数据。
[0029]本发明从实际的企业应用着手,对依托的技术进行了技术革新,从自动化和智能化的角度对传统预测技术进行封装与标准化,为从手工建模与部署到自动化建模与部署开辟了一条广阔的通道,本发明尤其适应于多模型建设的应用,如上百上千个指标预测模型的开发与实时应用,帮助企业建立一个准确、及时、全面的预测与监控平台,为全面管理企业战略管理、业务管控、数据质量管控等应用提供及时可靠的手段。实施本发明能够获得以下有益效果:
1.通过将数据加载、模型开发、模型选择、模型部署等整个过程封装成可配置的自动化,极大降低人工干预的工作量,大大提高效率。此外,根据设置的周期进行模型的自学习,解决了传统由于数据分布不满足固定训练参数的弊端,由于构建了可共享可扩展的模型库,在算法的可选择上也比传统方式要灵活,降低由于建模人员知识储备欠缺造成的技术壁垒。
[0030]2.本发明对系统配置要求不高、方法全,具有可扩展性强、自动化、自学习程度高等特征,在模型选择上与传统模式最大的区别在于,该方法在每个模型族内获取最优模型,然后在整个模型库内搜索最优模型并按配置模块可整合为强学习器的集成模型,建模模式、效率和准确度上都远远优于传统的人工方式。
[0031]3.通过在本发明的业务应用库封装应用于企业战略管理、业务管控、数据质量管理等领域,在应用过程中大大节省了人力。同时,在数据质量监控应用方面,也大大地提高了正确识别率;在业务管控应用方面,大大地提高了解决业务识别与定位出的业务问题能力,并具有资费模拟预演功能,能够为应用企业降低损失。
[0032]【专利附图】

【附图说明】:
图1为本发明实施方式涉及的自动化建模系统的结构框图;
图2为本发明实施方式涉及的自动建模的流程图;
图3为本发明实施方式涉及的模型评估/整合模块运行的流程图。
[0033]【具体实施方式】:
本发明实施方式所涉及的基于指标预测的自动建模系统,该系统基于R语言,可实现模型库的构建、管理、共享、数据加载、存储、模型库集中分解开发、最优算法搜索、分解算法再整合、知识迁移、模型结果自动部署、模型企业应用、应用展示等流程封装的功能,封装成不同的可执行模块,并通过配置模块的设置完成整个建模和应用流程的自动化以及扩展模块的连接。
[0034]在本实施方式中涉及的基于指标预测的自动建模系统,其总体上涉及业务导向自动触发模型自动开发与部署引擎的方法和系统,其中模型引擎包括具有配置、数据加载、自学习、迁移学习等多个智能处理模块来实现业务需求,在本实施方式中配置的搜索设置、模型判断和评估机制会对当前模型开发与部署的流程运行进行判断,并触发相应的脚本。下面,根据附图进行具体说明。
[0035]图1显示了本发明实施方式涉及的基于指标预测的自动建模系统的结构框图。如图1所示,上述基于指标预测的自动建模系统包括配置模块I和模块封装部分2,其中上述配置模块I包括数据加载配置单元11、主函数配置单元12、模型评估配置单元13和企业应用配置单元14,上述模块封装部分2包括建模封装的核心和基础模块21、展示模块22、可扩展资源模块23和企业应用模块24。上述R-add建模封装的核心和基础模块21具有数据加载和存储模块211、核心算法模块212和模型评估/整合模块213。
[0036]上述配置模块I是上述数据加载和存储模块211、上述核心算法模块212、上述模型评估/整合模块213、上述展示模块22、上述可扩展资源模块23和上述企业应用模块24等其他6大模块的驱动模块,负责上述各大模块参数的配置、流程的封装、自动运行驱动等,其在上述自动建模系统相当于控制中心的角色。其中,上述配置模块I中的上述数据加载配置单元11、上述主函数配置单元12、上述模型评估配置单元13和上述企业应用配置单元14等各单元对上述数据加载和存储模块211、上述核心算法模块212、上述模型评估/整合模块213、上述展示模块22、上述可扩展资源模块23和上述企业应用模块24等其他6大丰旲块的控制和驱动关系为:
1)上述数据加载和存储模块211将不同数据源与数据格式的数据读取、读取方式(批量或单一)等封装为参数化的UDF (用户定义函数),然后通过在上述配置模块I中的上述数据加载配置单元11输入参数的实际值,由上述主函数配置单元12中相应的脚本读取上述数据加载配置单元11中的上述参数的实际值进行驱动和控制数据的加载;
2)上述模型评估/整合模块213将核心算法封装为参数化UDF,然后通过在上述配置模块I的上述模型评估配置单元13进行输入相应参数或文本,由上述主函数配置单元12统一读取上述模型评估配置单元13的配置文件,并传递给模型评估的UDF,起到驱动和控制的作用;3)剩下的其他模块同样在相应模块中开发核心算法,只是配置文件在上述企业应用配置单元14中生成,控制方式依然是由上述主函数配置单元12去调度和驱动。
[0037]在上述配置模块I中的相应的配置文件放置在上述配置模块I的底层的配置库(无图示)。
[0038]具体地,上述配置模块I用于不同模块的配置和驱动,在配置文件中存放各大模块初始化参数、业务选择、数据选择等驱动信息,可根据不同的应用配置不同的参数和其他驱动信息。上述配置模块I配置并存储了所述自动建模系统运行所需的各个参数,并负责驱动所述自动建模系统的各个模块的运行。
[0039]其中,上述配置模块I的上述数据加载配置单元11,用于数据类型、数据源、数据区间及调度的配置。如表1中,不同数据类型需要在上述数据加载和存储模块211中封装相应的读取方式,并根据业务应用在上述配置模块I的上述数据加载配置单元11中配置并进行驱动。
[0040]表1:
【权利要求】
1.一种基于指标预测的自动建模系统,包括: 数据加载和存储模块,用于加载后续流程所需的数据; 核心算法模块,具有算法库,所述核心算法模块运行所述算法库中的各个算法族的脚本,获取所述各个算法族中的最优参数; 模型评估/整合模块,根据所述核心算法模块中获取的最优参数,获取最优算法或集成算法; 企业应用模块,运行所述模型评估/整合模块所获得的所述最优算法或集成算法,并标准化运行结果后输出所述结果数据; 配置模块,用于控制和驱动所述数据加载和存储模块、所述核心算法模块、所述模型评估/整合模块和所述企业应用模块的运行。
2.根据权利要求1所述的自动建模系统,其特征在于: 所述数据加载和存储模块对加载后的数据进行第一预处理; 所述核心算法模块对进行了所述第一预处理后的数据进行第二预处理、样本准备、模型训练和测试,并输出模型训练参数、残差、预测结果和配置文件; 所述数据加载和存储模块还能够存储所述企业应用模块所产生的所述结果数据。
3.根据权利要求2所述的自动建模系统,其特征在于: 所述第一预处理包括序列化处理和多指标合并; 所述核心算法模块将所获取的所述各个算法族中的最优参数存储在所述配置文件中。
4.根据权利要求3所述的自动建模系统,其特征在于: 所述模型评估/整合模块对所述核心算法模块中所获取的最优参数进行评估,根据评估结果获取所述最优算法,或根据所述评估结果对相应的算法进行整合以获取所述集成算法。
5.根据权利要求1所述的自动建模系统,其特征在于: 所述配置模块包括数据加载配置单元、模型评估配置单元、企业应用配置单元和主函数配置单元; 所述主函数配置单元能够驱动所述数据加载配置单元、所述模型评估配置单元、所述企业应用配置单元和所述核心算法模块,以此驱动整个流程,其中所述数据加载配置单元用于驱动所述数据加载和存储模块,所述模型评估配置单元用于驱动所述模型评估/整合模块,所述企业应用配置单元用于驱动所述企业应用模块。
6.根据权利要求1所述的自动建模系统,还包括: 可扩展资源模块,具有可扩展资源库,所述可扩展资源模块运行所述可扩展资源库中的不同算法族的脚本,获取所述不同算法族中的最优参数。
7.根据权利要求6所述的自动建模系统,其特征在于: 当所述配置模块搜索不到所述核心算法模块的配置时,驱动所述可扩展资源模块的运行。
8.根据权利要求7所述的自动建模系统,其特征在于: 所述模型评估/整合模块对所述可扩展资源模块中所获取的最优参数进行评估,根据评估结果获取所述最优算法,或根据所述评估结果对相应的算法进行整合以获取所述集成算法。
9.根据权利要求8所述的自动建模系统,其特征在于: 所述配置模块具有企业应用配置单元和主函数配置单元; 当所述主函数配置单元搜索不到所述核心算法模块的配置时,驱动所述企业应用配置单元,并由所述企业应用配置单元驱动所述可扩展资源模块的运行。
10.根据权利要求1所述的自动建模系统,还包括: 展示模块,用于展示所述结果数据。
11.根据权利要求10所述的自动建模系统,其特征在于: 当所述配置模块搜索到所述展示模块的配置时,驱动所述展示模块展示所述结果数据。
12.根据权利要求11所述的自动建模系统,其特征在于: 所述配置模块具有企业应用配置单元和主函数配置单元; 当所述主函数配置单元搜索到所述展示模块的配置时,驱动所述企业应用配置单元,并由所述企业应用配置单元驱动所述展示模块的运行。
13.根据权利要求1~12所述的自动建模系统,其特征在于: 所述模型评估/整合模块,首先评估所述最优算法是否满足需求,如果满足,则所述企业应用模块运行所述最优算法并标准化运行结果后输出所述结果数据,如果不满足需求,则所述模型评估/整合模块根据评估结果对相应的算法进行整合以获取所述集成算法,然后所述企业应用模块运行所述集成算法并标准化运行结果后输出所述结果数据。
14.一种基于指标预测的自动建模方法,包括: 数据加载步骤,加载后续流程所需数据; 核心算法运行步骤,运行算法库中的各个算法族的脚本,获取所述各个算法族中的最优参数; 模型评估/整合步骤,根据所述核心算法运行步骤中获取的最优参数,获取最优算法或集成算法; 企业应用步骤,运行所述模型评估/整合步骤中所获得的所述最优算法或集成算法,并标准化运行结果后输出所述结果数据; 控制步骤,控制和驱动所述数据加载步骤、所述核心算法运行步骤、所述模型评估/整合步骤和所述企业应用步骤。
15.根据权利要求14所述的自动建模方法,其特征在于: 在所述数据加载步骤中,对加载后的数据进行第一预处理; 在所述核心算法运行步骤中,对进行了所述第一预处理后的数据进行第二预处理、样本准备、模型训练和测试,并输出模型训练参数、残差、预测结果和配置文件。
16.根据权利要求15所述的自动建模方法,其特征在于: 所述第一预处理包括序列化处理和多指标合并; 在所述核心算法运行步骤中,将所获取的所述各个算法族中的最优参数存储在所述配置文件中。
17.根据权利要求16所述的自动建模方法,其特征在于: 在所述模型评估/整合步骤中,对所述核心算法运行步骤中所获取的最优参数进行评估,根据评估结果获取所述最优算 法,或根据所述评估结果对相应的算法进行整合以获取所述集成算法。
18.根据权利要求14所述的自动建模方法,还包括: 存储步骤,存储所述企业应用步骤中所获得的所述结果数据。
19.根据权利要求14所述的自动建模方法,还包括: 扩展资源步骤,运行可扩展资源库中的不同算法族的脚本,获取所述不同算法族中的最优参数。
20.根据权利要求19所述的自动建模方法,其特征在于: 当在所述控制步骤中搜索不到所述核心算法运行步骤的配置时,驱动所述扩展资源步骤的运行。
21.根据权利要求20所述的自动建模方法,其特征在于: 在所述模型评估/整合步骤中,对所述扩展资源步骤中所获取的最优参数进行评估,根据评估结果获取所述最优算法,或根据所述评估结果对相应的算法进行整合以获取所述集成算法。
22.根据权利要求14所述的自动建模方法,还包括: 展示步骤,展示所述结果数据。
23.根据权利要求22所述的自动建模方法,其特征在于: 当在所述控制步骤中搜索到所述展示步骤的配置时,驱动所述展示步骤展示所述结果数据。
24.根据权利要求14~23所述的自动建模方法,其特征在于: 在所述模型评估/整合步骤中,首先评估所述最优算法是否满足需求,如果满足,则在所述企业应用步骤中运行所述最优算法并标准化运行结果后输出所述结果数据,如果不满足需求,则在所述模型评估/整合步骤中根据评估结果对相应的算法进行整合以获取所述集成算法,然后在所述企业应用步骤中运行所述集成算法并标准化运行结果后输出所述结果数据。
【文档编号】G06F19/00GK103886203SQ201410109141
【公开日】2014年6月25日 申请日期:2014年3月24日 优先权日:2014年3月24日
【发明者】李攀登 申请人:美商天睿信息系统(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1