本发明涉及数据建模,特别是一种在线数据建模系统及其构建方法。
背景技术:
1、随着信息的爆发式增长和积累,大数据时代已近来临。大数据的基本特征:数据量大、类型繁多、价值密度低、速度快时效高。
2、数据建模指的是对现实世界各类数据的抽象组织,确定数据库需管辖的范围、数据的组织形式等直至转化成现实的数据库。用于信息系统的数据模型作为一个概念数据模型,本质上是一组记录数据要求的最初的规范技术。数据首先用于讨论适合企业的最初要求,然后被转变为一个逻辑数据模型,该模型可以在数据库中的数据结构概念模型中实现。一个概念数据模型的实现可能需要多个逻辑数据模型。数据建模中的最后一步是确定逻辑数据模型到物理数据模型中到对数据访问性能和存储的具体要求。
3、现有的数据建模工具对于人员专业素质要求比较高,并且操作比较繁琐,需要人力解析各个非结构化文件所给出的内容,容易出现因人工失误而造成一系列问题,全过程自动化程度不高。
技术实现思路
1、为了克服现有技术的上述缺点,本发明提供一种在线数据建模系统及其构建方法。
2、本发明解决其技术问题所采用的技术方案是:一种在线数据建模系统,所述系统包括:
3、第一获取模块,用于获取原始数据;
4、识别模块,用于从原始数据中识别原始变量;
5、第二获取模块,用于根据预设的规则库,获取与所述原始变量相匹配的衍生变量;所述预设的规则库中存储有原始变量与衍生变量件的配置关系;如果原始变量与衍生变量的中文描述或者相对应的同义词的中文描述完全相同时,则认定为精确匹配到相应的衍生变量;如果获取与所述原始变量相匹配的衍生变量时,当中文描述不能完全相匹配时,通过语义分析进行原始变量与衍生变量的匹配,当符合语义分析对应的指标时,则认定为模糊匹配到相应的衍生变量;
6、选定模块,用于选定预先设定的分类模型;
7、配置模块,用于配置数据建模参数;
8、建模模块,用于通过数据建模参数、原始变量及衍生变量、预先设定的分类模型进行数据建模,生成在线数据建模系统。
9、作为本发明的进一步改进:所述系统还包括:
10、输出模块,输出根据各个预先设定的分类模型建模后的建模结果,比较所述建模结果推荐最优的分类模型。
11、作为本发明的进一步改进:所述系统还包括:
12、校验模块,用于在在线数据建模系统训练过程中,对原始数据和数据建模算法进行一致性验证;
13、参数获取模块,用于在验证一致性后,获得在线数据建模系统的模型参数;
14、传输协议构建模块,用于与聚合服务器构建安全传输层协议;
15、传输模块,用于根据所述安全传输层协议将所述模型参数传输至所述聚合服务器,以使所述聚合服务器根据所述模型参数进行联合建模。
16、作为本发明的进一步改进:所述系统还包括:
17、构建模块,用于依据历史数据和标准化等相应的数据挖掘流程,构建机器学习模型;
18、分析模块,用于分析统计历史预测填补缺失值序列和真实样本序列的误差,寻找填补缺失值序列及其相应的真实值序列的误差分布;
19、预测填补模块,用于在数据缺失产生过程阶段,利用机器学习模型进行线上实时预测填补;
20、更新模块,用于在数据缺失停止产生阶段,对填补数据仿真,通过历史的误差分布来分配填补值和真实值的总差值还原到填补缺失值序列上,修正填补缺失值序列,修正后的填补缺失值序列将用于原机器学习模型的更新。
21、一种在线数据建模系统的构建方法,所述方法包括:
22、接收数据构建请求,获取原始数据,从所述原始数据中识别原始变量;
23、通过预设的规则库,获取与所述原始变量相匹配的衍生变量;所述预设的规则库中存储有原始变量与衍生变量的配置关系;如果原始变量与衍生变量的中文描述或者相对应的同义词的中文描述完全相同时,则认定为精确匹配到相应的衍生变量;如果获取与所述原始变量相匹配的衍生变量时,当中文描述不能完全相匹配时,通过语义分析进行原始变量与衍生变量的匹配,当符合语义分析对应的指标时,则认定为模糊匹配到相应的衍生变量;
24、选定预先设定的分类模型,配置数据建模参数;
25、通过数据建模参数、原始变量及衍生变量、预先设定的分类模型进行数据建模,生成在线数据建模系统。
26、作为本发明的进一步改进:所述方法还包括:
27、针对模糊匹配到的衍生变量,进行再次确认;
28、如果认定当前配对的衍生变量,则将相应的原始变量加入到衍生变量的同义词中;
29、如果否认当前配对的衍生变量,则取消当前的匹配,进行重新匹配或新建衍生变量与相应的原始变量匹配。
30、作为本发明的进一步改进:所述方法还包括:
31、针对未匹配上衍生变量的原始变量,进行重新匹配,若仍未匹配,新建衍生变量进行配对。
32、作为本发明的进一步改进:所述方法还包括:
33、输出根据各个预先设定的分类模型建模后的建模结果,比较所述建模结果推荐最优的分类模型。
34、作为本发明的进一步改进:所述方法还包括:
35、在在线数据建模系统训练过程中,对原始数据和数据建模算法进行一致性验证;
36、在验证一致性后,获得在线数据建模系统的模型参数;
37、与聚合服务器构建安全传输层协议;
38、根据所述安全传输层协议将所述模型参数传输至所述聚合服务器,以使所述聚合服务器根据所述模型参数进行联合建模。
39、作为本发明的进一步改进:所述方法还包括:
40、依据历史数据和标准化等相应的数据挖掘流程,构建机器学习模型;
41、分析统计历史预测填补缺失值序列和真实样本序列的误差,寻找填补缺失值序列及其相应的真实值序列的误差分布;
42、在数据缺失产生过程阶段,利用机器学习模型进行线上实时预测填补;
43、在数据缺失停止产生阶段,对填补数据仿真,通过历史的误差分布来分配填补值和真实值的总差值还原到填补缺失值序列上,修正填补缺失值序列,修正后的填补缺失值序列将用于原机器学习模型的更新。
44、与现有技术相比,本发明的有益效果是:
45、本发明的一种在线数据建模系统及其构建方法,接收数据构建请求,获取原始数据,从所述原始数据中识别原始变量;通过预设的规则库,获取与所述原始变量相匹配的衍生变量;所述预设的规则库中存储有原始变量与衍生变量的配置关系;选定预先设定的分类模型,配置数据建模参数;通过数据建模参数、原始变量及衍生变量、预先设定的分类模型进行数据建模,从而有效实现了原始数据快速构建数据建模系统并实现数据的全过程自动化处理,进一步减少了用户的线下繁琐的操作,全过程自动化程度高。
1.一种在线数据建模系统,其特征在于:所述系统包括:
2.根据权利要求1所述的一种在线数据建模系统,其特征在于:所述系统还包括:
3.根据权利要求2所述的一种在线数据建模系统,其特征在于:所述系统还包括:
4.根据权利要求3所述的一种在线数据建模系统,其特征在于:所述系统还包括:
5.根据权利要求4所述的一种在线数据建模系统的构建方法,其特征在于:所述方法包括:
6.根据权利要求5所述的一种在线数据建模系统的构建方法,其特征在于:所述方法还包括:
7.根据权利要求6所述的一种在线数据建模系统的构建方法,其特征在于:所述方法还包括:针对未匹配上衍生变量的原始变量,进行重新匹配,若仍未匹配,新建衍生变量进行配对。
8.根据权利要求7所述的一种在线数据建模系统的构建方法,其特征在于:所述方法还包括:
9.根据权利要求8所述的一种在线数据建模系统的构建方法,其特征在于:所述方法还包括:
10.根据权利要求9所述的一种在线数据建模系统的构建方法,其特征在于:所述方法还包括: