一种基于历史分析的无人智能驱动的数据文件生成方法

文档序号:6502277阅读:171来源:国知局
一种基于历史分析的无人智能驱动的数据文件生成方法
【专利摘要】本发明涉及一种基于历史分析的无人智能驱动的数据文件生成方法,步骤如下:1)使用同构数据生成模拟器生成模拟数据;2)使用XML文件生成器抽取模拟数据,生成XML文件;3)在知识分析数据库中记录抽取模拟数据、生成每个XML文件的生成效率参数;4)将各个数量级数据生成XML文件执行时间最短的生成效率参数作为执行标准,基于执行标准进行实际环境数据抽取并生成XML文件。通过使用同构数据生成模拟器生成模拟数据,使用XML文件生成器进行真实环境数据抽取模拟,然后记录整个过程的执行结果,初步建立知识库,以效率最高的模型为参考标准,初步实现数据抽取的高效率;并使用数据分析挖掘技术,不断完善知识库,逐步提高数据抽取的效率。
【专利说明】一种基于历史分析的无人智能驱动的数据文件生成方法

【技术领域】
[0001] 本发明涉及一种数据抽取方法,更具体地说,涉及一种基于历史分析的无人智能 驱动的数据文件生成方法。

【背景技术】
[0002] -般的数据抽取的方式主要分为两种:一种是将需要的数据从数据库中提取然后 通过二进制数据流进行传输然后存储到其他数据库中。另一种是从数据库中提取需要的数 据存储以文本文件的形式存储到硬盘上。
[0003] 对于从数据库中提取需要的数据存储以文本文件的形式存储到硬盘上这种方法, 其在技术上存在一个缺点:当数据库中有一张数据表A该表每天都海量的新数据写入,并 且数量级不等。如果要将增量的数据同时写入到同一个文本文件对象中,那么这个文本文 件对象的所占用的存储空间就会变得很庞大,对文件的存储效率和文件传输效率都存在一 个制约性,对数据抽取的效率产生了瓶颈。


【发明内容】

[0004] 本发明的目的在于克服现有技术的不足,提供一种在海量新数据写入数据库的情 况下,能够提升海量数据抽取并存储为XML格式文件的效率的基于历史分析的无人智能驱 动的数据文件生成方法。
[0005] 本发明的技术方案如下:
[0006] -种基于历史分析的无人智能驱动的数据文件生成方法,步骤如下:
[0007] 1)使用同构数据生成模拟器生成模拟数据;
[0008] 2 )使用XML文件生成器抽取模拟数据,生成XML文件;
[0009] 3)在知识分析数据库中记录抽取模拟数据、生成每个XML文件的生成效率参数;
[0010] 4)将各个数量级数据生成XML文件执行时间最短的生成效率参数作为执行标准, 基于执行标准进行实际环境数据抽取并生成XML文件。
[0011] 作为优选,步骤4)进一步地,将实际环境数据抽取、生成XML文件的生成效率参数 进行存储积累,等待下一次判断各个数量级数据生成XML文件执行时间最短的生成效率参 数,确定新的执行标准。
[0012] 作为优选,步骤1)的步骤如下:
[0013] 1. 1)新增数据源:在模拟数据库中模拟业务数据库生成数据源;
[0014] 1. 2)新增同构数据表:在步骤1. 1)中新增的数据源下选择要同构的数据表,并进 行同构操作,同构数据表下为新增的数据项信息;
[0015] 1. 3)生成模拟数据:选择同构数据表下要生成的数据记录数,生成模拟数据操作。
[0016] 作为优选,步骤2)的步骤如下:
[0017] 2. 1)连接同构数据生成模拟器新增的数据源;
[0018] 2. 2)选择需要生成的数据源、数据表,输入抽取的数据总条数、数据文件分页数, 生成XML文件。
[0019] 作为优选,数据总条数和/或数据分页数配置成为循环递增模式,其中,数据分页 数的递增循环包含在数据总条数的递增循环内。
[0020] 作为优选,步骤3)所述的生成效率参数包括:
[0021] 生成时耗,即从模拟数据库中抽取的模拟数据开始到XML文件生成消耗的时间;
[0022] 生成总开始时间,即当前次当前数据表抽取数据开始时间;
[0023] 生成总结束时间,即当前次当前数据表抽取数据结束时间;
[0024] XML 文件名;
[0025] 抽取开始时间,即数据从数据库检索出来的开始时间;
[0026] 抽取结束时间,即数据从数据库检索出来的结束时间;
[0027] 生成开始时间,即生成XML文件的开始时间;
[0028] 生成结束时间,即生成XML文件的结束时时间;
[0029] 文件记录数,即当前XML文件所包含的数据;
[0030] 文件大小,即当前XML文件生成后所占的磁盘空间的大小。
[0031] 作为优选,步骤4)中各个数量级数据生成XML文件是通过循环配置或自动循环抽 取配置完成数据抽取,循环步骤1)至步骤3)的数据抽取生成XML文件。
[0032] 作为优选,抽取的数据表具有Μ个数量级的N (N< M)个分页信息、抽取时耗、文 件存储空间大小。
[0033] 作为优选,模拟数据库中设计有:
[0034] "模拟数据表参数配置"信息主表,内容如下:
[0035]

【权利要求】
1. 一种基于历史分析的无人智能驱动的数据文件生成方法,其特征在于,步骤如下: 1) 使用同构数据生成模拟器生成模拟数据; 2) 使用XML文件生成器抽取模拟数据,生成XML文件; 3) 在知识分析数据库中记录抽取模拟数据、生成每个XML文件的生成效率参数; 4) 将各个数量级数据生成XML文件执行时间最短的生成效率参数作为执行标准,基于 执行标准进行实际环境数据抽取并生成XML文件。
2. 根据权利要求1所述的基于历史分析的无人智能驱动的数据文件生成方法,其特征 在于,步骤4)进一步地,将实际环境数据抽取、生成XML文件的生成效率参数进行存储积 累,等待下一次判断各个数量级数据生成XML文件执行时间最短的生成效率参数,确定新 的执行标准。
3. 根据权利要求1或2所述的基于历史分析的无人智能驱动的数据文件生成方法,其 特征在于,步骤1)的步骤如下: 1. 1)新增数据源:在模拟数据库中模拟业务数据库生成数据源; 1. 2)新增同构数据表:在步骤1. 1)中新增的数据源下选择要同构的数据表,并进行同 构操作,同构数据表下为新增的数据项信息; 1. 3)生成模拟数据:选择同构数据表下要生成的数据记录数,生成模拟数据操作。
4. 根据权利要求1或2所述的基于历史分析的无人智能驱动的数据文件生成方法,其 特征在于,步骤2)的步骤如下: 2. 1)连接同构数据生成模拟器新增的数据源; 2. 2)选择需要生成的数据源、数据表,输入抽取的数据总条数、数据文件分页数,生成 XML文件。
5. 根据权利要求4所述的基于历史分析的无人智能驱动的数据文件生成方法,其特征 在于,数据总条数和/或数据分页数配置成为循环递增模式,其中,数据分页数的递增循环 包含在数据总条数的递增循环内。
6. 根据权利要求1或2所述的基于历史分析的无人智能驱动的数据文件生成方法,其 特征在于,步骤3)所述的生成效率参数包括: 生成时耗,即从模拟数据库中抽取的模拟数据开始到XML文件生成消耗的时间; 生成总开始时间,即当前次当前数据表抽取数据开始时间; 生成总结束时间,即当前次当前数据表抽取数据结束时间; XML文件名; 抽取开始时间,即数据从数据库检索出来的开始时间; 抽取结束时间,即数据从数据库检索出来的结束时间; 生成开始时间,即生成XML文件的开始时间; 生成结束时间,即生成XML文件的结束时时间; 文件记录数,即当前XML文件所包含的数据; 文件大小,即当前XML文件生成后所占的磁盘空间的大小。
7. 根据权利要求1或2所述的基于历史分析的无人智能驱动的数据文件生成方法,其 特征在于,步骤4)中各个数量级数据生成XML文件是通过循环配置或自动循环抽取配置完 成数据抽取,循环步骤1)至步骤3)的数据抽取生成XML文件。
8. 根据权利要求7所述的基于历史分析的无人智能驱动的数据文件生成方法,其特征 在于,抽取的数据表具有Μ个数量级的N (N < M)个分页信息、抽取时耗、文件存储空间大 小。
9. 根据权利要求1或2所述的基于历史分析的无人智能驱动的数据文件生成方法,其 特征在于,模拟数据库中设计有: "模拟数据表参数配置"信息主表,内容如下:
"模拟数据表参数配置"信息从表,内容如下:

10. 根据权利要求1或2所述的基于历史分析的无人智能驱动的数据文件生成方法,其 特征在于,知识分析数据库中设计有: 文件生成历史记录主表,内容如下:
文件生成记录历史子表,内容如下:
数据记录数等级维度表,内容如下:

知识库信息表,内容如下:

【文档编号】G06F17/30GK104123306SQ201310155029
【公开日】2014年10月29日 申请日期:2013年4月27日 优先权日:2013年4月27日
【发明者】黄文淮, 邓慧挺, 余建成 申请人:厦门雅迅网络股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1