一种基于列模板的智能文本数据采集方法和系统的制作方法

文档序号:6621761阅读:220来源:国知局
一种基于列模板的智能文本数据采集方法和系统的制作方法
【专利摘要】本发明公开了一种基于列模板的智能文本数据采集方法和系统,包括数据文件、列模版、列模版分析引擎、数据写入模块和数据库;该列模版用于建立数据文件与数据库的列对应关系,该列模版分析引擎用于按列模版将原始数据转换为目标数据以完成列的组合,该数据写入模块将转换后的列数据导入数据库;通过列模板方式的细化控制粒度,增强数据导入程序的灵活性和通用性。
【专利说明】一种基于列模板的智能文本数据采集方法和系统

【技术领域】
[0001] 本发明属于数据库【技术领域】,具体涉及一种将数据文件导入数据库的方法和系 统,尤其适合将各种不同格式数据导入到数据库中。

【背景技术】
[0002] 现有技术中,将数据文件导入数据库的方法为:首先提取数据文件中的一条数据, 然后进行分析,根据分析结果,建立相应数据表以及数据表和该数据文件数据行的对应关 系,然后编写程序将文件导入数据库。这种方法导入数据,必须针对不同的数据文件编写不 同的导入程序,其缺点主要表现如下: (1)必须针对每个数据文件编写不同的导入程序,开发工作量大。而且一旦数据文件格 式变化,必须修改相应的导入程序,维护工作量大。
[0003] (2)对于文件格式预先不知道的情况,无法胜任。只适合预定义特定格式文件导入 情况。


【发明内容】

[0004] 为解决上述技术问题,本发明的目的是提供一种基于列模板的智能文本数据采集 方法和系统。
[0005] 本发明采用的技术方案是: 一种基于列模板的智能文本数据采集方法,包括以下步骤: A、 分析数据文件,确定数据文件包含数据项信息; B、 根据数据文件数据项信息制定列模板; C、 转换数据,根据列模板将原始数据转换目标数据; D、 导入数据,将转换后的数据导入数据库。
[0006] 其中,所述列模板包括对应数据库列名、数据类型、转换规则。
[0007] 进一步的,所述转换规则包括直接导入转换、字典导入转换、关联导入转换。
[0008] 所述直接导入直接转换为数据不做转换;所述字典导入转换为按字典对应关系转 换;所述关联导入转换以现有数据做一次转换。
[0009] 所述关联导入转换通过预先定义的SQL语句完成。
[0010] 本发明还包括基于上述方法的技术方案,一种基于列模板的智能文本数据米集系 统,其特征在于:包括数据文件、列模版、列模版分析引擎、数据写入模块和数据库;该列模 版用于建立数据文件与数据库的列对应关系,该列模版分析引擎用于按列模版将原始数据 转换为目标数据以完成列的组合,该数据写入模块将转换后的列数据导入数据库。
[0011] 所述列模版包括对应数据库列名、数据类型、转换规则。
[0012] 所述转换规则包括直接导入转换、字典导入转换、关联导入转换。
[0013] 所述字典导入转换为按字典对应关系转换;所述关联导入转换以现有数据做一 次转换。
[0014] 所述关联导入转换通过预先定义的SQL语句完成。
[0015] 本发明的有益效果: 本发明智能文本数据采集方法和系统通过列模板方式的细化控制粒度,将数据文件每 一个数据项和数据库的一列建立对应关系和转换规则,转换程序也是基于列的,数据导入 程序动态组合不同的列导入不同的数据行;这样,只要写一次导入程序就可以导入不同格 式的数据问题,从而实现一个导入程序采集各种不同数据文件的数据。

【专利附图】

【附图说明】
[0016] 下面结合附图对本发明的【具体实施方式】做进一步的说明。
[0017] 图1是本发明的系统架构图; 图2是本发明的数据采集流程图; 图3是本发明具体实施例的列模板示意图。

【具体实施方式】
[0018] 如图1所示,为本发明的一种基于列模板的智能文本数据采集系统,包括数据文 件、列模版、列模版分析引擎、数据写入模块和数据库;该列模版用于建立数据文件与数据 库的列对应关系,该列模版分析引擎用于按列模版将原始数据转换为目标数据以完成列的 组合,该数据写入模块将转换后的列数据导入数据库。
[0019] 其中列模板和列模板分析引擎是整个系统的核心。
[0020] 所述列模版包括对应数据库列名、数据类型、转换规则。所述转换规则包括直接 导入转换、字典导入转换、关联导入转换。具体的,所述字典导入转换为按字典对应关系转 换;所述关联导入转换以现有数据做一次转换,该关联导入转换通过预先定义的SQL语句 完成。
[0021] 本发明的系统通过列模板方式的细化控制粒度,增强数据导入程序的灵活性和通 用性,而无需传统数据表导入时必须针对不同的数据文件编写不同的导入程序。
[0022] 本发明还包括基于上述系统同一个发明构思的技术方案,一种基于列模板的智能 文本数据采集方法,包括以下步骤:(见图2) A、 分析数据文件,确定数据文件包含数据项信息; B、 根据数据文件数据项信息制定列模板; E、 转换数据,根据列模板将原始数据转换目标数据; F、 导入数据,将转换后的数据导入数据库。
[0023] 本技术方案的具体实施例如图3所示,以用户资料导入为例,用户资料主要包 括用户名称,性别,年龄,身份证号,地址等五项数据。假设其中一条数据为:张三,男, 24, 423322198805103266,广东省中山市中山四路88号。本例中数据项之间采用逗号分隔, 也可以采用其他符号风格,比如空格和分号等。
[0024] 相应的,如图所示,所述列模板包括对应数据库列名、数据类型、转换规则。进一步 的,所述转换规则包括直接导入转换、字典导入转换、关联导入转换。
[0025] 具体的,所述直接导入直接转换为数据不做转换; 所述字典导入转换:主要按字典对应关系转换。比如:性别导入提供的数据是男, 女,未知而数据库存储的值是0 -男,1 一女,2 -未知。这样数据导入之前需要做一 层转换,转换的依据就是字典(0 :男,1 :女,2 :未知); 所述关联导入转换以现有数据做一次转换,(比如:导入一个物品的类别,需要先到类 别数据表找到对应类别的ID,然后将ID导入数据库),所述关联导入转换通过预先定义的 SQL语句完成。
[0026] 本发明智能文本数据采集方法和系统分析数据分析文件是基于列粒度的,将数据 文件每一个数据项和数据库的一列建立对应关系和转换规则,转换程序也是基于列的,数 据导入程序动态组合不同的列导入不同的数据行;这样,只要写一次导入程序就可以导入 不同格式的数据问题,从而实现一个导入程序采集各种不同数据文件的数据。
[0027] 以上所述仅为本发明的优先实施方式,本发明并不限定于上述实施方式,只要以 基本相同手段实现本发明目的的技术方案都属于本发明的保护范围之内。
【权利要求】
1. 一种基于列模板的智能文本数据采集方法,其特征在于包括以下步骤: A、 分析数据文件,确定数据文件包含数据项信息; B、 根据数据文件数据项信息制定列模板; C、 转换数据,根据列模板将原始数据转换目标数据; D、 导入数据,将转换后的数据导入数据库。
2. 根据权利要求1所述的一种基于列模板的智能文本数据采集方法,其特征在于:所 述列模板包括对应数据库列名、数据类型、转换规则。
3. 根据权利要求2所述的一种基于列模板的智能文本数据采集方法,其特征在于:所 述转换规则包括直接导入转换、字典导入转换、关联导入转换。
4. 根据权利要求3所述的一种基于列模板的智能文本数据采集方法,其特征在于:所 述直接导入直接转换为数据不做转换;所述字典导入转换为按字典对应关系转换;所述 关联导入转换以现有数据做一次转换。
5. 根据权利要求4所述的一种基于列模板的智能文本数据采集方法,其特征在于:所 述关联导入转换通过预先定义的SQL语句完成。
6. -种基于列模板的智能文本数据采集系统,其特征在于:包括数据文件、列模版、列 模版分析引擎、数据写入模块和数据库;该列模版用于建立数据文件与数据库的列对应关 系,该列模版分析引擎用于按列模版将原始数据转换为目标数据以完成列的组合,该数据 写入模块将转换后的列数据导入数据库。
7. 根据权利要求6所述的一种基于列模板的智能文本数据采集系统,其特征在于:所 述列模版包括对应数据库列名、数据类型、转换规则。
8. 根据权利要求7所述的一种基于列模板的智能文本数据采集系统,其特征在于:所 述转换规则包括直接导入转换、字典导入转换、关联导入转换。
9. 根据权利要求8所述的一种基于列模板的智能文本数据采集系统,其特征在于:所 述字典导入转换为按字典对应关系转换;所述关联导入转换以现有数据做一次转换。
10. 根据权利要求9所述的一种基于列模板的智能文本数据采集系统,其特征在于:所 述关联导入转换通过预先定义的SQL语句完成。
【文档编号】G06F17/30GK104123376SQ201410366176
【公开日】2014年10月29日 申请日期:2014年7月29日 优先权日:2014年7月29日
【发明者】余敬龙 申请人:广东能龙教育股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1