基于转化医学分析平台的临床数据集成技术数据导入方法与流程

文档序号:12125328阅读:来源:国知局

技术特征:

1.一种基于转化医学分析平台的临床数据集成技术数据导入方法,其特征在于,该方法用于文本型的数据的导入,具体包括以下步骤:

步骤一:准备文件,准备的文件包括:

11)数据文件:即要导入到平台的数据文件,文件中第一行是表头行,用于对数据说明;从第二行开始,每一行代表一条数据,行中每个具体数据以制表符(’/t’)分隔;

数据文件还包括数据值一列对应不同的概念的数据,但对应不同的概念的数据;12)列映射文件:列映射文件有固定的六列内容。分别为数据文件的文件名、数据列号、这个数据是否可以是空值、数据变量、数据类型、数据单位;其中数据变量就是用来描述数据含义的。数据变量的取值为预先定义的符号或者是代表着一个概念的概念路径;概念由概念路径和概念类型构成;概念路径是一个将概念以斜线分隔的文本;

还包括在数据变量中增加一个自定义的标识,体现一行中存在多个概念的数据变量的层级关系;

13)文本替换文件:用于是将一些不符合预定义规范的数据清洗掉;该文件由四列,分别为文件名、数据列的列号、原来的值、想要替换成的值;

14)用于构建概念树的文件:该文件有概念路径和概念类别两列,概念路径将概念分为不同层级,不同层级之间之间以斜线“\”分隔,概念类别包括类别型和数值型两类;步骤二:根据步骤一中构建的概念树文件的概念路径和概念类别中的层级,构建概念树;将概念树中的每个节点中的概念路径与概念类型插入到平台数据库中的概念表中,将概念路径与概念类型以及节点在概念树中的相对位置插入到平台数据库的I2B2表中;

步骤三:读入列映射文件,验证列映射文件中的数据是否满足设定的规则,用来保证数据的正确性的;

步骤四:第一次读取并处理数据:首先根据文本替换文件中的定义将该数据替换成规范的值;然后对数据的正确性验证;补充数据的缺失信息;提取出病人的ID信息即在列映射文件中该列的数据变量为‘PAT_ID’的数据,以及来访的ID数据即在列映射文件中该列的数据变量为‘VIS_ID’的数据;

加入自定义变量的标识。根据自定义标识的概念路径变量构造概念路径。根据自定义标识的概念类型变量构造概念类型。再次构造概念树,并将该概念树插入到平台数据库对应的表中;

步骤五:将病人ID、来访ID数据导入到平台数据库并第二次读取数据文件中的数据:按行读取这些数据,根据文本替换文件中的定义,将指定列的不符合要求的数据替换成符合要求的数据;根据列映射文件中定义的列序号以及数据变量,标识出每条数据中的每个数据的具体表示含义,将病人信息数据与病人ID对应插入到平台数据库中的病人信息表中,将来访数据与来访ID对应插入到平台数据库中的来访信息表中,将数据变量中的概念类型的变量标识的数据与概念路径本身以及在列映射文件中定义的其他类型的数据单位、数据类型等相关数据插入到平台数据库中的观测事实表中;如果导入数据出现异常情况,只做相关记录供以后查看;如果是网络异常或平台数据库系统异常,则回滚事物,并记录当前导入的状态;即完成数据导入。

2.如权利要求1所述数据导入方法,其特征在于,还包括用于源数据库中数据的导入:首先要在该源数据库中写好存储过程,存储过程返回想要导入数据的游标;同时对文本数据读入单元替换成从数据库中的存储过程读取数据的读入单元,并保证与文本读入单元读入后的结果相同;具体包括以下步骤:

步骤一:准备文件:准备的文件包括:

11)列映射文件:列映射文件有固定的六列内容。分别为源数据库中预定义的存储过程名、数据列号、这个数据是否可以是空值、数据变量、数据类型、数据单位;其中数据变量就是用来描述数据含义的。数据变量的取值为预先定义的符号或者是代表着一个概念的概念路径;概念由概念路径和概念类型构成;概念路径是一个以斜线分隔的文本;

还包括在数据变量中增加一个自定义的标识,体现一行中存在多个概念的数据变量的层级关系;

12)文本替换文件:用于将一些不符合预定义规范的数据清洗掉;该文件由四列,分别为文件名、数据列的列号、原来的值、想要替换成的值;

13)源数据库连接配置文件:包括源数据库的用户名、密码、是否自动重新连接信息;

14)用于构建概念树的文件:该文件有概念路径和概念类别两列,概念分为不同层级,不同层级之间之间以斜线“\”分隔,概念类别包括类别型和数值型两类;步骤二:根据步骤一中构建的概念树文件的概念路径和概念类别中的层级,构建概念树;将概念树中的每个节点中的概念路径与概念类型插入到平台数据库中的概念表中,将概念路径与概念类型以及节点在概念树中的相对位置插入到平台数据库的I2B2表中;

步骤三:读入列映射文件,验证列映射文件中的数据是否满足设定的规则,用来保证数据的正确性的;

步骤四:第一次遍历要导入的源数据库中的数据:首先根据文本替换文件中的定义将该数据替换成规范的值;然后对数据的正确性验证;补充数据的缺失信息。提取出病人的ID信息即在列映射文件中该列的数据变量为‘PAT_ID’的数据,以及来访的ID信息即在列映射文件中该列的数据变量为‘VIS_ID’的数据;

加入自定义变量的标识。根据自定义标识的概念路径变量构造概念路径;根据自定义标识的概念类型变量构造概念类型。再构造概念树,并将树插入到平台数据库对应的表中;

步骤五:将病人ID、来访ID数据导入到平台数据库并第二次遍历源数据库中的数据:按行读取源数据库中的数据,根据文本替换文件中的定义,将指定列的不符合要求的数据替换成符合要求的数据;根据列映射文件中定义的列序号以及数据变量,标识出每条数据中的每个数据的具体表示含义,将病人信息数据与病人ID对应插入到平台数据库中的病人信息表中,将来访数据与来访ID对应插入到平台数据库中的来访信息表中,将数据变量中的概念类型的变量标识的数据与概念路径本身以及在列映射文件中定义的其他类型的数据单位、数据类型等相关数据插入到平台数据库中的观测事实表中;如果导入数据出现异常,只做相关记录供以后查看;如果是网络异常或平台数据库系统异常,则回滚事物,并记录当前导入的状态;即完成数据导入。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1