医疗大数据多中心整合平台及方法与流程

文档序号:14009400阅读:945来源:国知局

本发明涉及一种医疗大数据多中心整合平台及方法。



背景技术:

现有技术存在如下问题需要解决:

第一,数据量巨大且样式繁杂;所述数据包括数十家体检中心的体检数据、多个地区基本公共卫生服务、育龄妇女等政府数据、多家三甲医院的临床数据,以及多个专科专病数据,例如:精神病数据、胶质瘤等重大疾病数据库,每一个数据源都存储大量的数据,并且每一个数据源数据格式千差万别;

第二,传统数据整理的弊端,传统数据整理都是针对单一数据库,消耗大量的人力物力来整理数据,统计分析,发现有价值的科研成果。但是,随着大数据时代的到来,穿戴设备的加入,医疗卫生领域的数据量正在成指数型的增长,显然传统的数据整理方式已经不能适应目前的数据处理需求,并且成为科研工作者利用数据的一个重大障碍,特别是如何把多中心、多样化的数据在一个数据整理平台上统筹管理,统筹挖掘,互相补充,更是传统数据整理方式无法解决的问题。举例:传统处理方式无法解决同一个人在不同医院诊疗或体检,如何分辨同一个人的问题。

第三,数据展示方式:生物统计所研究的数据量都是巨大的,所述的数据库,每一个都是千万级及以上的数据量。现有技术无法直观的看到这些数据。我们必须采用大数据可视化的手段,用更直观的图像方式来展示数据,如直方图、折线图、散点图等等,使得数据使用者以及决策者对数据有一个初步直观的了解,以便于做下一步的科研及决策。

第四,数据的标准化:各医疗机构,各个数据方,由于并不存在一个统一的行业标准,在各自信息化发展的过程中,所采集存储的数据,存在很大的差异,例如,相同疾病、药物、手术在不同机构存在不同的叫法;相同的检测指标,由于检测仪器的不同,检测试剂的差异,其参考范围、单位相差甚大,作为一个数据整合平台,必须建立一套标准,对指标的名称,指标的结果值,通过有效的处理工具进行整理,标准化操作。

第五,非结构化数据的处理:非结构化数据处理指对检查描述、检查结论等文本信息的处理,整段的文字描述,必须要抽取其中的关键信息,否则无法进行有效的科研利用,并且这些大量的文本数据,包含的信息量是巨大的,在提取关键、有效信息的同时,必须要保证信息提取的全面性,任何有用信息的丢失,都是一个数据完整性的巨大损失。

第六,科研与整理的关系:众所周知数据整理是科研统计的前提,但是存在一个尴尬的问题,很有可能科研所需求的研究指标在整理的数据库中并不能得到满足,例如,我们科研需要研究的指标“非酒精性脂肪肝”,在一般的数据整理的过程中,体检指标有是否饮酒和超声诊断是否脂肪肝,对脂肪肝的类型,需要研究者自己定义,需要再次整理原始数据。



技术实现要素:

本发明的目的就是为了解决上述问题,提供一种医疗大数据多中心整合平台及方法,它具有接入方便,分布式挖掘,工具丰富,直观可视化,智能整理等优点。

为了实现上述目的,本发明采用如下技术方案:

一种医疗大数据多中心整合平台,包括:

数据中心服务器,建立并维护标准变量和标准字典;

数据分中心服务器,采集各数据源原始数据,将原始数据存储到对应的数据库中,每个数据库中均包括:变量索引表、人员信息表、检查结果表;对变量索引表、人员基本信息表、检查结果表中的数据进行预处理操作;每个数据库对应唯一编码;

数据应用服务器,用于对数据分中心服务器预处理操作后的数据进行数据利用。

所述标准变量,包括:项目代码、项目名称、所属科室、指标解读、数据类型、数据标签、参考范围;

项目代码,例如:1001、1002;项目名称,例如:平均红细胞血红蛋白浓度、平均红细胞血红蛋白含量;所属科室,例如:检验科、妇科;指标解读,对项目名称的介绍;数据类,例如:数值型、文本型;数据标签,例如:血常规、尿常规;参考范围,例如:各个检测结果的参考范围;

所述标准字典,包括:《疾病和有关健康问题的国际统计分类》icd10、《中国药典》或阳性体征;

所述标准变量维护,包括:标准项目名称、编码和分类。

所述标准字典维护,根据《疾病和有关健康问题的国际统计分类》icd10或《中国药典》,对原始数据进行标准化处理和文本结构化处理。

所述预处理是指:

对变量索引表中的每一条数据进行数据处理得到新的数据变量,利用新的数据变量建立新的数据变量索引;依据数据中心服务器的标准变量对变量索引表中的检查项目名称及检查项目名称编码标准化处理;

对人员基本信息表里面的数据进行去重处理;所述去重处理,包括:工作单位去重和身份证号去重;

对检查结果表里面的文本数据转换成结构化数据、依据数据中心服务器的标准字典对检查结果表里面的检查结果名称及检查结果名称编码标准化处理。

所述对变量索引表中的每一条数据进行数据处理得到新的数据变量,利用新的数据变量建立新的数据变量索引,包括:

手动拆分模块,用于人工将病历数据拆分成多个句子变量;

正则匹配模块,用于提取规则数据,即通过正则表达式进行匹配得到的数据,所述规则数据例如:数字;

智能分段模块,根据设定的分隔字符产生新变量;分隔字符自定义,例如:分号、空格等;

文本替换模块,用于替换原始数据中错误的表达方式;

截取片段模块,用于根据实际需要截取检查结果中的文字片段;

单位转换模块,用于对数据的单位进行转换,目的是统一数据的度量;

文本结构化模块,将非结构化文本数据处理为结构化变量数据,通过自然语言处理或机器学习的方式对文本数据拆分标准化;例如,影像超声等文本描述数据拆分标准化;

数据标准化模块,通过相似性检测算法以及人工审核的方式,把数据分中心服务器的数据变量与数据中心服务器的标准变量建立一一映射关系。

所述变量索引表里存储key数据;所述人员信息表里存储base数据;所述检查结果表里存储value数据;key数据表示数据变量索引;value数据表示原始数据;base数据表示人员基本信息数据;

所述key数据,用于索引value数据,包括分组表和对照表,所述分组表用于对数据变量索引进行分组存储;所述分组表,例如:科室分组、数据类型分组和组合类型分组;组合类型分组是指检查项目的组合,例如乙肝五项或血常规;所述对照表用于对数据变量索引和数据之间的一一对应关系进行存储,并且作为value数据的外键索引,索引同一个检测项目的所有检测值;

所述value数据,是根据原始数据的不同数据类型对原始数据进行存储的表,每一条原始数据都有唯一的索引,所述唯一的索引通过医院的区域编码+机构编码+原始数据的记录编码构成;

所述base数据,用于存储人员基本信息,每一个数据提供个体原则上只有一条记录,包括:性别、姓名、婚姻、身份证、电话和邮箱,高度唯一且数据安全要求相对较高;所述base数据,包括:人员基本信息表,人员工作单位表和人员与数据的对应关系表。

所述数据应用服务器,包括:队列创建器和数据统计平台;

所述队列创建器,通过队列创建器,选择原始数据或者挖掘后的数据作为研究变量,设置纳入标准和排除标准,设置结局变量生成科研队列;所述纳入标准,指在符合诊断标准的患者中,选用的一系列指标或条件;所述排除标准,指排除患者的若干个会干扰结果准确性的指标;所述结局变量也叫结果变量,简称为结局。是指随访观察中将出现的预期结果事件,也即研究者希望追踪观察的事件。所述科研队列指在一个指定人群中选择所需的研究对象,根据目前或过去某个时期是否暴露于某个待研究的危险因素,组成的数据矩阵。

所述数据统计平台,用于统计和展示数据。

一种医疗大数据多中心整合方法,包括如下步骤:

步骤(1):将各个数据分中心服务器的数据接入到数据中心服务器中,对各个数据分中心服务器的数据进行质量评估,如果质量评估通过,则进入步骤(2);如果质量评估不通过,则数据中心服务器向数据分中心服务器反馈不通过结论;所述质量评估,包括:数据完整性、数据重复率、数据偏差、数据量大小的评估;

步骤(2):数据中心服务器建立并维护标准变量和标准字典,同时,依据标准变量和标准字典对数据预处理;

步骤(3):数据标准化处理:变量标准化和数据值标准化;通过相似匹配算法以及人工审核的方式,把数据分中心服务器的数据变量与数据中心服务器的标准变量建立一一映射关系;

步骤(4):对数据中心服务器标准化后的数据进行数据利用。

所述步骤(2)的步骤为:

步骤(201):根据数据变量索引查看每一个数据,利用频数表或柱形图图形化的工具由数据分中心服务器对原始的数据进行直观表达,剔除异常数据;

步骤(202):对数据进行初步整理:

手动拆分步骤,用于人工将病历数据拆分成多个句子变量;

正则匹配步骤,用于提取规则数据,即通过正则表达式进行匹配得到的数据,所述规则数据例如:数字;

智能分段步骤,根据设定的分隔字符产生新变量;分隔字符自定义,例如:分号、空格等;

文本替换步骤,用于替换原始数据中错误的表达方式;

截取片段步骤,用于根据实际需要截取检查结果中的文字片段;

单位转换步骤,用于对数据的单位进行转换,目的是统一数据的度量;

文本结构化步骤,将非结构化文本数据处理为结构化变量数据,通过自然语言处理或机器学习的方式对文本数据拆分标准化;例如,影像超声等文本描述数据拆分标准化;

所述步骤(202)的非结构化文本数据处理为结构化变量数据的步骤为:

步骤(2021):选择需要进行文本结构化处理的数据变量;

步骤(2022):对数据变量进行去重处理,去重处理后存储到文本结构化数据表中;

步骤(2023):利用自然语言处理的分词算法,以标准字典库为分词基础,首先对原始文本数据分段,通过相似算法将数据分段结果对比标准字典库,实现自动完成分词处理;

步骤(2024):人工补充不能完全识别的数据,保证数据完整性;

步骤(2025):导出结构化数据。

步骤(203):将步骤(202)初步整理得到的数据作为新的变量数据存储在数据分中心服务器的变量索引表。

所述步骤(3)的变量标准化的步骤为:

步骤(301):从数据分中心服务器的变量索引表中选择一个数据变量,再从数据中心服务器定义的标准字典里选择一个标准变量,用户根据医学知识对两个变量名称、所属科室以及检测的真实数据结果,确定数据变量与标准变量的一一对应关系,从而完成对照映射;

步骤(302):对步骤(301)对照映射的变量,进行审核,完成标准化操作,从而保证变量对照的准确性。

所述步骤(4):通过队列创建器,选择原始数据或者挖掘后的数据作为研究变量,设置纳入标准和排除标准,设置结局变量生成科研队列;所述纳入标准,指在符合诊断标准的患者中,选用的一系列指标或条件;所述排除标准,指排除患者的若干个会干扰结果准确性的指标;所述结局变量也叫结果变量,简称为结局。是指随访观察中将出现的预期结果事件,也即研究者希望追踪观察的事件。所述科研队列指在一个指定人群中选择所需的研究对象,根据目前或过去某个时期是否暴露于某个待研究的危险因素,组成的数据矩阵。

本发明的有益效果:

1.本发明有效的解决了数据量巨大且多样化的问题,首先,每一个数据源单独分配一个存储库节点,便于后期分布式计算,以数据仓库的存储方式解决了数据量大的问题。本模型从科研数据利用的角度来设计,每一个数据存储节点的数据结构一致,都包括:索引表key指向所有数据存储,value表存储大量数据,base表为基本信息,统一的标准存储数据结构便于数据管理利用和解决原始数据多样化的问题。

2.本发明提供了一个多中心整合整理数据的平台,在此平台上,数据整理人员或者数据使用人员不需要关心数据的来源、存储、数量,不需要具备任何编程知识。利用平台提供的挖掘整理工具,就可以用统一的流程化的方式处理不同来源,不同样式的数据,并以一个标准的数据格式存储或导出,快速的实现初步整理。

3.本发明提供了直观的大数据可视化功能,包括饼形图、柱形图、散点图、折线图、漏斗图等,极大的提高了数据的利用、决策和整理。同时,本发明为了更好的便于科研工作,提供了很多统计描述方面的视图,例如频数分布图、统计描述图(中位数、众数、二分位数、三分位数)等。

4.本发明有效的解决了“信息孤岛”问题,使得多中心数据融合得到有效的改善,系统会根据一个人的身份证号码,身高体重,年龄,出生日期,疾病状况,家族史,个人史,性别,婚姻等多维度数据判断同一个人的可能性(如,姓名拼音相同,性别相同,出生日期相同,工作单位相同,身高差不超过2cm视为同一个人)。同时不同的科研指标通过平台的字典树,进行标准对照,快速标准化数据。

5.本发明提供了一种对非结构化文本数据结构化的工具,并且在准确率、处理速度、智能程度等方面的得到实际工作检验及认可。

6.本发明提供的数据整理与后期的科研平台相辅相成,互相促进。一方面数据整理为数据利用科学研究提供了基础,另一方面科学研究同时也在存进数据的更深层次的挖掘。

附图说明

图1为本发明的整体架构图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

如图1所示,大数据整合平台建立一个中心数据库,可以方便的建立维护一套标准的指标字典库,本发明同时,提供了变量对照系统,无论原始数据的数据规范程度如何,通过利用本发明的对照系统进行变量对照,都能被中心库索引利用。提供了多种数据挖掘整理工具,可以快速高效的整理数据,解放大量人员参与的成本。通过本发明的存储模型,利用key表索引到每一个数据节点的数据,并通过可视化的方式展现出来。

本发明采用了医学语言处理算法:

第一步,对文本原始数据变量化,使整理人员可以一目了然的索引查看到原始数据,利用系统提供的挖掘整理工具,实现初步的拆分整理;

第二步,利用分词算法,对初步整理的数据进行分词处理生成结构化数据;

第三步,利用相似性算法,根据机器学习所积累的字典,人工智能实现结构化数据的标准化;

第四步,人工审核的方式,进行质量控制,同时训练人工智能字典,使文本结构化功能更加智能。

第四,采用数据整理推动科研进步,科学研究促使深度整理数据的良性循环方式,通过队列创建器的变量创建器模块,挖掘新的变量,实现进一步数据整理。

整理了12个体检数据库,3个医院的临床数据库,4个地区基本公共卫生数据库,1个地区的医保数据库、死亡数据库,1个地区的育龄妇女数据库,省儿童体检数据库。

所述数据分中心服务器以保证原始数据的完整性为第一存储原则,在保证不丢失任何原始有效数据的基础上,无论数据量是多少,都要提取数据变量建立数据索引。

数据分中心服务器是分布式整理数据,处理大规模数据的基础,由于每个数据量都非常巨大,尽管目前数据库软件处理能力自己硬件服务器性能大幅度提高,但是以传统的数据库处理方式显然不合适。分布式的数据处理方法,多个数据源分布不同数据库不同服务器,同时进行数据整理整合互不影响。

数据分中心服务器也是数据挖掘整理的中心,由于数据的多样性,每一个数据源都应该有独特的整理方案与步骤,分中心存储的方案很好的解决了这个问题,不同数据源进行各自不同的挖掘,挖掘的独特数据同时作为新的变量存储在各自的分中心,同时,数据标准化的对应关系也存储于数据分中心服务器。

所述数据分中心服务器的各数据源原始数据,包括:各个省、市体检中心体检数据、基本公共卫生服务数据、医疗保险数据以及疾控中心提供的疾控数据;这些数据特点是:数据量大,研究价值大,来源为一线最真实数据,数据质量参差不齐,差异性大的属性特点,需要采用标准化的数据存储结构(基本数据表)用于数据接入。

所述基本数据表,包括:人员基本信息表、人员登记(记录)表、数据变量索引表、化验检查等数值型数据存储表、影像数据存储表、分类型数据存储表和总检结论;

所述人员基本信息表,包括:姓名、性别、身份证号和婚姻等基本信息字段。

所述数据变量索引表,存储每一个检查项目的信息,包括:项目名称、参考范围、所在表和查询条件

所述影像数据存储表,是指影像所见,诊断结论等文本型非结构化数据存储;

所述分类型数据存储表,包括:定性数据,是否正常等;

所述总检结论,包括:针对于体检数据库的总检结论,疾病等;

为更高效的存储数据,数据分中心服务器会给每一个数据源分配一个唯一的存储编码,将各数据源原始数据存储于不同的服务器不同的数据库中,实现进行分布式,既能提高存储管理效率,又能防止不同来源数据发生数据污染泄露或误操作,提高安全性。每个数据源的原始数据都存储到对应的数据库中,系统提供了大量的数据挖掘工具,平台使用者使用这些工具可以对原始数据进行数据挖掘得到新的数据变量,利用数据变量建立数据变量索引,每个数据库都有对应的数据变量索引;数据变量索引与数据之间的一一对应关系也存储到数据库中;

数据中心服务器,由于不同数据来源的数据的差异性,为统一规范,便于后期数据提取利用,平台提供了标准维护功能,分别对标准变量和标准字典分别进行维护,利用标准字典及变量,由专业人员使用平台提供的对照工具,利用专业知识,对数据分中心服务器的原始数据进行对比,进而完成标准化处理工作;标准化处理后的结果服务于数据应用服务器。

所述标准变量,例如:项目名称:24小时尿量,属于检验科,系统编号为2437,拼音码为:24hnl,使用性别:不限,结果类型:数值型,单位:ml,男参考上限:1800男参考下限:800,女参考上限,1600女参考下限:600。

数据中心服务器,用于数据标准化的基础,解决数据孤岛问题的关键所在,统筹各个源数据库的原始变量数据以及挖掘变量数据,同时为数据应用服务器提供了统一化的标准。

数据中心服务器提供标准字典的维护,标准的变量名称,单位名称,代码库等都在数据中心服务器完成维护。

数据应用服务器为科研工作者,决策者,数据整理人员等提供了有效的应用服务或者工具。

所述key数据,用于索引value数据,便于数据的管理,围绕key数据有很多相关数据表,例如用于给变量分组的分组表,通过分组可以更高效的管理变量;用于存储与标准数据对照映射的对照表,通过对照表中心库可以方便的索引到分中心库数据。

value数据表示的是一大类根据不同数据类型存储的数据表,数据的每一个记录都有唯一的标识来确定属于base数据的哪一个个体,哪个时间产生的数据。

所述标准变量维护,用于统筹各个分中心数据,根据背景所述各个分中心之间数据差异巨大,即使同为体检机构也不存在一个标准的业内规范,多中心数据整合平台要做到对数据的整合首要任务就是构建一套标准的变量,按照国际上,国内权威以及一些约定俗成的规范,构建标准项目名称,编码,分类等等。

所述标准字典维护,用于标准化原始数据的value值,同时也是文本结构化处理的重要依据。本发明根据国内外权威发表发布的各种字典标准,例如icd10,药典,手术,超声影像等等字典。

所述队列创建器,用于构建科研队列进行队列研究,一方面通过队列创建器,选择原始数据或者挖掘后的数据作为研究变量,设置纳入排除标准,设置结局变量,不需要任何编程知识,快速生成科研队列,进而生成科研成果;另一方面队列创建的过程也是新一轮的数据挖掘的过程,无论队列的结局条件、纳入排除标准等都会作为一个新的挖掘数据,用于其他科研需求。

所述数据统计平台,用于以直观科学的方式统计和展示数据,便于决策者、科研工作者快速了解数据,利用数据。

所述接入文件,用于接入数据提供方有完善的数据导出技术支持,根据数据提供方具体的工作规范,以他们设计的数据呈现方式,把源数据以文件的形式导出。一般的数据文件包括excel文件,csv文件,txt文件三种,针对不同文件类型,本发明都提供了有效的接入方式。

所述接入数据库,用于跟深度合作的数据提供方之间进行数据传输,数据提供方给予数据库结构文档说明,并配合数据的整个利用环节,此种方式在双方技术人员的配合之下可以最大限度的利用数据。本发明积累了市场上多家主流体检数据库数据结构,多家基本公共卫生服务软件公司的数据结构等,可以最大限度的节省时间接入数据库数据。

所述接入接口服务,用于数据提供方有一定的技术开发能力的情况。基于数据安全的考虑,存在一部分数据提供方不便于采用上述两种接入方式,本发明提供了安全的数据传入接口,利用webservice技术方案,提供详细的数据接入文档说明,有一定技术实际的数据提供方可以方便采用这种方式,加密安全传输数据。

接入爬虫抓取服务,用于互联网存在的大量公开的数据,利用空气,天气等数据,这些数据与健康医疗分析存在很大的关键,但是并没有一个方便的数据下载地址,网络爬虫可以有效的解决这个问题。同时,针对很多政府组织的一些历史遗留网站,已经过了软件维护期,网络爬虫的方式是一个非常经济有效的方案。

问卷录取及其他接入方式,以上方式都是针对于大量的实际工作数据的接入,本身属于结构化数据或者半结构化数据。但是存在一些数据属于非结构化数据,基于纸质的问卷调查数据,病例首页的拍照数据,这些数据的接入,本发明提供了高效人工录取方式,可以通过自定义问卷,人工录取,永久化存储到数据库,完成数据接入。

上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1