一种基于多模态医学影像数据模型的医学数据提取和并行加载方法

文档序号:9432894阅读:1016来源:国知局
一种基于多模态医学影像数据模型的医学数据提取和并行加载方法
【技术领域】
[0001]本发明属于医疗信息技术领域,具体涉及一种基于多模态医学影像数据模型的医学数据提取和并行加载方法。
【背景技术】
[0002]如何有效利用医疗机构产生的医学影像大数据辅助医生做出准确的诊断已经成为信息处理领域的研究热点。随着近几年国内外医疗信息化领域的长足发展,各种医疗信息平台都产生了大量的医学影像数据,同时伴随着数据挖掘技术在各个行业的大规模普及和应用,这些医学影像数据也成为了数据挖掘的重要应用领域。这些数据中既包含有结构化的文本信息,也包含有非结构化的图像信息,而且不同信息间的关系也是复杂多样的,医学影像数据的这种多模态特性使得如何处理和使用它不同于一般的图像,传统的图像语义处理技术已很难满足用户使用这类影像数据的需求,所以通过对这种多模态的数据进行统一建模并基于这个模型对数据进行提取和加载建立医学影像数据库对充分有效地使用医学影像数据是有较高学术价值和实际应用前景的。
[0003]目前,国内外在图像的语义处理研究方面,主要采用面向对象的图像语义模型对图像进行建模,将图像中的不同部分进行对象化处理,但是将与图像数据存在关联的其他模态数据统一进行对象化建模则暂时还没有实现。医学影像往往伴随着大量其他模态数据,这些数据或者和图像直接相关,或者间接描述了图像。为此提出一种能够对图像和其他模态数据进行统一建模的模型和基于此模型对影像数据进行提取和加载的方法是一个亟待解决的问题。

【发明内容】

[0004]本发明的目的是针对医学领域使用最为广泛的符合DICOM(Digital Imaging andCommunicat1ns in Medicine)标准的文件提出一种能够提高医学影像数据利用率的基于多模态医学影像数据模型的医学数据提取和并行加载方法。
[0005]本发明的目的是这样实现的:
[0006]本发明包括如下步骤:
[0007](I)数据准备:准备待加载的DICOM类型文件,提出加载请求;
[0008](2)数据建模:根据DICOM数据字典的规定,对DICOM文件中各个模态的信息建立多模态数据模型;
[0009](3)数据提取:开启多个并行线程,每个线程依据DICOM数据字典和上一步已建立的多模态数据模型对文件分别独立地进行数据的读取并建立模型元素;
[0010](4)数据加载:多个并行线程将数据提取阶段生成的模型元素加载至数据库中;
[0011](5)数据使用:基于多模态数据模型的DICOM数据提取和并行加载技术将原始医学影像数据中的各个模态数据全部进行了提取和统一建模并以数据库的形式进行了存储,按照模型中实体和实体间关系的结构读取数据库即可使用已加载完成的数据。
[0012]数据建模为:该模型采用面向对象的思想并按照“实体-关系”的形式对数据进行建模,具体建模过程如下:加载DICOM标准的数据字典D ={(t,n,v) |t e Tag, n e Name, v e VR}(其中Tag为字段标签集合,每一个字段标签由组号和元素号组成,Name为字段名称集合,VR为值表示集合);根据t = (0010,****) (0010为组号,****代表该组中全部元素)的数据组建立病人实体,该实体的属性和属性类型的取值为t在数据字典D中对应的η和V (每个实体在数据库都以一张表存储,实体的属性和属性类型为该表中的记录);对应t= (0018,0015)的数据元素中记录的检查部位信息,建立检查部位实体,若t = (0018,0015)为空,则根据t = (0018,1030)数据元素中的协议名称确定检查部位,该实体的属性留空;建立病人实体和检查部位实体之间的实体间关系,其属性和属性类型留空(每个实体间关系在数据库同样以一张表存储,其属性和属性类型为该表中的记录);根据t = (0028,****)数据组中记录的图像参数以及t = (7FE0, 0000)和t= (7FE0,0010)中存储的图像像素数据建立图像实体,该实体的属性和属性类型的取值为t在数据字典D中对应的η和V ;根据t = (0008, ****)数据组中记录的病人检查信息、t = (0018,****)中记录的成像信息和t = (0020,****)中记录的图像信息建立图像实体与检查部位实体之间的实体间关系,其属性和属性类型的取值为t在数据字典D中对应的η和V。
[0013]数据提取为:根据数据准备阶段已经准备好的DICOM文件建立文件队列;开启多个并行线程,在线程间分配DICOM文件;单个线程中,首先建立病人对象P、检查部位对象e、P和e的对象间关系p-e、图像对象i以及e和i的对象间关系e_i ;然后读取t =(0002,0000)数据元素确定DICOM文件的设备通讯组长度,读取t = (0002, 0010)数据元素确定DICOM文件的传输语法,并根据DICOM数据字典中对字段类型的规定对文件中的每个字段逐一进行读取,最后根据实体和实体间关系中属性对字段的规定,将读取到的字段内容赋值给对应的对象或对象间关系的属性,建立五元组(P,e, p-e, i, e-1)。
[0014]数据加载为:每个线程根据数据提取阶段已经建立的五元组(p,e, p-e, i, e-1),依次向数据库中存储五元组中的每个元素(每个对象和对象间关系在数据库中都是根据其对应的实体表或实体间关系表建立的一张表,属性作为该表的字段,而一个对象或对象间关系即为该表的一条记录,加载一个对象或对象间关系即为在对应表中新增一条记录并为每个字段赋值,对象间关系表通过设置两个对象的外键来表示这两个对象之间的关系);存储时,首先判断P和e是否在数据库中已经存在,若存在则不再重复存储,而且每个线程在判断P和e的存在性以及存储P和e的过程中要进入临界区,防止和其他线程发生线程冲突。
[0015]本发明的有益效果在于:
[0016]本发明提出的多模态数据模型是对医学影像数据的一个统一模型。提出的基于多模态数据模型的DICOM提取和并行加载技术实现了医学影像数据的统一建模和存储。这种统一建模的数据提取和加载技术对原始数据的利用率很高,不同类型数据之间的关系也被精确完整地表达,从而扩展了基于医学影像数据的数据挖掘的挖掘范围和深度。采用统一模型对所有模态的数据建模,使数据的后期使用和更新具有更好的通用性和一致性。
【附图说明】
[0017]图1是提取和并行加载技术的流程图;
[0018]图2是DICOM类型文件的常用数据组示例;
[0019]图3是多模态数据模型的建模示例图;
[0020]图4是并行加载算法的流程图。
【具体实施方式】
[0021]下面结合附图和具体实施例对本发明作进一步的说明:
[0022]本发明提出了一种基于多模态数据模型的DICOM提取和并行加载技术,其特征在于利用一种多模态数据模型对DICOM文件进行建模,然后在建立好的模型基础上对批量DICOM文件进行数据的提取和加载,而且在提取和加载过程中使用了并行策略。多模态数据模型的定义是:将数据文件中各种类型的文本数据和图像数据按照“实体-关系”的方式进行重组,在数据库中建立对应表结构。对于每一个DICOM文件,其提取和分类过程为:开启多个并行线程,在一个线程中,首先按照DICOM的数据字典对文件中的各个字段逐一进行读取,然后按照已建立的模型对于字段的规定将读取到的字段内容分配到各个对象或对象间关系中,最后将建立完成的各个对象和对象间关系依次加载到数据库中,在对象的加载过程中,首先判断其是否已存在,若存在则不再重复存储,而且在判断和存储过程中使线程进入临界区避免线程间冲突。本发明与传统医学图像处理技术相比,提高了原始数据的利用率,对于原始数据中不同模态的数据进行了统一建模,将不同模态的数据及其相互关系进行了精确的表示和存储而且使用并行策略提高了数据的提取和加载效率。
[0023]如图1所示,第一步首先准备需要进行提取和加载的DICOM文件,这一步需要对DICOM文件的文件格式和组织形式进行归一化处理,以利于后续形成文件队列和对文件进行读取。DICOM是关于在各种设备间传送医学图像及其信息的工业标准,它规范了各种医学图像的格式并同时支持TCP/IP协议。DICOM文件是采用面向对象的方法来设计和编码的,每个文件有一个信息对象(1D)与之相关联,信息对象的属性由数据元素来表示,而且对象的属性只能编码一次,用UID标识符来唯一标识,文件除包括图像数据外,还包括受检者信息,成像的技术参数,医生的诊断信息等。这些都是用数据组(DATA SET)(—系列数据元素(DATA ELEMENT)的有序排放)来管理的。DICOM将图像数据,图像参数和与之相关的其它信息分成若干个组,其中比较常用的信息组如图2所示。
[0024]第二步,本示例中,根据DICOM标准的规定和建模需求,可知DICOM文件中多个数据组中需要被建模的主要有以下数据组= (0008, m)描述病人检查信息、t = (0010,林林)描述病人信息、t = (0018,****)描述成像信息、t = (0020,****)描述图像信息、t=(0028,****)描述图像参数和t = (7EF0,****)存储图像数据。根据上述数据组进行建模,主要有以下四个步骤:
[0025]1、根据t = (0010,**#)数据组在数据库中建立病人实体表和对应的对象表,并依据t= (0010,0010)中描述的病人姓名、t= (0010,0020)中描述的病人ID、t = (0010,0030)中描述的病人出生日期、t = (0010,0040)中描述的病人性别和t =(0010, 1010)中描述的病人年龄等数据元素在该病人实体表中添加以下记录(“patient_name”,“string”)、(“patient_id”,“string”)、(“patient_birth”,“date”)、(“patient_sex
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1