一种基于多模态医学影像数据模型的医学数据提取和并行加载方法_2

文档序号:9432894阅读:来源:国知局
,,,“bool”)和(“patient_age”,“string”),并在病人对象表中按上述记录中的属性名和属性类型设置字段;根据t = (0018,0015)或者t = (0010, 1030)数据元素建立检查部位实体表和对象表,其属性留空;还可以进一步针对检查部位中感兴趣区域(ROI,Reg1nOf Interest)建立实体,但由于DICOM文件并未提供描述该ROI的相关字段,故属性留空。
[0026]2、建立病人实体和检查部位实体的实体间关系表和对象间关系表(如果建立了ROI实体,则还需要建立检查部位和ROI的实体间关系表和对象间关系表),实体关系表中留空,对象关系表中除设置病人对象表和检查部位对象表的外键以外其他属性同样留空。
[0027]3、与建立病人实体一样,根据t = (0028,*林*)和t = (7FE0, ****)两个数据组中存储的图像参数和像素数据,建立图像实体表和图像对象表,涉及到的图像参数如t=(0028,0002)存储的像素的采样数、t = (0028,0010)存储的图像行数和t = (0028,0011)存储的图像列数等;根据t = (0008, m)数据组中记录的病人检查信息、t =(0018,****)中记录的成像信息和t = (0020,****)中记录的图像信息建立检查部位与图像的实体间关系表和对象间关系表。
[0028]通过上述步骤就完成了模型的建立,模型示例见图3。实线表示病人、检查部位和ROI之间的实体间关系,虚线表示图像实体和其他实体的实体间关系,图中多张图像与同一个检查部位实体和ROI实体使用虚线连接,表示实体图像关系为一对多的关系。
[0029]第三步,以第一步中准备好的DICOM文件作为输入形成文件队列,并使用并行策略开启多个线程共同处理文件队列中的文件。在一个线程中,首先建立病人对象P、检查部位对象e、P和e的对象间关系p-e、图像对象i以及e和i的对象间关系e_i ;然后读取t=(0002, 0000)数据元素确定DICOM文件的设备通讯组长度,读取t = (0002,0010)数据元素确定DICOM文件的传输语法,并根据DICOM数据字典中对字段类型的规定对文件中的每个字段逐一进行读取,最后根据各实体和实体间关系中属性对字段的规定,将读取到的字段内容赋值给对象或对象间关系的对应属性,建立五元组(P,e, p-e, i, e-1)。如在某个DICOM文件中,根据数据字典,可依次在(0010,0010)数据元素中读取到“SUN⑶I ZHEN”、(0010,0040)中读取到“F”、在(0010,1010)中读取到“066Y”,则根据建立模型时已确定的病人实体及其属性,可知这三个元素的数据都属于病人实体,且对应的属性名为“patient_name”、“patient_sex^P“patient_age”,其属性类型依次为字符串型、布尔型和字符串型,故将这三个值分别赋给P中对应的这三个属性即可完成一个病人对象的建立,即五元组中的P,其他对象或对象间关系的提取过程与此相同。
[0030]第四步,这一步以第三步获得的五元组为输入,开始依次加载五元组中的对象和对象间关系。加载算法的流程图见图4。
[0031]1、在开始处理P之前,首先进入临界区,避免和其他并行线程在处理同一个P时产生数据不一致。
[0032]2、根据病人对象的“patient_id”判断病人对象表中p是否已存在,若已存在且病人实体和检查部位实体的实体间关系为一对一的关系类型,则还需要在该对象间关系表中查找是否存在含有P的记录,进而判断e是否已存在,若也存在,则退出临界区,直接在图像对象表中添加i,在检查部位和图像的对象间关系表中添加e-1 ;若e不存在,则先在检查部位对象表中添加e后再退出临界区添加i和e-1。
[0033]3、若P不存在,则在病人对象表中添加P、检查部位对象表中添加e以及在病人和检查部位的对象间关系表中添加ρ-1,添加完成后退出临界区;在图像对象表中添加i,在检查部位和图像的对象间关系表中添加e-1。
[0034]以上示例表明,本发明提出的基于多模态数据模型的DICOM数据提取和加载技术具有实际的应用价值。
[0035]本发明的关键在于使用同一个面向对象的模型对图像和其他模态的数据统一进行建模,使得蕴含在图像和其他相关模态数据中的语义能够按照语义相关性的原则重新组合,形成独立的语义集合并表达出不同语义集合间的关系,同时具有一致的表示形式。
[0036]本发明充分考虑了医学图像附带有大量描述性数据这一结构性特征。通过建立统一模型将不同形态的医学信息统一进行提取,更加完整地还原了医学影像数据的语义全貌,而且为图像本身语义的挖掘也提供了更为丰富的信息,从而使基于医学影像数据的数据挖掘工作可以在种类更加丰富的数据集上开展,挖掘出更多类型的数据模式。
【主权项】
1.一种基于多模态医学影像数据模型的医学数据提取和并行加载方法,其特征在于: (1)数据准备:准备待加载的DICOM类型文件,提出加载请求; (2)数据建模:根据DICOM数据字典的规定,对DICOM文件中各个模态的信息建立多模态数据模型; (3)数据提取:开启多个并行线程,每个线程依据DICOM数据字典和上一步建立的多模态数据模型对文件分别独立地进行数据的读取并建立模型元素; (4)数据加载:多个并行线程将数据提取阶段生成的模型元素加载至数据库中; (5)数据使用:基于多模态数据模型的DICOM数据提取和并行加载技术将原始医学影像数据中的各个模态数据全部进行了提取和统一建模并以数据库的形式进行了存储,按照模型中实体和实体间关系的结构读取数据库即可使用已加载完成的数据。2.根据权利要求1所述的一种基于多模态医学影像数据模型的医学数据提取和并行加载方法,其特征在于:所述的数据建模过程是采用面向对象并按照实体-关系的形式对数据进行建模,具体建模过程为:加载DICOM标准的数据字典D ={(t, η, ν) 11 e Tag, n e Name, v e VR},其中Tag为字段标签集合,每一个字段标签由组号和元素号组成,Name为字段名称集合,VR为值表示集合;根据t = (0010,****)的数据组建立病人实体,0010为组号,****代表该组中全部元素,实体的属性和属性类型的取值为t,在数据字典D中对应的η和ν ;对应t = (0018, 0015)的数据元素中记录的检查部位信息,建立检查部位实体,若t = (0018,0015)为空,则根据t = (0018, 1030)数据元素中的协议名称确定检查部位,实体的属性留空;建立病人实体和检查部位实体之间的实体间关系,实体间关系的属性和属性类型留空,每个实体间关系在数据库以一张表存储,其属性和属性类型为表中的记录;根据t = (0028, **#)数据组中记录的图像参数以及t = (7FE0, 0000)和t= (7FE0,0010)中存储的图像像素数据建立图像实体,实体的属性和属性类型的取值为t在数据字典D中对应的η和ν ;根据t = (0008, ****)数据组中记录的病人检查信息、t = (0018,****)中记录的成像信息和t = (0020,****)中记录的图像信息建立图像实体与检查部位实体之间的实体间关系,实体属性和属性类型的取值为t在数据字典D中对应的η和ν。3.根据权利要求1所述的一种基于多模态医学影像数据模型的医学数据提取和并行加载方法,其特征在于:所述的数据提取为根据数据准备阶段已经准备好的DICOM文件建立文件队列;开启多个并行线程,在线程间分配DICOM文件;单个线程中,首先建立病人对象P、检查部位对象e、P和e的对象间关系ρ-e、图像对象i以及e和i的对象间关系e-1 ;然后读取t = (0002, 0000)数据元素确定DICOM文件的设备通讯组长度,读取t = (0002,0010)数据元素确定DICOM文件的传输语法,并根据DICOM数据字典中对字段类型的规定对文件中的每个字段逐一进行读取,最后根据实体和实体间关系中属性对字段的规定,将读取到的字段内容赋值给对应的对象或对象间关系的属性,建立五元组(P, e, p-e, i, e_i)。4.根据权利要求1所述的一种基于多模态医学影像数据模型的医学数据提取和并行加载方法,其特征在于:所述的数据加载为对每个线程根据数据提取阶段已经建立的五元组(P,e, p-e, i, e-1),依次向数据库中存储五元组中的每个元素,每个对象和对象间关系在数据库中都是根据对应的实体表或实体间关系表建立的一张表,属性作为该表的字段,而一个对象或对象间关系即为该表的一条记录,加载一个对象或对象间关系即为在对应表中新增一条记录并为每个字段赋值,对象间关系表通过设置两个对象的外键来表示这两个对象之间的关系;存储时,首先判断P和e是否在数据库中已经存在,若存在则不再重复存储,而且每个线程在判断P和e的存在性以及存储P和e的过程中要进入临界区,防止和其他线程发生线程冲突。
【专利摘要】本发明属于医疗信息技术领域,具体涉及一种基于多模态医学影像数据模型的医学数据提取和并行加载方法。本发明包括:数据准备;数据建模;数据提取;数据加载;数据使用。本发明提出的多模态数据模型是对医学影像数据的一个统一模型。提出的基于多模态数据模型的DICOM提取和并行加载技术实现了医学影像数据的统一建模和存储。这种统一建模的数据提取和加载技术对原始数据的利用率很高,不同类型数据之间的关系也被精确完整地表达,从而扩展了基于医学影像数据的数据挖掘的挖掘范围和深度。采用统一模型对所有模态的数据建模,使数据的后期使用和更新具有更好的通用性和一致性。
【IPC分类】G06F19/00
【公开号】CN105184074
【申请号】CN201510551820
【发明人】潘海为, 翟霄, 韩启龙, 张志强, 谢晓芹, 李文博, 高琳琳
【申请人】哈尔滨工程大学
【公开日】2015年12月23日
【申请日】2015年9月1日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1