本发明涉及人工智能影像处理技术领域,尤其涉及一种医疗影像数据的快速辅助标注及存储方法和系统。
背景技术:
ct(computedtomography),即电子计算机断层扫描,它是利用精确准直的x线束、γ射线、超声波等,与灵敏度极高的探测器一同围绕人体的某一部位作一个接一个的断面扫描,具有扫描时间快,图像清晰等特点,可用于多种疾病的检查。由探测器接收透过该层面的x射线,转变为可见光后,由光电转换变为电信号,再经模拟/数字转换器(analog/digitalconverter)转为数字,输入计算机处理。图像形成的处理有如对选定层面分成若干个体积相同的长方体,称之为体素(voxel)。
ct图像是由一定数目由黑到白不同灰度的像素按矩阵排列所构成。这些像素反映的是相应体素的x线吸收系数。不同ct装置所得图像的像素大小及数目不同。大小可以是1.0×1.0mm,0.5×0.5mm不等;数目可以是256×256,即65536个,或512×512,即262144个不等。显然,像素越小,数目越多,构成图像越细致,即空间分辨力(spatialresolution)高。
ct图像是以不同的灰度来表示,反映器官和组织对x线的吸收程度。因此,与x线图像所示的黑白影像一样,黑影表示低吸收区,即低密度区,如含气体多的肺部;白影表示高吸收区,即高密度区,如骨骼。
mri也就是磁共振成像,英文全称是:magneticresonanceimaging。经常为人们所利用的原子核有:1h、11b、13c、17o、19f、31p。在这项技术诞生之初曾被称为核磁共振成像,到了20世纪80年代初,作为医学新技术的nmr成像(nmrimaging)一词越来越为公众所熟悉。随着大磁体的安装,有人开始担心字母“n”可能会对磁共振成像的发展产生负面影响。另外,“nuclear”一词还容易使医院工作人员对磁共振室产生另一个核医学科的联想。因此,为了突出这一检查技术不产生电离辐射的优点,同时与使用放射性元素的核医学相区别,放射学家和设备制造商均同意把“核磁共振成像术”简称为“磁共振成像(mri)”。
深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
深度学习的概念由hinton等人于2006年提出。基于深度置信网络(dbn)提出非监督贪心逐层训练算法,为解决深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构。此外lecun等人提出的卷积神经网络是第一个真正多层结构学习算法,它利用空间相对关系减少参数数目以提高训练性能。
深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。
深度学习是建立在我们有一定量的数据的情况下实现的,并且需要大量的标注。标注方式主要有两种,一种是如图1所示的拉框标注,一种是如图2所示的精细的切割标注。
人工智能技术是近年来的新技术,需要大量的数据以及对数据进行标注。传统的医疗放射影像数据存储方法没有考虑数据标注的任务和需求,也无法满足深度学习的数据处理需求,是目前现有方法的不足,也是本发明所解决的问题。
技术实现要素:
针对目前技术中存在的上述问题以及不能满足深度学习的需求,本发明提出了一种医疗影像数据的快速辅助标注及存储方法,本发明存储方法可包含数据的标注信息,满足深度学习需求。本发明方法包括数据标注过程、数据存储过程、数据读取过程、和数据转换过程。
本发明提出的医疗影像数据的快速辅助标注及存储方法,包括以下步骤:
(1)数据标注:
a1:数据在标注前,读取影像图像id;所述影像图像id包括:patientid,studyid,studyinstanceuid,seriesinstanceuid,sopinstanceuid信息;
a2:进行拉框标注和/或切割标注;标注后,会出现标注框;所述标注还包括:直线标注、角度标注、椭圆标注、矩形标注、多边形标注和/或不规则标注;
a2中进一步包括标注辅助修正:
a21:设定标注的第n个像素为p[n],n≥1,第n个像素的坐标为x[n],y[n];初始标注的长度单位为m个像素;
a22:当标注到第n=m个像素点时,选取第[n-m+1,n]共m个像素点;
a23:计算m个像素点坐标x[n]的最大值和最小值,分别为x[n]max,x[n]min;计算m个像素点坐标y[n]的最大值最小值,分别为y[n]max,y[n]min;
a24:根据x[n]max,x[n]min,y[n]max,y[n]min,得到矩形框;
a25:在矩形框内的像素点中,取两个点作为两类的初始值,这两个点u1,u2的坐标分别为:x1=(x[n]max+x[n]min)/2+3;y1=(y[n]max+y[n]min)/2;x2=(x[n]max+x[n]min)/2-3;y2=(y[n]max+y[n]min)/2;
a26:对于矩形框内的点,分别计算像素距离d1=|xi-μ1|2d2=|xi-μ2|2;如果将xi标记最小的为di所对应的类别λi;
a27:分别重新计算新的质心ui的值;
a28:重复第a25-a27步骤,直到ui值不变;
a29:对所有的点计算x=f(i,j)-f(i-1,j-1)y=f(i-1,j)-f(i,j-1);|g(x,y)|=sprt(x^2-y^2);
a210:|g(x,y)|>0为边缘点;
a211:得到的新的m个边界点记为pnew[n],代替之前的m个像素点;
a212:当n>m个像素点时,选取第[n-m+1,n]共m个像素点;
其中,[n-m+1,n-1]个像素点是上一步中已经更新过的点,第m个像素点是人工新标注的点,重复第a23-a26步骤;
a213:循环直到最后一个像素点。
a3:自定义标注类型;
(2)数据存储:
b1:将标注信息保存为json格式,包括:
1)每一例病人记录为一个json文件,并采用patientid字段用来标识;
2)每一个json文件的标注会包含该病例下所有序列的标注,以及每个序列所有影像的标注以及每个影像所包含的全部标注;
3)具体到每一个标注,每个标注的保存信息包括两部分:文件信息和标注信息;所述文件信息包括:studyid,studyinstanceid,seriesinstanceid,sopinstanceid,label,line_color,fill_color,type;所述标注信息会根据每个像素点在笛卡尔坐标系下的位置分别记录。
(3)数据读取:
c1:数据读取时,将影像图像和json文件的id进行比对,如果一致则进入下一步,如果不一致说明文件错误,无法进行下一步的操作,只能执行退出;
c2:读取并显示标注信息;
c3:对标注区域的范围大小做出调整;对标注区域的形状做出调整;增加新的标注区域;删除不合适的区域。
(4)数据的转换:
将dcm格式转换为json格式,具体包括:
d1:读取源文件信息,将所述源文件信息载入内存;源文件信息是指:源文件是指dcm等文件,从dcm文件中读取ai中的各个id的信息;
d2:根据json数据格式从内存中读取所需信息;
d3:按照json文件格式存储所需信息。
(5)影像的多通道处理:
e1:读取数据以及数据中保存的id,包括patientid、studyid、studyinstanceid、seriesinstanceid、sopinstanceid;
e2:根据seriesinstanceid判断出通道的个数以及通道的标识;
e3:根据sopinstanceid判断出属于每个通道的数据;
e4:根据seriesinstanceid和sopinstanceid将不同通道中的数据做出映射关系,完成同步。
基于以上医疗影像数据的快速辅助标注及存储方法,本发明还提出了一种医疗影像数据的快速辅助标注及存储系统,包括数据标注模块,用于读取影像图像并进行标注;
数据存储模块,用于存储标注信息;
数据读取模块,用于读取所述标注信息,并进行显示;
数据转换模块,用于将dcm格式保存的数据转换为json格式;
多通道处理模块,用于将一个通道的数据影像自动同步到其他通道中。
本发明提出的医疗影像数据的快速辅助标注及存储方法及系统,有益效果包括:本发明技术方案,兼容了现有的存储方案;本发明可有效解决医疗影像中标注数据的存储方案;本发明可有效可为深度学习算法提供有力支持。进一步地,本发明还包括影像多通道处理过程,适用于mri系统。
附图说明
图1是现有技术中拉框标注的示意图。
图2是现有技术中精细切割标注的示意图。
图3a-图3f是本发明中各种标注过程的示意图。
图4是本发明中拉框标注的记录示意图。
图5是本发明中切割标注的记录示意图。
图6是本发明中读取原始数据的示意图。
图7是本发明中做出不同类型标注的示意图。
图8a、图8b为本发明辅助修正的示意图。
图9是本发明医疗影像数据的快速辅助标注及存储方法的流程图。
图10是本发明医疗影像数据的快速辅助标注及存储系统的示意图。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
实施例1
如图9所示,本实施例中的医疗影像数据的快速辅助标注及存储方法,包括以下步骤:
(1)数据的标注过程:
数据在标注前,会读取影像图像的id,包括:patientid,studyid,studyinstanceuid,seriesinstanceuid,sopinstanceuid等信息。
数据的标注过程包括拉框标注和/或切割标注;
拉框标注在标注后,会直接出现矩形框;切割标注后,会出现的是一个不规则的曲线边缘。如图3a-3f所示,标注过程还包括直线标注、角度标注、椭圆标注、矩形标注、多边形标注和/或不规则标注。
同时标注的还有所标注的类型。标注的类型可根据医生或科研人员的需求来自定义。例如在放疗中的应用,标注的类型有gtv、ctv、ptv等。gtv肿瘤区指临床或影像学可及或可见的肿瘤,包括原发灶、转移淋巴结和其他转移灶;ctv指临床靶区,肿瘤灶及亚临床灶及可能浸润的范围;ptv指计划靶区,包括临床靶区及由于摆位或移动、体位重复性、靶体积的移动所引起的误差。
本发明提出的标注过程中,进一步包括勾画边界快速自动辅助修正,人工勾画边界会存在不可避免的手误的情况。如图8a所示:图中左边是白色部分,右边是黑色部分。在这个例子中,其边界已经较为清晰,人工可以非常明确的看到图像边界。如果需要标注出这个边界,人工却会很难快速的勾画出完美的边界,例如图中的不规则曲线。
通过本发明提出的自动快速辅助标注,可以在图8a的基础上,辅助修正,快速还原到图8b的效果,具体算法如下:
a1:数据在标注前,读取影像图像id;所述影像图像id包括:patientid,studyid,studyinstanceuid,seriesinstanceuid,sopinstanceuid信息;
a2:进行拉框标注和/或切割标注;标注后,会出现标注框;所述标注还包括:直线标注、角度标注、椭圆标注、矩形标注、多边形标注和/或不规则标注;
a2中进一步包括标注辅助修正:
a21:设定标注的第n个像素为p[n],n≥1,第n个像素的坐标为x[n],y[n];初始标注的长度单位为m个像素;
a22:当标注到第n=m个像素点时,选取第[n-m+1,n]共m个像素点;
a23:计算m个像素点坐标x[n]的最大值和最小值,分别为x[n]max,x[n]min;计算m个像素点坐标y[n]的最大值最小值,分别为y[n]max,y[n]min;
a24:根据x[n]max,x[n]min,y[n]max,y[n]min,得到矩形框;
a25:在矩形框内的像素点中,取两个点作为两类的初始值,这两个点u1,u2的坐标分别为:x1=(x[n]max+x[n]min)/2+3;y1=(y[n]max+y[n]min)/2;x2=(x[n]max+x[n]min)/2-3;y2=(y[n]max+y[n]min)/2;
a26:对于矩形框内的点,分别计算像素距离d1=|xi-μ1|2d2=|xi-μ2|2;如果将xi标记最小的为di所对应的类别λi;
a27:分别重新计算新的质心ui的值;
a28:重复第a25-a27步骤,直到ui值不变;
a29:对所有的点计算x=f(i,j)-f(i-1,j-1)y=f(i-1,j)-f(i,j-1);|g(x,y)|=sprt(x^2-y^2);
a210:|g(x,y)|>0为边缘点;
a211:得到的新的m个边界点记为pnew[n],代替之前的m个像素点;
a212:当n>m个像素点时,选取第[n-m+1,n]共m个像素点;
其中,[n-m+1,n-1]个像素点是上一步中已经更新过的点,第m个像素点是人工新标注的点,重复第a23-a26步骤;
a213:循环直到最后一个像素点。
(2)数据存储过程:
数据存储之后,会将标注信息保存为json格式。
json(javascriptobjectnotation,js对象简谱)是一种轻量级的数据交换格式,它基于ecmascript(欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得json成为理想的数据交换语言,易于人阅读和编写,同时也易于机器解析和生成,并能有效提升网络传输效率。
采用这种格式的优势是,符合目前通用的格式标准。
本发明在符合这种格式标准的基础上,提出了医疗影像数据的标准信息存储格式。其中,拉框标注记录如图4所示:
包括id信息,有patientid,studyid,studyinstanceid,seriesinstanceid,sopinstanceid;包括标注信息,label,line_color,fill_color,type,points;其中,points用4个字符表示,x,y表示顶点坐标,w,h分别表示矩形框的长和宽。
切割标注记录如图5所示:
包括id信息,有patientid,studyid,studyinstanceid,seriesinstanceid,sopinstanceid;包括标注信息,label,line_color,fill_color,type,points;其中,points用2*n个字符表示,n表示多边形的顶点的个数。每一个顶点分别用x,y来表示。
本发明在符合json基本语法的基础上,针对于医疗数据,提出了高效存储医疗数据的方法,规则是:
1)每一例病人记录为一个json文件,并采用patientid字段用来标识;
2)每一个json文件的标注会包含该病例下所有序列的标注,以及每个序列所有影像的标注以及每个影像所包含的全部标注。
3)具体到每一个标注,每个标注的保存信息还可包括两部分,文件信息和标注信息。文件信息包括,studyid,studyinstanceid,seriesinstanceid,sopinstanceid,label,line_color,fill_color,type等。标注信息会根据每个像素点在笛卡尔坐标系下的位置分别记录。其中,图7是本发明中进行不同类型标注的示意图,分别为:直线标注、角度标注、椭圆标注、矩形标注、多边形标注、曲线标注。
(3)数据读取过程
数据读取时,首先对影像图像和json文件的id进行比对,如果一致则进入下一步,如果不一致则退出。
接下来会读取标注的信息,并显示和/或进行后续处理。
本发明中,后续处理是指根据医生或者科研人员的需求做出处理。例如,在放疗中,可以对ptv、ctv、gtv等区域的范围大小做出调整,可以对标注区域的形状做出调整,可以增加新的标注区域,可以删除不合适的区域等。
(4)数据转换过程
某些数据会以dcm的形式保存,dcm形式可以和json形式进行转换。数据转换的目的是为了和现有的其他数据格式兼容。体现方法很好的兼容性。
现有市场上,比如西门子的设备自动导出的数据格式即为dcm格式。如果和西门子的导出数据格式兼容,就需要通过格式转换的机制。
转换步骤包括:(a)读取源文件信息,将信息载入内存;(b)根据json数据格式从内存中读取所需信息;(c)按照json文件格式存储所需信息。
进一步包括:mri数据的影像的多通道处理
ct影像只有一个通道的数据,但是mri影像会有多个通道的数据。针对于mri影响的多通道数据,在选择了一个通道的数据影像之后,会自动同步到其他通道中。
医疗影像中mri也是重要的一部分,在这一点主要是为了体现通用性。
首先读取数据以及数据中保存的id,包括patientid、studyid、studyinstanceid、seriesinstanceid、sopinstanceid。
根据seriesinstanceid可判断出通道的个数以及通道的标识。
根据sopinstanceid可判断出属于每个通道的数据。
根据seriesinstanceid和sopinstanceid可将不同通道中的数据做出映射关系。完成同步。
本实施例中的数据格式转换--json转换为dcm,包括:
1)读取json文件,获取其中的各个字段的信息写入内存;
2)根据dcm格式的需求,筛选所需的字段信息,例如patientidsopinstanceid等等;
3)按照dcm输出格式,保存文件。
本实施例中的数据格式转换--dcm转换为json,包括:
a)读取dcm文件,获取其中的各个字段的信息写入内存;
b)根据json格式的需求,筛选所需的字段信息,例如patientidsopinstanceid等等;
c)按照json输出格式,保存文件。
本实施例中的数据读取包括原始数据读取,如图6所示,读取一例病人的核磁影像,3幅图像分别表示读取的三个通道的数据。后续标注在该原始数据上进行标注。
1)医生或科研人员首先输入所要读取数据的patientid
2)根据patientid,确定待读取的一系列影像文件。
3)医生或科研人员选择待载入的标注数据。
4)根据原始数据的patientid,判断载入的标注信息数据中patienid是否一致,如果不一致,报错并退出。
5)如果patientid一致,则进一步读取数据中的标注信息,根据id一一对应。
6)将标注信息显示在所对应的影像中,供医生后者科研人员进一步操作和使用。
本实施例中的数据存储包括:
1)获取当前数据影像的id
2)获取当前数据影像的标注信息的坐标。
3)按照数据存储格式,保存影像的id和数据标注信息的坐标
本实施例中的数据标注过程包括:
1)打开当前影像;
2)确认当前的标注方式;
3)获取标注的所有标注信息。
本实施例中的多通道处理包括:
1)读取mri数据
2)读取数据影像的的seriesid,根据seriesid判断需要做多通道处理的数据。
3)对于待处理的多通道数据,同步标注信息。
如图10所示,本实施例中的医疗影像数据的快速辅助标注及存储系统,采用如前所述的医疗影像数据的快速辅助标注及存储方法,包括:
数据标注模块,用于读取影像图像并进行标注;
数据存储模块,用于存储标注信息;
数据读取模块,用于读取所述标注信息,并进行显示。
进一步地,本发明所述医疗影像数据的快速辅助标注及存储系统还可以包括:数据转换模块,用于将dcm格式保存的数据转换为json格式。
进一步地,本发明所述医疗影像数据的快速辅助标注及存储系统还可以包括:影像多通道处理模块,用于将一个通道的数据影像自动同步到其他通道中。
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。