从DICOMSC图像对临床数据的基于OCR的提取的制作方法

文档序号:35858269发布日期:2023-10-26 07:38阅读:54来源:国知局
从DICOMSC图像对临床数据的基于OCR的提取的制作方法

本公开的各种示例涉及便于处理dicom sc图像以自动提取其中的相关临床数据。本公开的各种示例具体地涉及基于与至少一个dicom sc图像相关联的配置信息从至少一个dicom sc图像提取与临床数据相关联的字符,该配置信息是基于至少一个dicom sc图像获得的。


背景技术:

1、医学数字成像和通信(dicom)是用于存储、传输和查看医学图像的最流行的文件格式之一。二次捕获(sc)图像信息对象定义(iod)指定了从非dicom格式转换成独立于模态的dicom格式的图像。即,dicom sc图像可以被视为从非dicom格式转换成独立于模态的dicom格式的图像。dicom sc图像可以保存重要的精选临床数据,该精选临床数据允许更好地理解患者研究系列中附随的dicom图像,从而向医生给出患者的附加临床情境。例如,这可能是应变信息、钙得分、或心血管容量。dicom sc图像是由扫描仪中的图像后处理工具或扫描仪显示器(诸如超声扫描仪显示器)的屏幕捕获来创建的。它们连同其他dicom图像一起在诊断阶段期间由放射科医生手动地查看,并且然后被丢弃。它们中的数据可能对未来研究是有用的,因为它向采集中的dicom头部标签和其他扫描图像提供了更多的情境信息。

2、sc图像具有异构格式,并且sc图像中的相关数据取决于用例而变化。因此,对于什么是需要的以及什么是不需要的,不存在恒定的定义。另外,sc图像具有异构结构,并且sc图像的内容模式基于源软件版本、扫描仪、以及安装配置而广泛地变化。

3、因此,不存在用于从各种sc图像提取临床数据的通用解决方案,这是因为并非每个数据都与sc图像相关,并且并非每个sc图像在设计上都是等同的。尽管它们有价值,但是在研究中没有使用它们的主要原因是提取被烧录到像素图像中的数据所需的巨大劳动成本和时间。尽管在图像到文本的研究中有进展,诸如manwatkar、pratik madhukar和shashank h.yadav的非专利文献“text recognition from images.”2015internationalconference on innovations in information,embedded and communication systems(iciiecs).ieee,2015中公开的技术,但是还从未开发出一种允许用户从任何类型的sc图像提取所需要的内容的可行解决方案。

4、由于图像-文本和光学字符识别(ocr)研究的流行领域,例如在nicomsoft.com描述的非专利文献“optical character recognition(ocr)-how it works”,已经存在在dicom图像领域内使用它的努力。由于sc图像中的变化的内容,相关数据会基于用例而不同。因此,已经存在从特定类型的sc图像提取特定信息的努力。这些工具是出于提取它针对其被设计的用例的特定变量的唯一目的而专门构建的。示例是doseutility。它使用ocr以从通用电气(ge)、西门子或东芝计算机断层摄影(ct)sc图像提取辐射剂量信息。这些图像具有基于制造商的特定系列代码,并且因此具有明确定义的模式。因此,doseutility非常适用于从这些sc图像提取剂量信息,这是由于所需的变量是明确定义的并且模式也是如此。缺点当然是它是专门构建的,并且不能够用于从相同的sc图像提取任何其他信息或者从非标准化的sc图像提取相同的信息。这也是这样工具的主要缺点。存在许多这样的专用软件可用,但是它们仅服务于特定目的,并且不能够在其他用例中使用。

5、另外的示例性的基于ocr的技术针对移除患者健康信息(phi)。可靠的患者健康信息(phi)移除是医学研究的重要方面,因为它允许数据共享,同时遵守当地的数据隐私法律。由于sc图像有时是扫描仪的屏幕捕获,因此它们通常包含嵌入到sc图像中的患者数据。因此,已经存在使用ocr以从sc图像来标识并移除phi的努力,诸如tsui、gary kin-wai和tao chan的非专利文献“automatic selective removal of embedded patientinformation from image content of dicom files”american journal ofroentgenology 198.4(2012):769-772中公开的技术。这样的文献使用开源的tesseractocr以从sc图像提取字符,并且然后在dicom头部标签中寻找与phi相匹配的单词。例如,它检查dicom头部中的patientname标签值是否出现在所提取的字符中。与doseutility相反,优点是它在任何种类的sc图像上工作。但是由于它是为了移除phi而专门构建的,因此它仅标识与特定phi dicom标签值相匹配的单词。用户不能够使用它从sc图像提取相关的临床信息。因此,类似于doseutility,这些努力服务于特定目的,并且不能够在用于提取特定的用户定义的变量值的研究情境内使用。

6、因此,现有技术不能够允许用户定义他或她需要什么,并且也不够在用户任意选择的sc图像上工作。也就是说,不存在可以用于针对任何种类的sc图像来提取用户所需要的任何临床数据的通用技术。


技术实现思路

1、因此,存在对于减轻或克服上面标识的缺点或限制的先进技术的需要。存在对于针对任何种类的sc图像来自动提取用户所需要的任何临床数据的先进技术的需要。

2、该需要由独立权利要求的特征来满足。从属权利要求的特征定义了实施例。

3、在下文中,将描述便于处理至少一个dicom sc图像(例如,使用医院或机构中的pc或工作站)以自动提取其中的临床数据的技术。基于与至少一个dicom sc图像相关联的配置信息,从至少一个dicom sc图像提取与临床数据相关联的字符,所述配置信息是基于至少一个dicom sc图像获得的。

4、提供了一种计算机实现的方法。所述方法用于处理至少一个dicom sc图像以自动提取其中的临床数据。所述方法包括获得至少一个医学数字成像和通信dicom二次捕获sc图像,以及基于所述至少一个dicom sc图像来获得与所述至少一个dicom sc图像相关联的配置信息。所述方法进一步包括基于配置信息从所述至少一个dicom sc图像提取与临床数据相关联的字符。

5、提供了一种包括程序代码的计算机程序或计算机程序产品或计算机可读存储介质。程序代码可以由至少一个处理器加载和执行。在加载和执行程序代码时,所述至少一个处理器执行一种方法。所述方法用于处理至少一个dicom sc图像以自动提取其中的临床数据。所述方法包括获得至少一个医学数字成像和通信dicom二次捕获sc图像,以及基于所述至少一个dicom sc图像来获得与所述至少一个dicom sc图像相关联的配置信息。所述方法进一步包括基于配置信息从所述至少一个dicom sc图像提取与临床数据相关联的字符。

6、提供了一种包括至少一个处理器和至少一个存储器的计算设备。所述至少一个处理器被配置为从所述至少一个存储器加载程序代码并且执行程序代码。在执行程序代码时,所述至少一个处理器被配置为处理至少一个dicom sc图像以自动提取其中的临床数据。所述至少一个处理器被配置为获得至少一个医学数字成像和通信dicom二次捕获sc图像,以及基于所述至少一个dicom sc图像来获得与所述至少一个dicom sc图像相关联的配置信息。所述至少一个处理器进一步被配置为基于配置信息从所述至少一个dicom sc图像提取与临床数据相关联的字符。

7、要理解的是,在不脱离本发明的范围的情况下,上面提到的特征和下面要解释的那些特征不仅可以以所指示的相应组合使用,而且还可以以其他组合使用或者单独地使用。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1