用于实时视频增强的系统和方法与流程

文档序号:32341572发布日期:2022-11-26 09:57阅读:257来源:国知局
用于实时视频增强的系统和方法与流程
用于实时视频增强的系统和方法
相关申请的交叉引用
1.本技术要求于2020年2月11日提交的美国临时申请第62/972,999号的优先权,其内容整体并入本文。


背景技术:

2.图像引导手术系统已被用于在手术操作过程中检查患者解剖结构或引导手术器械。这些视觉或图像引导系统可以提供外科医生运动、目标部位位置和各种其他有用信息的实时视觉反馈,这些信息可以实时显示在手术室中的计算机监视器上或远程显示。
3.成像方式(例如c臂透视)可结合电离辐射提供体内实时成像。在一些情况下,可将透视成像和其他成像系统提供给术内交互式手术计划和显示系统,将患者外表面的现场视频(live video)与从患者的医学诊断成像数据中获得的交互式计算机生成的内部解剖模型混合在一起。计算机图像和现场视频在手术过程中实时协调并显示给外科医生,使外科医生可以同时查看内外结构和它们之间的关系,并相应地调整手术。这可以允许更安全和侵入性更小的手术,因为外科医生可以更好地控制手术,从而减少组织创伤和破坏。然而,透视成像依赖于电离辐射在外科手术过程中为医生提供高质量的视频反馈。辐射暴露对医生和患者都是有害的,但减少剂量会导致噪音更大的视频。在一些情况下,为了实现具有足够视频质量的现场成像,患者可能会接受高剂量辐射(例如,连续的x射线流),使得在透视成像中吸收的辐射剂量通常大于传统静止射线照片的辐射剂量。


技术实现要素:

4.提供了用于改进低辐射剂量的现场视频质量的方法和系统。本公开的方法和系统可以在不牺牲视频质量的情况下提供以较低辐射剂量拍摄的高质量现场视频。本文提供的方法和系统可以解决包括上面认识到的那些的传统系统的各种缺点。本公开的方法和系统可能能够实时改进现场视频质量,从而允许以较低辐射剂量拍摄视频,或在成像过程中减少对辐射的暴露。这可以有益地改进患者和外科医生的手术安全性,并允许进行长时间的外科手术(例如,诸如在体内放置支架或其他设备的介入程序可能需要长时间进行透视)。
5.本文提供的方法和系统可以在降低辐射剂量的同时提供高质量的现场视频。传统上,减少辐射剂量或减少辐射暴露可能会导致图像帧更嘈杂或视频质量下降的时间伪影。本文所述的方法和系统可以在不修改物理系统的情况下改进在较低辐射剂量下的现场医学成像的质量。
6.所提供的方法和系统可以通过应用深度学习技术显着改进现场视频质量,从而改进视频分辨率并降低噪声。本文的方法或算法可以通过减少推理运行时间来改进现场成像质量。由于传统去噪器的高推理运行时间,这有利地允许了以前无法获得的实时成像增强。各种视频伪影,例如时间伪影(例如,可见闪烁)、图像伪影(例如,噪声(例如,低信噪比)、模糊(例如,运动伪影)、阴影(例如,阻塞或干扰感知)、信息缺失(例如,由于信息或掩蔽的去除而导致的绘画中丢失的像素或体素)和/或重建(例如,测量域中的退化)可以通过所提供
的方法和系统来减轻。
7.在一个方面,本公开提供了一种用于改进现场视频质量的计算机实现的方法。该方法包括:(a)使用医学成像设备获取对象的连续图像帧流,其中以减少的辐射剂量获取连续图像帧流;(b)将深度学习网络模型应用于连续图像帧流,以生成在时域和空域均具有改进质量的输出图像帧;和(c)在显示器上实时显示具有改进质量的输出图像帧。
8.在一个相关但独立的方面,本公开提供了一种包括指令的非暂时性计算机可读存储介质,当由一个或多个处理器执行指令时,使该一个或多个处理器执行操作。所述操作包括:a)使用医学成像设备获取对象的连续图像帧流,其中以减少的辐射剂量获取连续图像帧流;(b)将深度学习网络模型应用于连续图像帧流,以生成在时域和空域均具有改进质量的输出图像帧;和(c)在显示器上实时显示具有改进质量的输出图像帧。
9.在一些实施方式中,使用包括一对模拟低质量视频和模拟高质量视频的训练数据集来训练所述深度学习网络模型。在一些情况下,所述模拟高质量视频是通过将时间平均算法或去噪算法应用于以正常辐射剂量获取的视频而生成的。在一些情况下,该方法还包括基于所述视频和所述模拟高质量视频之间的差异来计算噪声。或者,该方法还包括将因子应用于所述噪声以模拟对应于所述因子的噪声水平。例如,所述模拟低质量视频是至少部分地基于所述噪声水平和所述模拟高质量视频而生成的。
10.在一些实施方式中,深度学习网络模型包括多个去噪组件。在一些情况下,所述多个去噪组件被组装成两层架构。在一些情况下,所述两层架构的第一层中的每个去噪组件处理所述连续帧流的子集以输出具有增强的图像质量的一系列中间图像帧。在一些情况下,所述两层架构的第二层中的去噪组件处理所述具有增强的图像质量的中间图像帧并生成所述输出图像帧。在一些情况下,每个去噪组件包括修改的u-net模型。在一些情况下,所述两层架构的第二层中的去噪组件具有与所述第一层中的去噪组件的权重不同的权重。在一些实施方式中,所述医学成像设备正在执行透视成像。
11.此外,本公开的方法和系统可以应用于现有系统而不需要改变底层基础设施。特别地,所提供的方法和系统可以在不增加硬件组件成本的情况下改进现场成像,并且无论底层基础设施的配置或规范如何都可以进行部署。
12.通过以下详细描述,本公开的其他方面和优点对于本领域技术人员将变得容易理解,其中仅显示和描述了本公开的说明性实施方式。如将意识到的,本公开能够具有其他和不同的实施方式,并且其若干细节能够在各种明显方面进行修改,所有这些均不背离本公开。因此,附图和说明书应被视为本质上是说明性的,而不是限制性的。援引加入
13.本说明书中提及的所有出版物、专利和专利申请均通过引用并入本文,其程度与每个单独的出版物、专利或专利申请被具体且单独地指示通过引用并入的程度相同。
附图说明
14.本发明的新颖特征在所附权利要求中特别阐述。通过参考以下阐述其中利用了本发明的原理的说明性实施方式的详细描述以及附图,将获得对本发明的特征和优点的更好理解,其中:
15.图1示意性地示出了根据一些实施方式的示例成像系统。
16.图2示意性地示出了根据本公开的一些实施方式的在成像平台中实现的用于实时视频增强的现场成像增强系统。
17.图3示意性地示出了根据本发明的一些实施方式的深度学习增强系统的架构。
18.图4显示了深度学习模型采用的修改的u-net架构的示例。
19.图5示意性地示出了根据一些实施方式的用于生成训练数据集的方法。
20.图6显示了来自在低剂量辐射下拍摄的现场视频的图像帧的示例,以及由深度学习增强系统产生的改进的图像帧。
21.图7显示了由深度学习增强系统产生的改进的图像帧的示例。
具体实施方式
22.虽然本发明的各种实施方式已经在本文中示出和描述,但是对于本领域技术人员来说容易理解的是,这些实施方式仅作为示例提供。在不背离本发明的情况下,本领域技术人员可以想到许多变化、改变和替换。应当理解,可以采用本文所述的本发明实施方式的各种替代方案。
23.本公开提供了能够改进现场医疗视频质量的系统和方法。特别地,所提供的系统和方法可以采用深度学习框架,该框架可以在现场视频获取过程中执行实时视频质量增强。深度学习框架还可用于降低辐射剂量水平,同时保持现场视频质量。这有益地在外科手术过程中向外科医生提供高质量、实时视觉反馈,同时减少了辐射暴露。
24.所提供的系统和方法可以在各个方面实时改进视频质量。现场医学成像中的低质量示例可包括噪声(例如,低信噪比)、低空间分辨率、时间伪影(例如,可见闪烁)、对比度、模糊(例如,运动伪影)、阴影(例如,阻塞或干扰感测)、丢失信息(例如,由于去除信息或掩蔽而丢失像素或体素)、重建(例如,测量域中的退化)和/或欠采样伪影(例如,由于压缩感测导致的欠采样,混叠)。
25.在一些情况下,所提供的系统和方法可以采用深度学习框架来改进现场成像质量,例如实时视频去噪以减少电离辐射暴露。本公开的系统和方法可以应用于各种现场成像模式,例如荧光透视成像、计算机断层扫描(ct)、单光子发射计算机断层扫描(spect)扫描仪、功能磁共振成像(fmri)或磁共振成像(mri)扫描仪、正电子发射断层扫描(pet)和其他各种扫描仪。尽管本文主要提供了透视成像和电离辐射的示例,但应理解,本方法可用于本文别处描述的其他成像模态环境中。
26.术语外科成像的“视频质量”通常可以是指存在可能影响上述视觉效果(例如,噪声、对比度、缺失信息、低空间解、诸如闪烁的时间伪影等等)或成像的准确性(例如,定量生物标志物评估的准确性)的各种现场成像伪影。例如,具有高视频质量的视频通常可以是指具有低水平的视频伪影的视频,而低视频质量可以是指高水平的视频伪影。诸如信噪比(signal to noise ratio,snr)、对比度、锐度、空间/时间分辨率等的各种预测器可用于限定视频质量。
27.如本文所用,术语“实时”通常是指诸如计算机处理器的响应时间小于1秒、十分之一秒、百分之一秒、毫秒或更短。实时还可以是指第一事件相对于第二事件的发生同时或基本上同时发生。
28.如本文所用,术语“减少的辐射剂量”可以是指低于用于现场成像的辐射剂量的
量/水平(例如,正常辐射剂量),以便在没有提供的系统和方法的情况下获得足够的质量的辐射剂量的量/水平。例如,所提供的方法和系统可能能够在不降低视频或现场成像质量的情况下将辐射剂量减少至少10%、20%、30%、40%、50%、60%、70%、80%或90%。
29.所提供的系统和方法可能能够通过以至少每秒10帧、每秒20帧、每秒30帧、每秒40帧、每秒50帧的帧速率以不超过60毫秒、50毫秒、40毫秒、30毫秒、20毫秒执行图像帧增强来实现实时视频增强,从而避免延迟。在一些情况下,本公开的系统和方法可能能够以每秒30帧和1536x1536图像分辨率以不超过33.3毫秒或12毫秒实现实时视频增强。
30.图像分辨率可能取决于成像系统的成像传感器。成像传感器可能能够以特定图像分辨率捕获图像帧或图像帧序列。图像帧分辨率可以由帧中的像素数定义。图像分辨率可以大于或等于大约352x420像素、480x320像素、720x480像素、1280x720像素、1440x1080像素、1920x1080像素、2048x1080像素、3840x2160像素、4096x2160像素、7680x4320像素、1536x1536像素或1536x8640像素。例如,成像设备可以是4k相机或具有更高分辨率的相机。
31.成像传感器可以以特定捕获速率捕获图像帧序列。在一些情况下,可以以标准透视视频帧速率(诸如大约每秒25帧或每秒30帧)捕获图像序列。在一些情况下,可以以小于或等于大约标准帧速率的速率捕获图像序列,同时可以通过本方法和系统改进视频的时间分辨率(例如,跨帧插值以获得更平滑的运动或减少可见闪烁)。
32.每当术语“至少”、“大于”或“大于或等于”在一系列两个或更多个数值中的第一个数值之前,术语“至少”、“大于”或“大于或等于”适用于该系列数值中的每个数值。例如,大于或等于1、2或3等价于大于或等于1、大于或等于2或大于或等于3。
33.每当术语“不大于”、“小于”或“小于或等于”在一系列两个或更多个数值中的第一个数值之前,术语“不大于”、“小于”或“小于或等于”适用于该系列数值中的每个数值。例如,小于或等于3、2或1等价于小于或等于3、小于或等于2或小于或等于1。
34.所提供的系统和方法可以有益地允许在减少的辐射剂量或低辐射暴露以及改进的视频质量下进行现场图像获取。如上所述,透视是一种在监视器上显示连续x射线图像的医学成像,很像x射线电影。在透视过程中,x射线束穿过患者身体。图像被传输到显示器,因此可以详细看到身体部位或仪器或造影剂(“x射线染料”)穿过身体的运动。患者接受的辐射剂量取决于个体手术而不同。透视可能导致相对较高的辐射剂量,特别是对于需要长时间进行透视的复杂介入手术(例如将支架或其他设备放置在体内)。在减少的辐射剂量和/或低帧速率(例如,低时间分辨率)下拍摄的透视成像可能会导致低视频质量(例如,高噪声、低分辨率、低对比度、可见闪烁)。本文所述的方法和系统可以实时改进现场医学图像的质量,同时允许减少辐射剂量,而无需修改物理系统(例如,硬件配置或设置)。
35.本文提供的方法和系统可能能够通过利用深度学习增强机制来实时改进现场医学成像的质量。传统的去噪方法可以采用深度学习来改进单帧图像的质量,例如改进单个图像帧内空域的分辨率。然而,由于推理的运行时间长,传统的深度学习方法可能不适用于现场成像或实时成像质量增强。例如,视频去噪的一类解决方案是基于补丁的算法,它通过沿着具有相似块的运动轨迹跟踪块来构建3d时空体积,从而利用作为第四维的非局部空间相关性。视频去噪的第二类解决方案由深度学习方法组成,例如端到端训练的神经网络,该网络在后续步骤中执行空间去噪、帧扭曲和时间去噪。然而,基于补丁和神经网络方法的主要问题是它们需要显式运动估计或补偿阶段。执行显式运动估计和/或运动补偿可能在计
算上很昂贵,这会阻碍实时去噪能力。
36.本文中的方法和系统可以采用改进的深度学习框架或深度学习增强机制,其有利地提供实时成像质量增强。在一些实施方式中,深度学习增强机制可以通过结合帧间信息利用帧内信息来改进现场成像质量。深度学习增强机制的输出可以是在噪声、对比度、空间分辨率和时间分辨率中的至少一种(例如,平滑运动、减少闪烁、跨帧内插以获得更平滑的运动)中具有改进质量的图像流。
37.在一些实施方式中,深度学习增强机制可以通过具有快速视频去噪能力的卷积神经网络来实现。在一些情况下,增强机制可以包括修改的u-net框架,例如快速深度视频去噪网络(dvdnet)。关于深度学习增强机制的细节将在后面描述。系统总览
38.这些系统和方法可以在现有的成像系统上实施,例如但不限于透视成像系统,而不需要改变硬件基础设施。图1示意性地示出了根据一些实施方式的示例成像系统100。在所示示例中,成像系统100可以包括用于捕获术中现场图像的成像设备(例如,c臂或o臂透视成像系统)101。成像设备101可以利用任何合适的成像模式来捕获可能涉及患者和外科医生的连续辐射暴露的患者的现场视频。成像系统可以是例如c臂图像增强器或o臂术中ct。例如,高分辨率x射线图像可以由c臂成像扫描仪101实时捕获,从而允许医生监控进展并立即进行任何校正。c臂透视系统可以包括发生器和x射线图像增强器,该图像增强器将x射线转换为比单纯荧光屏更高强度的可见光。发生器发射穿透患者的身体的x射线。图像增强器或检测器将x射线转换成显示在成像系统103的监视器或其他显示器上的可见图像。
39.在本公开的一个方面,可以向成像系统100提供基于深度学习的现场成像增强系统以实时改进视频的质量。可以实时改进现场视频的质量,使得医师或外科医生可以在显示器103上观看改进的视频而没有时间延迟。
40.图2示意性地示出了在成像平台200上实现的用于实时视频增强的现场成像增强系统211。可以在外科手术过程中实时执行视频增强。例如,图像帧的质量可以随着成像设备201捕获图像帧而实时改进。另外,可以在已经捕获视频之后的任何期望时间点执行视频增强。成像平台200可以包括计算机系统210和一个或多个数据库220,该数据库220通过网络230可操作地耦合到控制器203。计算机系统210可以用于实施与本文其他地方描述的方法和系统一致的方法和系统以实时改进现场视频的质量。计算机系统210可以用于实现现场成像增强系统211。现场成像增强系统211可以包括被配置为使用训练数据集开发和训练深度学习框架的训练模块和用于执行训练的深度学习框架进行推理的视频增强模块。尽管图示的图表将控制器和计算机系统显示为单独的组件,但控制器和计算机系统(现场成像增强系统的至少一部分)可以集成到单个组件中。
41.成像设备201可以获取现场视频或图像帧,如图1中所述。现场视频或图像帧可以使用任何医学成像模式进行流式传输,例如但不限于ct、fmri、spect、pet、超声等。捕获的现场视频或图像数据流的图像质量可能会因以下原因而下降,例如,低时间分辨率或辐射剂量减少或成像序列中存在噪声。捕获的视频流可能是低质量的,诸如低图像分辨率、低时间分辨率、低对比度或低信噪比(snr)。
42.控制器203可以与成像设备201、一个或多个显示器和现场成像增强系统211通信。根据安装的软件程序,控制器201可以被操作以提供控制器信息以管理成像系统的操作。例
如,控制器203可以控制成像系统的各种组件,例如x射线管、光谱整形滤光片、准直器、抗散射网格、图像接收器(x射线图像增强器)、基于电耦合器件(ccd)图像传感器或互补金属氧化物半导体(cmos)技术以及各种其他图像后处理组件的数码相机。
43.在一些情况下,至少部分现场成像增强系统211可以集成到控制器203或控制器本地,使得可以在本地实时执行视频增强。在一些情况下,现场成像增强系统211可以采用边缘智能范例,使得可以在边缘或边缘网关(例如,成像系统)处执行推理或视频增强。在一些情况下,深度学习模型可以在云/数据中心上构建、开发和训练,并在成像系统(例如,硬件加速器)上运行。例如,在边缘运行的软件可能是经过训练的深度学习框架,用于实时处理图像流。在云或本地环境上运行的软件可能是用于训练、开发和管理深度学习模型的训练模块。
44.控制器203可以包括或耦合到操作员控制台,该操作员控制台可以包括输入设备(例如,键盘)和控制面板以及显示器。例如,控制器可能具有连接到显示器、键盘和其他i/o设备的输入/输出端口。在一些情况下,操作员控制台可以通过网络与计算机系统进行通信,该计算机系统使操作员能够控制生产(例如,x射线管和图像接收器)并在显示屏上显示现场视频。显示在显示器上的现场视频可以由现场成像增强系统211处理并且具有改进的质量。
45.成像平台200可以包括用户界面。用户界面可以被配置为接收用户输入和向用户输出信息。用户输入可以与控制或设置视频获取方案有关。例如,用户输入可以指示每次获取/运行的辐射剂量(例如,辐射剂量水平)、帧速率、期望的辐射暴露水平。用户输入可能与视频增强算法(例如,滑动窗口大小、视频的估计运动或属性等)或期望的增强参数(例如,视频平滑级别或清晰度级别)有关。用户界面可以包括诸如触摸屏的屏幕和诸如手持控制器、鼠标、操纵杆、键盘、轨迹球、触摸板、按钮、口头命令、手势识别、姿态传感器、热传感器、触摸电容式传感器、脚踏开关或任何其他设备的任何其他用户交互外部设备。
46.在一些情况下,用户界面可以包括允许用户选择操作模式、视频显示参数、视频增强参数和图像获取设置的图形用户界面(gui),如本文其他地方所述。在一些实施方式中,现场成像增强系统211可以允许不同的操作模式。在一些情况下,不同的操作模式可以包括现场视频去噪模式,以及由现场成像增强系统211在延迟时间(例如,在捕获完整视频之后或至少在部分视频被捕获之后)处理捕获的视频的回顾模式。图形用户界面可以允许用户输入用户命令以在两种操作模式之间切换。
47.gui可以显示允许用户查看或访问与视频增强或视频显示相关的信息的图形元素。图形用户界面可以具有各种交互元素,例如按钮、文本框等,其可以允许用户通过直接键入、点击或拖动这些交互元素来提供输入命令或内容。
48.在一些情况下,可以在显示器上提供图形用户界面(gui)或用户界面。显示器可能是也可能不是触摸屏。显示器可以是发光二极管(led)屏幕、有机发光二极管(oled)屏幕、液晶显示器(lcd)屏幕、等离子屏幕或任何其他类型的屏幕。显示器可以被配置为显示通过应用(例如,通过在本地计算机系统或云上执行的应用编程接口(api))呈现的用户界面(ui)或图形用户界面(gui)。显示器可以在用户设备上,或者在图1中描述的成像系统的显示器上。
49.现场成像增强系统211可以包括多个组件,例如配置为使用训练数据集开发和训
练深度学习框架的训练模块213,以及用于部署训练的深度学习框架并执行推理的视频增强模块215。在一些情况下,现场成像增强系统还可以被配置用于持续训练、生成和准备训练数据集以及管理深度学习模型。
50.训练模块213可以被配置为训练深度学习模型。在一些实施方式中,训练模块可以被配置为训练以分层架构组装的多个深度学习模型,用于实时增强视频质量。训练模块可以单独训练多个深度学习模型。替代地或除此之外,可以将多个深度学习模型训练为整体模型。
51.训练模块213可以被配置为生成和管理训练数据集。例如,用于实时视频增强的训练数据集可能包括成对的低质量(例如,低剂量)视频和高质量(例如,高剂量)视频或“真实”视频。高质量的医学视频数据集可能很少见。来自同一主题的成对视频可能更难收集。提供的训练模块可以实现专有算法来模拟低质量视频和高质量视频以生成成对的训练数据集。例如,可以处理在标准辐射剂量下(例如,来自临床数据库)拍摄的视频数据,以生成模拟高辐射剂量的高质量视频数据(例如,通过对标准视频数据应用时间平均和去噪)。还可以处理相同的标准视频数据,以通过向视频数据引入伪影,例如通过向视频数据添加以不同级别缩放的模拟噪声来创建模拟低辐射剂量的低质量视频数据。关于生成训练数据集的过程和训练方法的细节将参考图5进行描述。
52.训练模块213可以被配置为训练深度学习网络以增强图像质量。例如,训练模块可以采用监督训练、无监督训练或半监督训练技术来训练模型。训练模块可以被配置为实现如本文别处描述的机器学习方法。训练模块可以离线训练模型。替代地或附加地,训练模块可以使用实时数据作为反馈来优化模型以进行改进或持续训练。本文关于训练过程和训练方法的细节将稍后描述。
53.视频增强模块215可以被配置为使用训练模块提供的训练模型实时增强视频质量。视频增强模块可以实现经过训练的模型以进行实时推理,即产生具有改进质量的图像帧。关于深度学习模型架构和模型框架的细节将参考图3和图4进行描述。
54.计算机系统210可以被编程或以其他方式配置为管理和/或实施视频增强模块、训练模块及其操作。计算机系统210可以被编程以实现与本文的公开内容一致的方法。
55.成像平台200可以包括计算机系统210和数据库系统220,它们可以与现场成像增强系统211交互。计算机系统可以包括膝上型计算机、台式计算机、中央服务器、分布式计算系统等。处理器可以是硬件处理器,例如中央处理单元(cpu)、图形处理单元(gpu)、通用处理单元,其可以是单核或多核处理器,或用于并行处理的多个处理器。处理器可以是任何合适的集成电路,例如计算平台或微处理器、逻辑器件等。尽管参考处理器描述了本公开,但其他类型的集成电路和逻辑器件也是适用的。处理器或机器可能不受数据操作能力的限制。处理器或机器可以执行512位、256位、128位、64位、32位或16位数据操作。
56.计算机系统210可以通过网络230与一个或多个远程计算机系统通信。例如,计算机系统210可以与用户或参与平台(例如,操作员)的远程计算机系统通信。远程计算机系统的示例包括个人计算机(例如,便携式pc)、平板或平板pc(例如,ipad、galaxy tab)、电话、智能电话(例如,iphone、支持android的设备、)或个人数字助理。用户可以通过网络230访问计算机系统210或现场成像增强系统。
57.成像平台200可以包括一个或多个数据库220。一个或多个数据库220可以利用任何合适的数据库技术。例如,结构化查询语言(sql)或“nosql”数据库可用于存储视频数据、收集的原始数据、增强视频数据、训练数据集、训练模型(例如,超参数)、用户指定参数(例如,窗口大小)等。一些数据库可以使用各种标准数据结构来实现,例如数组、散列、(链接)列表、结构、结构化文本文件(例如,xml)、表、json、nosql等。这样的数据结构可以存储在存储器和/或(结构化)文件中。在另一个替代方案中,可以使用面向对象的数据库。对象数据库可以包括许多对象集合,这些对象集合通过公共属性分组和/或链接在一起;它们可能通过一些共同的属性与其他对象集合相关。面向对象的数据库与关系数据库相似地执行,不同之处在于对象不仅仅是数据片段,而且可能具有封装在给定对象中的其他类型的功能。如果本公开的数据库被实现为数据结构,则本公开的数据库的使用可以集成到另一个组件中,例如本公开的组件。此外,数据库可以实现为数据结构、对象和关系结构的混合。可以通过标准数据处理技术对数据库进行合并和/或以变化形式分布。部分数据库,例如表格,可以被导出和/或导入,从而分散和/或集成。
58.网络230可以建立成像平台中的组件之间的连接以及成像系统与外部系统的连接。网络230可以包括使用无线和/或有线通信系统的局域网和/或广域网的任何组合。例如,网络230可以包括互联网以及移动电话网络。在一个实施方式中,网络230使用标准通信技术和/或协议。因此,网络230可以包括使用诸如以太网、802.11、全球微波接入互操作性(wimax)、2g/3g/4g移动通信协议、异步传输模式(atm)、infiniband、pci express高级交换等技术的链路。网络230上使用的其他网络协议可以包括多协议标签交换(mpls)、传输控制协议/互联网协议(tcp/ip)、用户数据报协议(udp)、超文本传输协议(http)、简单邮件传输协议(smtp)、文件传输协议(ftp)等。通过网络交换的数据可以使用技术和/或格式来表示,包括二进制形式的图像数据(例如,便携式网络图形(png))、超文本标记语言(html)、可扩展标记语言(xml)等。此外,可以使用诸如安全套接字层(ssl)、传输层安全性(tls)、互联网协议安全性(ipsec)等传统加密技术对所有或部分链路进行加密。在另一实施方式中,网络上的实体可以使用定制和/或专用数据通信技术来代替或补充上述技术。深度学习框架
59.图3示意性地示出了根据本发明的一些实施方式的深度学习增强系统300的架构。深度学习增强系统300可以与图2中描述的视频增强模块相同。深度学习增强系统可以包括经过训练的深度学习模型,该模型能够改进现场视频质量。在一些实施方式中,深度学习增强系统可以包括组装在级联两层架构中的多个功能块。在一些情况下,每个功能块可以包括修改的u-net模型311、313。在一些实施方式中,深度学习架构可以包括用于改进输入图像帧质量(例如,去噪视频)的一系列组件。
60.在一些实施方式中,深度学习框架310的输入可以包括低质量的图像数据流320,并且深度学习框架310的输出可以包括具有改进质量的图像帧。在所示示例中,一系列连续图像帧320可以由深度学习框架处理以生成具有改进质量的图像帧330(例如,输入帧系列的中心帧的估计)。可以通过利用帧内信息和帧间信息来执行现场视频增强。这种独特的架构可以有益地允许通过内置的学习过程来利用固有的运动信息,而无需执行额外的、显示运动估计或补偿。
61.在一些情况下,深度学习框架可能包括序列化的功能块。例如,第一层功能块(例
如,去噪块1)311可用于处理一系列连续图像帧。第一层功能块可以共享相同的权重。该系列连续图像帧可以来自图像流或现场成像。第一层的功能块的数量或功能块的布置可以取决于滑动窗口大小(例如,为了输出一个输出图像帧而被处理的连续图像帧的数量)。
62.在一些情况下,第一层的每个功能块311可以接收和处理两个或更多个连续图像帧。例如,为了对帧t去噪,第一去噪块1 311可以接收和处理三个相邻的图像帧输入帧t-2、输入帧t-1、输入帧t,并且第二去噪块1可以接收和处理相邻的图像帧输入帧t-1、输入帧t、输入帧t+1。
63.图像帧增强的第一层可以利用跨三个图像帧的时间信息,从而减少模型的存储器需求并促进网络的训练。第一层中的功能块的输出可以是与原始输入图像帧相比具有增强质量的中间图像帧311-1、311-2、311-3。与输入图像帧系列的质量相比,中间图像帧311-1、311-2、311-3的质量可以在时域和/或空域中得到增强。第一层功能块(例如,去噪块1 311)可以基本上并行地处理一系列连续图像帧,并且第一层功能块的输出可以包括将由第二层中的功能块(例如,去噪块2 313)处理的一系列改进的图像帧(例如,由第一层产生的三元组)311-1、311-2、311-3。对应于第一层中每个功能块的中间帧(例如,帧t-1、输入帧t、输入帧t+1)311-1、311-2、311-3可以是不同的。
64.第二层功能块可以将第一层的输出(例如,中间帧311-1、311-2、311-3)用作输入数据,并通过利用一系列输入帧(输入帧t-2、输入帧t-1、输入帧t、输入帧t+1、输入帧t+2)311-1、311-2、311-3的帧内信息输出具有改进质量的图像帧330(输出帧t)。在所示示例中,由第一层去噪块的输出组成的三元组(例如,中间帧311-1、311-2、311-3)用作第二层的去噪块2 313的输入。去噪块2 313的输出是对中心输入帧(输入帧t)的估计,其中其他中间帧的质量进一步改进。
65.在一些实施方式中,每个组件(例如,去噪块1 311、去噪块1 313)可以是修改的u-net架构。例如,修改的u-net可以是修改的16层u-net,其以三个相邻帧作为输入。多个去噪块可以具有相同修改的u-net架构,但是权重可以是不同的。例如,在级联去噪块的两个步骤之后,网络310可以输出单个去噪输出帧t 330。第一层311中的多个去噪块可以共享与第二层中的去噪块313的权重不同的同一组权重。在一些情况下,可以针对不同数量的输入帧选择不同的u-net架构或层数。或者,无论输入帧的数量如何,修改的u-net的架构都可以相同。关于修改的u-net架构的细节将参照图4进行描述。
66.在一些实施方式中,可以根据视频的属性、外科手术、成像模式和实时条件来选择要由深度学习框架处理的输入图像流。在一些实施方式中,可以为不同的外科手术、外科手术过程中的不同时间点和/或对于图像帧的不同部分(例如,像素的子集、图像帧中的补丁)动态选择(时间相邻帧的)不同的滑动窗口大小。例如,可以基于视频中的运动估计动态调整滑动窗口大小。例如,当检测到较大的运动以减轻运动模糊时,可以选择较小的窗口大小。在另一示例中,如果在图像帧的补丁的位置内检测到运动,则图像帧的一部分(即,像素子集、补丁)可以在较少的相邻连续图像(即,较小的窗口大小)上进行平均。通过需要小组的连续输入帧(例如,五个帧)进行推理,去噪方法能够在整个视频获取过程中以流传输方式运行而没有延迟。
67.用于确定输入数据流的参数,例如滑动窗口大小,可以由用户手动选择或自动调整。例如,可以将诸如deepflow、farneback算法或liteflownet的运动估计算法应用于现场
视频,以估计图像帧内某个时间点和/或补丁位置的运动,然后可以自动调整用于处理输入图像流的窗口大小或图像帧的选定补丁。在一些情况下,这种动态调整和/或运动估计是深度学习架构的固有部分。
68.图4示出了深度学习模型采用的修改的u-net架构400的示例。u-net架构400本质上是多尺度编码器-解码器架构,其具有将每个编码器层的输出直接转发到对应解码器层的输入的跳跃连接。在修改的u-net架构的图示示例中,解码器中的去采样使用有助于减少网格伪影的像素混洗层执行。编码器的特征与解码器的特征的合并使用逐像素加法运算执行,从而减少了存储器需求。引入中心噪声输入帧和输出帧之间的残差连接以加速训练过程。在一些情况下,每个功能块或去噪块可以包括如上所述的修改的u-net。
69.深度学习模型可以采用任何类型的神经网络模型,例如前馈神经网络、径向基函数网络、递归神经网络、卷积神经网络、深度残差学习网络等。在一些实施方式中,深度学习算法可以是卷积神经网络(cnn)。模型网络可以是深度学习网络,例如可以包括多个层的cnn。例如,cnn模型可以至少包括一个输入层、多个隐藏层和一个输出层。cnn模型可以包含任意总层数和任意数量的隐藏层。神经网络最简单的架构从输入层开始,然后是一系列中间层或隐藏层,最后是输出层。隐藏层或中间层可以充当可学习的特征提取器,而输出层可以输出改进的图像帧。神经网络的每一层可以包括多个神经元(或节点)。神经元接收直接来自输入数据(例如,低质量图像数据等)或其他神经元输出的输入,并执行特定操作,例如求和。在一些情况下,从输入到神经元的连接与权重(或加权因子)相关联。在一些情况下,神经元可能会将所有输入对及其相关权重的乘积求和。在一些情况下,加权和会被偏差抵消。在一些情况下,可以使用阈值或激活函数对神经元的输出进行门控。激活函数可以是线性的或非线性的。激活函数可以是例如整流线性单元(relu)激活函数或其他函数,例如饱和双曲正切、恒等式、二进制步长、逻辑、arctan、softsign、参数整流线性单元、指数线性单元、softplus、弯曲恒等式、软指数、sinusoid、sinc、gaussian、sigmoid函数或它们的任何组合。在训练过程中,cnn的权重或参数被调整以逼近真实数据,从而学习从低质量视频(例如,低剂量视频)到高质量视频(例如,真实视频)的映射。
70.在所示示例中,功能块可以包括多个卷积层。在大多数层中,其卷积层的输出之后是逐点relu激活函数relu(
·
)=max(
·
,0),除了最后一层。在训练时,批量归一化层(batch normalization,bn)放置在卷积层和relu层之间。在评估时,批量归一化层被移除,并由应用学习归一化的仿射层代替。模型训练和开发
71.在一些实施方式中,可以使用监督学习来训练深度学习模型。例如,为了训练深度学习网络,系统的训练模块可以生成具有低质量(即模拟在较低辐射剂量下拍摄的视频)和真实的高质量视频的视频对作为训练数据集。训练数据集可以包括模拟的低质量视频和高质量视频。例如,可以处理在标准辐射剂量下(例如,来自临床数据库)拍摄的视频数据,以生成模拟高辐射剂量的高质量视频数据(例如,通过对标准视频数据应用时间平均和去噪)。还可以处理相同的标准视频数据,以通过向视频数据引入伪影,例如通过向视频数据添加以不同级别缩放的噪声来生成模拟低辐射剂量的低质量视频数据。
72.图5示意性地示出了根据一些实施方式的用于生成训练数据集的方法500。该方法可以包括获得输入视频(操作501)。输入视频可以是正常剂量视频,例如在正常剂量水平下
拍摄的视频。输入视频可以从临床数据库或其他数据源获得。
73.然后可以在相邻图像帧之间对输入视频进行时间平均(操作503)。在一些情况下,可以基于输入视频的属性来调整时间平均操作。可以动态调整时间平均操作的一个或多个参数,例如在其中要应用平均操作的连续图像帧之间同一位置处的窗口大小、像素或空间补丁。例如,当输入视频静止时,时间平均操作可以应用在视频的所有帧之间和/或整个图像帧。在其他情况下,当输入视频包含运动时,可以调整时间平均操作以减小用于平均的相邻图像帧的窗口大小,和/或将平均应用于静止的像素或补丁的子集。时间平均参数(例如,滑动窗口大小、被选择在不同数量的相邻帧之间平均的补丁或像素子集)可以由用户手动选择或自动调整。例如,可以将诸如deepflow、farneback算法或liteflownet的运动估计算法应用于输入视频以估计视频中的运动,然后用于处理输入图像流或图像帧的选定补丁的窗口大小可以基于估计的运动自动调整。或者,时间平均参数可以由用户根据用户指定的运动清晰度水平来确定。
74.接下来,通过时间平均操作处理的视频由视频去噪器进一步处理(操作505)以减少空间和时域中的噪声。在一些情况下,视频去噪器(例如,vbm4d视频去噪器)可用于通过减轻诸如噪声、模糊、阻塞或振铃等伪影来改进视频质量。其他视频滤波或去噪算法也可用于增强空间和时域中的视频质量。在去噪操作之后,视频可以是模拟在高辐射剂量下拍摄的视频的高质量(即,真实视频511)视频。
75.真实视频511可以针对原始输入视频501进行处理,以创建模拟低剂量场景的低质量视频。例如,通过从真实视频511中减去正常剂量视频501,例如通过计算真实视频和原始输入视频的像素级差,获得正常剂量噪声513以近似原始输入视频中的噪声。该产生的差异像素阵列可以表示原始输入视频501(例如,正常剂量视频)中的粗略噪声。
76.然后可以将正常剂量噪声513缩放一个因子(操作507)以模拟低质量视频中的噪声。该因子可以是常数因子(例如,至少1.2、1.5、2、2.5、3等)或用于模拟低质量视频中不同水平的噪声的因子范围。可以基于辐射剂量水平和噪声水平之间的物理关系来选择常数因子或因子范围。在一些情况下,噪声水平可能与辐射剂量水平成线性比例。例如,噪声水平可能与辐射剂量水平的平方成反比。或者,可以基于经验数据获得辐射剂量水平和噪声水平之间的关系或因子范围。
77.接下来,可以将缩放的噪声添加到真实视频511,以生成模拟在低损失下拍摄的视频的低质量视频513。包括一对真实视频511和低质量视频513的训练数据集随后可用于单独训练深度学习模型或深度学习框架的组件(例如,去噪块)。在一些情况下,可以选择不同的噪声模型(例如,gaussian i.i.d.等)来模拟不同成像模式或用例的噪声。
78.在一些实施方式中,可以使用监督学习来训练用于实时改进视频质量的深度学习模型。通过上述方法生成的训练数据集可用于训练深度学习模型或深度学习模型的各个组件。例如,训练数据集可以包括如上所述的成对的真实帧和小组的噪声帧。模型训练的损失函数示例如下:
[0079][0080]
其中是由θ参数化的网络f的输出。是时间t的真实,并且x
t
={f
t-2
,f
t-1
,f
t
,f
t+1
,f
t+2
},其是一组连续的噪声、低帧率的帧。补丁索引p可以是选定的补丁
维度。例如,补丁尺寸可以是256
×
256或任何其他数字。时间索引t对应于随机选择的帧使得2《t≤t-2,其中t是给定样本的总帧数。请注意,l1损失是损失函数的示例。在不同的场景中可以使用其他损失函数,例如ssim或感知损失。
[0081]
在一些实施方式中,可以使用可能不需要大量标记数据的无监督学习或半监督学习来训练深度学习模型。高质量的医学图像数据集或成对数据集可能很难收集。在一些情况下,所提供的方法可以利用无监督训练方法,允许深度学习方法执行持续训练并应用于临床数据库中已经可用的现有数据集(例如,未成对数据集)。在一些实施方式中,深度学习模型的训练过程可以采用残差学习方法。在一些情况下,网络结构可以是u-net结构和残差网络的组合。
[0082]
在一些实施方式中,模型训练过程还可以包括诸如模型修剪和压缩的操作以改进推理速度。模型调整可以包括删除可能不影响网络输出的经过训练的神经网络的节点。模型压缩可以包括使用较低精度的网络权重,例如使用浮点16而不是32。这可以有利地允许实时推理(例如,以高推理速度)同时保持模型性能。示例
[0083]
图6示出了来自在低剂量辐射下拍摄的现场视频的图像帧601的示例,以及由深度学习增强系统产生的改进的图像帧603。改进的图像帧603具有模拟在更高辐射剂量下获取的图像帧的更高的snr和更高质量。部署在临床环境中的经过训练的深度学习框架可以实时执行推理。在图示示例中,经过训练的深度学习框架能够改进以每秒30帧、1536x1536图像分辨率获取的现场视频的视频质量,并在不到33.3毫秒内执行推理以避免延迟。在诸如模型修剪和压缩等附加操作后,经过训练的模型网络能够以小于12毫秒的速度执行推理。如本文其他地方所述,本公开的系统和方法可以对由4k相机或具有更高分辨率且以每秒至少25帧的帧速率的相机捕获的视频执行实时视频增强。
[0084]
图7示出了由深度学习增强系统产生的改进图像帧707的另一示例。在实验中,深度学习增强系统处理了以4x低辐射剂量705获取的现场视频。与原始正常剂量视频703或原始低剂量视频705相比,输出视频显示出相同或更好的质量。在实验中,算法的性能和/或视频质量使用ssim、psnr和时间序列噪声度量(tsnm)进行量化评估。ssim和psnr的较高值对应于参考真实视频样本701测量的较高质量。因为度量ssim、psnr通常用于逐帧评估图像质量而不考虑时间信息,所以本公开的评估方法利用tsnm,其在时空域中估计噪声而不依赖于真实参考视频。例如,与低剂量输入相比,tsnm值0.5对应于噪声降低2x。
[0085]
如下表所示,当通过本文的深度学习机制处理低4x剂量的输入视频时,与正常剂量基线相比,改进了输出视频质量。
[0086][0087]
此外,该实验还展示了减少的运行时间和更快的推理。该数据集包含帧速率在每秒4-30帧(fps)之间变化且帧大小为768x768、1024x1024和1536x1536像素的样本。如下表
所示,运行时间显着减少,实现了实时视频去噪。
[0088][0089]
虽然在此显示和描述了本发明的优选实施方式,但是对于本领域技术人员来说容易理解的是,这些实施方式仅作为示例提供。在不背离本发明的情况下,本领域技术人员现在将想到许多变化、改变和替换。应当理解,在实施本发明时可以采用对这里描述的本发明实施方式的各种替代方案。所附权利要求旨在定义本发明的范围,并且这些权利要求范围内的方法和结构及其等同物由此被覆盖。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1