用于增强现实-增强现场维修支持的系统和方法与流程

文档序号:26009895发布日期:2021-07-23 21:29阅读:154来源:国知局
用于增强现实-增强现场维修支持的系统和方法与流程

下文总体上涉及现场维修领域,并且更具体地涉及医学成像设备和系统维修领域、增强视觉领域以及相关领域。



背景技术:

医学成像设备包括非常复杂的系统,例如,磁共振成像(mri)设备、透射计算机断层摄影(ct)成像设备、发射成像系统(例如,正电子发射断层摄影(pet)成像设备和用于单光子发射计算机断层摄影(spect)的伽马相机)、在单个设备中提供多种模态的混合式系统(例如,pet/ct成像设备或spect/ct成像设备),以及被设计用于引导活检或其他介入医学流程的成像设备(通常被称为图像引导的治疗(igt)设备)。这些仅仅是说明性示例。

从维护的角度来看,现代医学成像设备和系统提出了不同寻常的挑战。它们通常包括大量用于各种各样目的的子系统,例如:用于装载患者,将患者运输到成像检查区以及随后卸载患者的机械和机电系统;在ct成像设备的情况下,x射线管组件和x射线探测器阵列;再次在ct的情况下,旋转机架组件;在pet成像设备的情况下,辐射探测器模块的环形圈;在伽马相机的情况下,辐射探测器头和用于在患者周围操纵辐射探测器头的相关联的机器人硬件;在mri的情况下,超导磁体和相关联的液氦罐和/或其他低温恒温器硬件;用户接口部件,例如,计算机化的控制器、控制按钮、开关、触敏显示器等。医学成像设备的维修通常必须在现场进行,也就是说,在部署有医学成像设备的医院或其他医学机构处进行。此外,非常希望最大限度地减少维修停机时间,因为医院和其他医学机构期望这些设备可以几乎连续使用,以便为患者提供成像或图像引导的治疗。

然而,从维修的角度来看,另一个困难是医学成像设备通常由制造商近乎持续地开发,并且以各种可选部件和部件包来销售,使得相同品牌/型号的医学成像设备的不同部署安装情况也可能具有不同的部件,其具体取决于它们的制造时间和客户选择购买的选项。

大多数医学仪器用户期望以最少的机器停机时间获得持续的客户支持和维修可用性。仪器制造商能够从技术和平台中受益,这些技术和平台将使得他们能够更好更快地为客户提供支持和维修。这将会使客户满意度的提高。从医疗保健的角度来看,当系统已经过载时,任何停机时间都是性命攸关的。高效的现场维修使得生产力提高、停机时间减少并且客户满意度提高。

医疗保健行业中的现场维修工程师(fse)可能拥有各种各样的现场专业知识并且在fse池内对某些医学设备的熟悉程度各不相同。如果在特定维修呼叫中发送的特定fse对所维修的特定医学成像系统的熟悉程度有限,则这会对fse能够向客户提供的支持的有效性产生负面影响,继而会导致客户不满。在客户位置处工作的fse也可能在他/她的工作流程中具有最少(或没有)暂停以及最少的资源来审查/搜索解决问题的最佳方法。

下面公开了新的且改进的系统和方法。



技术实现要素:

在一个公开的方面中,一种非瞬态计算机可读介质存储指令,所述指令能由至少一个电子处理器读取并运行以执行增强现实(ar)内容生成方法。所述方法包括:利用ar设备的相机来采集医学成像或医学治疗设备的部件的一幅或多幅图像;从所述ar设备的麦克风接收触发音频片段;根据所述一幅或多幅图像和所述触发音频片段这两者来生成一个或多个查询数据结构;从数据库中检索ar指导内容,所述ar指导内容与和所生成的一个或多个查询数据结构匹配的所述医学成像或医学治疗设备有关;并且以以下方式中的一种或多种来输出所述ar指导内容:(i)被叠加显示在由所述ar设备显示的视频上和/或(ii)被显示在所述ar设备的头戴式显示器上和/或(iii)经由所述ar设备的扬声器被输出为音频内容。

在另一公开的方面中,一种增强现实(ar)内容生成系统包括ar设备和至少一个电子处理器。所述ar设备包括相机、麦克风、显示器和扬声器。所述相机被配置为采集医学成像或医学治疗设备的部件的一幅或多幅图像。所述至少一个电子处理器被编程为:从所述麦克风接收触发音频片段;根据所述一幅或多幅图像和所述触发音频片段这两者来生成一个或多个查询数据结构;从数据库中检索ar指导内容,所述ar指导内容与和所生成的一个或多个查询数据结构匹配的所述医学成像或医学治疗设备有关;并且以以下方式中的一种或多种来输出所述ar指导内容:(i)被叠加显示在由所述ar设备显示的视频上和/或(ii)被显示在所述ar设备的头戴式显示器上和/或(iii)经由所述扬声器被输出为音频内容。

在另一公开的方面中,一种增强现实(ar)内容生成方法包括:利用ar设备的相机来采集医学成像或医学治疗设备的部件的一幅或多幅图像;从所述ar设备的麦克风接收触发音频片段;通过使用卷积神经网络(cnn)处理所述一幅或多幅图像并使用循环神经网络(rnn)处理所述触发音频片段来根据所述一幅或多幅图像和所述触发音频片段这两者生成一个或多个查询数据结构;从数据库中检索与所生成的一个或多个查询数据结构匹配的ar指导内容;并且以以下方式中的一种或多种来输出所述ar指导内容:(i)被叠加显示在由所述ar设备显示的视频上和/或(ii)被显示在所述ar设备的头戴式显示器上和/或(iii)经由所述ar设备的扬声器被输出为音频内容,视觉指令包括以下各项中的一项或多项:与所述部件有关的维修手册的相关章节,以及来自与所述部件有关的所述维修手册的注释。

一个优点在于为维修人员提供实时自动化辅助。

另一优点在于为维修人员提供增强现实(ar)内容的实时自动化检索。

另一优点在于提供ar内容的实时自动化检索和呈现,以辅助从维修人员的视角呈现的和与要执行的维修操作紧密集成的维修呼叫。

另一优点在于提供实时ar内容,从而利用实时视频和/或音频馈送来自动识别和检索适当的ar内容。

另一优点在于在ar设备的头戴式显示器上输出实时ar内容或者经由ar设备的扬声器将实时ar内容输出为音频内容。

给定的实施例可以提供前述优点中的零个、一个、两个、更多个或所有优点,并且/或者可以提供其他优点,本领域普通技术人员在阅读和理解了本公开内容后,这将变得显而易见。

附图说明

本公开内容可以采取各种部件和部件布置以及各个步骤和步骤安排的形式。附图仅用于说明优选实施例的目的并且不应被解释为限制本公开内容。

图1示意性地图示了根据一个方面的ar生成系统。

图2示出了图1的系统的示例性流程图操作。

图3和图4示出了图2的方法的示例性流程图操作。

具体实施方式

下文总体上涉及为执行对医学成像设备的维护的fse(或更一般地,为维修工程师、维护技术人员、放射学实验室人员等)提供ar支持。

ar内容通常不像印刷的维修手册能够(例如使用目录表、主题→页面索引系统等)进行索引那样容易地进行索引。ar内容能够是多媒体内容、音频内容、视频内容、视场示意图叠加内容等,这些内容不易进行索引。可以有各种方式(例如按零件、模块、任务等)对用于辅助医学成像设备维修的ar内容进行索引。即使利用印刷的维修手册,也可能在不同手册的不同位置处找到内容,例如,如果为了访问零件x而必须移除零件y,则可能会在零件y下的索引内容中找到用于维修零件x的相关内容。此外,即使维修工程师知道需要哪项内容,深入研究维修手册的分层索引以定位相关内容也会很耗时。对于多媒体内容,这样的索引搜索尤其成问题,因为人们不一定能简单地翻到索引中引用的特定维修手册页面。对于医学成像设备的维修尤其如此,它能够包括数以万计的相互关联的零件和相应数量的模块、维修任务等。

在本文公开的实施例中,提供了用于识别和检索ar内容以供呈现的自动化方法。用户在通过ar眼镜、ar耳机等查看维修中的零件/模块时或者在将移动设备的相机指向正在维修的零件/模块以采集其视频,使用合适的关键词或关键短语(在本文中有时被称为触发音频片段)向系统寻求帮助。由ar眼镜、移动设备相机或其他类似设备捕获一幅或多幅查询图像,并且由具有转录功能的麦克风生成查询文本(例如从正在由ar眼镜或移动设备相机/麦克风设置记录的音频/视频的音频分量中提取触发音频片段)。图像/文本被公式化为联合图像/文本查询向量。这些操作是在客户现场处执行的,例如在维修呼叫期间是由fse执行的。

来自维修手册的离线(即,在维修呼叫之前的某个时间的)图像和相关联的文本(例如,图名)被翻译成联合图像/文本ar内容向量,以用于对ar内容进行索引。ar内容向量是使用与用于生成查询向量的向量制定流程相同的向量制定流程来产生的。然后通过将查询向量与ar内容向量的数据库进行比较来识别相关的ar内容。因此,识别一个或多个候选ar内容向量,并且检索对应的ar内容(或者,在一些实施例中,通过使用自动编码器进行解码来根据ar内容向量重建对应的ar内容)。

在本文公开的实施例中,向量元素是使用神经网络从图像内容和文本内容中导出的。特别地,卷积神经网络(cnn)用于从图像内容中导出向量元素,而循环神经网络(rnn)用于从文本内容中导出向量元素。触发关键词或关键短语用作用于触发rnn的注意机制,并且在向量元素的生成中强调信息文本内容(例如,零件或模块的名称、命名症状等)。虽然预期一些实施例是有效和高效的,但是也可以替代地使用用于导出代表图像内容和文本内容的向量元素的其他方法。在另一个说明性的预想到的实施例中,单个cnn可以处理图像内容和文本内容这两者以生成联合图像/文本向量。

对于向量匹配,在说明性实施例中采用余弦相似性度量,但更一般地,可以使用另一向量相似性度量,例如,欧几里德距离或其他向量距离度量。

与单独使用图像相比,同时使用实时图像和实时文本能够更有效地准确识别ar内容。在本文公开的一些实施例中,使用自动编码器根据代表ar内容的代表性联合图像/文本向量来重建ar内容;然而,也可以将该向量链接到对应的存储的ar内容,然后检索该ar内容。可以以不同方式呈现检索到的(以及可选地解码的或重建的)ar内容,例如通过显示维修手册图像(或者,在更高级的实施例中,通过将从这些图像导出的注释叠加到由ar设备观察到的实时视频上)以及通过显示手册的相关联的文本和/或使用文本-语音转换以音频方式传达文本内容来呈现检索到的(以及可选地解码的或重建的)ar内容。

应当注意,使用向量作为用于格式化查询和用于与查询进行比较的ar内容的数据结构仅仅是说明性的。更一般地,能够使用任何选取的数据结构(例如,一维向量或二维矩阵或三维或更高维度的矩阵或不同长度的向量集合等)来格式化查询和比较性ar内容。采用单个向量来制定查询和比较性ar内容的说明性示例能够具有某些处理优点,因为这样的向量可以被更容易地输入到被设计为接收单个向量作为输入的神经网络,但更普遍的是任何类型的数据结构都可以用来代替说明性向量。

在本文公开的实施例中,ar眼镜(例如,谷歌眼镜)被用作用于采集图像和音频以及用于呈现ar内容的用户接口。在变型实施例中,移动设备(蜂窝电话或平板电脑)可以用作用户接口。在这种情况下,可以使用内置相机来获得实时查询图像,并且将ar内容显示在移动设备显示器上和/或显示为叠加在由移动设备的内置相机捕获的实时视频上的注释。

用于训练向量提取(例如,cnn和rnn)和(可选的)自动编码器的训练数据可以从训练手册中获得(可能有某种手动分割/勾画的章节等)和/或通过让用户通过ar眼镜查看相关零件/模块并同时说出适当的典型查询措辞来获得。优选以不同的观看角度、光照角度、照明水平等采集图像,并且/或者可以使用适当的图像处理技术(例如通过调节图像对比度曲线以模拟不同的光照条件)来合成这样的变体图像。类似地,能够通过具有不同口音、音调等的扬声器来生成音频内容,并且/或者可以通过音频处理来模拟不同这些口音、音调以执行音调调节等。还可以执行对训练数据的手动注释,例如手动勾画训练图像中的关键特征周围的边界框。用于监督训练的实际情况加标签可以从手册中获得(例如,如果手册肯定性标识了零件号等)和/或通过对图像/音频的手动加标签获得。

下面总体上公开了基于ar的现场维修支持。通常,fse(或更一般地,维修工程师、维护技术人员、放射学实验室工作人员等)被提供有能够捕获实时视频和音频的ar眼镜。该系统处理音频和视频,并且尝试将变换后的像素和文本与正在对其检查故障的医学设备/仪器的维修手册内的经索引的指令和图像进行匹配。医学设备维修手册最初是通过对文本进行标记和解析并加上分割图像并将该图像中的识别出的零件映射到在文档中注明的对应标签来进行预处理的。通过使用自上而下(由cnn表示的图像特征以及注意机制和rnn表示与图像中的某些区域相关联的标签)或自下而上的方法(基于cnn选择图像中的重要区域和针对这些区域的标签的最大软分类),该系统能够索引维修手册中存在的所有图像-文本链接。在该示例中,这构成了维修手册预处理模块。

搜索模型利用(a)语音到文本模型,其将来自ar眼镜的传入/输入的音频信号转换成词语序列;(b)预处理模块,其用于生成结果得到的文本和由ar眼镜捕获的视频/图像的联合向量表示;(c)算法,其设法将输入的图像和文本向量与已经进行索引的维修手册中的适当的图像-文本链接进行匹配。

如果存在匹配的图像-文本链接,则使用在维修手册中的所有图像-文本链接上训练的自动编码器架构来重建图像和文本/指令,使得fse可以体验(与当前的设备上环境相比)视觉相似的图像以及易于解释的指令集来解决现有问题。这能够通过基于一些预定义的损失函数将一些约束添加到模型的解码部分中来实现,在给出维修手册中的匹配的图像-文本对的情况下,这将确保生成捕获问题的设备上视觉特性的(一幅或多幅)图像以及易于理解的指令集。然后将所重建的图像和指令显示在fse的ar眼镜的视场中。如果没有匹配的图像-文本链接,则搜索管道会建议前2个最接近的图像-文本链接。通过自动编码器模型进行重建后,在ar视场中仅将该图像显示给fse。fse然后通过说话(“我选择图像a”)或“触摸”最佳选择来进行选择,并显示对应的指令。在该示例中,使用自动编码器对检索到的内容进行解码(即,重建)。在其他预想到的实施例中,原始ar内容通过已经进行索引的维修手册的图像-文本链接进行存储和索引,在这种情况下,不执行通过自动编码器或其他解码算法进行的重建(即,不进行解码)。

参考图1,图示了用于识别和检索(并且可选地解码)ar内容10的系统。系统10用于针对医学成像或医学治疗设备12(被示例性地示为pet成像设备)的维修呼叫。更一般地,医学成像或医学治疗设备12能够是任何合适类型的设备,例如,独立ct成像设备、混合式pet/ct成像设备、磁共振成像(mri)设备、用于单光子发射计算机断层摄影(spect)成像的伽马相机、图像引导的治疗(igt)设备等。甚至更一般地,所公开的基于ar的维修指导设备和方法可以应用于在现场执行的任何类型的系统或设备维修,例如可以应用于辐射治疗递送设备、研究设备(例如,磁体)、低温系统、工厂机器人系统、加工炉等。

系统10包括ar设备13。如图1所示,ar设备13能够包括一副ar眼镜(例如,谷歌眼镜),该副ar眼镜(例如,谷歌眼镜)由fse(或更一般地,维修工程师、维护技术人员、放射学实验室工作人员等)佩戴。在另一示例中,ar设备13能够包括移动蜂窝电话或平板电脑。ar设备13包括用于采集成像设备12的图像的相机14(例如,具有“左眼”相机和“右眼”相机的立体相机)和用于采集来自fse的语音指令的麦克风15。ar设备13能够包括用于视觉输出内容的显示器16(例如,在谷歌眼镜的示例中的头戴式显示器)和/或用于音频输出内容的扬声器17。

相机14提供了“第一人称”的视点——如果ar设备13由执行(或参与执行)维修的维修人员佩戴,则维修呼叫的记录的视频有利地来自维修人员的视点或有利观察点。通过使用相机14,有利的是记录的视频本质上是双目的,并且能够提供用于提取三维(3d)信息的深度信息。然而,在替代实施例中,采用了单目相机——在这种情况下,计算机视觉通常能够基于通过相机的自然移动(由于维修人员在维修期间头部的移动)提供的不同有利观察点来提取3d信息。作为另一种预想到的变型,可以通过距离相机来增强常规的光学相机以提供深度信息。

通常,ar设备13被配置为将包括图像、文本、音频等中的一项或多项的ar内容叠加到以下各项中的任一项上:(i)(如在使用蜂窝电话时)由ar设备采集的实时视频或(ii)在头戴式显示器上。在一种方法中,头戴式ar眼镜、护目镜等具有透明镜片(例如,透明眼镜镜片)并且显示器16被设置在透明镜片的外围处或者被布置为将所显示的内容投影到透明镜片上或者使用构成镜片的透明显示器。

具有示例性的眼镜安装式相机14的ar设备13的困难在于,它可能为安装电子处理器提供有限的支撑结构——也就是说,可能难以将具有足够处理能力的微处理器或微控制器集成到眼镜上来处理视频生成和可选处理。这在说明性实施例中通过使ar设备13与工作站18进行无线通信来解决,该工作站18包括计算机或具有典型部件的其他电子数据处理设备,这些典型部件例如为至少一个电子处理器20、至少一个用户输入设备(例如、鼠标、键盘、轨迹球等)22和显示设备24。应当注意,这些部件能够被不同地分布。例如,电子处理器20可以包括由fse携带的笔记本电脑的本地处理器和由工作站终端接入的服务器计算机的处理器。在另一种预想到的方法中,电子处理器20被实施为由ar设备13经由无线链路30(例如,3g或4g无线蜂窝通信链路、wi-fi链路等)访问的云计算资源或(一个或多个)其他远程服务器计算机。电子处理器20还包括或者可以访问存储ar内容的一个或多个数据库或非瞬态存储介质26以支持维修操作。作为非限制性说明性示例,非瞬态存储介质26可以包括以下各项中的一项或多项:磁盘、raid或其他磁性存储介质;固态驱动器、闪存驱动器、电子可擦除只读存储器(eerom)或其他电子存储器;光盘或其他光学存储装置;其各种组合等。显示设备24被配置为显示包括一个或多个字段的图形用户接口(gui)28以从用户输入设备22接收用户输入。

应当理解,图1仅示出了一种说明性布置。如前所述,其他类型的眼镜或头饰(例如,护目镜、头带、头盔等)可以用作ar设备13的支撑结构,以便提供维修过程的第一人称视角;另外,正如已经提到的那样,可以用另一种类型的相机(例如,单目相机、相机加距离相机的组合等)来代替立体相机14。在其他实施例中,维修呼叫的记录视频可能不是来自维修人员的第一人称视角。例如,在替代实施例中,ar设备包括以下移动设备(未示出):该移动设备的后置相机被布置在移动设备的背面,用作记录维修呼叫的相机。在这种情况下,有利观察点将不是第一人称,但是fse能够握住移动设备以适当引导后置相机来记录要对其检索ar内容支持的零件、部件或组件的视频。

系统10被配置为执行ar内容识别和检索方法或流程100。非瞬态存储介质26存储指令,该指令能由工作站18的至少一个电子处理器20读取并运行以执行所公开的操作(包括执行ar内容生成方法或过程100)。在一些示例中,方法100可以至少部分地通过云处理来执行。为执行ar内容识别和检索方法或过程100而运行的指令可以被视为实施:(i)语音转文本或转录模块40和图像处理模块42,图像处理模块42被编程为分析由相机14捕获的图像43a和由麦克风15捕获的声音43b以生成对应的文本;(ii)图像-文本联合向量化模块44,其被编程为根据文本和图像(如前所述,更一般地预想到除了向量以外的数据结构,例如,2d、3d或更高维度的矩阵、向量集等)来生成图像-文本联合向量;(iii)图像文本链接匹配模块46,其被编程为基于图像-文本联合向量在非瞬态存储介质26中搜索医学成像或治疗设备12的相关维修手册数据47;(iv)视觉指令生成模块48,其被编程为基于检索到的手册数据来生成指导内容49并将指令显示在ar设备13的显示器16上(或者替代地,发出由ar设备的扬声器17输出的音频指令)。在一些实施例中,图像-文本联合向量化模块44能够包括一个或多个神经网络(nn)来处理来自对应的图像处理模块42和转录模块40的图像和文本。例如,图像-文本联合向量化模块44能够包括卷积nn(cnn)50和循环nn(rnn)52,该cnn50被编程为处理由相机14捕获的一幅或多幅图像,该rnn52被编程为处理由麦克风15捕获的触发音频片段(即,声音)。在其他实施例中,视觉指令生成模块48能够包括被编程为重建视觉(或音频)指令的自动编码器54。

参考图2,ar内容生成方法100的说明性实施例被图解性地示为流程图。方法100能够由工作站18的至少一个电子处理器20来运行。在102处,利用ar设备13的相机14来采集医学成像或医学治疗设备12的部件的一幅或多幅图像。在104处,从ar设备13的麦克风15接收触发音频片段。

在106处,根据一幅或多幅图像和触发音频片段这两者来生成一个或多个查询向量。在一些实施例中,可以使用另一向量相似性度量,例如,欧几里德距离度量或其他向量距离度量。在一个示例中,利用nn处理(例如,cnn50)来处理图像。在另一示例中,利用nn(例如,rnn52)来处理触发音频片段。

在108处,从数据库(例如,非瞬态存储介质26)中检索与所生成的查询向量相匹配的ar指导内容。为此,使用余弦相似性度量将所生成的查询向量与ar指导内容进行匹配。在一个实施例中,通过索引向量来对数据库26的内容进行索引,所述索引向量是使用与生成一个或多个查询向量的过程相同的过程生成的。匹配包括将一个或多个查询向量与索引检索到的ar指导内容的索引向量进行匹配。在另一实施例中,使用与用于生成一个或多个查询向量的过程相同的过程将数据库26的内容编码为向量。检索然后包括:从数据库26中检索经编码的ar指导内容,以及利用自动编码器54对经编码的ar指导内容进行解码。

在110处,将ar指导内容输出为以下各项中的一项或多项:(i)被叠加显示在由ar设备13的显示器16显示的视频上(例如,当ar设备包括蜂窝电话或电子平板电脑时)和/或(ii)被显示在ar设备的头戴式显示器16上(例如,当ar设备包括谷歌眼镜时)和/或(iii)经由ar设备的扬声器17被输出为音频内容。在一个示例中,将视觉指令输出为与部件有关的维修手册的相关章节。在另一示例中,将视觉指令输出为来自与部件有关的维修手册的注释。

参考图3,图解性地示出了图2的操作106(例如由图1的图像文本联合向量化模块44执行)的说明性实施例。在202处,分别由ar设备13的相机14捕获图像43b和/或通过对由ar设备13的麦克风15捕获的音频43a进行语音识别处理来生成文本。在204处,将所采集的文本43b连同来自维修数据手册数据47的文本输入到rnn52并进行处理。在206处,将所采集的图像43a连同来自维修数据手册数据47的图像输入到cnn50并进行处理。在208处,根据cnn50和rnn52的处理生成一个或多个查询向量(即,联合图像文本向量)。在210处,对数据库26进行索引以查找和选择与查询向量具有最小相似性距离的指导内容49。

参考图4,图解性地示出了图2的操作108(例如由图1的链路匹配模块46执行)的说明性实施例。在302处,将指导内容49输入到自动编码器54。在304处,对指导内容49进行解码以根据维修手册数据47来生成重建图像。在306处,将图像显示在ar设备13的显示器16上。在308处,ar设备13的麦克风15接收指示对所显示的图像中的一幅图像的选择的触发声音。在310处,将与所选择的图像相关联的维修手册数据47显示在显示器16上(或者,额外地或替代地,利用扬声器17来输出与所选择的图像相关联的维修手册数据47)。

已经参考优选实施例描述了本公开内容。其他人在阅读和理解了前面的详细描述后可能会想到修改和变更。本文旨在将本公开内容解释为包括所有这样的修改和变更,只要它们落入权利要求或其等同物的范围内即可。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1