运动控制和纹理显示的方法与流程

文档序号：27805682发布日期：2021-12-04 12:03阅读：80来源：国知局

1.本公开涉及帧内的对象分割，并且具体地涉及为运动控制和纹理显示(textured display)提供对象分割。

背景技术：

2.当前的运动感测方法主要涉及可穿戴设备，其中嵌入式传感器物理地附接到身体，并确定了每个传感器的相对移动。其他类型的运动感测可通过用光学传感器代替物理传感器来实现，光学传感器中的一些采用了多个相机和定制光源。可穿戴传感器和光学传感器系统利用稀疏数据来跟踪运动。对于可穿戴设备，接收到的数据量与传感器的数量直接相关，并且光学传感器解决方案利用拍摄的图像来提供可能易受噪声影响的深度信息。为了补偿传感器误差，可以以稀疏方式编码运动信息，其中仅确定了少数关键点的位置。此外，目前的方法无法提取对象的纹理信息以进行渲染。

技术实现要素：

3.一种运动控制和纹理显示的示例方法包括：接收图像；从该图像中提取感兴趣对象的初始掩码；将该图像分割为初始掩码和背景；确定初始掩码的颜色纹理；估计初始掩码到新掩码的运动；以及将新掩码和背景合并成合并图像。
4.另一种运动控制和纹理显示的方法包括：接收初始图像；从初始图像中提取感兴趣对象的初始掩码；接收新图像；确定初始图像和新图像的重叠区域；基于重叠区域内的最小颜色差异和最小亮度差异中的至少一者来确定初始掩码的偏移；以及将所确定的偏移应用于初始掩码以形成新掩码。
5.另一运动控制和纹理显示的方法包括：接收初始图像；从初始图像提取感兴趣对象的初始掩码；将初始掩码腐蚀成腐蚀掩码；将初始掩码膨胀成膨胀掩码；基于腐蚀掩码和膨胀掩码来确定背景轮廓置信度；基于腐蚀掩码和膨胀掩码来确定对象轮廓置信度；基于腐蚀掩码和膨胀掩码来确定背景颜色置信度；基于腐蚀掩码和膨胀掩码来确定对象颜色置信度；基于背景轮廓置信度、对象轮廓置信度、背景颜色置信度和对象颜色置信度来确定背景亲和度；基于背景轮廓置信度、对象轮廓置信度、背景颜色置信度和对象颜色置信度来确定对象亲和度；以及将背景亲和度和对象亲和度组合。
附图说明
6.在附图中：
7.图1是根据本公开的一个实施例的第一示例系统图；
8.图2是根据本公开的一个实施例的第二示例系统图；
9.图3是根据本公开的一个实施例的示例方法工作流程；
10.图4是根据本公开的一个实施例的示例帧内训练和推理工作流程；
11.图5是根据本公开的一个实施例的另一示例全球掩码搜索；
12.图6是根据本公开的一个实施例的另一示例背景亲和度和对象亲和度工作流程；
13.图7是根据本公开的一个实施例的第一示例方法；
14.图8是根据本公开的一个实施例的第二示例方法；以及
15.图9是根据本公开的一个实施例的第三示例方法。
具体实施方式
16.以下列出的实施例仅是为了说明对本设备和方法的应用而进行的撰写，并不限制其范围。对这种设备和方法的等同的修改形式应归入权利要求的范围内。
17.在整个以下描述和权利要求书中，使用某些术语来指代特定系统部件。如本领域技术人员将领会的，不同的团体可用不同的名称来指代部件和/或方法。本文档不意在区分名称不同但功能相同的部件和/或方法。
18.在以下的论述和权利要求书中，术语“包括”和“包含”以开放式方式使用，因此可被解释为表示“包括但不限于
……”
。此外，术语“耦合”或“耦接”意在表示间接或直接连接。因此，如果第一装置连接到第二装置，则该连接可以是直接连接或经由其他装置和连接的间接连接。
19.图1描绘了示例混合计算系统100，该混合计算系统100可用于实现与过程600的一个或多个部分或步骤的操作相关联的神经网络。在该示例中，与混合系统相关联的处理器包括现场可编程门阵列(fpga)122、图形处理器单元(gpu)120和中央处理器(cpu)118。
20.cpu 118、gpu 120和fpga 122具有提供神经网络的能力。cpu是可执行许多不同功能的通用处理器，cpu的通用性导致了用以执行多种不同任务的能力。然而，cpu对多个数据流的处理受到限制，并且cpu相对于神经网络的功能受到限制。gpu是图形处理器，具有能够按顺序处理并行任务的许多小型处理核心。fpga是一种现场可编程装置，fpga具有被重新配置并且以硬连线电路的方式执行可被编程到cpu或gpu中的任意功能的能力。由于以电路形式对fpga进行编程，因此其速度比cpu快许多倍，并且明显快于gpu。
21.系统还可包含其他类型的处理器，诸如加速处理单元(apu)和数字信号处理器(dsp)，apu包括具有片上gpu元件的cpu，dsp被设计为用于执行高速数字数据处理。专用集成电路(asic)也可执行fpga的硬连线功能。然而，用以设计和生产asic的前置时间(lead time)大约为一年的若干个季度，而不是在对fpga进行编程中可用的快速周转实施时间。
22.连接有图形处理器单元120、中央处理器118和现场可编程门阵列122，并且图形处理器单元120、中央处理器118和现场可编程门阵列122连接到存储器接口和控制器112。fpga通过可编程逻辑电路到存储器互连130连接到存储器接口。利用该额外的装置是因为fpga在非常大的带宽下运行并且为了使fpga用以执行存储任务所利用的电路最小化。存储器接口和控制器112另外地连接到永久性存储器盘110、系统存储器114和只读存储器(rom)116。
23.图1的系统可用于对fpga进行编程和训练。gpu与非结构化数据一起很好地运行，并且可用于训练，一旦训练了数据，就可找到确定性的推理模型，并且cpu可利用由gpu确定的模型数据对fpga进行编程。
24.存储器接口和控制器连接到中央互连124，中央互连另外连接到gpu 120、cpu 118和fpga 122。中央互连124另外连接到输入和输出接口128和网络接口126。
25.图2描绘了第二示例混合计算系统200，该混合计算系统200可用于实现与过程1000的一个或多个部分或步骤的操作相关的神经网络。在该示例中，与混合系统相关的处理器包括现场可编程门阵列(fpga)210和中央处理器(cpu)220。
26.fpga电连接到fpga控制器212，fpga控制器212与直接存储器存取(dma)218接口连接。dma连接到输入缓冲器214和输出缓冲器216，输入缓冲器214和输出缓冲器216耦合到fpga以分别将数据缓冲到fpga中以及将数据从fpga缓冲出。dma 218包括两个先进先出(fifo)缓冲器，一个用于主cpu，另一个用于fpga。dma允许数据被写入适当的缓冲器以及从适当的缓冲器读取数据。
27.在dma的cpu侧的是主交换机228，主交换机228将数据和命令往返传送到dma。dma还连接到sdram控制器224，该sdram控制器224允许将数据从cpu 220传送到fpga并且允许数据从fpga传送到cpu 220。sdram控制器还连接到外部sdram 226和cpu 220。主交换机228连接到外围设备接口230。闪存控制器222控制持久性存储器，并连接到cpu 220。
28.本公开中描述的一种示例解决方案利用从至少一台相机记录的光学信息提取感兴趣对象在2d或3d空间中的空间位置和时间位移。提取的空间位置和时间位移被表示为密集的强度分布，该密集的强度分布以掩码的形式指示感兴趣的对象。在一个示例中，系统收集掩码内的感兴趣对象的表面的辐射特性，其可用于编辑感兴趣对象的图形表示。
29.一个示例解决方案可利用红蓝绿(rgb)相机和机器学习模型来推断掩码内的感兴趣对象的运动和颜色纹理。当前基于图像分割的运动感测在感兴趣对象内的高移动区域(诸如手部移动或面部表情)的运动感测中缺乏精确度。当前的解决方案缺乏时间平滑性，这可能会导致时间域中的大差异，从而导致闪烁。当前的实时分割系统在边界区域附近的精度较差，这可能会导致伪影。
30.示例解决方案包括基于分割的运动感测和纹理提取系统，其将感兴趣对象的掩码与背景分离开。该解决方案包括针对掩码内的感兴趣对象(诸如身体)和感兴趣对象(例如手、头发或脸)的掩码内的分量的损失函数。帧内学习工作流程允许逐帧(即，帧内)在大小、位置和旋转方面修改掩码。所提出的解决方案还包括掩码确定和掩码的后处理以增强掩码与背景之间的轮廓。可通过在线数据增强掩码确定。
31.图3中描绘了示例工作流程300的示意性表示。该方法从至少一个相机接收310图像，该图像可以是实时的。图像经历了对感兴趣对象的基于学习的掩码提取312，以将感兴趣对象与背景分离开。基于学习的掩码提取可包括对先前掩码的迭代查核(iterative review)和利用在线数据进行的增强。在感兴趣对象附近和/或围绕感兴趣对象形成掩码。包含感兴趣对象的掩码可具有可进行单独查核的子分量。该方法对掩码轮廓进行后处理314，以将掩码内的感兴趣对象的轮廓平滑为背景。该方法还估计316掩码内的感兴趣对象的运动并提取318掩码和背景内的感兴趣对象的颜色纹理。运动估计316和颜色纹理提取318被组合320为具有运动和表面纹理的感兴趣对象的全息表示。该组合可被合并322为场景帧，其可以是视听的或虚拟现实的并且可被实时显示324。
32.由于非线性局部模式和噪声，掩码内的感兴趣对象的具体分量(诸如手、脸和头发)分割起来是复杂的。当前的分割将分割任务作为一个整体的同质语义区域来执行。这种整体同质语义策略可能效率低下，因为训练发生在简单区域，而复杂区域可能在很大程度上被忽略。一个提议的解决方案包括对象分量损失，该对象分量损失允许将独立的损失分
别集中在更复杂的区域，诸如手、脸和头发。局部边界条件误差(bce)损失考虑到了目标分量边界框内的区域。局部损失允许以分层级的方式进行训练，将掩码内的损失分解为一般的主体损失和特定的分量损失。对于包含人的掩码，身体将是一个损失，手、脸和头发的各个分量将是特定的分量损失。利用设计的权重参数，可将损失组合在一起。得到的公式由下式给出：
33.l
总
＝l
bce(主体)
*w
主体
+l
bce(分量)
*w
分量
34.虽然在示例掩码的论述中提到了人，但是具有复杂子分量的任意类型的感兴趣对象也可利用这种分量损失方法。
35.帧间学习包括利用将被断言到输入图像中的从先前的帧预测的新掩码作为学习网络中的第四通道；从而网络就会在初始掩码的指导下学习分割图像。请注意的是，术语初始掩码是指先前的掩码，新掩码是指在先前的掩码之后的掩码。
36.图4描绘了用于时间一致性增强400的帧内学习的示例训练和推理工作流程。感兴趣对象的掩码可逐帧改变。掩码的改变可能涉及掩码的移动、旋转或尺寸调整。这种变化可逐帧以渐进的方式流动并且可被确定。在时间t
‑
1处拍摄的图像产生t
‑
1帧416，该t
‑
1帧416通过分割网络422路由，从而产生通过推理循环(inference loop)426路由的初始掩码424。在时间t拍摄的更新图像412产生t帧rgb 410图像。即使包含感兴趣对象的掩码可能会在大小、旋转或平移方面进行调整，t帧和t
‑
1帧的感兴趣对象也应该是相同的。因此，t帧中的掩码可与t
‑
1帧中的掩码相关。t帧的掩码可通过在大小、旋转和平移方面的调整来增强418，并用于训练分割网络422。以此方式，分割网络422基于演进掩码内的感兴趣对象利用推理循环426来连续更新掩码424。
37.在将掩码添加到学习网络的第四通道之前，可利用增强操作(诸如旋转、平移和缩放)来处理掩码。以这种方式，网络平衡更新后的rgb图像和初始掩码，使得新掩码与初始掩码在内部保持一致，以保持时间稳定性。
38.训练的调整可通过在时间上平滑初始掩码和新掩码来防止初始掩码与新掩码之间的大变化。训练的调整可以是非实时的。
39.感兴趣对象的掩码的确定是密集的，并且当前以远低于显示器频率的频率执行掩码更新，使得可使用一个掩码来渲染多个帧。固定掩码可能无法解决可能由相机的振动或轻微的身体移动等引起的帧之间的小的变化。
40.掩码的更新可利用插值来解决。在处理完一帧之后，其亮度图以及初始掩码可能会保存在缓冲区中。当获得新帧时，可将初始帧或先前的帧在预定范围内移位，并且可找到在重叠区域内的平均亮度差异。在接收到帧后，可识别出初始帧与新帧之间的最小差值。然后，可将相应的帧位移应用于初始掩码以创建新掩码。在渲染之后，新掩码和亮度图可再次存储在缓冲区中并且该循环继续直到如图5中所示的过程终止。
41.图5描绘了示例全局搜索500，其中通过找到dx和dy值以在调整先前帧之后将重叠区域内的平均颜色差异和/或亮度差异最小化来获得掩码的位移。先前帧510和新帧512具有重叠区域514。在重叠区域514内，通过δx(dx)和δy(dy)，定位dxdy 516。然后，将dxdy516应用于旧掩码518以确定新掩码520。
42.基于模型复杂度和输入分辨率的限制允许每帧的掩码估计感兴趣对象的掩码的轮廓。为了获得视觉上有吸引力的渲染，颜色纹理需要精确。颜色纹理中的不精确(诸如包
含非对象像素)可能会导致渲染图像上出现明显的伪影。在一个示例中，模型假设同一对象的像素应该具有相似的颜色，并且利用一系列过滤器来提高掩码轮廓附近的颜色纹理精确度。
43.所提出的系统利用学习模型来提取密集的掩码和表面纹理，从而允许对实际标注(ground truth)的提取和对感兴趣对象的掩码的预测。真实数据是指将像素与现实中的像素进行比较，以验证图像中像素的内容。
44.所提出的系统允许经由一系列帧来训练学习模型，其中先前帧的掩码用作下一帧的输入层，并允许对先前帧应用不同的位移并将该帧与后一帧进行比较，以通过将全局亮度差异最小化来确定位移，并将相应的位移应用于较早的帧掩码。该系统训练可以是非实时的。
45.图6中描述了根据与背景和感兴趣对象掩码区域的颜色亲和度来确定掩码轮廓附近的掩码值的方法。独立地膨张614和腐蚀612输入掩码610。对于膨张图像和腐蚀图像两者具有相同值的区域而言，这些区域被认为是高置信度像素并且它们的值保持不变618和622。对于膨张图像和腐蚀图像两者具有不同值的像素而言，这些像素被认为是低置信度像素620。输入彩色图像616，并且将高置信度背景颜色624、低置信度颜色626和感兴趣对象颜色628映射到彩色图像616。基于周围的高置信度像素和颜色和/或亮度差异来确定背景亲和度630和感兴趣对象亲和度632。然后，可通过将与背景630的亲和度和与感兴趣对象掩码632亲和度进行比较与来确定掩码值，这导致了对象亲和度值和背景亲和度值，在一个示例中，像素的值可以是对象亲和度值除以背景亲和度值与对象亲和度值的总和。该示例方法可增加颜色空间内的像素的平滑度并且可减少在掩码中包含具有不同颜色的非对象像素的可能性。
46.图6描绘了根据轮廓与背景和感兴趣对象区域的颜色亲和度来确定轮廓附近的掩码值的示例方法600。该方法包括输入610初始掩码，腐蚀612和膨胀614该初始掩码。被腐蚀的掩码可以被分离成高置信度背景618、低置信度区域620和高置信度对象622。膨胀的掩码也可被分离成高置信度背景618、低置信度区域620和高置信度对象622。可将彩色图像616输入到高置信度背景618中，从而产生背景颜色624。可将彩色图像616输入到低置信度区域620中，从而产生低置信度颜色626，并且可将彩色图像616输入到高置信度对象622中，从而产生感兴趣对象颜色628。背景颜色624和低置信度颜色626可组合成背景亲和度630。对象颜色628和低置信度颜色626可组合成感兴趣对象亲和度632。背景亲和度630和对象亲和度632可组合为最终亲和度634。
47.对于低置信度的区域内的像素而言，它们的值根据与该区域外部的像素的颜色亲和度和/或亮度亲和度进行更新。学习工作流程允许增强感兴趣对象内的感兴趣分量(诸如手和头发)的感测精度。在一个示例实施例中，系统利用后处理来调整颜色纹理。
48.图7描绘了运动控制和纹理显示700的示例方法，该示例方法包括接收710图像和从图像中提取712感兴趣对象的初始掩码。初始掩码的提取可基于由在线数据增强的学习模型。该方法将图像分割714为初始掩码和背景，初始掩码设定高分辨率查核的边界。该方法确定716初始掩码的颜色纹理，估计718初始掩码到新掩码的运动并且将新掩码和背景合并720成合并图像。
49.该方法可包括基于主体损失和分量损失以及将初始掩码旋转成新掩码、将初始掩
码平移成新掩码和将初始掩码缩放成新掩码中的至少一者来训练对初始掩码的提取。增强的新掩码可以是旋转、平移和缩放初始掩码中的至少一者的输出。该方法还可确定初始掩码与新掩码之间的最小平均亮度差异，并确定初始掩码与新掩码之间的最小平均颜色差异。该方法可将初始掩码腐蚀成新掩码到腐蚀成腐蚀掩码并且可将初始掩码膨胀成新掩码到膨胀成膨胀掩码。基于腐蚀掩码和膨胀掩码，模型可确定背景轮廓置信度、对象轮廓置信度、背景颜色置信度和对象颜色置信度。该模型还可基于背景轮廓置信度、对象轮廓置信度、背景颜色置信度和对象颜色置信度来确定背景亲和度和对象亲和度，其中背景亲和度和对象亲和度进行了组合。
50.图8描绘了运动控制和纹理显示800的方法，该方法包括接收810初始图像，从初始图像中提取812感兴趣对象的初始掩码，以及接收814新图像。该方法进一步确定816初始图像和新图像的重叠区域，基于重叠区域内的最小颜色差异和最小亮度差异中的至少一者来确定818初始掩码的偏移，以及将所确定的偏移应用820于初始掩码以形成新掩码。
51.图9描绘了运动控制和纹理化显示900的方法，包括接收910初始图像，从初始图像中提取912感兴趣对象的初始掩码，将初始掩码腐蚀914成腐蚀掩码并将初始掩码膨胀916成膨胀掩码。该方法基于腐蚀掩码和膨胀掩码来确定918背景轮廓置信度，并且基于腐蚀掩码和膨胀掩码来确定920对象轮廓置信度。该方法还基于腐蚀掩码和膨胀掩码来确定922背景颜色置信度，并且基于腐蚀掩码和膨胀掩码来确定924对象颜色置信度。该方法另外基于背景轮廓置信度、对象轮廓置信度、背景颜色置信度和对象颜色置信度来确定926背景亲和度。该方法还包括基于背景轮廓置信度、对象轮廓置信度、背景颜色置信度和对象颜色置信度来确定928对象亲和度，并且将背景亲和度和对象亲和度组合930。
52.本领域技术人员将领会的是，本文所描述的各种说明性块、模块、元件、部件、方法和算法可被实现为电子硬件、计算机软件或两者的组合。为了说明硬件和软件的这种可互换性，以上已经根据其功能大体上描述了各种说明性的块、模块、元件、组件、方法和算法。将这样的功能实现为硬件还是软件取决于具体的应用和施加在系统上的设计约束条件。技术人员可针对每个具体的应用以不同方式来实现所描述的功能。在均不背离本主题技术的范围的情况下，各种部件和块可被不同地布置(例如，以不同的顺序布置或以不同的方式划分)。
53.应理解的是，所公开的过程中步骤的特定顺序或层级是对示例方法的说明。基于设计偏好，应理解的是，可重新排列过程中步骤的特定顺序或层级。一些步骤可被同时执行。随附的方法权利要求以示例顺序呈现了各个步骤的要素，并不意味着受限于所呈现的特定顺序或层级。
54.提供先前的描述以使得本领域的任意技术人员能够实践本文所描述的各个方面。先前的描述提供了本主题技术的各种示例，并且本主题技术不限于这些示例。对这些方面的各种修改对于本领域技术人员而言将是明显的，并且本文中定义的一般原理可应用于其他方面。因此，不意在将权利要求受限于本文中所示出的各方面，而是意在使全部范围与权利要求的语言表述相一致，其中以单数形式所提及的元素并不意在表示“一个且仅一个”，除非明确如此阐明，而是表示“一个或多个”。除非另有明确阐明，否则术语“一些”是指一个或多个。男性代词(例如，他的)包括女性和中性性别(例如，她及它)，反之亦然。标题和副标题，如果有的话，仅是为了方便起见，并不限制本发明。谓语词“被配置以”、“可操作以”和
“
被编程以”并不意味着对对象进行任意具体的有形或无形修改，而是意在将其互换使用。例如，被配置以监测和控制操作或部件的处理器也可意味着处理器被编程以监测和控制操作或处理器可被操作以监测和控制操作。同样地，被配置以执行代码的处理器可被解释为被编程以执行代码或可被操作以执行代码的处理器。
55.诸如“方面”的短语并不意味着这样的方面对于本主题技术是必不可少的，也不意味着这样的方面适用于本主题技术的配置。与一方面有关的公开内容可应用于配置，或者一个或多个配置。一个方面可提供一个或多个示例。诸如方面的短语可指一个或多个方面，反之亦然。诸如“实施例”的短语并不意味着这样的实施例对于本主题技术是必不可少的，也不意味着这样的实施例适用于本主题技术的配置。与一实施例有关的公开内容可适用于实施例，或者一个或多个实施例。一实施例可提供一个或多个示例。诸如“实施例”的短语可指一个或多个实施例，反之亦然。诸如“配置”的短语并不意味着这样的配置对于本主题技术是必不可少的，也不意味着这样的配置适用于本主题技术的配置。与一个配置有关的公开内容可适用于配置，或者一个或多个配置。一个配置可提供一个或多个示例。诸如“配置”的短语可指一个或多个配置，反之亦然。
56.词语“示例”在本文中用来表示“用作示例或说明”。本文中被描述为“示例”的任意方面或设计不必然被解释为比其他方面或设计更优选或更有利。
57.对于本领域普通技术人员而言是已知或以后将知道的是，在整个本公开中所描述的各个方面的元件的结构和功能等同物均通过引用明确地并入本文，并且意在被权利要求书所涵盖。此外，无论在权利要求书中是否明确叙述了本文所描述的公开内容，都不意在将这样的公开内容捐献于公众。除非使用短语“用于
……
的手段”明确叙述该要素，或者在方法权利要求的情况下，使用短语“用于
……
的步骤”来叙述该元素，否则任何权利要求的要素均不得根据美国专利法35u.s.c.、
§
112、第六段的规定进行解释。此外，针对说明书或权利要求书中使用术语“包括(include)”、“具有(have)”等的程度，这样的术语旨在被包括在术语“包含”的方式内，类似于当“包括”在权利要求中被用作连接词时，对“包括”的解释那样。
58.对“一个实施例”、“实施例”、“一些实施例”、“各种实施例”等的引用指示具体的要素或特征被包括在本发明的至少一个实施例中。虽然这些短语可出现在各个地方，但是这些短语不一定指的是同一实施例。结合本公开，本领域技术人员将能够设计和结合适用于实现上述功能的各种机构中的任意一者。
59.应理解的是，本公开仅教导了说明性实施例的一个示例，并且本领域技术人员在阅读了本公开之后可容易地设计出本发明的许多变型，并且本发明的范围将由以下权利要求所确定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：单记章;吴铁成;屠方闻;李博;徐劲
技术所有人：黑芝麻智能科技有限公司
我是此专利的发明人

上一篇：工件的制作方法
上一篇：一种新型的有源光缆转接头外壳的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。