图像/视频编辑应用上的基于神经网络的图像着色的制作方法

文档序号:32433895发布日期:2022-12-03 04:36阅读:96来源:国知局
图像/视频编辑应用上的基于神经网络的图像着色的制作方法
图像/视频编辑应用上的基于神经网络的图像着色
1.对相关申请的交叉引用/通过引用并入
2.无。
技术领域
3.本公开的各种实施例涉及图像/视频着色。更具体而言,本公开的各种实施例涉及用于图像/视频编辑应用上的基于神经网络的图像着色的方法和系统。


背景技术:

4.图像/视频编辑应用的进步已经导致图像着色技术的发展,该技术将颜色添加到灰度图像/视频中的一个或多个区域。在常规的基于转描(rotoscoping)的方法中,用户必须手动将点放置在视频的图像帧中感兴趣区域周围。为了对视频中的整个帧序列进行着色,必须对视频的每一帧手动重复上述过程。这对于用户来说可能是耗时且麻烦的。
5.通过将所描述的系统与本公开的一些方面进行比较,常规和传统方法的进一步限制和缺点对于本领域技术人员将变得清楚,如本技术的其余部分和参考附图阐述的。


技术实现要素:

6.如在权利要求中更完整阐述的,基本如至少一个图所示和/或结合至少一个图所描述的,提供了用于图像/视频编辑应用上的基于神经网络的图像着色的计算系统和方法。
7.可以通过阅读以下对本公开的详细描述以及附图来理解本公开的这些和其它特征以及优点,在附图中,相同的参考标记始终表示相同的部分。
附图说明
8.图1是图示根据本公开的实施例的用于图像/视频编辑应用上的基于神经网络的图像着色的示例性网络环境的框图。
9.图2是图示根据本公开的实施例的用于图像/视频编辑应用上的基于神经网络的图像着色的示例性计算系统的框图。
10.图3是图示根据本公开的实施例的用于图像/视频编辑应用上使用基于神经网络的着色插件对灰度图像馈送进行着色的示例性操作的图。
11.图4是图示根据本公开的实施例的用于获得参考彩色图像以供在图3的示例性操作中使用的示例性操作的图。
12.图5是图示根据本公开的实施例的用于图像/视频编辑应用上的基于神经网络的图像着色的示例性方法的流程图。
具体实施方式
13.以下描述的实施方式可以在所公开的用于图像/视频编辑应用上的基于神经网络的图像着色的计算系统和方法中找到。本公开的示例性方面提供了一种计算系统,该计算
系统使用基于神经网络的图像着色模型来实现工作流,以用于使用参考彩色图像对图像馈送的一个或多个灰度图像中的至少一个物体进行着色。具体而言,基于神经网络的着色模型将参考彩色图像中感兴趣区域的颜色效果转移给图像馈送的每个灰度图像中的物体。这种图像馈送可以是单个图像或者可以是具有多个图像的视频。
14.在图像/视频编辑应用上,用户可以使用图像/视频编辑应用的转描工具获得参考彩色图像。例如,用户可以采用转描来改变图像的被遮蔽区域的颜色以获得参考彩色图像。相同的应用提供了基于节点的界面来构造节点图。例如,用户可以简单地将灰度图像的图像馈送作为源节点添加到着色节点,其输出可以链接到结果节点。着色节点可以与软件插件(诸如openfx(ofx)插件)对应,该插件在被执行时可以调用基于神经网络的着色模型以将来自参考彩色图像中的感兴趣区域的颜色效果应用到图像馈送的(一个或多个)灰度图像中的(一个或多个)物体。参考彩色图像或参考彩色图像的文件路径可以作为输入被传递到着色节点。
15.在常规的基于转描的方法中,用户必须手动设置视频的图像帧中感兴趣区域周围的点。为了对视频中的整个帧序列进行着色,必须对视频的每一帧重复上述过程。这可能是耗时且麻烦的。相比之下,本公开不要求用户在目标灰度视频的每一帧中标记任何感兴趣区域。用户可能只需选择参考彩色图像和目标图像或视频(具有(一个或多个)灰度图像)作为到图像/视频编辑应用的基于节点的界面上的着色节点的输入。着色节点可以表示工作流,当其被执行时,可以调用基于神经网络的着色模型以将颜色效果从参考彩色图像中的roi传递给目标图像/视频的帧中的(一个或多个)物体。
16.图1是图示根据本公开的实施例的用于图像/视频编辑应用上的基于神经网络的图像着色的示例性网络环境的框图。参考图1,示出了网络环境100。网络环境100可以包括计算系统102和通信地耦合到计算系统102的显示设备104。还示出了图像/视频编辑应用106,其可以安装在计算系统102上或者可以通过计算系统102上的web客户端(诸如web应用或web浏览器)访问。
17.网络环境100还可以包括服务器110,其可以实现基于神经网络的着色模型108。服务器110可以经由通信网络112通信地耦合到计算系统102。在图1中,计算系统102和显示设备104被示为两个分离的设备;但是,在一些实施例中,显示设备104的整个功能可以结合到计算系统102中,而不偏离本公开的范围。
18.计算系统102可以包括合适的逻辑、电路系统、代码和/或接口,这些逻辑、电路系统、代码和/或接口可以被配置为执行第一工作流,用于对包括一个或多个灰度图像(诸如灰度图像114)的第一图像馈送中的一个或多个物体进行着色。第一工作流可以与软件插件相关联,该软件插件可以包括用于在图像/视频编辑应用106上执行第一工作流的程序指令。计算系统102的示例可以包括但不限于图像/视频编辑机器、服务器、计算机工作站、大型机、游戏设备、智能电话、移动电话、膝上型计算机、平板电脑、扩展现实(xr)耳机和/或任何其它具有图像/视频编辑能力的消费电子(ce)设备。
19.显示设备104可以包括合适的逻辑、电路系统和/或接口,这些逻辑、电路系统和/或接口可以被配置为显示图像/视频编辑应用106的图形用户界面(gui)116。在一个实施例中,显示设备104可以是可以使用户能够经由显示设备104提供用户输入的启用触摸的设备。显示设备104可以包括可以通过若干已知技术实现的显示单元,诸如但不限于液晶显示
(lcd)显示器、发光二极管(led)显示器、等离子体显示器或有机led(oled)显示技术或其它显示技术中的至少一种。
20.图像/视频编辑应用106可以包括合适的逻辑、代码和/或接口,这些逻辑、代码和/或接口可以被配置为编辑包括一个或多个灰度图像的图像馈送。例如,编辑可以包括使用转描方法在输入图像上应用颜色效果以获得参考彩色图像(例如,参考彩色图像118)。另一个编辑可以包括使用可以实现基于神经网络的着色模型108的软件插件将颜色效果从参考彩色图像转移给图像馈送的灰度图像(例如,灰度图像114)中的物体。图像/视频编辑应用106可以基于节点图体系架构来实现。在节点图体系架构中,用户可以能够构造节点图以表示用于任何编辑任务的工作流,诸如基于参考彩色图像(诸如参考彩色图像118)的图像馈送的着色。图像/视频编辑应用106的示例可以包括但不限于基于节点的数字合成和视觉效果应用、图像编辑器、数字效果应用、运动图形编辑应用、合成应用、非线性编辑(nle)应用、光栅图形编辑器或其组合。
21.基于神经网络的着色模型108可以是图像着色模型,其可以在图像着色任务上被训练以对图像馈送的单个图像帧或图像帧序列中的物体进行着色。基于神经网络的着色模型108可以由其超参数定义,例如(一个或多个)激活函数、多个权重、成本函数、正则化函数、输入尺寸、层数等。
22.基于神经网络的着色模型108可以被称为计算网络或人工神经元(也称为节点)的系统。基于神经网络的着色模型108的节点可以布置在多个层中,如在基于神经网络的着色模型108的神经网络拓扑中所定义的。基于神经网络的着色模型108的多个层可以包括输入层、一个或多个隐藏层以及输出层。多个层中的每一层可以包括一个或多个节点(或人工神经元,例如由圆圈表示)。输入层中所有节点的输出可以耦合到(一个或多个)隐藏层的至少一个节点。类似地,每个隐藏层的输入可以耦合到基于神经网络的着色模型108的其它层中的至少一个节点的输出。每个隐藏层的输出可以耦合到基于神经网络的着色模型108的其它层中的至少一个节点的输入。最后一层中的(一个或多个)节点可以从至少一个隐藏层接收输入以输出结果。可以从基于神经网络的着色模型108的超参数确定层数和每层中的节点数。此类超参数可以在图像的训练数据集上训练基于神经网络的着色模型108之前或同时设置。
23.基于神经网络的着色模型108的每个节点可以与具有在网络的训练期间可调谐的参数集合的数学函数(例如,sigmoid函数或整流线性单元)对应。参数集合可以包括例如权重参数、正则化参数等。每个节点可以使用数学函数来基于来自基于神经网络的着色模型108的(一个或多个)其它层(例如,(一个或多个)先前的层)中的节点的一个或多个输入而计算输出。基于神经网络的着色模型108的所有或一些节点可以与相同或不同的数学函数对应。
24.在基于神经网络的着色模型108的训练中,基于神经网络的着色模型108的每个节点的一个或多个参数可以基于最后一层针对给定输入(来自训练数据集)的输出是否基于用于基于神经网络的着色模型108的损失函数匹配正确结果而被更新。可以对相同或不同的输入重复上述过程,直到达到损失函数的最小值,并且训练误差被最小化。本领域中已知几种训练方法,例如梯度下降、随机梯度下降、批量梯度下降、梯度提升、元启发法等。
25.在实施例中,基于神经网络的着色模型108可以包括电子数据,其可以被实现为例
如在计算系统102或服务器110上可执行的应用的软件组件。基于神经网络的着色模型108可以依赖库、外部脚本或其它逻辑/指令来由诸如计算系统102或服务器110之类的处理设备执行。基于神经网络的着色模型108可以包括计算机可执行代码或例程,以使诸如计算系统102或服务器110之类的计算设备能够执行一个或多个操作以对输入的灰度图像中的物体进行着色。附加地或可替代地,基于神经网络的着色模型108可以使用包括处理器、微处理器(例如,以执行或控制一个或多个操作的执行)、现场可编程门阵列(fpga)或专用集成电路(asic)的硬件来实现。例如,推理加速器芯片可以包括在计算系统102中以加速用于图像着色任务的基于神经网络的着色模型108的计算。在一些实施例中,可以使用硬件和软件两者的组合来实现基于神经网络的着色模型108。
26.基于神经网络的着色模型108的示例可以包括但不限于自动编码器、卷积神经网络(cnn)、具有cnn的区域(r-cnn)、快速r-cnn、更快r-cnn、你只看一次(yolo)网络、残差神经网络(res-net)、特征金字塔网络(fpn)、视网膜网(retina-net)和/或其组合。
27.服务器110可以包括合适的逻辑、电路系统和接口和/或代码,这些逻辑、电路系统和接口和/或代码可以被配置为实现基于神经网络的着色模型108,以用于使用参考彩色图像(诸如参考彩色图像118)对(一个或多个)灰度图像进行着色。服务器110可以是云服务器,并且可以通过web应用、云应用、http请求、储存库操作、文件传输等来执行操作。服务器110的其它示例实施方式可以包括但不限于web服务器、文件传输协议(ftp)服务器、应用服务器或大型机服务器。
28.在至少一个实施例中,服务器110可以通过使用本领域普通技术人员众所周知的若干技术被实现为多个分布式的基于云的资源。本领域普通技术人员将理解的是,本公开的范围可以不限于将服务器110和计算系统102实现为两个分离的实体。在某些实施例中,服务器110的功能可以整体或至少部分地结合到计算系统102中,而不背离本公开的范围。
29.通信网络112可以包括通信介质,计算系统102可以通过该通信介质与服务器110和为简洁起见从公开中省略的其它设备通信。通信网络112可以是有线连接或无线连接之一。通信网络112的示例可以包括但不限于互联网、云网络、无线保真(wi-fi)网络、个域网(pan)、局域网(lan)或城域网(man)。根据各种有线和无线通信协议,网络环境100中的各种设备可以被配置为连接到通信网络112。这种有线和无线通信协议的示例可以包括但不限于传输控制协议和互联网协议(tcp/ip)、用户数据报协议(udp)、超文本传输协议(http)、文件传输协议(ftp)、zig bee、edge、ieee 802.11、光保真(li-fi)、802.16、ieee 802.11s、ieee 802.11g、多跳通信、无线接入点(ap)、设备到设备通信、蜂窝通信协议和蓝牙(bt)通信协议中的至少一种。
30.在操作中,计算系统102可以控制显示设备104显示图像/视频编辑应用106的gui 116。gui 116可以包括基于节点的界面以创建用于图像处理任务(诸如图像着色任务或转描任务)的工作流。例如,用户可能只需要简单地将图像处理操作的集合作为节点放置在基于节点的界面上。此后,为了获得工作流,可以通过在基于节点的界面上将此类节点连接在一起来将这些图像操作链接在一起。这些操作中的每一个可以一起产生节点图。
31.首先,计算系统102可以通过在输入图像的感兴趣区域(roi)(诸如roi 120)上选择性地应用颜色效果来获得参考彩色图像(诸如参考彩色图像118)。计算系统102可以基于经由gui 116的用户输入来确定输入图像的roi。例如,gui 116可以包括可以显示输入图像
的预览窗口。用户输入可以包括在输入图像中的roi周围添加多个点以创建蒙版,该蒙版可以将roi与输入图像中的其余元素分开。用户输入可以作为gui 116的基于节点的界面中的第一节点出现。为了获得参考彩色图像,计算系统102可以被配置为将颜色效果应用于输入图像的roi。颜色效果可以在gui 116的基于节点的界面中作为第二节点出现。在一些情况下,可以在应用颜色效果之前或之后在roi上应用图像过滤器的集合。此类过滤器也可以作为连接到第一节点或第二节点的(一个或多个)节点出现。所有此类节点可以形成节点图,它可以表示整个工作流,当该工作流被执行时,可以选择roi并将图像过滤器的集合和颜色效果应用于所选择的roi以获得参考彩色图像(诸如roi 120)。例如,在图4中进一步提供关于参考彩色图像的详细信息。
32.在任何时刻,用户可以在图像/视频编辑应用106上创建项目。计算系统102可以经由gui 116的基于节点的界面接收用户输入以构造第一节点图。计算系统102可以控制显示设备104在图像/视频编辑应用106的gui 116上显示第一节点图。第一节点图可以包括着色节点,着色节点可以表示用于第一图像馈送的一个或多个灰度图像(诸如灰度图像114)中的至少第一物体的着色的第一工作流。第一图像馈送可以包括单个图像,或者视频的图像帧序列。例如,在图3中提供与第一节点图相关联的详细信息。
33.计算系统102可以接收第一用户输入,其可以包括经由图像/视频编辑应用106对参考彩色图像(诸如参考彩色图像118)的选择。此后,计算系统102可以基于第一用户输入来选择参考彩色图像,并且可以执行与着色节点相关联的第一工作流。随着第一工作流被发起,计算系统102可以将选择的参考彩色图像和第一图像馈送作为输入馈送到基于神经网络的着色模型108。计算系统102可以对于该输入接收作为基于神经网络的着色模型108的输出的第二图像馈送。第二图像馈送可以包括一个或多个着色的图像(诸如着色的图像122)。每个这样的着色的图像可以包括基于对roi(诸如roi 120)的颜色效果而着色的至少第一物体(诸如足球运动员124的t恤)。
34.图2是图示根据本公开的实施例的用于图像/视频编辑应用上的基于神经网络的图像着色的示例性计算系统的框图。结合图1中的元素解释图2。参考图2,示出了计算系统102的框图200。计算系统102可以包括电路系统202、存储器204、输入/输出(i/o)设备206和网络接口208。电路系统202可以通信地耦合到存储器204、i/o设备206和网络接口208。在一些实施例中,i/o设备206可以包括显示设备(诸如图1的显示设备104)。
35.电路系统202可以包括合适的逻辑、电路系统和/或接口,这些逻辑、电路系统和/或接口可以被配置为执行与要由计算系统102执行的不同操作相关联的程序指令。电路系统202可以包括一个或多个专用处理单元,其可以被实现为集成处理器或处理器的集群,它们共同执行一个或多个专用处理单元的功能。电路系统202可以基于本领域已知的多种处理器技术来实现。电路系统202的实施方式的示例可以是基于x86的处理器、图形处理单元(gpu)、精简指令集计算(risc)处理器、专用集成电路(asic)处理器、复杂指令集计算(cisc)处理器、微控制器、中央处理单元(cpu)和/或其它计算电路。
36.存储器204可以包括合适的逻辑、电路系统和/或接口,这些逻辑、电路系统和/或接口可以被配置为存储要由电路系统202执行的程序指令。在至少一个实施例中,存储器204可以被配置为存储参考彩色图像(诸如参考彩色图像118)和第一图像馈送(诸如灰度图像114)。存储器204还可以被配置为存储要在输入图像的roi(诸如roi 120)上使用的颜色
效果的集合。存储器204的示例实施方式可以包括但不限于随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、硬盘驱动器(hdd)、固态驱动器(ssd)、cpu高速缓存和/或安全数字(sd)卡。
37.i/o设备206可以包括合适的逻辑、电路系统、接口和/或代码,这些逻辑、电路系统、接口和/或代码可以被配置为接收输入并基于接收到的输入提供输出。i/o设备206可以包括各种输入和输出设备,它们可以被配置为与电路系统202通信。例如,计算系统102可以经由i/o设备206接收用户输入以选择参考彩色图像、输入图像中的roi,并且在输入图像的选择的roi上应用颜色效果。i/o设备206的示例可以包括但不限于触摸屏、键盘、鼠标、操纵杆、显示设备(例如,显示设备104)、麦克风或扬声器。
38.网络接口208可以包括合适的逻辑、电路系统、接口和/或代码,这些逻辑、电路系统、接口和/或代码可以被配置为促进电路系统202经由通信网络112与服务器110、显示设备104和/或其它通信设备进行通信。网络接口208可以通过使用各种已知技术来实现,以支持计算系统102经由通信网络112的无线通信。网络接口208可以包括例如天线、射频(rf)收发器、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、编码器-解码器(codec)芯片组、订户身份模块(sim)卡、本地缓冲电路系统等。
39.网络接口208可以被配置为经由无线通信与诸如互联网、内联网、无线网络、蜂窝电话网络、无线局域网(lan)或城域网(man)之类的网络通信。无线通信可以被配置为使用多种通信标准、协议和技术中的一种或多种,诸如全球移动通信系统(gsm)、增强型数据gsm环境(edge)、宽带码分多址(w-cdma)、长期演进(lte)、码分多址(cdma)、时分多址(tdma)、蓝牙、无线保真(wi-fi)(诸如ieee 802.11a、ieee 802.11b、ieee 802.11g或ieee 802.11n)、互联网协议语音(voip)、光保真(li-fi)或全球微波接入互操作性(wi-max)。
40.如图1中描述的计算系统102执行的功能或操作可以由电路系统202执行。例如,在图3和4中详细描述由电路系统202执行的操作。
41.图3是图示根据本公开的实施例的用于在图像/视频编辑应用上使用基于神经网络的着色插件对灰度图像馈送进行着色的示例性操作的图。图3结合图1和图2中的元素进行解释。参考图3,示出了框图300,该框图300图示了如本文所述的从302到308的示例性操作。框图300中所示的示例性操作可以在302处开始并且可以由任何计算系统、装置或设备执行,诸如由图1或图2的计算系统102执行。
42.在302处,可以获取第一图像馈送。电路系统202可以从数据源获取第一图像馈送。数据源可以是例如计算系统102的板载图像传感器、计算系统102上的持久存储装置、图像捕获设备、云服务器或其组合。第一图像馈送可以包括一个或多个灰度图像(诸如灰度图像302a),每个灰度图像可以包括至少第一物体(诸如足球运动员302b)。第一图像馈送可以表示具有静态前景或背景的静态场景,或者可以表示具有一个或多个移动物体的动态场景。
43.在304处,可以接收输入以构造第一节点图304a,以用于对第一图像馈送进行着色。例如,输入可以是用户输入,其可以包括对用于在图像/视频编辑应用106上创建项目的选项的选择。当gui 116显示用于创建的项目的项目窗口时,用户输入可以包括经由图像/视频编辑应用106的gui 116上可访问的工具栏的节点(诸如着色节点304b、源节点304c和结果节点304d)的选择。
44.在306处,可以显示所构造的第一节点图304a。电路系统202可以控制显示设备104
在图像/视频编辑应用106的gui 116上显示所构造的第一节点图304a。例如,gui 116可以包括基于节点的界面306a,其可以被更新以包括源节点304c和结果节点304d之间的着色节点304b。在结果节点304d可以链接到着色节点304b的输出时,源节点304c可以链接到第一图像馈送(例如,包括灰度图像302a)和参考彩色图像306b。电路系统202可以基于第一用户输入来选择参考彩色图像306b。
45.第一节点图304a可以包括着色节点304b,该着色节点304b可以表示(或可以链接到)用于第一图像馈送的一个或多个灰度图像中的第一物体(诸如足球运动员302b)的着色的第一工作流。在实施例中,着色节点可以与软件插件对应,该软件插件可以包括用于执行第一工作流的程序指令。用户可以能够在gui 116的基于节点的界面中选择和添加该软件插件作为着色节点。
46.在实施例中,电路系统202可以控制显示设备在图像/视频编辑应用106的gui 116上显示着色节点的设置。例如,可以基于用户对与着色节点304b一起显示的选项的选择来显示设置。该设置可以包括与基于神经网络的着色模型的集合对应的选项的集合。电路系统202可以接收用户输入,该用户输入可以包括对选项的集合中的第一选项的选择。电路系统202可以基于接收到的用户输入,从基于神经网络的着色模型的集合中选择基于神经网络的着色模型108。
47.在308处,可以执行第一工作流。在任何时刻,电路系统202可以执行与着色节点304b相关联的第一工作流。当被执行时,电路系统202可以将选择的参考彩色图像306b和第一图像馈送(诸如灰度图像302a)作为输入馈送到所选择的基于神经网络的着色模型108。此后,电路系统202可以接收第二图像馈送,作为选择的基于神经网络的着色模型108的输出。例如,第二图像馈送可以包括一个或多个着色的图像(诸如着色的图像308a)。一个或多个着色的图像中的每一个可以包括基于参考彩色图像306b中的roi 306c上的颜色效果而着色的至少第一物体(诸如足球运动员302b)。
48.在实施例中,基于神经网络的着色模型108可以将颜色效果从参考彩色图像306b的roi 306c转移给第一图像馈送的一个或多个灰度图像中的每个灰度图像中的至少第一物体(诸如足球运动员302b),以输出第二图像馈送(其包括一个或多个着色的图像,诸如着色的图像308a)。如图所示,例如,足球运动员的衬衫(即,roi 306c)上的黑色可以被转移给第一图像馈送的灰度图像302a中的足球运动员302b所穿的衬衫。在实施例中,电路系统202可以控制显示设备104在图像/视频编辑应用106的gui 116上显示第二图像馈送。
49.虽然用离散的方框来图示,但是与流程图500的一个或多个方框相关联的示例性操作可以根据示例性操作的实施方式被划分为附加的方框、组合成更少的方框或被消除。
50.图4是图示根据本公开的实施例的用于获得参考彩色图像以供在图3的示例性操作中使用的示例性操作的图。图4结合图1、2和3中的元素进行解释。参考图4,示出了框图400,框图400图示如本文描述的从402至410的示例性操作。框图400中所示的示例性操作可以在402处开始并且可以由任何计算系统、装置或设备(诸如图1或图2的计算系统102)执行。
51.在402处,可以将输入图像402a加载到图像/视频编辑应用106的gui 116上。输入图像402a可以是具有至少一个感兴趣物体(例如,足球运动员402b)的彩色图像。
52.在404处,可以选择输入图像402a的roi 404a。这种选择可以基于经由gui 116的
用户输入。例如,将用作分割的起点的输入图像可以被加载到gui 116上,并且可以使用图像/视频编辑应用106的分割工具来选择roi 404a。如图所示,例如,可以通过围绕衬衫的边缘放置点来选择围绕足球运动员402b的衬衫的roi。roi 404a的选择可以被显示为gui 116的基于节点的界面中的节点。
53.在406处,可以为所选择的roi 404a选择图像过滤器的第一集合。此类过滤器可以包括例如色调移位操作、阿尔法混合或阿尔法合成算子等。此类过滤器可以经由显示在图像/视频编辑应用106的gui 116上的菜单来选择。在至少一个实施例中,此类过滤器可以基于所选择的roi 404a的一个或多个颜色通道中的颜色值的修改来指定要应用于roi 404a的颜色效果。
54.在408处,可以生成第二工作流以用于获得参考彩色图像306b。可以执行从402至406的操作以生成可以由第二节点图408a表示的第二工作流。在实施例中,电路系统202可以控制显示设备104在图像/视频编辑应用106的gui 116上显示第二节点图408a。第二节点图408a可以表示从输入图像402a获得参考彩色图像306b的第二工作流。输入图像402a和从402至406的所有操作可以作为节点包括在第二节点图408a中,这些节点可以连接在一起以形成第二节点图408a。
55.在410处,可以执行第二工作流,即,与第二节点图408a相关联的基于节点的工作流。当被执行时,电路系统202可以从输入图像402a中选择roi 404a。例如,与roi 404a的选择相关联的节点可以加载由用户使用诸如数字转描工具之类的分割工具围绕输入图像402a的roi 404a绘制的蒙版。转描工具的详细实施方式对于本领域技术人员来说是已知的,因此为了简洁起见,在本公开中省略了对转描工具408的详细描述。在做出选择之后,电路系统202可以在所选择的roi 404a上应用所选择的图像过滤器的第一集合,并且可以在输入图像402a的所选择的roi 404a上应用颜色效果,以基于图像过滤器的第一集合的应用获得参考彩色图像306b。作为示例而非限制,颜色效果的应用可以修改以下各项中的至少一项:输入图像402a中的颜色饱和度、亮度、对比度、所选择的roi 404a的特定颜色通道中的颜色值、所选择的roi 404a的伽马或色调改变。
56.如图所示,例如,第二节点图408a可以包括输入图像402a作为源节点,其可以连接到第一合并节点(由“合并1”表示)。第一合并节点还可以连接到roi节点(由“roi”表示)。第一合并节点可以通过将围绕roi 404a的选择与输入图像402a组合来生成蒙版。蒙版可以从输入图像402a中移除除了roi 404a之外的所有其它区域。图像过滤器(诸如用于修改颜色通道(诸如绿色)的过滤器)可以应用于roi 404a(其是第一合并节点的输出)以获得经修改的roi。输入图像402a连同经修改的roi可以作为输入传递到第二合并节点(由“合并2”表示),第二合并节点可以将经修改的roi覆盖在输入图像402a上以输出参考彩色图像306b。
57.如图所示,例如,参考彩色图像306b包括足球运动员的衬衫(即,所选择的roi 404a)上的黑色。黑色可以作为颜色效果应用于输入图像402a的roi 404a。图像/视频编辑应用106可以允许最终用户使用转描工作流来控制和修改参考彩色图像306b。参考彩色图像306b可以保存在计算系统102上,稍后用于对灰度图像的图像馈送进行着色,例如,如图3中所描述的。
58.虽然用离散的方框来图示,但是与框图400的一个或多个方框相关联的示例性操作可以被划分为附加的方框、组合成更少的方框或被消除,这取决于示例性操作的实施方
式。
59.图5是图示根据本公开的实施例的用于图像/视频编辑应用上的基于神经网络的图像着色的示例性方法的流程图。图5结合图1、2、3和4中的元素进行解释。参考图5,示出了流程图500。流程图500中所示的方法可以由任何计算系统执行,诸如由计算系统102或电路系统202执行。该方法可以在502处开始并进行到504。
60.在504处,可以获得参考彩色图像(诸如参考彩色图像118)。在一个或多个实施例中,电路系统202可以被配置为通过选择性地对输入图像(诸如输入图像402a)的roi(诸如roi 120)应用颜色效果来获得参考彩色图像。例如,在图4中描述了与参考彩色图像相关的细节。
61.在506处,可以控制显示设备(诸如显示设备104)以显示第一节点图(诸如第一节点图304a)。在一个或多个实施例中,电路系统202可以被配置为控制显示设备104在图像/视频编辑应用106的gui 116上显示第一节点图。第一节点图可以包括表示第一工作流的着色节点(诸如着色节点304b),第一工作流用于对第一图像馈送的一个或多个灰度图像(诸如灰度图像302a)中的至少第一物体(诸如足球运动员302b)进行着色。
62.在508处,可以选择获得的参考彩色图像。在一个或多个实施例中,电路系统202可以被配置为基于第一用户输入来选择获得的参考彩色图像。例如,在图3中描述了参考彩色图像的选择的细节。
63.在510处,可以执行第一工作流。在一个或多个实施例中,电路系统202可以被配置为执行与着色节点(诸如着色节点304b)相关联的第一工作流。例如,在图3中描述了第一工作流的执行的细节。
64.在512处,可以将选择的参考彩色图像和第一图像馈送作为输入馈送到基于神经网络的着色模型108。在一个或多个实施例中,电路系统202可以被配置为将选择的参考彩色图像和第一图像馈送作为输入馈送到基于神经网络的着色模型108,例如在图3中所描述的。
65.在514处,可以接收第二图像馈送。在一个或多个实施例中,电路系统202可以被配置为接收作为基于神经网络的着色模型108的输出的第二图像馈送,该第二图像馈送包括一个或多个着色的图像(诸如着色的图像308a),每个着色的图像可以包括基于roi(诸如roi 306c)上的颜色效果而着色的至少第一物体。控制可以传递到结束。
66.虽然流程图500被示为离散操作,诸如502、504、506、508、510、512和514,但是本公开不限于此。因而,在某些实施例中,此类离散操作可以被进一步划分为附加的操作、组合为更少的操作或被消除,这取决于特定的实施方式而不偏离所公开的实施例的本质。
67.本公开的各种实施例可以提供一种非暂态计算机可读介质和/或存储介质,其上存储有可由机器和/或计算机执行以操作计算系统(诸如计算系统102)的指令。这些指令可以使机器和/或计算机执行操作,操作包括基于输入图像(诸如输入图像402a)的感兴趣区域(roi)(诸如roi 120)上的颜色效果的选择性应用来获得参考彩色图像(诸如参考彩色图像118)。操作还可以包括控制显示设备(诸如显示设备104)在图像/视频编辑应用(诸如图像/视频编辑应用106)的图形用户界面(gui)(诸如gui 116)上显示第一节点图(诸如第一节点图304a)。第一节点图可以包括着色节点(诸如着色节点304b),其表示用于第一图像馈送的一个或多个灰度图像(诸如灰度图像302a)中的至少第一物体(诸如足球运动员302b的
t恤)的着色的第一工作流。操作还可以包括基于第一用户输入选择获得的参考彩色图像并执行与着色节点相关联的第一工作流。该执行包括将选择的参考彩色图像和第一图像馈送作为输入馈送到基于神经网络的着色模型(诸如基于神经网络的着色模型108),以及接收作为基于神经网络的着色模型108对于该输入的输出的、包括一个或多个着色的图像(诸如着色的图像308a)的第二图像馈送,每个着色的图像包括基于roi上的颜色效果而着色的至少第一物体。
68.本公开的示例性方面可以提供包括电路系统(诸如电路系统202)的计算系统(诸如图1的计算系统102)。电路系统202可以被配置为基于输入图像(诸如输入图像402a)的感兴趣区域(roi)(诸如roi 120)上的颜色效果的选择性应用来获得参考彩色图像(诸如参考彩色图像118)。电路系统202可以被配置为控制显示设备(诸如显示设备104)在图像/视频编辑应用(诸如图像/视频编辑应用106)的图形用户界面(gui)(诸如gui 116)上显示第一节点图(诸如第一节点图304a)。第一节点图可以包括着色节点(诸如着色节点304b),其表示用于对第一图像馈送的一个或多个灰度图像中的至少第一物体(诸如足球运动员302b的t恤)进行着色的第一工作流。电路系统202可以被配置为基于第一用户输入来选择所获得的参考彩色图像,并且通过将选择的参考彩色图像和第一图像馈送作为输入馈送到基于神经网络的着色模型(诸如基于神经网络的着色模型108)来执行与着色节点相关联的第一工作流,以及接收作为基于神经网络的着色模型108对于该输入的输出的、包括一个或多个着色的图像(诸如着色的图像308a)的第二图像馈送。一个或多个着色的图像中的每一个可以包括基于参考彩色图像的roi上的颜色效果而着色的至少第一物体。
69.根据实施例,电路系统202还被配置为控制显示设备在图像/视频编辑应用的gui上显示第二节点图(诸如第二节点图408a)。第二节点图可以表示从输入图像获得参考彩色图像的第二工作流。
70.根据实施例,电路系统202还被配置为通过从输入图像中选择roi、对所选择的roi应用图像过滤器的第一集合、以及基于图像过滤器的第一集合的应用在输入图像的所选择的roi上应用颜色效果来执行第二工作流,以获得参考彩色图像。
71.根据实施例,着色节点与软件插件对应,该软件插件包括用于执行第一工作流的程序指令。根据实施例,电路系统202还被配置为控制显示设备104在图像/视频编辑应用的gui上显示着色节点的设置。该设置可以包括与基于神经网络的着色模型的集合对应的选项的集合。电路系统202还可以被配置为接收第二用户输入,该第二用户输入包括对选项的集合中的第一选项的选择。电路系统202还可以被配置为基于第二用户输入从基于神经网络的着色模型的集合当中选择基于神经网络的着色模型。
72.根据实施例,基于神经网络的着色模型将参考彩色图像的roi上的颜色效果转移给第一图像馈送的一个或多个灰度图像中的每个灰度图像中的至少第一物体(诸如足球运动员302b的t恤),以输出包括一个或多个着色的图像(诸如着色的图像308a)的第二图像馈送。
73.根据实施例,电路系统202还可以被配置为控制显示设备104在图像/视频编辑应用的gui上显示第二图像馈送。
74.本公开可以用硬件或硬件和软件的组合来实现。本公开可以以集中式方式、以至少一个计算机系统或以分布式的方式来实现,其中不同的元件可以分布在多个互连的计算
机系统上。适于执行本文描述的方法的计算机系统或其它装置可能是合适的。硬件和软件的组合可以是具有计算机程序的通用计算机系统,该计算机程序在被加载和执行时可以控制计算机系统,以使其执行本文描述的方法。本公开可以用包括还执行其它功能的集成电路的一部分的硬件来实现。
75.本公开还可以被嵌入计算机程序产品中,该计算机程序产品包括使得能够实现本文描述的方法的所有特征,并且当其被加载到计算机系统中时,能够执行这些方法。在本上下文中,计算机程序是指以任何语言、代码或符号表示的指令集的任何表达,这些指令旨在使具有信息处理能力的系统直接执行特定功能,或者在以下中的一个或两者之后执行特定功能:a)转换成另一种语言、代码或符号;b)以不同的物质形式复制。
76.虽然参考某些实施例描述了本公开,但是本领域技术人员将理解,在不偏离本公开的范围的情况下,可以进行各种改变并且可以替换等同物。另外,在不偏离本公开的范围的情况下,可以做出许多修改以使特定情况或材料适于本公开的教导。因此,意图是本公开不限于所公开的特定实施例,而是本公开将包括落入所附权利要求的范围内的所有实施例。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1