背景技术:
1、由于视觉媒体作为一种几乎普遍流行的内容媒介,越来越多的视觉媒体内容正在被制作并提供给消费者。因此,视觉图像被分析、分类和处理的效率对于视觉媒体内容的制作者、所有者和发布者变得越来越重要。
2、对视觉媒体内容的有效分类和处理的一个重大挑战是,娱乐和媒体工作室制作了许多不同类型的具有不同特征的内容,例如具有不同的视觉纹理和运动形式。例如,在音频-视频(av)电影和电视内容的情况下,制作的内容可以包括具有逼真的计算机生成图像(cgi)元素的实况动作内容、高复杂度的三维(3d)动画、甚至二维(2d)手绘动画。此外,制作的每种不同类型的内容可能需要在制作前、制作后或两者方面进行不同的处理。
3、例如,考虑av或视频内容的后期制作处理。不同类型的av或视频内容可能受益于不同的流媒体编码方案或不同的本地化工作流。在传统技术中,将内容分类为特定类型通常是通过人工检查来手动完成的,并且在视频编码的示例使用情况中,即使在人工检查之后,最合适的工作流也可能是不可识别的,但是可能需要反复试验来确定如何将内容分类以用于编码目的。对于混合的内容类型(例如嵌入在其他实况动作内容中的动画)来说,或者对于视觉上复杂的3d动画来说,这种分类处理可能会尤其具有挑战性,其中视觉上复杂的3d动画可能比传统的动画工作流更适合使用实况动作内容工作流进行后期处理。
技术实现思路
1.一种系统,包括:
2.根据权利要求1所述的系统,其中所述处理硬件配置为执行所述软件代码,从而执行:
3.根据权利要求1所述的系统,其中所述分类包括将所述多个的映射的嵌入向量中的至少一个的每一个分组到一个或多个聚类中,每个聚类分别对应于所述相似性度量的不同类别。
4.根据权利要求3所述的系统,其中,所述聚类作为无监督的过程来执行。
5.根据权利要求1所述的系统,其中所述至少一个ml模型包括一维(1d)卷积神经网络(cnn)、二维(2d)(cnn)或三维(3d)cnn中的至少一个。
6.根据权利要求1所述的系统,其中所述连续向量空间是多维的。
7.根据权利要求1所述的系统,其中所述相似性度量包括定量相似性度量或感知相似性度量中的一个。
8.根据权利要求1所述的系统,其中所述分类或回归中的一个是使用相应的经训练的分类ml模型或经训练的回归ml模型中相应的一个来执行的,并且其中至少一个ml模型和经训练的分类ml模型或经训练的回归ml模型中相应的一个是彼此独立地训练的。
9.根据权利要求1所述的系统,其中所述分类或回归中的一个是使用经训练的分类ml模型或经训练的回归ml模型中相应的一个来执行的,并且其中经训练的分类ml模型或经训练的回归ml模型中相应的一个包括经训练的神经网络(nn)。
10.根据权利要求1所述的系统,其中所述分类或回归中的一个是使用至少一个ml模型的分类块或回归块中相应的一个来执行的,并且其中包括所述分类块或回归块中的相应一个的所述至少一个ml模型是使用端到端学习来训练的。
11.一种由系统使用的方法,所述系统包括处理硬件和存储软件代码和至少一个机器学习(ml)模型的系统存储器,所述至少一个机器学习(ml)模型使用基于相似性度量的对比学习来训练,所述方法包括:
12.根据权利要求11所述的方法,进一步包括:
13.根据权利要求11所述的方法,其中所述分类包括将所述多个映射的嵌入向量中的至少一个的每一个分组到一个或多个聚类中,每个聚类分别对应于所述相似性度量的不同类别。
14.根据权利要求13所述的方法,其中所述聚类作为无监督的过程来执行。
15.根据权利要求11所述的方法,其中所述至少一个ml模型包括一维(1d)卷积神经网络(cnn)、二维(2d)(cnn)或三维(3d)cnn中的至少一个。
16.根据权利要求11所述的方法,其中所述连续向量空间是多维的。
17.根据权利要求11所述的方法,其中所述相似性度量包括定量相似性度量或感知相似性度量中的一个。
18.根据权利要求11所述的方法,其中所述分类或回归中的一个是使用经训练的分类ml模型或经训练的回归ml模型中相应的一个来执行的,并且其中所述至少一个ml模型和经训练的分类ml模型或经训练的回归ml模型中相应的一个是彼此独立地训练的。
19.根据权利要求11所述的方法,其中所述分类或回归中的一个是使用经训练的分类ml模型或经训练的回归ml模型中相应的一个来执行的,并且其中经训练的分类ml模型或经训练的回归ml模型中相应的一个包括经训练的神经网络(nn)。
20.根据权利要求11所述的方法,其中使用所述至少一个ml模型的分类块或回归块中相应的一个来执行所述分类或回归中的一个,并且其中使用端到端学习来训练包括所述分类块或回归块中相应的一个和所训练的nn的所述至少一个ml模型。