背景技术:
1、视觉媒体项——诸如图像(静态图像、具有选择性运动的图像等)和视频的用户感知的质量可以通过移除某些干扰媒体项焦点的对象来改善。可以手动移除干扰对象,但任务可能艰巨且不完整。此外,干扰对象很难从媒体项中自动移除,因为这种移除可能导致图像中的附加对象或对象的一部分(被错误地识别为干扰对象)也被移除;过度触发和不切实际的结果,其中移除了额外的对象;或不完全分段,其中移除对象的一部分仍然可见。
2、用户可以采用手动图像或视频编辑技术来移除干扰对象。但是,这项任务可能是艰巨和不完整的。此外,自动移除干扰对象是困难的,因为它可能导致其中其他对象或对象的一部分也被移除或者不完整的分段导致移除的对象的某一部分仍然可见的误报。
3、本文提供的背景描述是为了一般呈现本公开的上下文。在本背景章节中描述的当前命名的发明人的工作,以及在提交申请时可能不符合现有技术的描述方面,既不明示也不暗示地被承认为针对本公开的现有技术。
技术实现思路
1、计算机实现的方法包括生成训练数据,其包括第一组媒体项和第二组媒体项,其中第一组媒体项对应于第二组媒体项并且包括手动分段的干扰对象。方法还包括基于训练数据来训练分段机器学习模型,以接收具有一个或多个干扰对象的媒体项,并输出对应于一个或多个干扰对象的一个或多个分段对象的分段蒙版。
2、在一些实施例中,一个或多个干扰对象是电力线,并且方法还包括从包括一个或多个断开的电力线的第一组媒体项中识别一个或多个媒体项,并增强一个或多个媒体项以校正训练数据中的一个或多个断开的电力线。在一些实施例中,增强一个或多个媒体项以校正一个或多个断开的电力线包括:修改一个或多个媒体项中的局部对比度以生成对应的一个或多个增强媒体项,并将一个或多个媒体项的一部分与对应的一个或多个增强媒体项的一部分混合。在一些实施例中,使用将两个偏置曲线加在一起的增益曲线来修改局部对比度。在一些实施例中,生成训练数据包括通过对一个或多个干扰对象的分段蒙版应用扩张来增强一个或多个媒体项。在一些实施例中,一个或多个干扰对象被组织成类别,这些类别包括选自电力线、电线杆、塔及其组合的组的至少一个。在一些实施例中,训练分段机器学习模型包括:基于训练数据来生成高容量机器学习模型,并通过关于由高容量机器学习模型分段的训练数据运行推理,将高容量机器学习模型提炼为经训练的分段机器学习模型。在一些实施例中,训练数据还包括其中干扰对象被添加到室外环境对象的前面的合成图像。
3、在一些实施例中,用于从媒体项中移除干扰对象的计算机实现的方法包括:从用户接收媒体项,识别媒体项中的一个或多个干扰对象,将媒体项提供给经训练的分段机器学习模型,利用经训练的分段机器学习模型,输出媒体项中的一个或多个干扰对象的分段蒙版,并修复与分段蒙版匹配的媒体项的一部分,以获得输出媒体项,其中一个或多个干扰对象不存在于输出媒体项中。
4、在一些实施例中,一个或多个干扰对象被组织成类别,类别包括选自电力线、电线杆、塔及其组合的组的至少一个。在一些实施例中,方法还包括向用户提供从媒体项中移除一个或多个干扰对象的建议。在一些实施例中,经训练的分段机器学习模型使用训练数据被训练,该训练数据包括第一组媒体项和第二组媒体项,其中第一组媒体项对应于第二组媒体项,并且包括手动分段的干扰对象。
5、在一些实施例中,一种非暂时性计算机可读介质,其具有存储在其上的,当由一个或多个计算机执行时,该指令导致一个或多个计算机执行操作,操作包括:生成训练数据,其包括第一组媒体项和第二组媒体项,其中,第一组媒体项对应于第二组媒体项并且包括手动分段的干扰对象并且基于训练数据来训练分段机器学习模型,以接收具有一个或多个干扰对象的媒体项,并输出对应于一个或多个干扰对象的一个或多个分段对象的分段蒙版。
6、在一些实施例中,一个或多个干扰对象是电力线,并且操作还包括:从包括一个或多个断开的电力线的第一组媒体项中识别一个或多个媒体项,并增强一个或多个媒体项以校正训练数据中的一个或多个断开的电力线。在一些实施例中,增强一个或多个媒体项以校正一个或多个断开的电力线包括:修改一个或多个媒体项中的局部对比度以生成对应的一个或多个增强媒体项,并将一个或多个媒体项的一部分与对应的一个或多个增强媒体项的一部分混合。在一些实施例中,使用将两个偏置曲线加在一起的增益曲线来修改局部对比度。在一些实施例中,生成训练数据包括通过对一个或多个干扰对象的分段蒙版应用扩张来增强一个或多个媒体项。在一些实施例中,一个或多个干扰对象被组织成类别,类别包括选自电力线、电线杆、塔及其组合的组的至少一个。在一些实施例中,训练分段机器学习模型包括:基于训练数据来生成高容量机器学习模型,并通过关于由高容量机器学习模型分段的训练数据运行推理,将高容量机器学习模型提炼为经训练的分段机器学习模型。在一些实施例中,训练数据还包括其中干扰对象被添加到室外环境对象的前面的合成图像。
7、说明书中描述的技术有利地描述了一种媒体应用,其包括经训练的分段机器学习模型,其克服了识别媒体项中的干扰对象的技术困难。
1.一种计算机实现的方法,包括:
2.根据权利要求1所述的方法,其中,所述一个或多个干扰对象为电力线,并且还包括:
3.根据权利要求2所述的方法,其中,增强所述一个或多个媒体项以校正所述一个或多个断开的电力线包括:
4.根据权利要求3所述的方法,其中,所述局部对比度使用将两个偏置曲线加在一起的增益曲线而被修改。
5.根据权利要求2所述的方法,其中,生成训练数据包括通过对所述一个或多个干扰对象的分段蒙版应用扩张来增强所述一个或多个媒体项。
6.根据权利要求1所述的方法,其中,所述一个或多个干扰对象被组织成类别,所述类别包括选自电力线、电线杆、塔及其组合的组中的至少一个。
7.根据权利要求1所述的方法,其中,训练所述分段机器学习模型包括:
8.根据权利要求1所述的方法,其中,所述训练数据还包括其中所述干扰对象被添加到室外环境对象的前面的合成图像。
9.一种从媒体项中移除干扰对象的计算机实现的方法,所述方法包括:
10.根据权利要求9所述的方法,其中,所述一个或多个干扰对象被组织成类别,所述类别包括选自电力线、电线杆、塔及其组合的组中的至少一个。
11.根据权利要求9所述的方法,还包括向用户提供从所述媒体项中移除所述一个或多个干扰对象的建议。
12.根据权利要求9所述的方法,其中,所述经训练的分段机器学习模型使用包括第一组媒体项和第二组媒体项的训练数据被训练,其中,所述第一组媒体项对应于所述第二组媒体项并且包括手动分段的干扰对象。
13.一种非暂时性计算机可读介质,其上存储有指令,所述指令当由一个或多个计算机执行时,使所述一个或多个计算机执行操作,所述操作包括:
14.根据权利要求13所述的计算机可读介质,其中,所述一个或多个干扰对象是电力线,并且所述操作还包括:
15.根据权利要求14所述的计算机可读介质,其中,增强所述一个或多个媒体项以校正所述一个或多个断开的电力线包括:
16.根据权利要求15所述的计算机可读介质,其中,所述局部对比度使用将两个偏置曲线加在一起的增益曲线而被修改。
17.根据权利要求13所述的计算机可读介质,其中,生成训练数据包括通过对所述一个或多个干扰对象的分段蒙版应用扩张来增强所述一个或多个媒体项。
18.根据权利要求13所述的计算机可读介质,其中,所述一个或多个干扰对象被组织成类别,所述类别包括选自电力线、电线杆、塔及其组合的组中的至少一个。
19.根据权利要求13所述的计算机可读介质,其中,训练所述分段机器学习模型包括:
20.根据权利要求13所述的计算机可读介质,其中,所述训练数据还包括其中所述干扰对象被添加到室外环境对象的前面的合成图像。