视频3D音效设置方法及装置与流程

文档序号:31770922发布日期:2022-10-12 06:44阅读:195来源:国知局
视频3D音效设置方法及装置与流程
视频3d音效设置方法及装置
技术领域
1.本发明实施例涉及视频音效处理技术领域,具体涉及一种视频3d音效设置方法及装置。


背景技术:

2.3d音频可以呈现给用户立体逼真的声效,提升用户在观看视频时的沉浸感。
3.现有技术在录制音频时,将声音的声源位置信息,存储至音频介质中。解码时,通过声源位置信息进行声音调节,呈现3d音频效果。但大部分视频中的音频并没有提供声源位置信息,无法直接呈现3d音频效果。


技术实现要素:

4.鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的视频3d音效设置方法及装置。
5.根据本发明实施例的一个方面,提供了一种视频3d音效设置方法,其包括:
6.对源视频进行音视频分离处理,得到分离后的音频和视频;
7.将音频进行音轨分离,得到至少一个音轨;
8.识别确定视频中发声的声源对象,将至少一个音轨与声源对象进行匹配;
9.根据声源对象在视频帧中的深度信息和/或位置信息,对匹配的音轨进行3d化修正处理;
10.将修正处理后的音频与视频进行合成处理,得到3d音效视频。
11.根据本发明实施例的另一方面,提供了一种视频3d音效设置装置,其包括:
12.音视频分离模块,适于对源视频进行音视频分离处理,得到分离后的音频和视频;
13.音轨分离模块,适于将音频进行音轨分离,得到至少一个音轨;
14.匹配模块,适于识别确定视频中发声的声源对象,将至少一个音轨与声源对象进行匹配;
15.修正模块,适于根据声源对象在视频帧中的深度信息和/或位置信息,对匹配的音轨进行3d化修正处理;
16.合成模块,适于将修正处理后的音频与视频进行合成处理,得到3d音效视频。
17.根据本发明实施例的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
18.所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述视频3d音效设置方法对应的操作。
19.根据本发明实施例的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述视频3d音效设置方法对应的操作。
20.根据本发明实施例的提供的视频3d音效设置方法及装置,通过分离源视频得到音频,根据视频中声源对象的深度信息和/或位置信息对音频进行3d化修正处理,可以实现对各个视频模拟还原3d音效的效果。
21.上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明实施例的具体实施方式。
附图说明
22.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
23.图1示出了根据本发明一个实施例的视频3d音效设置方法的流程图;
24.图2示出了视频帧中对象识别的示意图;
25.图3示出了视频帧中对象的深度信息的示意图;
26.图4示出了根据声源对象位置信息进行左右声道音量修正的示意图;
27.图5示出了三维重建环境下根据声源对象位置信息进行左右声道音量修正的示意图;
28.图6示出了根据本发明一个实施例的视频3d音效设置装置的结构示意图;
29.图7示出了根据本发明一个实施例的一种计算设备的结构示意图。
具体实施方式
30.下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
31.图1示出了根据本发明一个实施例的视频3d音效设置方法的流程图,如图1所示,该方法包括如下步骤:
32.步骤s101,对源视频进行音视频分离处理,得到分离后的音频和视频。
33.本实施例的3d音效通过对源视频中的音频进行处理得到。具体的,先将源视频进行音视频分离处理,得到分离后的音频以及单独的视频。分离处理可以利用如ffmpeg指令,如ffmpeg-i源视频.mkv-vn-acodec copy音频.ac3,得到分离后的音频和视频。
34.步骤s102,将音频进行音轨分离,得到至少一个音轨。
35.音轨分离可以通过将音频输入至预先训练得到的音轨分离模型中,分离得到至少一个音轨以及音轨声音类型。音轨分离模型可以采用如深度学习技术,将混合的声音分解为不同的音轨。音轨分离模型如tensorflow、spleeter等模型,基于各种声音分离数据集进行训练,最终输出分离后的各个音轨,以及各个音轨对应的音轨声音类型。音轨声音类型包括如物体发出的声音,汽车声、乐器声、开关声、水流声等,还包括如人物发出的声音、动物发出的声音等各种声音类型。
36.步骤s103,识别确定视频中发声的声源对象,将至少一个音轨与声源对象进行匹
配。
37.考虑到视频中当镜头切换时,不同镜头单位中对象的位置、类型、深度等信息都会发生较大变化,因此在识别确定对象之前,先对视频进行镜头分割,得到镜头切换产生的多个镜头单位。具体的,计算视频中相邻视频帧的相似度,判断相似度是否小于相似度阈值;若是,确定视频中发生镜头切换,基于相邻视频帧进行镜头分割,得到镜头切换产生的多个镜头单位。针对任一镜头单元,进一步利用图像识别算法等识别镜头单元中出现的对象,如图2所示,识别出视频帧中的窗帘、灯、桌子等对象。
38.根据音轨声音类型,从识别的视频帧中的对象确定对应的声源对象。如音轨声音类型为灯开关声音,可以对应的确定声源对象为灯,如音轨声音类型为汽车声音,可以对应的确定声源对象为汽车,从而可以将音轨声音类型对应的音轨与声源对象进行匹配。
39.进一步,若音轨声音类型为人物,且声源对象中人物为多个时,若音轨为单人音轨,即多个人每次仅为一人说话时,可以利用声纹识别分析确定当前人声音轨,识别视频中声源对象中各个人物的唇部动作,确定当前发出声音的人物。将当前的人声音轨与发出声音的人物进行匹配。若音轨为多人音轨,即多个人同时说话时,可以先利用如定向人声分离技术将混音的人声音轨进行分离,得到多个独立的人声音轨。定向人声分离技术如voicefilter网络将混音的人声音轨进行分离。在分离之后,可以再结合如人物的唇语信息,将各个独立的人声音轨与视频中识别的各个人物进行匹配。人物的唇语信息可以通过唇语识别模型等获取,唇语信息可以确定视频中哪个人物说话的信息,通过与人声音轨进行比对,实现人声音轨与人物的匹配。
40.步骤s104,根据声源对象在视频帧中的深度信息和/或位置信息,对匹配的音轨进行3d化修正处理。
41.声源对象的深度信息为声源对象在视频帧中的相对深度信息,可以利用如geonet等深度估算网络,获取到视频帧中对象的相对深度信息,如图3的对象深度图所示,图2中包括窗帘、灯、桌子等不同对象,窗帘、灯、桌子等不同对象,分别对应图3中不同区域的色块,根据色块确定各个对象的深度信息。声源对象的位置信息可以在识别对象时一并获取,获取的是声源对象在视频帧中的位置信息,如声源对象在视频帧中的坐标信息,位于视频帧的左侧、右侧等。
42.音轨的声音大多无法直接呈现3d音效,一般多为后期配音,因此,还需要对音轨的声音进行3d化修正处理,以达到3d音效。对象在视频中深度信息发生变化时,其匹配的音轨的音量会随着深度信息的变化而变化,如人物距离镜头近(深度信息较小),说话音量较大声,人物距离镜头远(深度信息较大),说话音量较小声。对象在视频帧中的位置信息也影响了左右声道的不同音量,需要根据对象的位置信息进行修正处理,以呈现3d音效。
43.具体的,根据声音衰减公式:
[0044][0045]
其中,l
p
为不计空气对声音的吸收时,声源移动距离增加后的声压级;lw为不计空气对声音的吸收时,声源移动前的声压功级;q为声源在室内指向因子;r为声源距离;r为房间常数。本实施例中不考虑环境因素影响,以自由声场处理。自由声场下,r=∞,q=1。点声源在自由声场中,声波遵循球面发散规律,声压级基于声音衰减公式进行简化处理,得到以
下公式:
[0046]
l
p
=l
w-20lgr-11
[0047]
本实施例中以音频首帧音量作为基准音量l1,以音频首帧对应的声源对象的深度信息作为基准深度信息r1。根据简化后的公式可知,声源对象在视频帧中的实时的深度信息r2,根据深度信息的变化,其对应的音量l2应按照如下公式计算:
[0048]
l2=l
1-20lg(r2/r1)
[0049]
先计算声源对象在视频帧中的实时的深度信息r2与基准深度信息r1的比值r2/r1,根据比值r2/r1,按照匹配的音轨的基准音量l1,计算得到实时的深度信息r2所对应的音量l2。
[0050]
若声源对象为汽车、火车等可以发出线性声源的声源对象时,可以利用如下公式计算:
[0051]
l2=l
1-10lg(r2/r1)
[0052]
在计算得到l2后,对匹配的音轨实时音量l2’
需要进行修正处理,如当l2’
的音量大小等于l2时,不对l2’
进行音量修正。当l2’
大于l2时,则减少该声源的当前音量至l2。当l2’
小于l2时,则增大该声源当前音量至l2等。
[0053]
根据深度信息修正音量是对左右声道同时进行音量的调整,除此之外,为进一步提升用户的听觉感受,本实施例还根据声源对象在视频帧中的实时的位置信息以及预设声音接收点位置信息,对左右声道的音量进行修正处理。如声源对象位于视频帧左侧,则左声道的音量应大于右声道的音量。
[0054]
具体的,预设声音接收点可以设置为视频帧的中心,如图4所示,预设声音接收点为视频帧的正中心o,视频帧左侧的吉他为声源对象,对应发声位置为a1处,预设声音接收点o到声源对象吉他a1的直线距离记为oa1,声源对象吉他a1与预设声音接收点o的垂直交叉点为b1,预设声音接收点o到b1的距离记为ob1。ob1与oa1的比值为位置比值信息ob1/oa1。根据位置比值信息,对声源对象匹配的音轨实时的左右声道音量进行增减修正处理,如将当前声源对象吉他匹配的音轨的音量设置为l,当声源对象在视频帧左侧时,则对应的降低与声源对象相反侧的声道音量,即降低声源对象匹配音轨的右声道音量。左右声道的音量修正处理可以根据位置比值信息进行调整,以吉他匹配音轨的右声道为例,l

=l-l*(ob1/oa1)*2。若声源对象在视频帧的右侧,则对应的修正声源对象对应音轨的左声道音量,如视频帧右侧小女孩说话,声源对象为小女孩唇部a2,声源对象小女孩唇部a2,声源对象小女孩唇部a2与预设声音接收点o的垂直交叉点为b2,根据预设声音接收点o到声源对象小女孩唇部a2的直线距离和预设声音接收点o到垂直交叉点为b2距离,可以对应的修正小女孩匹配音轨的右声道音量,此处不再赘述。以上以预设声音接收点为视频帧的正中心为例进行说明,预设声音接收点也可以设置为如视频帧的正下发中心点,此处不做限定。
[0055]
或者,对视频进行三维环境重建,如将视频输入vidloc模型或者lsm学习立体视觉机等,完成视频的三维环境重建,如图5所示。三维重建后,镜头作为预设声音接收点。以声源对象为小女孩为例,a2点对应小女孩的唇部位置信息在三维重建俯视图中的位置,b2点为镜头平行移动至声源对象小女孩唇部与视频帧的中心轴的交点。o点到a2距离为oa2,即三维环境重建后镜头到声源对象小女孩唇部的距离,o点到b2距离为ob2。根据ob2和oa2,计算得到位置比值信息oa2/ob2。根据位置比值信息,对声源对象匹配的音轨实时的左右声道
音量进行增减修正处理。以图5中声源对象小女孩为例,当前小女孩匹配的音轨的音量为l,小女孩位于视频帧右侧,右声道音量为l,左声道音量为l

=l-2*lg(oa2/ob2)。同理,如图5中视频帧左侧声源对象吉他,也可以按照三维环境重建的方式,来对应的调整匹配音轨的右声道的音量,此处不再赘述。
[0056]
进一步,在拍摄视频时,若采用tof镜头、激光传感器等距离测量传感器时,可以基于三维环境重建,在拍摄时获取声源对象的三维坐标。将声源对象的三维坐标与音频同时封装,解码时可以实现3d音效的播放效果。
[0057]
以上两种对声源对象左右声道的修正处理方式可以根据实施情况任选其一进行修正处理,此处不做限定。
[0058]
本实施例中以首帧音量作为基准音量按照深度信息进行音量调整时,是对左右声道的音量同时修正。再以修正后左右声道音量,按照位置信息进行修正,最终得到修正处理后的音频,既能体现对象移动随着深度信息的变化导致音量变化,又能体现出对象位于视频帧中不同位置发声时,左右声道音量不同,从而达到3d音效的效果。
[0059]
步骤s105,将修正处理后的音频与视频进行合成处理,得到3d音效视频。
[0060]
修正处理后的音频已经调整了各个时段音量大小以及左右声道的音量,将修正处理后的音频与视频进行合成处理,保障得到的视频为可以呈现出3d音效效果的视频。
[0061]
根据本发明实施例提供的视频3d音效设置方法,通过分离源视频得到音频,根据视频中声源对象的深度信息和/或位置信息对音频进行3d化修正处理,可以实现对各个视频模拟还原3d音效的效果。
[0062]
图6示出了本发明实施例提供的视频3d音效设置装置的结构示意图。如图6所示,视频3d音效设置装置包括:
[0063]
音视频分离模块610,适于对源视频进行音视频分离处理,得到分离后的音频和视频;
[0064]
音轨分离模块620,适于将音频进行音轨分离,得到至少一个音轨;
[0065]
匹配模块630,适于识别确定视频中发声的声源对象,将至少一个音轨与声源对象进行匹配;
[0066]
修正模块640,适于根据声源对象在视频帧中的深度信息和/或位置信息,对匹配的音轨进行3d化修正处理;
[0067]
合成模块650,适于将修正处理后的音频与视频进行合成处理,得到3d音效视频。
[0068]
可选地,音轨分离模块620进一步适于:
[0069]
将音频输入至预先训练得到的音轨分离模型中,分离得到至少一个音轨以及音轨声音类型。
[0070]
可选地,匹配模块630进一步适于:
[0071]
识别各个视频帧中的对象,根据音轨声音类型确定对应的声源对象;
[0072]
将音轨声音类型对应的音轨与声源对象进行匹配。
[0073]
可选地,音轨声音类型为人物,且声源对象中人物为多个时;匹配模块630进一步适于:若音轨为单人音轨,利用声纹识别分析确定当前人声音轨;识别声源对象中各个人物的唇部动作,确定当前发出声音的人物;将当前的人声音轨与发出声音的人物进行匹配;
[0074]
若音轨为多人音轨,将混音的人声音轨进行分离,得到多个独立的人声音轨;根据
视频中识别的各个人物的唇语信息,将各个独立的人声音轨与视频中识别的各个人物进行匹配。
[0075]
可选地,修正模块640进一步适于:
[0076]
计算声源对象在视频帧中的实时的深度信息与基准深度信息的比值;其中,以音频首帧对应的声源对象的深度信息作为基准深度信息;
[0077]
根据比值,按照匹配的音轨的基准音量,对声源对象匹配的音轨实时音量进行增减修正处理,得到修正处理后的音频;其中,以音频首帧音量作为基准音量。
[0078]
可选地,修正模块640进一步适于:
[0079]
根据声源对象在视频帧中的实时的位置信息以及预设声音接收点位置信息,计算得到位置比值信息;
[0080]
根据位置比值信息,对声源对象匹配的音轨实时的左右声道音量进行增减修正处理,得到修正处理后的音频。
[0081]
可选地,匹配模块630进一步适于:
[0082]
对视频进行镜头分割,得到镜头切换产生的多个镜头单位;
[0083]
针对任一镜头单元,识别镜头单元中发声的声源对象。
[0084]
以上各模块的描述参照方法实施例中对应的描述,在此不再赘述。
[0085]
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有至少一可执行指令,可执行指令可执行上述任意方法实施例中的视频3d音效设置方法。
[0086]
图7示出了根据本发明实施例的一种计算设备的结构示意图,本发明实施例的具体实施例并不对计算设备的具体实现做限定。
[0087]
如图7所示,该计算设备可以包括:处理器(processor)702、通信接口(communications interface)704、存储器(memory)706、以及通信总线708。
[0088]
其特征在于:
[0089]
处理器702、通信接口704、以及存储器706通过通信总线708完成相互间的通信。
[0090]
通信接口704,用于与其它设备比如客户端或其它服务器等的网元通信。
[0091]
处理器702,用于执行程序710,具体可以执行上述视频3d音效设置方法实施例中的相关步骤。
[0092]
具体地,程序710可以包括程序代码,该程序代码包括计算机操作指令。
[0093]
处理器702可能是中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。
[0094]
存储器706,用于存放程序710。存储器706可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
[0095]
程序710具体可以用于使得处理器702执行上述任意方法实施例中的视频3d音效设置方法。程序710中各步骤的具体实现可以参见上述视频3d音效设置实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
[0096]
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明实施例的内容,并且上面对特定语言所做的描述是为了披露本发明实施例的较佳实施方式。
[0097]
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0098]
类似地,应当理解,为了精简本发明实施例并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其特征在于每个权利要求本身都作为本发明的单独实施例。
[0099]
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0100]
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0101]
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
[0102]
应该注意的是上述实施例对本发明实施例进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的
计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1