一种影音对齐方法、装置、设备及存储介质与流程

文档序号：33463400发布日期：2023-03-15 05:41阅读：40来源：国知局

1.本技术实施例涉及人工智能领域，涉及但不限于一种影音对齐方法、装置、设备及存储介质。

背景技术：

2.播放视频文件的情况下，用户无法针对视频画面中的某一个独立目标，包括人、动物和会发声的物理设备(电视、乐器)等，单独提取对应的音频。

技术实现要素：

3.有鉴于此，本技术实施例提供一种影音对应方法、装置、设备及存储介质。
4.本技术实施例的技术方案是这样实现的：
5.第一方面，本技术实施例提供一种影音对齐方法，所述方法包括：
6.获取影音对齐指令，所述影音对齐指令用于对齐视频中至少一个目标物体与所述目标物体的音频；
7.响应于所述影音对齐指令，对所述视频的至少一帧图像进行编码处理，得到所述至少一帧图像对应的图像特征，所述图像特征包括所述视频中至少一个目标物体的目标图像特征；
8.对所述至少一帧图像对应的音频进行编码处理，得到所述至少一帧图像对应的音频特征，所述音频特征包括所述至少一个目标物体的目标音频特征；
9.对至少一个所述目标图像特征和至少一个所述目标音频特征进行相似度比对，得到所述图像中少一个所述目标物体对应的目标音频。
10.第二方面，本技术实施例提供一种影音对齐装置，所述装置包括：
11.获取模块，用于获取影音对齐指令，所述影音对齐指令用于对齐视频中至少一个目标物体与所述目标物体的音频；
12.第一编码模块，用于响应于所述影音对齐指令，对所述视频的至少一帧图像进行编码处理，得到所述至少一帧图像对应的图像特征，所述图像特征包括所述视频中至少一个目标物体的目标图像特征；
13.第二编码模块，用于对所述至少一帧图像对应的音频进行编码处理，得到所述至少一帧图像对应的音频特征，所述音频特征包括所述至少一个目标物体的目标音频特征；
14.比对模块，用于对至少一个所述目标图像特征和至少一个所述目标音频特征进行相似度比对，得到所述图像中少一个所述目标物体对应的目标音频。
15.第三方面，本技术实施例提供一种电子设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法。
16.第四方面，本技术实施例提供一种存储介质，存储有可执行指令，用于处理器执行时，实现上述方法。
17.本技术实施例中，首先获取影音对齐指令，所述影音对齐指令用于对齐视频中至
少一个目标物体与所述目标物体的音频；然后响应于所述影音对齐指令，对所述视频的至少一帧图像进行编码处理，得到所述至少一帧图像对应的图像特征，所述图像特征包括所述视频中至少一个目标物体的目标图像特征；对所述至少一帧图像对应的音频进行编码处理，得到所述至少一帧图像对应的音频特征，所述音频特征包括所述至少一个目标物体的目标音频特征；最后对至少一个所述目标图像特征和至少一个所述目标音频特征进行相似度比对，得到所述图像中少一个所述目标物体对应的目标音频。这样，可以针对视频中的至少一个目标物体，实现提取该目标物体对应的音频。
附图说明
18.图1a为本技术实施例提供的一种影音对齐方法的实现流程示意图；
19.图1b为本技术实施例提供的一帧图像的示意图；
20.图1c为本技术实施例提供的一种音频编码的示意图；
21.图2为本技术实施例提供的一种影音对齐方法的实现流程示意图；
22.图3a为本技术实施例提供的一种影音对齐方法的实现流程示意图；
23.图3b为本技术实施例提供的一种影音操作画面的示意图；
24.图4a为本技术实施例提供的一种音频提取网络的结构示意图；
25.图4b为本技术实施例提供的一种transformer解码器的结构示意图；
26.图5为本技术实施例提供的一种影音对齐装置的组成结构示意图；
27.图6为本技术实施例提供的电子设备的一种硬件实体示意图。
具体实施方式
28.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对申请实施例的具体技术方案做进一步详细描述。以下实施例用于说明本技术，但不用来限制本技术的范围。
29.在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。
30.在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本技术实施例能够以除了在这里图示或描述的以外的顺序实施。
31.除非另有定义，本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的，不是旨在限制本技术。
32.本技术实施例提供一种影音对齐方法，如图1a所示，该方法包括：
33.步骤s110、获取影音对齐指令，所述影音对齐指令用于对齐视频中至少一个目标物体与所述目标物体的音频；
34.在一些实施例中，获取影音对齐指令，可以利用用户的视觉信息作为影音对齐指令，举例来说，可以获取用户的视线焦点，以确定该视线焦点聚焦在视频中目标物体。在确
定用户正在聚焦该目标物体的情况下，启动影音对齐。
35.在一些实施例中，可以获取用户点击视频中目标物体的指令，启动影音对齐；也可以获取用户圈选击视频中目标物体的指令，启动影音对齐；还可以在用户点击或圈选视频某个位置的情况下，就近确定一个目标物体，启动影音对齐；还可以获取用户的手指指向视频中目标物体的指令，启动影音对齐。
36.在实施过程中，对用户选项视频中目标物体的方式，不做限制。
37.步骤s120、响应于所述影音对齐指令，对所述视频的至少一帧图像进行编码处理，得到所述至少一帧图像对应的图像特征，所述图像特征包括所述视频中至少一个目标物体的目标图像特征；
38.在实施过程中，可以利用卷积神经网络编码器(cnn encoder)，对视频的至少一帧图像进行编码处理，得到至少一帧图像对应的图像特征。
39.步骤s130、对所述至少一帧图像对应的音频进行编码处理，得到所述至少一帧图像对应的音频特征，所述音频特征包括所述至少一个目标物体的目标音频特征；
40.在实施过程中，可以利用长短记忆网络编码器(lstm encoder)，对至少一帧图像对应的音频进行编码处理，得到至少一帧图像对应的音频特征。
41.步骤s140、对至少一个所述目标图像特征和至少一个所述目标音频特征进行相似度比对，得到所述图像中少一个所述目标物体对应的目标音频。
42.在实施过程中，可以对所述至少一个目标图像特征进行解码，得到与每一所述目标物体一一对应的图像特征；对所述至少一个目标音频特征进行解码和滤波处理，得到与每一所述目标物体一一对应的音频特征；将每一所述目标物体一一对应的图像特征与每一所述目标物体一一对应的音频特征进行特征比对，得到所述图像中每一所述目标物体对应的目标音频。
43.这里，将每一所述目标物体一一对应的图像特征与每一所述目标物体一一对应的音频特征进行特征比对，可以利用全连接层对所述目标物体一一对应的图像特征与所述目标物体一一对应的音频特征进行特征匹配，得到所述图像中每一所述目标物体对应的目标音频。
44.在一些实施例中，可以利用transformer结构来进行特征匹配，即相似度比对。目标音频特征经过audio network解码器进而经过多通道滤波区分不同的音频信息，这里可以得到不同的音频，但还未得到每段音频对应的目标物体。目标图像特征经过vision network解码得到分割掩码图，不同分割区域经过全连接层得到对应的特征表示与经过多通道滤波输出的音频特征信息进行匹配，将目标物体与不同的目标音频建立联接，从而可以得到不同的目标物体对应的目标音频。
45.图1b为本技术实施例提供的一帧图像的示意图，如图1b所示，该图像包括男人11、女人12、马13和狗14，其中，
46.在实施过程中，对该帧图像进行编码处理，得到该图像对应的图像特征，包括男人11、女人12、马13和狗14的图像特征；对该图像对应的音频进行进行编码处理，得到该图像对应的音频特征，包括男人11、女人12、马13和狗14的音频特征；对图像中男人11、女人12、马13和狗14的图像特征和男人11、女人12、马13和狗14的音频特征进行相似度比对，可以得到男人11对应的音频，女人12对应的音频，马13对应的音频和狗14对应的音频。
47.本技术实施例中，首先获取影音对齐指令，所述影音对齐指令用于对齐视频中至少一个目标物体与所述目标物体的音频；然后响应于所述影音对齐指令，对所述视频的至少一帧图像进行编码处理，得到所述至少一帧图像对应的图像特征，所述图像特征包括所述视频中至少一个目标物体的目标图像特征；对所述至少一帧图像对应的音频进行编码处理，得到所述至少一帧图像对应的音频特征，所述音频特征包括所述至少一个目标物体的目标音频特征；最后对至少一个所述目标图像特征和至少一个所述目标音频特征进行相似度比对，得到所述图像中少一个所述目标物体对应的目标音频。这样，可以针对视频中的至少一个目标物体，实现提取该目标物体对应的音频。
48.在一些实施例中，以上步骤s120中“对所述视频的至少一帧图像进行编码处理，得到所述至少一帧图像对应的图像特征”可以通过以下步骤实现：
49.步骤s121、获取所述视频的至少一帧视频图像和每一帧视频图像对应的视频掩码，所述视频掩码将所述视频图像划分为至少一个目标区域，每一目标区域对应一个所述目标物体；
50.在实施过程中，对视频图像中每个像素点的相位相干数据进行二值化阈值处理，以得到获取该图像对应的视频掩码，这里，该视频掩码为包括目标物体的分割图像。
51.步骤s122、对至少一所述帧视频图像和每一所述帧视频图像对应的视频掩码进行卷积编码处理，得到至少一帧图像对应的图像特征。
52.在实施过程中，将视频图像和该视频图像对应的视频掩码同时输入卷积神经网络编码器，得到该视频图像对应的图像特征，这里，该图像特征包括视频中至少一个目标物体的目标图像特征，目标物体可以是用户所选择的物体。
53.本技术实施例中，首先获取所述视频的至少一帧视频图像和每一帧视频图像对应的视频掩码；然后对至少一所述帧视频图像和每一所述帧视频图像对应的视频掩码进行卷积编码处理。这样，可以有效获取包括目标物体的图像特征。
54.在一些实施中，以上步骤s130中“对所述至少一帧图像对应的音频进行编码处理，得到所述至少一帧图像对应的音频特征”可以通过以下步骤实现：
55.步骤131、获取所述音频的mel频率倒谱系数mfcc；
56.在实施过程中，对原始音频数据经过预处理可以得到mfcc序列，过程如下：
57.1、对原始语音进行预加重、分帧和加窗；
58.2、对每一个短时分析窗，通过快速傅里叶变换(fast fourier transform，fft)得到对应的频谱；
59.3、将通过fft得到对应的频谱通过mel滤波器组得到mel频谱；
60.4、在mel频谱上面进行倒谱分析获得mel频率倒谱系数mfcc；
61.这里，倒谱分析包括取对数，做逆变换，实际逆变换可以是通过离散余弦变换(discrete cosine transform，dct)实现，举例来说，可以取dct后的第2个到第13个系数作为mfcc系数。
62.经过以上步骤1至4，可以得到音频的mel频率倒谱系数，即需要的预处理特征。
63.图1c为本技术实施例提供的一种音频编码的示意图，如图1c所示，该示意图包括经过数据预处理15得到的音频数据和经过n层lstm结构16得到的音频数据。
64.这里，如图1b所示，经过数据预处理15可以得到的该音频的mel频率倒谱系数。
65.步骤132、对所述mfcc进行归一化处理，得到所述音频的归一化特征；
66.在实施过程中，可以将得到的mfcc序列进行归一化操作，通过对各个维度进行均值归一化操作会起到信道补偿的作用，消除不同声音信号由于幅值，干扰等因素而造成过拟合的或者训练较慢。
67.步骤133、将所述归一化特征进行长短记忆处理，得到所述至少一帧图像对应的音频特征。
68.在实施过程中，如图1b所示，可以将归一化特征送入长短期记忆网络编码器进行特征学习，通过n层lstm结构16，得到编码特征，其中，n为大于等于1的整数。
69.本技术实施例中，首先获取所述音频的mel频率倒谱系数mfcc；然后对所述mfcc进行归一化处理，得到所述音频的归一化特征；最后将所述归一化特征进行长短记忆处理，得到所述至少一帧图像对应的音频特征。这样，可以获取图像对应的音频特征。
70.在一些实施例中，以上步骤s140“对至少一个所述目标图像特征和至少一个所述目标音频特征进行相似度比对，得到所述图像中少一个所述目标物体对应的目标音频”，如图2所示，可以通过以下步骤实现：
71.步骤s210、基于所述图像特征和至少一个所述目标图像特征，确定至少一个所述目标物体在所述至少一帧图像中的景深信息；
72.景深(dof)，指在摄影机镜头或其他成像器前沿能够取得清晰图像的成像所测定的被摄物体前后距离范围，即，图像中每个物体所在环境中的前后位置。举例来说，位于图像最前方区域且轮廓大的物体与位于图像后面区域且轮廓小的物体景深不同。
73.在实施过程中，可以基于整幅图像的背景特征和所在背景区域的目标图像特征，确定目标物体在整幅图像中的景深信息，举例来说，可以分别确定位于中间前方背景处的目标物体对应的景深信息，和与位于左右后方背景处的目标物体对应的景深信息。
74.步骤s220、基于所述音频特征和至少一个所述目标音频特征，确定至少一个所述目标音频的时延信息；
75.在实施过程中，由于视频中位于不同景深的发生物体传到一定位置用户所在处的音频时延不同，所以需要先逐一确定目标音频的时延。
76.步骤s230、匹配所述景深信息与所述时延信息，得到所述图像中至少一组位于相同景深的目标物体和目标音频；
77.这里，可以先将位于同一景深的目标物体分为一组；再将具有同一时延信息的目标音频分为一组；最后通过景深的取值和时延的取值，匹配已经分好组的目标物体和目标音频，得到该图像中至少一组位于相同景深的目标物体和目标音频。
78.步骤s240、识别所述位于相同景深的目标物体和目标音频，得到所述景深中至少一个所述目标物体对应的目标音频。
79.在实施过程中，由于位于相同景深的目标物体和目标音频可能存在多个，所以可以基于目标物体的特征和目标音频的特征，匹配目标物体和目标音频，得到目标物体对应的目标音频。
80.本技术实施例中，首先基于所述图像特征和至少一个所述目标图像特征，确定至少一个所述目标物体在所述至少一帧图像中的景深信息；基于所述音频特征和至少一个所述目标音频特征，确定至少一个所述目标音频的时延信息；然后匹配所述景深信息与所述
时延信息，得到所述图像中至少一组位于相同景深的目标物体和目标音频；最后识别所述位于相同景深的目标物体和目标音频，得到所述景深中至少一个所述目标物体对应的目标音频。这样，可以先基于景深对目标物体和目标音频进行分类，再通过识别相同景深的目标物体和目标音频，得到目标物体对应的目标音频，有效提升识别的效率和准确性。
81.在一些实施例中，以上步骤s240“识别所述位于相同景深的目标物体和目标音频，得到所述景深中至少一个所述目标物体对应的目标音频”可以通过以下步骤实现：
82.步骤241、识别所述位于相同景深的目标物体对应的目标图像特征，以确定所述目标物体的图像属性信息；
83.所述图像属性信息至少包括：种类、年龄、性别。
84.举例来说，可以识别出目标物体是男人、女人、小孩、狗、猫等。
85.步骤242、识别所述位于相同景深的目标音频对应的目标音频特征，以确定所述目标音频的声音属性信息；
86.所述声音属性信息至少包括：音色和音调。
87.步骤243、匹配所述图像属性信息和所述声音属性信息，得到所述景深中至少一个所述目标物体对应的目标音频。
88.举例来说，男人的音色和音调与女人的音色和音调是不同的，经过匹配可以将男人匹配男人的音频，女人匹配女人的音频。
89.本技术实施例中，首先识别所述位于相同景深的目标物体对应的目标图像特征，以确定所述目标物体的图像属性信息；然后识别所述位于相同景深的目标音频对应的目标音频特征，以确定所述目标音频的声音属性信息；最后匹配所述图像属性信息和所述声音属性信息，得到所述景深中至少一个所述目标物体对应的目标音频。这样，可以实现同一景深中不同目标物体匹配与该目标物体声音属性信息最相似的音频。
90.在一些实施例中，如图3a所示，影音对齐的方法还包括以下步骤：
91.步骤s150、响应于选择所述图像中任一目标物体的指令，调整被选择的目标物体对应的目标音频。
92.在实施过程中，可以提供用户多种交互方式，进行对于视频目标的选择，包括点击，全选，就近选择等，来选择目标。
93.图3b为本技术实施例提供的一种影音操作画面的示意图，如图3b所示，该示意图包括人物31、电视32、人物33和人物34，其中，
94.在实施过程中，可以响应于选择人物31，单独调整人物31的音量大小；也可以响应于同时选择人物31和人物33，调整对应的音量大小；还可以响应于选择电视32，将电视32的音量调小。
95.这样，用户可以通过通过视频的选择单一目标物体，屏蔽掉其他目标物体的声音。
96.步骤s160、响应于选择所述图像中任一位置的指令，调整所述图像中所有目标物体对应的目标音频。
97.如图3b所示，该示意图还包括位置35和位置35，其中，
98.可以响应于点击位置35，人物33，34音频声音大，从右侧传来；
99.可以响应于点击位置36，电视35音频声音大从右侧传来，其他部分声音小，人声从左侧传来。
100.这样，用户可以通过通过视频的选择视频的某一个位置，系统自动找出周围目标物体，同时提取每个目标物体对应的目标音频，来生成新的环境音。
101.本技术实施例中，响应于选择所述图像中任一目标物体的指令，调整被选择的目标物体对应的目标音频。响应于选择所述图像中任一位置的指令，调整所述图像中所有目标物体对应的目标音频。这样，同时提供多种对于独立目标物体的音频调整、选择和组合方式，包括单独调整某个目标物体的音量，根据选择的目标物体在图像中的位置，重新根据就近的目标物体重构音频输出等功能。
102.图4a为本技术实施例提供的一种音频提取网络的结构示意图，如图4a所示，该音频提取网络包括：卷积神经网络编码器44、长短记忆网络编码器45和transformer解码器(transformer decoder)48，其中，
103.在一些实施例中，可以使用视频的完整图像信息，特定目标的分割图像信息，以及完整音频信息，作为网络的输入，使用特定目标的音频信息作为ground truth(也是输出)，构建多模态的深度学习网络进行训练，生成如图4a所示的可以基于特定目标视觉信息进行选择的音频提取网络，从而使种视频内对任意目标可以与其产生的音频对齐。这里，在机器学习中，“ground truth”一词指的是训练集对监督学习技术的分类的准确性。
104.在实施过程中，可以基于以下步骤使用该音频提取网络：
105.步骤410、将完整图像信息42和特定目标的分割图像信息43输入卷积神经网络编码器44，得到图像特征46；
106.步骤420、将完整音频信息(梅尔普序列)41，经过长短期记忆网络编码器45，得到音频特征47；
107.步骤430、将图像特征和音频特征输入transformer解码器48，得到特定目标的音频梅尔普序列49。
108.本技术实施例中，使用视频的完整图像信息，特定目标的分割图像信息，以及完整音频信息，作为音频提取网络的输入，从而使输入该音频提取网络的视频内中任意目标可以与其产生的音频对齐。
109.图4b为本技术实施例提供的一种transformer解码器48的结构示意图，如图4b所示，该transformer解码器48包括：视频子网络481、音频子网络482、多通道滤波483和特征匹配484，其中，
110.在实施过程中，transformer解码器48可以根据卷积神经网络编码器和长短记忆网络编码器分别提取的图像特征和音频特征，对音频和图像时间序列特征进行解码并进行相似度对比，通过不同特征之间的距离来匹配音频和对应的目标图像。
111.针对图像特征和音频特征，如图4b所示，采用transformer结构来进行特征匹配。音频特征47经过音频子网络(audio network)482解码器进而经过多通道滤波483区分不同的音频信息，这里可以得到不同的音频，但还未得到每段音频对应的目标物体。图像特征46经过视频子网络(vision network)481解码得到分割掩码图，不同分割区域经过特征匹配484，得到对应的特征表示与经过多通道滤波483输出的音频特征信息进行匹配，将目标物体与不同的音频信息建立联接，从而可以得到不同的目标物体对应的音频信息。这里，特征匹配484可以使用全连接层(fully connected layers，fc)实现。
112.在训练过程中，针对图像特征和音频特征匹配，可以采用视听匹配损失函数l
am
，约
束发声物和音频特征在特征空间中保持相似分布。
113.损失函数l
am
定义如下公式(1)：
[0114][0115]
其中，kl为kullback-leibler散度，用来计算损失函数的大小，m为图像视觉特征，a为音频特征，i代表第i个目标，共n个目标。l
entropy
为最小化每个物体基于kl散度的交叉熵损失函数，如下公式(2)所示：
[0116][0117]
其中，mi为每个目标的图像特征，aj为每个目标的音频特征，y
ij
代表标注信息，两者特征是否匹配。
[0118]
基于前述的实施例，本技术实施例提供一种影音对齐装置，该装置包括所包括的各模块，各模块包括各子模块，各子模块包括单元，可以通过电子设备中的处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器(central processing unit，cpu)、微处理器(microprocessor unit，mpu)、数字信号处理器(digital signal process，dsp)或现场可编程门阵列(field programmable gate array，fpga)等。
[0119]
图5为本技术实施例提供的影音对齐装置的组成结构示意图，如图5所示，所述装置500包括：
[0120]
获取模块510，用于获取影音对齐指令，所述影音对齐指令用于对齐视频中至少一个目标物体与所述目标物体的音频；
[0121]
第一编码模块520，用于响应于所述影音对齐指令，对所述视频的至少一帧图像进行编码处理，得到所述至少一帧图像对应的图像特征，所述图像特征包括所述视频中至少一个目标物体的目标图像特征；
[0122]
第二编码模块530，用于对所述至少一帧图像对应的音频进行编码处理，得到所述至少一帧图像对应的音频特征，所述音频特征包括所述至少一个目标物体的目标音频特征；
[0123]
比对模块540，用于对至少一个所述目标图像特征和至少一个所述目标音频特征进行相似度比对，得到所述图像中少一个所述目标物体对应的目标音频。
[0124]
在一些实施例中，所述第一编码模块520包括第一获取子模块和卷积编码子模块，其中，所述第一获取子模块，用于获取所述视频的至少一帧视频图像和每一帧视频图像对应的视频掩码，所述视频掩码将所述视频图像划分为至少一个目标区域，每一目标区域对应一个所述目标物体；所述卷子编码子模块，用于对至少一所述帧视频图像和每一所述帧视频图像对应的视频掩码进行卷积编码处理，得到至少一帧图像对应的图像特征。
[0125]
在一些实施例中，所述第二编码模块530包括第二获取子模块，归一化子模块和长短记忆子模块，其中，所述第二获取子模块，用于获取所述音频的mel频率倒谱系数mfcc；所述归一化子模块，用于对所述mfcc进行归一化处理，得到所述音频的归一化特征；所述长短记忆子模块，用于将所述归一化特征进行长短记忆处理，得到所述至少一帧图像对应的音频特征。
[0126]
在一些实施例中，所述比对模块540包括第一确定子模块、第二确定子模块、匹配子模块和识别子模块，其中，所述第一确定子模块，用于基于所述图像特征和至少一个所述目标图像特征，确定至少一个所述目标物体在所述至少一帧图像中的景深信息；所述第二确定子模块，用于基于所述音频特征和至少一个所述目标音频特征，确定至少一个所述目标音频的时延信息；所述匹配子模块，用于匹配所述景深信息与所述时延信息，得到所述图像中至少一组位于相同景深的目标物体和目标音频；所述识别子模块，用于识别所述位于相同景深的目标物体和目标音频，得到所述景深中至少一个所述目标物体对应的目标音频。
[0127]
在一些实施例中，所述识别子模块包括第一识别单元、第二识别单元和匹配单元，其中，所述第一识别单元，用于识别所述位于相同景深的目标物体对应的目标图像特征，以确定所述目标物体的图像属性信息；所述第二识别单元，用于识别所述位于相同景深的目标音频对应的目标音频特征，以确定所述目标音频的声音属性信息；所述匹配单元，用于匹配所述图像属性信息和所述声音属性信息，得到所述景深中至少一个所述目标物体对应的目标音频。
[0128]
在一些实施例中，所述图像属性信息至少包括：种类、年龄、性别；所述声音属性信息至少包括：音色和音调。
[0129]
在一些实施例中，所述装置包括第一调整模块，用于响应于选择所述图像中任一位置的指令，调整所述图像中所有目标物体对应的目标音频。
[0130]
在一些实施例中，所述装置包括第二调整模块，用于响应于选择所述图像中任一位置的指令，调整所述图像中所有目标物体对应的目标音频。
[0131]
以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本技术装置实施例中未披露的技术细节，请参照本技术方法实施例的描述而理解。
[0132]
需要说明的是，本技术实施例中，如果以软件功能模块的形式实现上述方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得电子设备(可以是手机、平板电脑、笔记本电脑、台式计算机等)执行本技术各个实施例所述方法的全部或部分。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read only memory，rom)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本技术实施例不限制于任何特定的硬件和软件结合。
[0133]
对应地，本技术实施例提供一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中提供的影音对齐方法中的步骤。
[0134]
对应地，本技术实施例提供一种电子设备，图6为本技术实施例提供的电子设备的一种硬件实体示意图，如图6所示，该设备600的硬件实体包括：包括存储器601和处理器602，所述存储器601存储有可在处理器602上运行的计算机程序，所述处理器602执行所述程序时实现上述实施例中提供的影音对齐方法中的步骤。
[0135]
存储器601配置为存储由处理器602可执行的指令和应用，还可以缓存待处理器602以及电子设备600中各模块待处理或已经处理的数据(例如，图像数据、音频数据、语音
通信数据和视频通信数据)，可以通过闪存(flash)或随机访问存储器(random access memory，ram)实现。
[0136]
这里需要指出的是：以上存储介质和设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本技术存储介质和设备实施例中未披露的技术细节，请参照本技术方法实施例的描述而理解。
[0137]
应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本技术的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本技术的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本技术实施例的实施过程构成任何限定。上述本技术实施例序号仅仅为了描述，不代表实施例的优劣。
[0138]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0139]
在本技术所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。
[0140]
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
[0141]
另外，在本技术各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。
[0142]
本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(read only memory，rom)、磁碟或者光盘等各种可以存储程序代码的介质。
[0143]
或者，本技术上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得电子设备(可以是手机、平板电脑、笔记本电脑、台式计算机等)执行本技术各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、rom、磁碟或者光盘等各种可以存储程序代码的介质。
[0144]
本技术所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。
[0145]
本技术所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。
[0146]
本技术所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。
[0147]
以上所述，仅为本技术的实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李辉徐真费薇
技术所有人：联想（北京）有限公司
我是此专利的发明人

上一篇：储能系统和储能系统的调节方法与流程
上一篇：一种与小麦小穗数QTL连锁的SNP分子标记及其应用

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。