声音替换方法、电子设备和存储介质与流程

文档序号:17837443发布日期:2019-06-05 23:44阅读:239来源:国知局
声音替换方法、电子设备和存储介质与流程

本发明涉及计算机技术领域,尤其涉及一种声音替换方法、电子设备和存储介质。



背景技术:

目前如电影、电视、动画、动漫、游戏等视频资源中,人物形象是固定的,即视频资源一经制作完成,人物声音只能为制作时的样子,不可改变。

人物形象不可改变的方式呈现人物声音,会降低视频资源的趣味性,使得视频资源与用户之间的参与性和互动性不足。



技术实现要素:

(一)要解决的技术问题

为了提升视频资源的互动性,本发明提供一种声音替换方法、电子设备和存储介质。

(二)技术方案

为了达到上述目的,本发明采用的主要技术方案包括:

一种声音替换方法包括:

s101,确定第一视频资源;

s102,在所述第一视频资源中,确定第一人物;

s103,确定所述第一人物的第一音频特征;

s104,确定与所述第一人物对应的第二人物,所述第二人物与所述第一人物不同;

s105,确定所述第二人物的第二音频特征;

s106,根据所述第二音频特征和所述第一音频特征确定替换音频特征;

s107,根据替换音频特征调整所述第一人物的声音;

所述音频特征包括:音调、响度、音色、语速、语言风格。

可选地,所述s102包括:

s102-1,确定所述第一视频资源中各人物的出现总时长以及各人物的音频总时长;

s102-2,按下式确定各人物的排序值:

ce=te2/te1;

其中,e为第一视频资源中的任一人物,ce为第一视频资源中任一人物e的排序值,te1为第一视频资源中任一人物e的出现总时长,te2为第一视频资源中任一人物e的音频总时长;

s102-3,按排序值从大到小,将所述第一视频资源中所有人物排序;

s102-4,将排序靠前的预设数量个人物,均确定为第一人物;

当第一人物为1个时,所述第二人物为1个;

当第一人物为多个时,所述第二人物为多个,且第二人物的数量与第一人物的数量相同,每个第二人物对应一个唯一的第一人物,第二人物与其对应的第一人物不同。

可选地,所述s104包括:

监控是否至少一个替换资源被触发;

当至少一个替换资源被触发后,从被触发的替换资源中确定第二人物;

其中,至少一个替换资源被触发,包括:

至少一个存储的音频被选中;或者,

至少一个存储的第二视频资源被选中;或者,

至少一个存储的音频被点击;或者,

至少一个存储的第二视频资源被点击;或者,

至少一个音频被上传;或者,

至少一个第二视频资源被上传;或者,

至少一个音频被即时录制;或者,至

少一个第二视频资源被即时拍摄;

所述第二视频资源与所述第一视频资源不同。

可选地,所述第一视频资源为包含音频的动态影像资源,所述动态影像为电影、电视、动画、游戏、自拍视频、广告视频或者小视频;

所述第二视频资源为包含音频的动态影像资源,所述动态影像为电影、电视、动画、游戏、自拍视频、广告视频或者小视频。

可选地,所述从被触发的替换资源中确定第二人物,包括:

将被触发的替换资源中,被用户选中的人物确定为第二人物;或者,

当被触发的替换资源为音频时,识别被触发的替换资源中所有人物,计算各人物的音频时长,分别计算每个人物的音频时长与音频总时长的比值,根据各人物的比值确定第二人物;或者,

当被触发的替换资源为第二视频资源时,识别被触发的替换资源中所有人物,根据各人物的重要程度确定第二人物。

可选地,各人物的重要程度通过如下方式确定:

针对任一人物i,确定存在所述任一人物i的所有帧;

根据如下公式确定所述任一人物i的重要程度:

其中,wi为任一人物i的重要程度,ni为存在所述任一人物i的帧的总数量,n为所述第二视频资源的帧的总数量,ti1为所述任一人物i的出现总时长,t1为被触发的替换资源的视频总时长,ti2为所述任一人物i的音频总时长,t2为被触发的替换资源的音频总时长,s1为被触发的替换资源的人物有效视频总时长,s2为被触发的替换资源的人物有效音频总时长。

可选地,所述第一人物的第一音频特征中的语言风格通过如下方法确定:

s301-1,在第一视频资源中,获取第一人物的所有音频;

s301-2,对s301-1中获得的音频进行语音识别,确定第一声音特征;

s301-3,将s301-1中获得的音频转化为第一文本;

s301-4,对所述第一文本进行语义分析,确定第一词语特征;

s301-5,将所述第一声音特征和所述第一词语特征均作为所述第一人物的第一音频特征中的语言风格;

所述第二人物的第二音频特征中的语言风格通过如下方法确定:

s302-1,获取第二人物的音频;

s302-2,对s302-1中获得的音频进行语音识别,确定第二声音特征;

s302-3,将s302-1中获得的音频转化为第二文本;

s302-4,对所述第二文本进行语义分析,确定第二词语特征;

s302-5,将所述第二声音特征和所述第二词语特征均作为所述第二人物的第二音频特征中的语言风格;

所述声音特征包括:词语发声语调、词间停顿、句子发声语调、重音位置,发音节奏;

所述重音包括:并列性重音、对比性重音、呼应性重音、递进性重音、转折性重音、肯定性重音、强调性重音、比喻性重音、拟声性重音、反义性重音;

所述词语特征包括:口头语、修饰语、词语组合、省略语。

可选地,,所述s106包括:

s106-1,获取第一音频特征中的第一音调、第一响度、第一音色、第一语速、第一语言风格;

s106-2,获取第二音频特征中的第二音调、第二响度、第二音色、第二语速、第二语言风格;

s106-3,将第一音调与第二音调的均值确定为替换音频特征中的音调;

s106-4,将第一响度确定为替换音频特征中的响度;

s106-5,将第二音色确定为替换音频特征中的音色;

s106-6,将下述公式的值a3确定为调整为替换音频特征中的语速:

其中,a3为替换音频特征中的语速,a1为第一语速,a2为第二语速,b1为第一语言风格中的词间停顿,b2为第二语言风格中的词间停顿;

s106-7,将第一语言风格中的词语特征与第二语言风格中的词语特征的和确定为替换音频特征中语言风格的词语特征;

s106-8,将第二语言风格中的声音特征确定为替换音频特征中语言风格的声音特征。

为了达到上述目的,本发明采用的主要技术方案还包括:

一种电子设备,包括存储器、处理器、总线以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述方法任意一项的方法。

为了达到上述目的,本发明采用的主要技术方案还包括:

一种计算机存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述方法任意一项的方法。

(三)有益效果

本发明的有益效果是:确定第一视频资源;在第一视频资源中,确定第一人物;确定第一人物的第一音频特征;确定与第一人物对应的第二人物,第二人物与第一人物不同;确定第二人物的第二音频特征;根据第二音频特征和第一音频特征确定替换音频特征;根据替换音频特征调整第一人物的声音;音频特征包括,音调、响度、音色、语速、语言风格,实现了视频资源制作后的人物声音变化,提升了参与性和互动性。

附图说明

图1为本发明一个实施例提供的一种声音替换方法的流程示意图;

图2为本发明一个实施例提供的一种电子设备的结构示意图。

具体实施方式

为了提升视频资源的互动性,本提案提供一种声音替换方法、电子设备和存储介质,确定第一视频资源;在第一视频资源中,确定第一人物;确定第一人物的第一音频特征;确定与第一人物对应的第二人物,第二人物与第一人物不同;确定第二人物的第二音频特征;根据第二音频特征和第一音频特征确定替换音频特征;根据替换音频特征调整第一人物的声音;音频特征包括,音调、响度、音色、语速、语言风格,实现了视频资源制作后的人物声音变化,提升了参与性和互动性。

参见图1,本实施例提供的声音替换方法实现流程,如下:

s101,确定第一视频资源。

其中,第一视频资源为包含音频的动态影像资源。

例如,动态影像为电影,或者,电视,或者,动画,或者,游戏,或者,自拍视频,或者,广告视频,或者,小视频。

即有声音的电影,或者,有声音的电视,或者,有声音的动画,或者,有声音的游戏,或者,有声音的自拍视频,或者,有声音的广告视频,或者,有声音的小视频。

为方便描述,本实施例及后续实施例以第一视频资源为有声音的动画a为例。对于其他形式的第一视频资源,本实施例不再举例说明。

s102,在第一视频资源中,确定第一人物。

本步骤中的第一人物可以为一个,也可以为多个。本实施例不对第一人物的数量进行限定。

本步骤中第一人物确定方式有多种,例如,用户点击一个人物,则将用户点击的人物确定为第一人物。

再例如,用户点击多个人物,则将用户点击的所有人物均确定为第一人物。

再例如,通过如下方式确定第一人物:

s102-1,确定第一视频资源中各人物的出现总时长以及各人物的音频总时长。

s102-2,按下式确定各人物的排序值:

ce=te2/te1;

其中,e为第一视频资源中的任一人物,ce为第一视频资源中任一人物e的排序值,te1为第一视频资源中任一人物e的出现总时长,te2为第一视频资源中任一人物e的音频总时长。

s102-3,按排序值从大到小,将第一视频资源中所有人物排序。

s102-4,将排序靠前的预设数量个人物,均确定为第一人物。

例如,若预设数量为2,动画a中有4个人物,分别为人物1、人物2、人物3和人物4,则,确定人物1在动画a中出现的总时长(如t11),人物2在动画a中出现的总时长(如t21),人物3在动画a中出现的总时长(如t31),人物4在动画a中出现的总时长(如t41),确定人物1在动画a中出现的音频总时长。(如t12),人物2在动画a中出现的音频总时长。(如t22),人物3在动画a中出现的音频总时长。(如t32),人物4在动画a中出现的音频总时长(如t42)。确定人物1的排序值c1=t12/t11,人物2的排序值c2=t22/t21,人物3的排序值c3=t32/t31,人物4的排序值c4=t42/t41。如果c4>c2>c1=c3,则按排序值从大到小,将动画a中所有人物排序后得到如下序列:人物4、人物2、人物1和人物3。将排序靠前的2个人物(人物4和人物2)均确定为第一人物。

s103,确定第一人物的第一音频特征。

若第一人物为1个,则确定该第一人物的第一音频特征。若第一人物为2个,则确定每个第一人物的第一音频特征。

本步骤中的“第一”仅为与后续第二人物的音频特征进行区分,不具有任何实际意义。

音频特征包括:音调、响度、音色、语速、语言风格。

其中,音调用声波的频率表示。

响度用声波的振动幅度表示。

音色用声波的振动波形表示。

语速用每分钟字数表示。

语言风格通过如下方法确定:

s301-1,在第一视频资源中,获取第一人物的所有音频。

s301-2,对s301-1中获得的音频进行语音识别,确定第一声音特征。

其中,声音特征包括:词语发声语调、词间停顿、句子发声语调、重音位置,发音节奏。

重音包括:并列性重音、对比性重音、呼应性重音、递进性重音、转折性重音、肯定性重音、强调性重音、比喻性重音、拟声性重音、反义性重音。

并列性重音是指在段落或语句中存在一些表示并列关系的词或短语,通过语言重音表示该词或短语之间的并列关系。如:谈人生,谈理想,谈未来。

对比性重音是指在段落或语句中存在一些通过比较、对照,使事物的特征表现的更加突出,事物的形象更加鲜明的词或短语,通过语言重音表示该词或短语之间的比较关系。如大象很大,老鼠很小。

呼应性重音是指通过语言重音表示上下文呼应关系。如颗颗珍珠,大的如黑豆,小的如小米。

递进性重音是指通过语言重音表示一步步地向前发展、一步步地深入关系。如先改变经理的态度,再改变员工的态度。

转折性重音通过语言重音表示相反方向的内容变化的关系。如世上本没有路,走的人多了,也便成了路。

肯定性重音通过语言重音表示肯定态度。如这道题我真不会做。

强调性重音通过语言重音表示特殊感情和强调某种特殊意义,目的在于引起听众注意自己所强调的某个部分。如我去教室。

比喻性重音是指在段落或语句中存在一些化抽象为具体,变深奥为浅显,使语言顿生情趣,另听众难以忘怀的词或短语,通过语言重音表示该词或短语。如春天像刚落地的娃娃,从头到脚都是新的。

拟声性重音通过语言重音表示象声词。如呼呼地刮着风。

反义性重音是指在段落或语句中存在一些为了揭露事物的本质而正话反说或反话正说的词或短语,通过语言重音表示该词或短语。如你怎么那么聪明?

s301-3,将s301-1中获得的音频转化为第一文本。

s301-4,对第一文本进行语义分析,确定第一词语特征。

其中,词语特征包括:口头语、修饰语、词语组合、省略语。

s301-5,将第一声音特征和第一词语特征均作为第一人物的第一音频特征中的语言风格。

通过声音特征,可以体现第一人物的语言特点,通过词语特征,可以体现第一人物的用词特点。声音特征和词语特征的结合可以准确的描述第一人物的语言风格。

s104,确定与第一人物对应的第二人物。

其中,第二人物与第一人物不同。

即当第一人物为1个时,第二人物为1个,且第二人物与第一人物不同。当第一人物为多个时,第二人物为多个,且第二人物的数量与第一人物的数量相同,每个第二人物对应一个唯一的第一人物,第二人物与其对应的第一人物不同。

例如,当第一人物为2个(如a和b)时,第二人物也为2个(如c和d),每个第二人物对应一个唯一的第一人物(如c和a对应,d和b对应),第二人物与其对应的第一人物不同(如c与a不同,d与b同)。本实施例仅限定c与a不同,d与b同,但c与b是否相同本实施例不做限定,a与d是否相同本实施例也不做限定。

本步骤的具体实现方式为:监控是否至少一个替换资源被触发;当至少一个替换资源被触发后,从被触发的替换资源中确定第二人物。

其中,替换资源的状态可以为已经存储的替换资源,也可以为上传的替换资源,还可以为即时拍摄的替换资源。另外,替换资源可以为音频也可以为第二视频资源。(第二视频资源,也为包含音频的动态影像资源。例如,动态影像为电影,或者,电视,或者,动画,或者,游戏,或者,自拍视频,或者,广告视频,或者,小视频。即有声音的电影,或者,有声音的电视,或者,有声音的动画,或者,有声音的游戏,或者,有声音的自拍视频,或者,有声音的广告视频,或者,有声音的小视频。第二视频资源中的“第二”仅用于与s101中的第一视频资源进行区分,即针对视频资源的“第二”和“第一”仅为了限定是不同阶段的资源,不具有其他含义,第一视频资源是被替换人物所在的资源,第二视频资源是替换人物所在的资源。第一视频资源与第二视频资源不同即可)。

因此,本实施例中的至少一个替换资源可以为至少一个存储的音频,也可以为至少一个存储的第二视频资源,也可以为至少一个上传的音频,也可以为至少一个上传的第二视频资源,也可以为至少一个即时录制的音频,也可以为至少一个即时拍摄的第二视频资源。

基于此,当监控到如下事件发生时,可确定至少一个替换资源被触发,包括:

至少一个存储的音频被用户选中,或者,至少一个存储的第二视频资源被用户选中,或者,至少一个存储的音频被用户点击,或者,至少一个存储的第二视频资源被用户点击,或者,至少一个音频被上传,或者,至少一个第二视频资源被上传,或者,至少一个音频被即时录制,或者,至少一个第二视频资源被即时拍摄。

进而,从被触发的替换资源中确定第二人物的实现方式,可以为:将被触发的替换资源中,被用户选中的人物确定为第二人物。

或者,当被触发的替换资源为音频时,从被触发的替换资源中确定第二人物的实现方式,可以为:识别被触发的替换资源中所有人物,计算各人物的音频时长,分别计算每个人物的音频时长与音频总时长的比值,根据各人物的比值确定第二人物。例如,比值较大的预设数量个人物确定为第二人物。

此处的预设数量与s102中确定第一人物时的预设数量相同。

如比值较大的2个人物确定为第二人物。

除此之外,当被触发的替换资源为第二视频资源时,从被触发的替换资源中确定第二人物的实现方式,可以为:识别被触发的替换资源中所有人物,根据各人物的重要程度确定第二人物。

如根据各人物的重要程度从高到低排序,将排序靠前的预设数量个人物确定为第二人物。

此处的预设数量与s102中确定第一人物时的预设数量相同。

例如,将重要程度较高的2个人物为第二人物。

对于重要程度的计算方式,包括但不限于:

针对任一人物i,确定存在任一人物i的所有帧。

根据如下公式确定任一人物i的重要程度。

其中,wi为任一人物i的重要程度,ni为存在任一人物i的帧的总数量,n为第二视频资源的帧的总数量,ti1为任一人物i的出现总时长,t1为被触发的替换资源的视频总时长,ti2为任一人物i的音频总时长,t2为被触发的替换资源的音频总时长,s1为被触发的替换资源的人物有效视频总时长,s2为被触发的替换资源的人物有效音频总时长。

此处中被触发的替换资源的人物有效视频总时长是被触发的替换资源中有人物出现的视频时长,对于仅有风景或者片头片尾的时间不在此时长范围内。被触发的替换资源的人物有效音频总时长是被触发的替换资源中有人物音频的时长,对于仅有风景或者片头片尾或者有人物但未说话的时间不在此时长范围内。

以共5帧,总时长为3秒,音频时长为2秒的视频为例,针对任一人物i,确定存在人物i的所有帧(如帧1和帧3)。

任一人物i的重要程度

其中,wi为人物i的重要程度,ni为存在人物i的帧的总数量(ni为2),n为第二视频资源的帧的总数量(n为5),ti1为人物i的出现总时长,t1为被触发的替换资源的视频总时长(t1为3秒),ti2为人物i的音频总时长,t2为被触发的替换资源的音频总时长(t2为2秒),s1为被触发的替换资源的人物有效视频总时长,s2为被触发的替换资源的人物有效音频总时长。

另外,当第一人物有多个时,第二人物与第一人物之间对应关系的确定方式,本实施例不做限定。可以人为指定,也可以将排序第一的第二人物与排序第一的人物进行对应。

s105,确定第二人物的第二音频特征。

本处的音频特征的内容与s103中的音频特征相同。

本步骤中的“第二”仅为与s103中第一人物的音频特征进行区分,不具有任何实际意义。

音频特征包括,音调、响度、音色、语速、语言风格。

其中,音调用声波的频率表示。

响度用声波的振动幅度表示。

音色用声波的振动波形表示。

语速用每分钟字数表示。

语言风格通过如下方法确定:

s302-1,获取第二人物的音频。

s302-2,对s302-1中获得的音频进行语音识别,确定第二声音特征。

声音特征包括:词语发声语调、词间停顿、句子发声语调、重音位置,发音节奏。

重音包括:并列性重音、对比性重音、呼应性重音、递进性重音、转折性重音、肯定性重音、强调性重音、比喻性重音、拟声性重音、反义性重音。

s302-3,将s302-1中获得的音频转化为第二文本。

s302-4,对第二文本进行语义分析,确定第二词语特征。

词语特征包括:口头语、修饰语、词语组合、省略语。

s302-5,将第二声音特征和第二词语特征均作为第二人物的第二音频特征中的语言风格。

另外,当第一人物有多个时,在s104中会确定每个第一人物对应的第二人物,此步骤中会确定每个第二人物的第二音频特征。

s106,根据第二音频特征和第一音频特征确定替换音频特征。

当第一人物为多个时,第二人物也为多个,本步骤会根据每个第一人物的第一音频特征,和与其对应的第二人物的第二音频特征,确定该第一人物的替换音频特征。

即,当第一人物为p和q,且p对应的第二人物为p’,q对应的第二人物为q’时,本步骤会根据p的音频特征,和与p对应的p’的音频特征,确定针对p的替换音频特征。根据q的音频特征,和与q对应的q’的音频特征,确定针对q的替换音频特征。

对于根据第二音频特征和第一音频特征确定替换音频特征的实现方式如下:

s106-1,获取第一音频特征中的第一音调、第一响度、第一音色、第一语速、第一语言风格。

s106-2,获取第二音频特征中的第二音调、第二响度、第二音色、第二语速、第二语言风格。

s106-3,将第一音调与第二音调的均值确定为替换音频特征中的音调。

由于用频率表示音调,因此表示替换音频特征中音调的频率=(表示第一音调的频率+表示第二音调的频率)/2。

s106-4,将第一响度确定为替换音频特征中的响度。

s106-5,将第二音色确定为替换音频特征中的音色。

s106-6,将下述公式的值a3确定为调整为替换音频特征中的语速。

其中,a3为替换音频特征中的语速,a1为第一语速,a2为第二语速,b1为第一语言风格中的词间停顿,b2为第二语言风格中的词间停顿。

s106-7,将第一语言风格中的词语特征与第二语言风格中的词语特征的和确定为替换音频特征中语言风格的词语特征。

词语特征包括一些词汇,如口头语、修饰语、词语组合、省略语等。本步骤将第一语言风格中的词语特征构成的词语集合与第二语言风格中的词语特征构成的词语集合进行合并,将合并后的词语集合确定为替换音频特征中语言风格的词语特征。

s106-8,将第二语言风格中的声音特征确定为替换音频特征中语言风格的声音特征。

s107,根据替换音频特征调整第一人物的声音。

基于替换音频特征中的音调、响度、音色、语速、语言风格作为第一人物的音频特征,按替换音频特征中的音调、响度、音色、语速、语言风格重新对第一人物的台词进行发音,进而实现将第一视频资源中的一个人物的声音更换为具有替换音频特征的声音。由于替换音频特征是基于第二人物得到的,因此,本实施例提供的方法可以实现将第一视频中的一个人物的声音更换为用户自己的声音,实现了视频资源制作后的人物声音变化,提升了参与性和互动性。

另外,为了避免更换后由于音调、响度、音色、语速、语言风格等造成声音突兀,不协调,本实施例在替换时,并非直接使用用户的音频特征,而是融合用户的音频特征以及被替换对象的音频特征,形成最终的音频特征进行发生,提升了更换效果。

需要说明的是,本实施例及后续实施例中的“第一”、“第二”仅为序号,用于区分不同的人物、音频特征、视频资源、文本等,无任何其他意义。

本发明提供的方法,确定第一视频资源;在第一视频资源中,确定第一人物;确定第一人物的第一音频特征;确定与第一人物对应的第二人物,第二人物与第一人物不同;确定第二人物的第二音频特征;根据第二音频特征和第一音频特征确定替换音频特征;根据替换音频特征调整第一人物的声音;音频特征包括,音调、响度、音色、语速、语言风格,实现了视频资源制作后的人物声音变化,提升了参与性和互动性。

参见图2,本实施例提供了一种电子设备,该电子设备包括:存储器201、处理器202、总线203以及存储在存储器201上并可在处理器202上运行的计算机程序。

所述处理器202执行所述程序时实现如下方法:

s101,确定第一视频资源;

s102,在第一视频资源中,确定第一人物;

s103,确定第一人物的第一音频特征;

s104,确定与第一人物对应的第二人物,第二人物与第一人物不同;

s105,确定第二人物的第二音频特征;

s106,根据第二音频特征和第一音频特征确定替换音频特征;

s107,根据替换音频特征调整第一人物的声音;

音频特征包括:音调、响度、音色、语速、语言风格。

可选地,s102包括:

s102-1,确定第一视频资源中各人物的出现总时长以及各人物的音频总时长;

s102-2,按下式确定各人物的排序值:

ce=te2/te1;

其中,e为第一视频资源中的任一人物,ce为第一视频资源中任一人物e的排序值,te1为第一视频资源中任一人物e的出现总时长,te2为第一视频资源中任一人物e的音频总时长;

s102-3,按排序值从大到小,将第一视频资源中所有人物排序;

s102-4,将排序靠前的预设数量个人物,均确定为第一人物;

当第一人物为1个时,第二人物为1个;

当第一人物为多个时,第二人物为多个,且第二人物的数量与第一人物的数量相同,每个第二人物对应一个唯一的第一人物,第二人物与其对应的第一人物不同。

可选地,s104包括:

监控是否至少一个替换资源被触发;

当至少一个替换资源被触发后,从被触发的替换资源中确定第二人物;

其中,至少一个替换资源被触发,包括:

至少一个存储的音频被选中;或者,

至少一个存储的第二视频资源被选中;或者,

至少一个存储的音频被点击;或者,

至少一个存储的第二视频资源被点击;或者,

至少一个音频被上传;或者,

至少一个第二视频资源被上传;或者,

至少一个音频被即时录制;或者,

至少一个第二视频资源被即时拍摄;

第二视频资源与第一视频资源不同。

可选地,第一视频资源为包含音频的动态影像资源,动态影像为电影、电视、动画、游戏、自拍视频、广告视频或者小视频;

第二视频资源为包含音频的动态影像资源,动态影像为电影、电视、动画、游戏、自拍视频、广告视频或者小视频。

可选地,从被触发的替换资源中确定第二人物,包括:

将被触发的替换资源中,被用户选中的人物确定为第二人物;或者,

当被触发的替换资源为音频时,识别被触发的替换资源中所有人物,计算各人物的音频时长,分别计算每个人物的音频时长与音频总时长的比值,根据各人物的比值确定第二人物;或者,

当被触发的替换资源为第二视频资源时,识别被触发的替换资源中所有人物,根据各人物的重要程度确定第二人物。

可选地,各人物的重要程度通过如下方式确定:

针对任一人物i,确定存在任一人物i的所有帧;

根据如下公式确定任一人物i的重要程度:

其中,wi为任一人物i的重要程度,ni为存在任一人物i的帧的总数量,n为第二视频资源的帧的总数量,ti1为任一人物i的出现总时长,t1为被触发的替换资源的视频总时长,ti2为任一人物i的音频总时长,t2为被触发的替换资源的音频总时长,s1为被触发的替换资源的人物有效视频总时长,s2为被触发的替换资源的人物有效音频总时长。

可选地,第一人物的第一音频特征中的语言风格通过如下方法确定:

s301-1,在第一视频资源中,获取第一人物的所有音频;

s301-2,对s301-1中获得的音频进行语音识别,确定第一声音特征;

s301-3,将s301-1中获得的音频转化为第一文本;

s301-4,对第一文本进行语义分析,确定第一词语特征;

s301-5,将第一声音特征和第一词语特征均作为第一人物的第一音频特征中的语言风格;

第二人物的第二音频特征中的语言风格通过如下方法确定:

s302-1,获取第二人物的音频;

s302-2,对s302-1中获得的音频进行语音识别,确定第二声音特征;

s302-3,将s302-1中获得的音频转化为第二文本;

s302-4,对第二文本进行语义分析,确定第二词语特征;

s302-5,将第二声音特征和第二词语特征均作为第二人物的第二音频特征中的语言风格;

声音特征包括:词语发声语调、词间停顿、句子发声语调、重音位置,发音节奏;

重音包括:并列性重音、对比性重音、呼应性重音、递进性重音、转折性重音、肯定性重音、强调性重音、比喻性重音、拟声性重音、反义性重音;

词语特征包括:口头语、修饰语、词语组合、省略语。

可选地,s106包括:

s106-1,获取第一音频特征中的第一音调、第一响度、第一音色、第一语速、第一语言风格;

s106-2,获取第二音频特征中的第二音调、第二响度、第二音色、第二语速、第二语言风格;

s106-3,将第一音调与第二音调的均值确定为替换音频特征中的音调;

s106-4,将第一响度确定为替换音频特征中的响度;

s106-5,将第二音色确定为替换音频特征中的音色;

s106-6,将下述公式的值a3确定为调整为替换音频特征中的语速:

其中,a3为替换音频特征中的语速,a1为第一语速,a2为第二语速,b1为第一语言风格中的词间停顿,b2为第二语言风格中的词间停顿;

s106-7,将第一语言风格中的词语特征与第二语言风格中的词语特征的和确定为替换音频特征中语言风格的词语特征;

s106-8,将第二语言风格中的声音特征确定为替换音频特征中语言风格的声音特征。

本实施例提供的电子设备,确定第一视频资源;在第一视频资源中,确定第一人物;确定第一人物的第一音频特征;确定与第一人物对应的第二人物,第二人物与第一人物不同;确定第二人物的第二音频特征;根据第二音频特征和第一音频特征确定替换音频特征;根据替换音频特征调整第一人物的声音;音频特征包括,音调、响度、音色、语速、语言风格,实现了视频资源制作后的人物声音变化,提升了参与性和互动性。

本实施例提供了一种计算机存储介质,该计算机存储介质执行如下操作:

s101,确定第一视频资源;

s102,在第一视频资源中,确定第一人物;

s103,确定第一人物的第一音频特征;

s104,确定与第一人物对应的第二人物,第二人物与第一人物不同;

s105,确定第二人物的第二音频特征;

s106,根据第二音频特征和第一音频特征确定替换音频特征;

s107,根据替换音频特征调整第一人物的声音;

音频特征包括:音调、响度、音色、语速、语言风格。

可选地,s102包括:

s102-1,确定第一视频资源中各人物的出现总时长以及各人物的音频总时长;

s102-2,按下式确定各人物的排序值:

ce=te2/te1;

其中,e为第一视频资源中的任一人物,ce为第一视频资源中任一人物e的排序值,te1为第一视频资源中任一人物e的出现总时长,te2为第一视频资源中任一人物e的音频总时长;

s102-3,按排序值从大到小,将第一视频资源中所有人物排序;

s102-4,将排序靠前的预设数量个人物,均确定为第一人物;

当第一人物为1个时,第二人物为1个;

当第一人物为多个时,第二人物为多个,且第二人物的数量与第一人物的数量相同,每个第二人物对应一个唯一的第一人物,第二人物与其对应的第一人物不同。

可选地,s104包括:

监控是否至少一个替换资源被触发;

当至少一个替换资源被触发后,从被触发的替换资源中确定第二人物;

其中,至少一个替换资源被触发,包括:

至少一个存储的音频被选中;或者,

至少一个存储的第二视频资源被选中;或者,

至少一个存储的音频被点击;或者,

至少一个存储的第二视频资源被点击;或者,

至少一个音频被上传;或者,

至少一个第二视频资源被上传;或者,

至少一个音频被即时录制;或者,

至少一个第二视频资源被即时拍摄;

第二视频资源与第一视频资源不同。

可选地,第一视频资源为包含音频的动态影像资源,动态影像为电影、电视、动画、游戏、自拍视频、广告视频或者小视频;

第二视频资源为包含音频的动态影像资源,动态影像为电影、电视、动画、游戏、自拍视频、广告视频或者小视频。

可选地,从被触发的替换资源中确定第二人物,包括:

将被触发的替换资源中,被用户选中的人物确定为第二人物;或者,

当被触发的替换资源为音频时,识别被触发的替换资源中所有人物,计算各人物的音频时长,分别计算每个人物的音频时长与音频总时长的比值,根据各人物的比值确定第二人物;或者,

当被触发的替换资源为第二视频资源时,识别被触发的替换资源中所有人物,根据各人物的重要程度确定第二人物。

可选地,各人物的重要程度通过如下方式确定:

针对任一人物i,确定存在任一人物i的所有帧;

根据如下公式确定任一人物i的重要程度:

其中,wi为任一人物i的重要程度,ni为存在任一人物i的帧的总数量,n为第二视频资源的帧的总数量,ti1为任一人物i的出现总时长,t1为被触发的替换资源的视频总时长,ti2为任一人物i的音频总时长,t2为被触发的替换资源的音频总时长,s1为被触发的替换资源的人物有效视频总时长,s2为被触发的替换资源的人物有效音频总时长。

可选地,第一人物的第一音频特征中的语言风格通过如下方法确定:

s301-1,获取在第一视频资源中,获取第一人物的所有音频;

s301-2,对s301-1中获得的音频进行语音识别,确定第一声音特征;

s301-3,将s301-1中获得的音频转化为第一文本;

s301-4,对第一文本进行语义分析,确定第一词语特征;

s301-5,将第一声音特征和第一词语特征均作为第一人物的第一音频特征中的语言风格;

第二人物的第二音频特征中的语言风格通过如下方法确定:

s302-1,获取第二人物的音频;

s302-2,对s302-1中获得的音频进行语音识别,确定第二声音特征;

s302-3,将s302-1中获得的音频转化为第二文本;

s302-4,对第二文本进行语义分析,确定第二词语特征;

s302-5,将第二声音特征和第二词语特征均作为第二人物的第二音频特征中的语言风格;

声音特征包括:词语发声语调、词间停顿、句子发声语调、重音位置,发音节奏;

重音包括:并列性重音、对比性重音、呼应性重音、递进性重音、转折性重音、肯定性重音、强调性重音、比喻性重音、拟声性重音、反义性重音;

词语特征包括:口头语、修饰语、词语组合、省略语。

可选地,s106包括:

s106-1,获取第一音频特征中的第一音调、第一响度、第一音色、第一语速、第一语言风格;

s106-2,获取第二音频特征中的第二音调、第二响度、第二音色、第二语速、第二语言风格;

s106-3,将第一音调与第二音调的均值确定为替换音频特征中的音调;

s106-4,将第一响度确定为替换音频特征中的响度;

s106-5,将第二音色确定为替换音频特征中的音色;

s106-6,将下述公式的值a3确定为调整为替换音频特征中的语速:

其中,a3为替换音频特征中的语速,a1为第一语速,a2为第二语速,b1为第一语言风格中的词间停顿,b2为第二语言风格中的词间停顿;

s106-7,将第一语言风格中的词语特征与第二语言风格中的词语特征的和确定为替换音频特征中语言风格的词语特征;

s106-8,将第二语言风格中的声音特征确定为替换音频特征中语言风格的声音特征。

本实施例提供的计算机存储介质,确定第一视频资源;在第一视频资源中,确定第一人物;确定第一人物的第一音频特征;确定与第一人物对应的第二人物,第二人物与第一人物不同;确定第二人物的第二音频特征;根据第二音频特征和第一音频特征确定替换音频特征;根据替换音频特征调整第一人物的声音;音频特征包括,音调、响度、音色、语速、语言风格,实现了视频资源制作后的人物声音变化,提升了参与性和互动性。

需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。

还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。

最后应说明的是:以上所述的各实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或全部技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1