基于动画视频的音效匹配核验方法及系统与流程

文档序号:37219192发布日期:2024-03-05 15:13阅读:21来源:国知局
基于动画视频的音效匹配核验方法及系统与流程

本技术涉及动画配音的,尤其是涉及一种基于动画视频的音效匹配核验方法及系统。


背景技术:

1、动画视频作品在制作过程中,通常是先完成动画图像作品的制作,在动画图像作品制作完成后,再为动画图像作品配制音频;在动画音频配制的过程中,容易出现音画不一致的现象,例如,动画中角色说话的嘴部动作时间与配音人员的语音音频时间不同步、物品运动时间与对应的音效时间不同步等,容易造成观众观看体验差的问题。


技术实现思路

1、为了便于提高动画视频作品中图像与音频的一致性,本技术提供一种基于动画视频的音效匹配核验方法及系统。

2、本技术的发明目的一采用如下技术方案实现:

3、基于动画视频的音效匹配核验方法,包括:

4、获取动画图像作品并输入至图像特征识别模型中,基于预设的音效素材库所包含的若干音效类型标签,逐帧从动画图像作品中识别各音效类型标签对应的音效特征图像;

5、基于音效特征图像,从音效素材库中匹配对应的备选音效音频,将备选音效音频加载至动画图像作品中,并将对应的音效类型标签和备选音效标识标记至对应的动画图片中,生成预配音效作品;

6、获取语音配制数据和音效修正数据并加载至预配音效作品,生成配音作品;

7、逐帧从配音作品中识别语音特征图像和对应的语音特征信息,将配音作品与语音特征图像进行匹配,在匹配失败的动画图片标记复检标识,生成待审阅动画作品并发送至审阅终端;

8、所述动画图片是指动画图像作品中的单帧图像;所述语音配制数据包括若干段配制语音和对应的角色标识信息、时间标识信息;所述语音特征图像是指出现角色发言的图像特征的图像;所述语音特征信息包括发言者标识信息和发言标记。

9、通过采用上述技术方案,获取待配音的动画图像作品并输入至图像特征识别模型中,根据音效素材库中所包含的音效类型标签,对动画图像作品的每一张动画图片进行图像识别,以识别出与各音效类型标签所对应的音效特征图像;根据音效特征图像,从音效素材库对应类型的预存音效音频中匹配最符合该音效特征图像的音效音频作为备选音效音频,将备选音效音频加载至动画图像作品中,从而实现对动画图像作品的自动音效配音,从而提高了配音工作的效率,将备选音效音频所对应的音效类型标签和备选音效标识标记在动画图片中,生成预配音效作品,便于后续配音人员检查自动匹配的音效是否适合该动画视频作品;获取配音演员为该动画视频作品配制的语音配制数据,具体包括若干段配制语音和对应的角色标识信息、时间标识信息,将语音配制数据和音效修正数据加载至预配音效作品,从而实现对动画视频作品的不恰当自动音效配音的修正和语音配音,从而生成配音作品;逐帧从配音作品中识别存在角色发言的图像特征的图像,得到语音特征图像,并从语音特征图像中分析对应的语音特征信息,将语音配制数据与语音特征信息进行匹配,对匹配失败的动画图片标记复检标识,以生成待审阅动画作品并发送至审阅终端,便于配音人员根据复检标识审阅该动画视频作品中是否存在配制语音与动画中角色说话动作时间不匹配,或者是配制语音与发言者身份不匹配等错误,从而便于提高动画视频作品中图像与音频的一致性。

10、本技术在一较佳示例中:所述获取动画图像作品并输入至图像特征识别模型中,基于预设的音效素材库所包含的若干音效类型标签,逐帧从动画图像作品中识别各音效类型标签对应的音效特征图像,包括:

11、获取动画图像作品并输入至图像特征识别模型中,基于预设的分镜标识信息将动画图像作品划分为若干个场景片段,为各场景片段标记对应的分镜标签信息,所述场景片段包括若干动画图片;

12、确定预设的音效素材库所包含的所有音效类型标签,基于分镜标签信息确定对应的目标音效类型标签;

13、逐一对各动画图片进行图像识别,将存在符合目标音效类型标签的图像特征的动画图片定义为音效特征图像。

14、通过采用上述技术方案,获取动画图像作品并输入至图像特征识别模型中,根据动画视频作品的分镜师在动画图像作品制作过程中确定的分镜标识信息和分镜标签信息,划分并标记各场景片段,便于后续针对不同场景片段的叙事重点自动匹配相应的音效;确定预设音效素材库中所包含的所有音效类型标签,根据分镜标签信息确定对应的目标音效类型标签,便于提高后续识别音效特征图像和自动匹配音效的针对性;逐一对各动画图片进行图像识别,将其中存在符合目标音效类型标签图像特征的动画图片定义为音效特征图像,便于后续匹配相应的备选音效音频。

15、本技术在一较佳示例中:所述确定预设的音效素材库所包含的所有音效类型标签,基于分镜标签信息确定对应的目标音效类型标签之后,还包括:

16、基于音效类型标签和目标音效类型标签,确定非目标音效类型标签,对非目标音效类型标签设定对应的音效弱化系数,所述音效弱化系数的取值范围为[0,1);

17、逐一对各动画图片进行图像识别,将存在符合非目标音效类型标签的图像特征的动画图片定义为音效特征图像。

18、通过采用上述技术方案,音效类型标签包括目标音效类型标签和非目标音效类型标签,对于非目标音效类型标签设定音效弱化系数,便于后续弱化非目标音效类型的音效音频响度;将符合非目标音效类型标签的图像特征的动画图片也定义为音效特征图像,以便通过弱化非目标音效类型的音效音频响度的方式,在实现保留音效细节的前提下,突出目标音效类型的音效音频,从而提高用户的视听体验。

19、本技术在一较佳示例中:所述基于音效特征图像,从音效素材库中匹配对应的备选音效音频,将备选音效音频加载至动画图像作品中,并将对应的音效类型标签和备选音效标识标记至对应的动画图片中,生成预配音效作品,包括:

20、基于音效特征图像所对应的目标音效类型标签和非目标音效类型标签,从音效素材库对应的音效类型文件包中匹配符合所述音效特征图像的音效音频并标记为备选音效音频,确定备选音效音频对应的备选音频标识;

21、将各备选音效音频加载至动画图像作品中,将备选音效音频对应的音效类型标签和备选音效标识标记至备选音效音频所对应的所有动画图片中,生成预配音效作品。

22、通过采用上述技术方案,根据目标音效类型标签和非目标音效类型标签,从音效素材库对应的音效类型文件包中匹配对应目标音效类型标签、非目标音效类型标签,且符合音效特征图像的音效音频并标记为备选音效音频,并进一步获取备选音效音频所对应的标识信息为备选音效标识;将各备选音效音频加载至动画图像作品中,以完成自动音效匹配,并进一步将对应的音效类型标签和备选音效标识标记在该备选音效音频片段所对应的所有动画图片中,从而生成预配音效作品,便于后续配音人员在认为自动匹配的备选音效音频不合适时,重新从该类型的音效类型文件包或其他途径获取合适的音效音频。

23、本技术在一较佳示例中:所述获取语音配制数据和音效修正数据并加载至预配音效作品,生成配音作品,包括:

24、获取语音配制数据,将各段配制语音加载至预配音效作品中,并在配制语音所对应的所有动画图片中标记相应的角色标识信息、时间标识信息;

25、获取音效修正数据,对预配音效作品的备选音效音频进行调整,生成配音作品。

26、通过采用上述技术方案,获取语音配制数据,将各段配制语音加载至预配音效作品中,并在加载了配制语音的片段所对应的所有动画图片中标记配制语音相应的角色标识信息和时间标识信息,便于后续核验配制语音与动画图片的一致性;获取音效修正数据,以对预配音效作品中自动匹配的备选音效音频进行调整,以生成配音作品,便于提高动画视频作品的影音效果。

27、本技术在一较佳示例中:所述逐帧从配音作品中识别语音特征图像和对应的语音特征信息,将配音作品与语音特征图像进行匹配,在匹配失败的动画图片标记复检标识,包括:

28、逐一对各动画图片进行图像识别,将存在角色发言图像特征的动画图片定义为语音特征图像,将同一发言者对应的连续语音特征图像划分为一个语音分段;

29、对语音分段的每一语音特征图像标记对应的发言者标识信息和发言标记,将配音作品与语音特征图像进行匹配;

30、对缺失对应的角色标识信息和时间标识信息的语音特征图像标记复检标识,对标记了发言者标识信息和发言标记的非语音特征图像动画图片标记复检标识。

31、通过采用上述技术方案,由于不同语言的信息密度存在差异,尤其是在海外引入的动画视频作品的配音中,时常出现因为语种不同导致角色在说话时出现音画不同步的现象,因此,逐一对各动画图片进行图像识别,以将存在角色发言的图像特征的动画图片定义为语音特征图像,将同一发言者所对应的连续的语音特征图像划分为一个语音分段内;对语音分段的每一个语音特征图像均标记对应的发言者标识和发言标记,并将配音作品与语音特征图像进行匹配,以便判断配音作品中各段配制语音的角色标识信息、时间标识信息是否与对应语音特征图像的发言者标识和发言标记对应;对缺失对应的角色标识信息和时间标识信息的语音特征图像标记复检标识,以标记存在角色发言图像特征,但没有对应配制语音的动画图片,对标记了发言者标识信息和发言标记的非语音特征图像动画图片标记复检标识,以标记存在配制语音,但没有对应角色发言图像特征的动画图片,复检标识便于配音人员后续对配音作品进行人工核验,调整配制语音或动画图片,以便提高动画视频作品的音画同步性。

32、本技术在一较佳示例中:所述逐一对各动画图片进行图像识别,将存在角色发言图像特征的动画图片定义为语音特征图像,将同一发言者对应的连续语音特征图像划分为一个语音分段之后,还包括:

33、在一场景片段中,若同一角色的相邻语音分段之间不存在该角色的非发言图像,将在前语音分段的最初语音特征图像至在后语音分段的最后语音特征图像之间的所有动画图片均定义为语音特征图像,并合并为一个语音分段。

34、通过采用上述技术方案,在影视作品中,时常会出现某一角色在说话过程中,将视角转向另一角色或另一场景,随后再切换回该发言角色的表现手法,因此,在一个场景片段中,若同一角色的相邻语音分段中,未出现该角色的非发言图像,则将在前语音分段的第一个语音特征图像至在后语音分段的最后一个语音特征图像之间的所有动画图片均定义为语音特征图像,并合并为同一个语音分段,以便减小这种影视表现手法对音画同步核验所造成的影响。

35、本技术的发明目的二采用如下技术方案实现:

36、基于动画视频的音效匹配核验系统,应用于上述任一项所述基于动画视频的音效匹配核验方法,包括:

37、音效特征图像识别模块,用于获取动画图像作品并输入至图像特征识别模型中,基于预设的音效素材库所包含的若干音效类型标签,逐帧从动画图像作品中识别各音效类型标签对应的音效特征图像;

38、预配音效作品生成模块,用于基于音效特征图像,从音效素材库中匹配对应的备选音效音频,将备选音效音频加载至动画图像作品中,并将对应的音效类型标签和备选音效标识标记至对应的动画图片中,生成预配音效作品;

39、配音作品生成模块,用于获取语音配制数据和音效修正数据并加载至预配音效作品,生成配音作品;

40、待审阅动画作品发送模块,用于逐帧从配音作品中识别语音特征图像和对应的语音特征信息,将配音作品与语音特征图像进行匹配,在匹配失败的动画图片标记复检标识,生成待审阅动画作品并发送至审阅终端。

41、本技术在一较佳示例中:所述音效特征图像识别模块包括:

42、场景片段划分子模块,用于获取动画图像作品并输入至图像特征识别模型中,基于预设的分镜标识信息将动画图像作品划分为若干个场景片段,为各场景片段标记对应的分镜标签信息,所述场景片段包括若干动画图片;

43、目标音效类型标签确定子模块,用于确定预设的音效素材库所包含的所有音效类型标签,基于分镜标签信息确定对应的目标音效类型标签;

44、第一音效特征图像确定子模块,用于逐一对各动画图片进行图像识别,将存在符合目标音效类型标签的图像特征的动画图片定义为音效特征图像。

45、本技术在一较佳示例中:所述音效特征图像识别模块还包括:

46、音效弱化系数设定子模块,用于基于音效类型标签和目标音效类型标签,确定非目标音效类型标签,对非目标音效类型标签设定对应的音效弱化系数,所述音效弱化系数的取值范围为[0,1);

47、第二音效特征图像确定子模块,用于逐一对各动画图片进行图像识别,将存在符合非目标音效类型标签的图像特征的动画图片定义为音效特征图像。

48、综上所述,本技术包括以下至少一种有益技术效果:

49、1.获取待配音的动画图像作品并输入至图像特征识别模型中,根据音效素材库中所包含的音效类型标签,对动画图像作品的每一张动画图片进行图像识别,以识别出与各音效类型标签所对应的音效特征图像;根据音效特征图像,从音效素材库对应类型的预存音效音频中匹配最符合该音效特征图像的音效音频作为备选音效音频,将备选音效音频加载至动画图像作品中,从而实现对动画图像作品的自动音效配音,从而提高了配音工作的效率,将备选音效音频所对应的音效类型标签和备选音效标识标记在动画图片中,生成预配音效作品,便于后续配音人员检查自动匹配的音效是否适合该动画视频作品;获取配音演员为该动画视频作品配制的语音配制数据,具体包括若干段配制语音和对应的角色标识信息、时间标识信息,将语音配制数据和音效修正数据加载至预配音效作品,从而实现对动画视频作品的不恰当自动音效配音的修正和语音配音,从而生成配音作品;逐帧从配音作品中识别存在角色发言的图像特征的图像,得到语音特征图像,并从语音特征图像中分析对应的语音特征信息,将语音配制数据与语音特征信息进行匹配,对匹配失败的动画图片标记复检标识,以生成待审阅动画作品并发送至审阅终端,便于配音人员根据复检标识审阅该动画视频作品中是否存在配制语音与动画中角色说话动作时间不匹配,或者是配制语音与发言者身份不匹配等错误,从而便于提高动画视频作品中图像与音频的一致性。

50、2.获取动画图像作品并输入至图像特征识别模型中,根据动画视频作品的分镜师在动画图像作品制作过程中确定的分镜标识信息和分镜标签信息,划分并标记各场景片段,便于后续针对不同场景片段的叙事重点自动匹配相应的音效;确定预设音效素材库中所包含的所有音效类型标签,根据分镜标签信息确定对应的目标音效类型标签,便于提高后续识别音效特征图像和自动匹配音效的针对性;逐一对各动画图片进行图像识别,将其中存在符合目标音效类型标签图像特征的动画图片定义为音效特征图像,便于后续匹配相应的备选音效音频。

51、3.音效类型标签包括目标音效类型标签和非目标音效类型标签,对于非目标音效类型标签设定音效弱化系数,便于后续弱化非目标音效类型的音效音频响度;将符合非目标音效类型标签的图像特征的动画图片也定义为音效特征图像,以便通过弱化非目标音效类型的音效音频响度的方式,在实现保留音效细节的前提下,突出目标音效类型的音效音频,从而提高用户的视听体验。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1