一种自动修音系统及修音方法与流程

文档序号:24160193发布日期:2021-03-05 15:47阅读:399来源:国知局
一种自动修音系统及修音方法与流程

[0001]
本发明涉及修音系统及方法。属于音频处理技术领域。


背景技术:

[0002]
k歌是一种流行的娱乐消遣方式,k歌对参与人数没有限制,可以是一群人的狂欢也可以是一个人的发泄;并且随着移动端k歌软件的普及,对专业装备和场所的需求也越来越低。唱歌跑调和跟不上节奏已经成为人们享受k歌乐趣的最大限制之一。通过对演唱语音的修音,具体为节奏和音高的调整,可以将演唱的音频调整到趋近标准演唱的状态。无论是k歌还是现场演唱都需要将演唱的歌曲经过修音之后再呈现出来,使歌曲呈现的更加自然。但是现有的修音技术修出来的声音仍然不是很自然,还存在不自然的机械音。
[0003]
现有修音技术包括:手动修音,虽然修音的效果和颗粒度可以达到最佳,但是时间和费用开销较大,无法普及;段落修音,只能对歌曲段落的音高和节奏进行整体调整,由于颗粒度较大,无法解决细节的问题;标准模板切分,根据标准音频对用户演唱音频进行切分,虽然颗粒度更小,但是无法解决演唱节奏偏差的问题。常见的调整策略有:手动调整,用户手动输入调整参数,修音效果相对较好但是操作相对繁琐;模板匹配,将演唱的音高和节律直接调整为乐曲中的系数或者以固定的策略进行调整,修音效果相对较差。
[0004]
因此,现有的修音技术不但操作复杂、呈现出来的音频不可避免的会出现不自然的机械音现象。


技术实现要素:

[0005]
本发明是为了解决现有的修音技术复杂,且无法输出自然音频的问题。现提供一种自动修音系统及修音方法。
[0006]
一种自动修音系统,所述自动修音系统包括录音模块、曲库模块、音频切分模块、特征提取模块、修音决策模块和修音实施模块,
[0007]
录音模块,用于获取用户演唱的实际音频;
[0008]
曲库模块,用于获取用户演唱歌曲的原始标准音频;
[0009]
音频切分模块分别连接所述录音模块和所述曲库模块,用于分别识别所述实际音频和所述原始标准音频,将识别出的所述实际音频和识别出的所述原始标准音频对齐后再进行切分,得到对应于所述实际音频的多个实际音频段以及对应于所述原始标准音频的多个原始音频段,所述实际音频段与所述原始音频段一一对应;
[0010]
特征提取模块连接所述音频切分模块,用于分别采集得到每段所述实际音频段的实际音频特征以及每段所述原始音频段的原始音频特征;
[0011]
修音决策模块连接所述特征提取模块,用于针对每段所述实际音频段,将所述实际音频特征与对应的所述原始音频段的所述原始音频特征进行比对以得到特征差值,并根据所述特征差值确定所述实际音频段的修音策略;
[0012]
修音实施模块连接所述修音决策模块,用于针对每段所述实际音频段,采用被确
定的所述修音策略对所述实际音频段进行调整,随后拼接所有调整后的所述实际音频段以生成并输出修音后的音频。
[0013]
优选地,所述修音决策模块中预先训练形成一修音决策模型,所述修音决策模型关联于多个修音策略;
[0014]
则所述修音决策模块将所述特征差值输入至所述修音决策模型中得到所述修音策略。
[0015]
优选地,还包括:
[0016]
策略选择和自定义模块,所述策略选择和自定义模块中预设有多个所述修音策略,并提供给用户对所述修音策略进行编辑和/或添加新的所述修音策略;
[0017]
学习模块,分别连接所述修音决策模块和所述策略选择和自定义模块,用于接收用户对所述修音策略进行编辑和/或添加的结果,并根据结果对所述修音决策模型进行训练,以将所述修音决策模型与被编辑和/或修改的所述修音策略进行关联。
[0018]
优选地,每个所述修音策略中包括对应的修音调整系数;
[0019]
则所述修音实施模块根据被确定的所述修音策略,采用对应的所述修音调整系数对所述实际音频段进行调整。
[0020]
优选地,所述音频切分模块具体包括:
[0021]
音频对齐单元,用于将所述实际音频和所述原始标准音频进行对齐,输出对齐结果;
[0022]
音频切分单元,连接所述音频对齐单元,用于根据所述对齐结果,分别对所述实际音频和所述原始标准音频进行切分,以得到多个所述实际音频段以及多个所述原始音频段。
[0023]
优选地,所述音频对齐单元具体包括:
[0024]
语音识别部件,用于对所述实际音频和所述原始标准音频分别进行语音识别,并根据语音识别的结果对所述实际音频进行对齐,并输出初步对齐结果;
[0025]
歌词获取部件,用于获取所述实际音频的标准歌词;
[0026]
辅助对齐切分部件,分别连接所述语音识别部件和所述歌词获取部件,用于根据所述标准歌词对所述初步对齐结果进行辅助对齐,以形成所述对齐结果并输出。
[0027]
优选地,所述音频切分单元具体包括:
[0028]
字词切分部件,所述字词切分单元中预先设置有字词模型,所述字词切分部件用于采用所述字词模型,词组或者字或者音素的切分标准分别对对齐后的所述实际音频和所述原始标准音频进行切分,以得到多个所述实际音频段以及多个所述原始音频段。
[0029]
优选地,所述特征提取模块具体包括:
[0030]
音高提取单元,用于分别提取每个所述实际音频段以及每个所述原始音频段的音高特征;
[0031]
节奏提取单元,用于分别提取每个所述实际音频段以及每个所述原始音频段的节奏特征;
[0032]
时长提取单元,用于提取每个所述实际音频段以及每个所述原始音频段的时长特征;
[0033]
特征整合单元,分别连接所述音高提取单元、所述节奏提取单元以及所述时长提
取单元,用于分别将对应的所述音高特征、所述节奏特征和所述时长特征包括在所述实际音频特征和所述原始音频特征中输出。
[0034]
一种自动修音方法,所述修音方法包括以下步骤:
[0035]
步骤s1、获取用户演唱的实际音频和用户演唱歌曲的原始标准音频
[0036]
步骤s2、分别识别所述实际音频和所述原始标准音频,将识别出的所述实际音频和识别出的所述原始标准音频对齐后再进行切分,得到对应于所述实际音频的多个实际音频段以及对应于所述原始标准音频的多个原始音频段,所述实际音频段与所述原始音频段一一对应;
[0037]
步骤s3、分别采集得到每段所述实际音频段的实际音频特征以及每段所述原始音频段的原始音频特征;
[0038]
步骤s4、针对每段所述实际音频段,将所述实际音频特征与对应的所述原始音频段的所述原始音频特征进行比对以得到特征差值,并根据所述特征差值确定所述实际音频段的修音策略;
[0039]
步骤s5、针对每段所述实际音频段,采用被确定的所述修音策略对所述实际音频段进行调整,随后拼接所有调整后的所述实际音频段以生成并输出修音后的音频。
[0040]
优选地,步骤s4中,根据所述特征差值确定所述实际音频段的修音策略的具体过程为:
[0041]
针对每段所述实际音频段,将所述实际音频特征与对应的所述原始音频段的所述原始音频特征进行比对以得到特征差值,采用预先训练形成的修音决策模型对所述特征差值进行解析,得到包含修音调整系数的修音策略;
[0042]
步骤s5中,采用被确定的所述修音策略对所述实际音频段进行调整的具体过程为:
[0043]
根据得到的所述修音策略,采用内部包含的修音调整系数对所述实际音频段进行调整。
[0044]
本发明的有益效果为:
[0045]
本申请先获取用户演唱的实际音频和用户演唱歌曲的原始标准音频,将识别出的实际音频和识别出的原始标准音频对齐后再进行切分,此时得到的实际音频的波形几乎接近原始标准音频的波形,切分之后得到的每个音频段的颗粒度更小,再采集每段实际音频段的实际音频特征以及每段原始音频段的原始音频特征;对二者的音频特征进行比对以得到特征差值,并根据特征差值确定所述实际音频段的修音策略;采用被确定的所述修音策略对实际音频段进行调整,随后拼接所有调整后的所述实际音频段以生成并输出修音后的音频。采用特征差值的方式进行修音,修音效率高,采用修音策略调整实际音频段,最终得到自然的音频,本申请的修音方法比现有修音方法更简单、修音效果更好,因为在修音过程中时刻参照原始标准音频进行修正,所以不会出现节奏偏差、变音等问题,而是得到更加自然的音频,能够实现优秀的修音效果。
附图说明
[0046]
图1为本发明的一种自动修音系统的原理示意图;
[0047]
图2为本发明的一种自动修音系统的整体原理示意图;
[0048]
图3为音频对齐单元的组成图;
[0049]
图4为音频切分单元的组成图;
[0050]
图5为特征提取模块的组成图;
[0051]
图6为本发明的一种自动修音方法的流程图。
具体实施方式
[0052]
下面将结合本发明实施例中的附图,对本能够实施例中的技术方案进行清除、完整地描述,显然,所描述的实施例仅仅是发明一部分实时例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0053]
下面结合附图和具体实施例对本发明作进一步说明。
[0054]
实施例1:
[0055]
本发明提供的一种自动修音装置,用于在播音之前进行修音,如图1所示,包括录音模块1、曲库模块2、音频切分模块3、特征提取模块4、修音决策模块5、策略选择及自定义模块6、修音实施模块7和播放模块8,
[0056]
录音模块1,用于获取用户演唱的音频;
[0057]
曲库模块2,用于获取用户演唱歌曲的原始标准音频;
[0058]
音频切分模块3分别连接所述录音模块1和所述曲库模块2,用于分别识别演唱的音频和标准音频,将识别出的演唱的音频和识别出的所述标准音频对齐,根据识别出的标准音频切分对齐后演唱的音频,得到多个音频段;
[0059]
特征提取模块4连接所述音频切分模块3,用于采集并提取每个音频段特征,将具有相同特征的相邻音频段组成一个特征序列,得到多个特征序列;
[0060]
修音决策模块5连接所述特征提取模块4,用于根据多个特征序列和识别出的标准音频,生成多种修音策略,每种修音策略中都包含有所有对应特征序列的修音调整系数;
[0061]
策略选择及自定义模块6,用于选取一种修音策略或对选取的修音策略进行编辑;
[0062]
修音实施模块7连接所述策略选择及自定义模块6,用于采用选取的修音策略或编辑的修音策略调整每个特征序列内音频段,拼接调整后的特征序列,生成修音后的音频;
[0063]
播放模块8连接所述修音实施模块7,用于播放修音后的音频。
[0064]
具体地,将修音策略应用到用户演唱音频的所有音频段上,调整每段音频的音高和节奏等,拼接之后生成修音后的音频;此时输出的音频相比用现有修音技术处理输出的音频更加自然,并且本申请操作简单,处理效率高。
[0065]
修音决策模块的目标为将用户演唱的实际音频修改到趋近标准演唱音频的音高和节奏,同时尽量避免不自然的机械音现象。
[0066]
本发明的一种较优实施例中,所述修音决策模块5中预先训练形成一修音决策模型,所述修音决策模型关联于多个修音策略;
[0067]
则所述修音决策模块5将所述特征差值输入至所述修音决策模型中得到所述修音策略。
[0068]
具体地,对专业修音人员经验的总结;对大量用户修音习惯的统计;使用深度学习等机器学习方法来生成修音策略。
[0069]
本发明的一种较优实施例中,如图2所示,还包括:
[0070]
策略选择和自定义模块7,所述策略选择和自定义模块7中预设有多个所述修音策略,并提供给用户对所述修音策略进行编辑和/或添加新的所述修音策略;
[0071]
学习模块8,分别连接所述修音决策模块5和所述策略选择和自定义模块7,用于接收用户对所述修音策略进行编辑和/或添加的结果,并根据结果对所述修音决策模型进行训练,以将所述修音决策模型与被编辑和/或修改的所述修音策略进行关联。
[0072]
具体地,用户可以选择一种候选修音策略或者自定义修音策略来对实际音频段进行修音,一个修音策略可以对所有音频段进行修音,因为一个修音策略中包含有所有对应音频段的修音调整系数;用户可以自定义修音策略,以更精细控制修音效果。
[0073]
本申请具有灵活性,因为可以让用户挑选喜欢的修音策略,同时也提供用户手动编辑修音策略的功能。可以根据用户想要的输出音频的效果进行手动编辑修音策略,也可以从多种修音策略中选择一种适合的修音策略进行修音。
[0074]
为了进一步提升修音的效果,修音决策模块会根据学习模块来学习用户的偏好进行学习,为后续的修音提供更好的修音策略。例如,学习模块接收到用户编辑的修音策略来进行学习,输出的修音策略都是以用户喜欢的或习惯的方式呈现的修音策略。
[0075]
学习模块可以通过本地服务器或者云端服务接收用户挑选的修音策略或者用户编辑的修音策略,然后采用迭代方法更新该修音策略,将更新后的修音策略反馈给修音决策模块,所以,学习模块的作用是为了更好的适应用户的使用。
[0076]
本发明的一种较优实施例中,每个所述修音策略中包括对应的修音调整系数;
[0077]
则所述修音实施模块6根据被确定的所述修音策略,采用对应的所述修音调整系数对所述实际音频段进行调整。
[0078]
具体地,具有学习功能的修音决策模块以用户演唱音频和标准音频的音高和节奏等音频特征作为输入,并输出若干种候选修音策略,每种修音策略都包含所有对应音频段的修音调整系数。以便对每个音频特征进行修音。
[0079]
本发明的一种较优实施例中,如图3所示,所述音频切分模块3具体包括:
[0080]
音频对齐单元3-1,用于将所述实际音频和所述原始标准音频进行对齐,输出对齐结果;
[0081]
音频切分单元3-2,连接所述音频对齐单元3-1,用于根据所述对齐结果,分别对所述实际音频和所述原始标准音频进行切分,以得到多个所述实际音频段以及多个所述原始音频段。
[0082]
具体地,将识实际音频和原始标准音频对齐后再进行切分,此时得到的实际音频的波形几乎接近原始标准音频的波形,切分之后得到的每个音频段的颗粒度更小。
[0083]
本发明的一种较优实施例中,所述音频对齐单元3-1具体包括:
[0084]
语音识别部件3-1-1,用于对所述实际音频和所述原始标准音频分别进行语音识别,并根据语音识别的结果对所述实际音频进行对齐,并输出初步对齐结果;
[0085]
歌词获取部件3-1-2,用于获取所述实际音频的标准歌词;
[0086]
辅助对齐切分部件3-1-3,分别连接所述语音识别部件3-1-1和所述歌词获取部件3-1-2,用于根据所述标准歌词对所述初步对齐结果进行辅助对齐,以形成所述对齐结果并输出。
[0087]
具体地,由于大部分歌曲的歌词可以提前通过歌词获取单元获取,可以使用歌曲的歌词辅助语音识别和对齐的过程。使演唱歌曲的音频波形更接近标准歌曲的音频。采用歌词帮助音频切分的更精确。
[0088]
本发明的一种较优实施例中,如图4所示,所述音频切分单元3-2具体包括:
[0089]
字词切分部件3-2-1,所述字词切分单元中预先设置有字词模型,所述字词切分部件3-2-1用于采用所述字词模型,词组或者字或者音素的切分标准分别对对齐后的所述实际音频和所述原始标准音频进行切分,以得到多个所述实际音频段以及多个所述原始音频段。
[0090]
具体地,先将演唱的音频和标准音频对齐,对齐后的演唱的音频波形接近标准音频的波形,然后再对对齐后的演唱的音频按照字、音素或者词组进行切分,按照字、音素或者词组进行切分的目的是保证正确的词不分开,保证歌词的完整性,然后提取得到的每段音频段,将具有相同特征的音频段组成一个特征序列,此时,音频段的顺序没有被打乱。并且得到的每个音频段的颗粒度更小,音频切分的更细致,便于对每个具有相同特征序列的音频段进行统一处理,本实施例切分的好处是对具有相同特征的音频段处理起来更迅速,也增加了修音的处理速度。
[0091]
分别对用户演唱的音频和标准音频进行语音识别和对齐,并根据语音识别结果对音频进行音素、字或词组级别进行切分;这样细致的切分后的音频的颗粒度更小,便于以后对每个特征序列都可以应用不同的修音方法。本申请处理音频更加细致,最后得到的音频更加自然。
[0092]
字词模型中存储有词组、字或音素,演唱音频的标准歌词按照字词模型中存储的词组、字或音素对对齐后演唱的音频进行切分。
[0093]
本发明的一种较优实施例中,如图5所示,所述特征提取模块4具体包括:
[0094]
音高提取单元4-1,用于分别提取每个所述实际音频段以及每个所述原始音频段的音高特征;
[0095]
节奏提取单元4-2,用于分别提取每个所述实际音频段以及每个所述原始音频段的节奏特征;
[0096]
时长提取单元4-3,用于提取每个所述实际音频段以及每个所述原始音频段的时长特征;
[0097]
特征整合单元4-4,分别连接所述音高提取单元4-1、所述节奏提取单元4-2以及所述时长提取单元4-3,用于分别将对应的所述音高特征、所述节奏特征和所述时长特征包括在所述实际音频特征和所述原始音频特征中输出。
[0098]
具体地,音高提取单元、节奏提取单元和时长提取单元分别计算用户演唱音频片段和歌曲标准音频片段的音高和节奏特征,将具有相同特征的相邻音频段组成一个音频特征,如果相邻的两个音频段都具有音高和节奏快的特征,那么就将这两个音频段组成一个音频特征,组成音频特征的目的是,便于采用修音策略中的同一修音调整系数对相应的音频特征进行修音,这样处理效率高。
[0099]
实施例2:
[0100]
本发明提供的一种自动修音方法,用于在播音之前进行修音,如图6所示,所述修音方法包括以下步骤:
[0101]
步骤s1、获取用户演唱的实际音频和用户演唱歌曲的原始标准音频;
[0102]
步骤s2、分别识别所述实际音频和所述原始标准音频,将识别出的所述实际音频和识别出的所述原始标准音频对齐后再进行切分,得到对应于所述实际音频的多个实际音频段以及对应于所述原始标准音频的多个原始音频段,所述实际音频段与所述原始音频段一一对应;
[0103]
步骤s3、分别采集得到每段所述实际音频段的实际音频特征以及每段所述原始音频段的原始音频特征;
[0104]
步骤s4、针对每段所述实际音频段,将所述实际音频特征与对应的所述原始音频段的所述原始音频特征进行比对以得到特征差值,并根据所述特征差值确定所述实际音频段的修音策略;
[0105]
步骤s5、针对每段所述实际音频段,采用被确定的所述修音策略对所述实际音频段进行调整,随后拼接所有调整后的所述实际音频段以生成并输出修音后的音频。
[0106]
本发明的一种较优实施例中,步骤s4中,根据所述特征差值确定所述实际音频段的修音策略的具体过程为:
[0107]
针对每段所述实际音频段,将所述实际音频特征与对应的所述原始音频段的所述原始音频特征进行比对以得到特征差值,采用预先训练形成的修音决策模型对所述特征差值进行解析,得到包含修音调整系数的修音策略;
[0108]
步骤s5中,采用被确定的所述修音策略对所述实际音频段进行调整的具体过程为:
[0109]
根据得到的所述修音策略,采用内部包含的修音调整系数对所述实际音频段进行调整。
[0110]
具体地,为了进一步提升修音的效果,可以根据用户的偏好进行学习,为后续的修音提供更好的修音策略;可以根据用户选择习惯或者自定义对修音策略进行更新。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1