本发明涉及歌声合成,特别涉及一种基于歌声合成大模型生成儿歌的方法。
背景技术:
1、现有的歌声合成模型是基于海量的互联网上的歌曲训练生成的,而海量的互联网上的歌曲中儿歌占的数据量非常少。
2、因此现有技术可以生成流行音乐、古典音乐等多种类型的音乐,且在一定程度上能够达到真人创作者的水平,但是生成儿歌的能力却比较弱,这方面在开源模型或者闭源模型上都是如此,导致现在生成的儿歌数量及效果难以满足儿童对于儿歌的需求。
3、因此有必要提供一种基于歌声合成大模型生成儿歌的方法,以生成与已有歌曲相仿的儿歌,还可以创作出具有生成人独有音色的歌曲。
技术实现思路
1、本发明的目的在于提供一种基于歌声合成大模型生成儿歌的方法,以生成与已有歌曲相仿的儿歌,还可以创作出具有生成人独有音色的歌曲。
2、为了解决现有技术中存在的问题,本发明提供了一种基于歌声合成大模型生成儿歌的方法,包括以下步骤:
3、收集数据,系统性整理和高质量筛选各类适用于儿童的儿歌资源,得到人声音轨与背景音乐音轨,实现文本与音频对齐;
4、训练儿歌风格模型,用于后续批量打标;
5、将人声音轨、背景音乐音轨、音频对齐的文本数据和批量打标的数据输入预训练的大模型进行训练,得到生成儿歌的大模型,以生成儿歌。
6、可选的,在所述基于歌声合成大模型的生成儿歌的方法中,整理和筛选儿歌资源的方式如下:
7、针对市面上现有的儿歌音频及歌词文本,进行初步的数据清洗和预筛,剔除不符合儿歌风格、内容不适宜和音效效果不好的音频样本;
8、基于不同儿歌所适配的儿童年龄段,根据年龄段映射体系对儿歌进行详细分类;
9、对收集到的儿歌音频数据进行音源分离处理,通过音源分离处理拆分出人声音轨与背景音乐音轨;
10、应用自动语音识别模型,对音频进行转写,生成与音频高度一致的歌词文本,以完善训练数据的标签体系,实现文本与音频对齐。
11、可选的,在所述基于歌声合成大模型的生成儿歌的方法中,训练儿歌风格模型的方式如下:
12、通过人工标注对每首儿歌进行全局风格标签赋值;
13、在训练阶段,风格模型利用已标注的样本对不同风格特征进行深度学习,得到训练儿歌风格模型;
14、训练儿歌风格模型用于后续批量打标。
15、可选的,在所述基于歌声合成大模型的生成儿歌的方法中,全局风格标签包括:轻快活泼型、温馨抒情型、运动游戏型、梦幻想象型、自然探索型、叙事故事型、民谣传统型、教育认知型以及趣味诙谐型。
16、可选的,在所述基于歌声合成大模型的生成儿歌的方法中,生成儿歌的大模型具有两种模式,分别为默认音色模式和用户音色模式。
17、可选的,在所述基于歌声合成大模型的生成儿歌的方法中,
18、默认音色模式下,生成儿歌的大模型自动生成带有随机默认音色的歌曲音轨;
19、用户音色模式下,生成儿歌的大模型用默认音色生成完整儿歌,通过已训练好的支持zero-shot的歌声转换模型,将默认音色高保真地转换为用户指定的目标音色。
20、可选的,在所述基于歌声合成大模型的生成儿歌的方法中,默认音色模式下,在歌曲中留有纯音乐间隙,用于通过tts技术插入成人引导语音。
21、本发明与现有技术相比,具有以下优点:
22、(1)本发明可以生成与已有歌曲相仿的儿歌,还可以创作出具有生成人独有音色的歌曲。
23、(2)本发明通过默认音色模式和用户音色模式设计,大模型可针对不同商业应用场景(如儿童生日祝福、亲子互动、个性化儿童专辑定制等)提供灵活的产品配置,满足儿歌领域高付费意愿和个性化需求极强的市场特点。
1.一种基于歌声合成大模型生成儿歌的方法,其特征在于,包括以下步骤:
2.如权利要求1所述的基于歌声合成大模型生成儿歌的方法,其特征在于,整理和筛选儿歌资源的方式如下:
3.如权利要求1所述的基于歌声合成大模型生成儿歌的方法,其特征在于,训练儿歌风格模型的方式如下:
4.如权利要求3所述的基于歌声合成大模型生成儿歌的方法,其特征在于,全局风格标签包括:轻快活泼型、温馨抒情型、运动游戏型、梦幻想象型、自然探索型、叙事故事型、民谣传统型、教育认知型以及趣味诙谐型。
5.如权利要求1所述的基于歌声合成大模型生成儿歌的方法,其特征在于,生成儿歌的大模型具有两种模式,分别为默认音色模式和用户音色模式。
6.如权利要求5所述的基于歌声合成大模型生成儿歌的方法,其特征在于,
7.如权利要求5所述的基于歌声合成大模型生成儿歌的方法,其特征在于,默认音色模式下,在歌曲中留有纯音乐间隙,用于通过tts技术插入成人引导语音。