一种基于深度学习的歌唱片段式多维度评价方法及终端与流程

文档序号：41539945发布日期：2025-04-07 23:17阅读：63来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明涉及音频处理的，特别涉及一种基于深度学习的歌唱片段式多维度评价方法及终端。

背景技术：

1、现有的技术方案，例如ktv歌唱评价系统、运行在移动端设备上的歌唱软件，都是围绕娱乐行业的解决方案。通常的流程包括：

2、a.预处理音频，如去噪、人声分离；

3、b.提取少量特征，通过viterbi或dtw等算法与参考音频对齐；

4、c.计算特征间的距离，得出分数。

5、此类系统的用户通常不关注评分的准确性或具体错误，因此缺乏细致的分析和解释能力。因此，设计一种多维度、细粒度的歌唱评价方法，以提升评价的准确性和可解释性，是当前亟待解决的问题。

6、现有技术在中文歌唱评价方面存在以下不足：

7、（1）现有转录和音节分割方法在中文歌唱场景中表现欠佳；

8、（2）有参考评价中的对齐方法鲁棒性较低，特别是当演唱歌曲发生漏唱时，演唱歌曲与参考歌曲无法很好地对齐，导致评价准确性下降，并难以容错漏唱和音准偏差等情况，无法支持片段式的评价。

9、（3）现有评价方法多集中于整首歌曲，评价粒度粗且评价维度单一。

10、（4）现有的歌唱评价模型对大规模带评分标签的数据集依赖度较高，而这种数据集的构建和模型训练成本较高。

技术实现思路

1、本发明所要解决的技术问题是：提供一种基于深度学习的歌唱片段式多维度评价方法及终端，能够解决中文歌唱评价领域中的评价粒度粗、维度单一的问题。

2、为了解决上述技术问题，本发明采用的技术方案为：

3、一种基于深度学习的歌唱片段式多维度评价方法，包括步骤：

4、s1、根据由歌唱音频与对应时间戳标签构成的中文歌唱数据集，生成带有帧级标签的歌词转录数据集；

5、s2、使用所述中文歌唱数据集训练基于迁移学习的中文歌唱转录模型，将所述中文歌唱转录模型的分类目标由中文歌词的汉字调整为无音标的音节单元，建立基于音节时间戳的分割模型；

6、s3、使用所述分割模型将获取到的测试音频和参考音频转录为对应的音节序列，并对转录后的音节序列进行音节、时间和音高的多维度对齐；

7、s4、根据对齐后的音节序列的音节片段进行节奏、音准和音色特征的评分，根据每个音节片段在所述测试音频中的时长比例进行加权，得到所述测试音频的整体评价分数。

8、为了解决上述技术问题，本发明采用的另一种技术方案为：

9、一种基于深度学习的歌唱片段式多维度评价终端，包括存储器、处理器以及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的一种基于深度学习的歌唱片段式多维度评价方法的各个步骤。

10、本发明的有益效果在于：将中文歌唱数据集中的时间戳标签转换为帧级标签，生成带有细粒度帧级标签的歌词转录数据集；提出基于迁移学习的中文歌唱转录与分割算法，有效提升了转录和分割的准确率；并且，将获取到的测试音频和参考音频转录为对应的音节序列，并对转录后的音节序列进行音节、时间和音高的多维度对齐，能够表现出对漏唱等场景的强鲁棒性；从音准、节奏、音色三个维度建立评价体系进行音节片段的多维评分。以此方式，解决中文歌唱评价领域中的评价粒度粗、维度单一的问题。

技术特征：

1.一种基于深度学习的歌唱片段式多维度评价方法，其特征在于，包括步骤：

2.根据权利要求1所述的一种基于深度学习的歌唱片段式多维度评价方法，其特征在于，步骤s1包括：

3.根据权利要求1所述的一种基于深度学习的歌唱片段式多维度评价方法，其特征在于，步骤s2中的使用所述中文歌唱数据集训练基于迁移学习的中文歌唱转录模型包括：

4.根据权利要求2所述的一种基于深度学习的歌唱片段式多维度评价方法，其特征在于，步骤s2中的建立基于音节时间戳的分割模型包括：

5.根据权利要求1所述的一种基于深度学习的歌唱片段式多维度评价方法，其特征在于，步骤s3中的使用所述分割模型将获取到的测试音频和参考音频转录为对应的音节序列包括：

6.根据权利要求5所述的一种基于深度学习的歌唱片段式多维度评价方法，其特征在于，步骤s3中的对转录后的音节序列进行音节、时间和音高的多维度对齐包括：

7.根据权利要求6所述的一种基于深度学习的歌唱片段式多维度评价方法，其特征在于，步骤s3中还包括：

8.根据权利要求1所述的一种基于深度学习的歌唱片段式多维度评价方法，其特征在于，步骤s4中的根据对齐后的音节序列的音节片段进行节奏、音准和音色特征的评分包括：

9.根据权利要求8所述的一种基于深度学习的歌唱片段式多维度评价方法，其特征在于，所述负样本为二元标签样本。

10.一种基于深度学习的歌唱片段式多维度评价终端，包括存储器、处理器以及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9任一项所述的一种基于深度学习的歌唱片段式多维度评价方法的各个步骤。

技术总结
本发明公开了一种基于深度学习的歌唱片段式多维度评价方法及终端，将中文歌唱数据集中的时间戳标签转换为帧级标签，生成带有细粒度帧级标签的歌词转录数据集；提出基于迁移学习的中文歌唱转录与分割算法，有效提升了转录和分割的准确率；并且，将获取到的测试音频和参考音频转录为对应的音节序列，并对转录后的音节序列进行音节、时间和音高的多维度对齐，能够表现出对漏唱等场景的强鲁棒性；从音准、节奏、音色三个维度建立评价体系进行音节片段的多维评分。以此方式，解决中文歌唱评价领域中的评价粒度粗、维度单一的问题。

技术研发人员：吴清强,曾祥健,梁若暄,刘震,黄仙寿
受保护的技术使用者：福建小知大数信息科技有限公司
技术研发日：
技术公布日：2025/4/6

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴清强,曾祥健,梁若暄,刘震,黄仙寿
技术所有人：福建小知大数信息科技有限公司
我是此专利的发明人

上一篇：一种非金属高速风机的叶轮盖装置及其清洗设备的制作方法
下一篇：一种伐木链条自动磨刃机的制作方法

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！