音频数据教学测评方法及其装置、设备、介质、产品与流程

文档序号：28292437发布日期：2021-12-31 22:50阅读：111来源：国知局

1.本技术涉及音频处理技术领域，尤其涉及一种音频数据教学测评方法及其相应的装置、计算机设备、计算机可读存储介质，以及计算机程序产品。

背景技术：

2.当下，线上歌唱教学越来越流行，歌唱教学过程中，需要对演唱者的演唱效果进行测评，获得相应的测评结果，以便根据测评结果制定相应的指导信息，协助演唱者改进其演唱技巧。
3.考察演唱技巧的相关维度一般包括音准、音域、节奏、气息等方面，针对这些方面，现有技术中，均可应用相关技术对歌唱生成的音频数据进行单项测试，但缺少系统化的业务逻辑，因此，从用户角度来看需要花费大量的时间成本进行测评且操作繁琐。
4.由此缺乏统一综合的业务逻辑，相关歌唱教学平台在提供学唱服务时，也难以提供系统性地学唱指导信息，目前提供学唱教学服务还是以基础通用的唱歌技巧训练为主，缺乏有针对的实时指导。
5.由此可见，现有技术中的歌唱教学服务，尚未能从技术上提供标准化和系统性的解决方案，仍有进步空间。

技术实现要素：

6.本技术的首要目的在于解决上述问题至少之一而提供一种音频数据教学测评方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。
7.为满足本技术的各个目的，本技术采用如下技术方案：
8.适应本技术的目的之一而提供的一种音频数据教学测评方法，包括如下步骤：
9.获取练唱音频数据和教学音频数据，所述练唱音频数据与教学音频数据为同一歌曲相同歌词的不同演唱版本；
10.针对两个以上的唱功维度，根据所述练唱音频数据和教学音频数据的声道运动特征信息计算相应的唱功维度的单项相似评分；
11.根据所述单项相似评分生成评测报告，显示于终端设备的图形用户界面中。
12.深化的实施例中，获取练唱音频数据和教学音频数据，包括如下步骤：
13.播放教学音频数据，启动接收用户语音输入；
14.在所述教学音频数据的播放过程中同步显示该教学音频数据的歌词文本；
15.采集用户输入的语音数据，获得相应的练唱音频数据。
16.具体的实施例中，针对两个以上的唱功维度，分别对所述练唱音频数据和教学音频数据进行声道运动特征提取，获得其各自相应的声道运动特征信息的步骤中，所述唱功维度包括：
17.音准维度，用于指示音频数据中人声演唱部分的音准表现；
18.节奏维度，用于指示音频数据中人声演唱部分的节奏表现；
19.歌词维度，用于指示音频数据中人声演唱部分的读音表现；
20.气息维度，用于指示音频数据中人声演唱部分的声强表现。
21.进一步的实施例中，针对两个以上的唱功维度，根据所述练唱音频数据和教学音频数据的声道运动特征信息计算相应的唱功维度的单项相似评分，包括如下步骤：
22.针对任意预先指定的唱功维度，从所述练唱音频数据和教学音频数据中提取出对应的声道运动特征信息；
23.应用动态时间规整算法，将相同唱功维度的两个声道运动特征信息进行相似度计算，获得该唱功维度相应的单项相似评分。
24.进一步的实施例中，应用动态时间规整算法，将相同唱功维度的两个声道运动特征信息进行相似度计算，获得该唱功维度相应的单项相似评分，包括如下步骤：
25.当所述唱功维度为音准维度时，两个声道运动特征信息分别为练唱音频数据和教学音频数据相对应的基音频率信息，应用动态时间规整算法，计算相应的两个声道运动特征信息的规整路径距离以获得与音准维度相对应的第一单项相似评分；
26.当所述唱功维度为节奏维度时，两个声道运动特征信息分别为练唱音频数据和教学音频数据相对应的基音频率信息，应用动态时间规整算法，计算相应的两个声道运动特征信息的元素间对齐度以获得与节奏维度相对应的第二单项相似评分；
27.当所述唱功维度为歌词维度时，两个声道运动特征信息分别为练唱音频数据和教学音频数据相对应的音素信息，应用动态时间规整算法，计算相应的两个声道运动特征信息的音素间相似度以获得与歌词维度相对应的第三单项相似评分；
28.当所述唱功维度为气息维度时，两个声道运动特征信息分别为练唱音频数据和教学音频数据相对应的功谱图信息，应用动态时间规整算法，计算相应的两个声道运动特征信息的频率间能量强度以获得与气息维度相对应的第四单项相似评分。
29.深化的实施例中，根据所述单项相似评分生成评测报告，显示于终端设备的图形用户界面中,包括如下步骤：
30.将所述各个单项相似评分进行融合，获得综合相似评分；
31.生成测评报告信息，该测评报告信息中包含所述唱功维度及其相应的单项相似评分映射关系的数据对，以及所述综合相似评分；
32.将所述测评报告信息输出至终端设备的图形用户界面中显示。
33.具体的实施例中，生成测评报告信息，包括：
34.根据所述综合相似评分匹配相应的教学推荐信息，将所述教学推荐信息添加至所述测评报告信息中，所述教学推荐信息包括与所述综合相似评分相对应的综合课程信息。
35.较佳的实施例中，将所述测评报告信息输出至终端设备的图形用户界面中显示，包括如下步骤：
36.根据所述测评报告信息中的所述数据对生成各个唱功维度相对应的图表，将该图表输出至所述图形用户界面中显示，所述图表展示练唱音频数据与教学音频数据之间的单项相似评分所转义的信息。
37.深化的实施例中，针对两个以上的唱功维度，根据所述练唱音频数据和教学音频数据的声道运动特征信息计算相应的唱功维度的单项相似评分的步骤同步于所述练唱音频数据的接收而执行，且在该步骤中执行如下具体步骤：
38.响应于所述唱功维度的单项相似评分的实时生成事件，即时反馈该唱功维度相应的单项相似评分相对应图表，输出至图形用户界面中显示；
39.当所述单项相似评分低于预设值时，对所述教学音频数据进行位置标记，以标记出获得所述单项相似评分相对应的时域位置；
40.生成用于模拟教学音频数据中所述时域位置相对应的人声演唱部分相对应嘴部模拟动画，将其配置为关联于该教学音频数据同步播放。
41.适应本技术的目的之一而提供的一种音频数据教学测评装置，包括：数据获取模块、逐项评分模块，以及报告输出模块，其中，所述数据获取模块，用于获取练唱音频数据和教学音频数据，所述练唱音频数据与教学音频数据为同一歌曲相同歌词的不同演唱版本；所述逐项评分模块，用于针对两个以上的唱功维度，根据所述练唱音频数据和教学音频数据的声道运动特征信息计算相应的唱功维度的单项相似评分；所述报告输出模块，用于根据所述单项相似评分生成评测报告，显示于终端设备的图形用户界面中。
42.深化的实施例中，所述数据获取模块包括：音频播放子模块，用于播放教学音频数据，启动接收用户语音输入；歌词显示子模块，用于在所述教学音频数据的播放过程中同步显示该教学音频数据的歌词文本；练唱采集子模块，用于采集用户输入的语音数据，获得相应的练唱音频数据。
43.具体的实施例中，所述唱功维度包括：音准维度，用于指示音频数据中人声演唱部分的音准表现；节奏维度，用于指示音频数据中人声演唱部分的节奏表现；歌词维度，用于指示音频数据中人声演唱部分的读音表现；气息维度，用于指示音频数据中人声演唱部分的声强表现。
44.进一步的实施例中，所述逐项评分模块包括：信息提取子模块，用于针对任意预先指定的唱功维度，从所述练唱音频数据和教学音频数据中提取出对应的声道运动特征信息；规整评分子模块，用于应用动态时间规整算法，将相同唱功维度的两个声道运动特征信息进行相似度计算，获得该唱功维度相应的单项相似评分。
45.进一步的实施例中，所述规整评分子模块被配置为：当所述唱功维度为音准维度时，两个声道运动特征信息分别为练唱音频数据和教学音频数据相对应的基音频率信息，应用动态时间规整算法，计算相应的两个声道运动特征信息的规整路径距离以获得与音准维度相对应的第一单项相似评分；当所述唱功维度为节奏维度时，两个声道运动特征信息分别为练唱音频数据和教学音频数据相对应的基音频率信息，应用动态时间规整算法，计算相应的两个声道运动特征信息的元素间对齐度以获得与节奏维度相对应的第二单项相似评分；当所述唱功维度为歌词维度时，两个声道运动特征信息分别为练唱音频数据和教学音频数据相对应的音素信息，应用动态时间规整算法，计算相应的两个声道运动特征信息的音素间相似度以获得与歌词维度相对应的第三单项相似评分；当所述唱功维度为气息维度时，两个声道运动特征信息分别为练唱音频数据和教学音频数据相对应的功谱图信息，应用动态时间规整算法，计算相应的两个声道运动特征信息的频率间能量强度以获得与气息维度相对应的第四单项相似评分。
46.深化的实施例中，所述报告输出模块包括：评分融合子模块，用于将所述各个单项相似评分进行融合，获得综合相似评分；报告生成子模块，用于生成测评报告信息，该测评报告信息中包含所述唱功维度及其相应的单项相似评分映射关系的数据对，以及所述综合
相似评分；格式化输出子模块，用于将所述测评报告信息输出至终端设备的图形用户界面中显示。
47.具体的实施例中，所述报告生成子模块包括：教学推荐单元，用于根据所述综合相似评分匹配相应的教学推荐信息，将所述教学推荐信息添加至所述测评报告信息中，所述教学推荐信息包括与所述综合相似评分相对应的综合课程信息。
48.较佳的实施例中，所述格式化输出子模块包括：格式处理单元，用于根据所述测评报告信息中的所述数据对生成各个唱功维度相对应的图表，将该图表输出至所述图形用户界面中显示，所述图表展示练唱音频数据与教学音频数据之间的单项相似评分所转义的信息。
49.深化的实施例中，所述逐项评分模块还包括：即时反馈子模块，用于响应于所述唱功维度的单项相似评分的实时生成事件，即时反馈该唱功维度相应的单项相似评分相对应图表，输出至图形用户界面中显示；时域标记子模块，用于当所述单项相似评分低于预设值时，对所述教学音频数据进行位置标记，以标记出获得所述单项相似评分相对应的时域位置；动画生成子模块，用于生成用于模拟教学音频数据中所述时域位置相对应的人声演唱部分相对应嘴部模拟动画，将其配置为关联于该教学音频数据同步播放。
50.适应本技术的目的之一而提供的一种计算机设备，包括中央处理器和存储器，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本技术所述的音频数据教学测评方法的步骤。
51.适应本技术的另一目的而提供的一种计算机可读存储介质，其以计算机可读指令的形式存储有依据所述的音频数据教学测评方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行该方法所包括的步骤。
52.适应本技术的另一目的而提供的一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本技术任意一种实施例中所述方法的步骤。
53.相对于现有技术，本技术的优势如下：
54.本技术在获取练唱音频数据的基础上，基于多个唱功维度将练唱音频数据中的歌唱表现与教学音频数据中的歌唱表现进行逐一比较确定相应的单项相似评分，然后根据该些单项相似评分生成测评报告输出显示，据此，对用户学唱过程中的多个唱功维度进行系统性地关注和分析，获得更为全面综合的测评数据，可以更全面地指导用户进行歌曲学唱，且可为后续的教学推荐信息的制定奠定坚实的基础，所述的测评报告无论是针对所述练唱音频数据实时生成还是后续生成，均可为用户学唱过程提供更有助益的指导作用。
附图说明
55.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：
56.图1为本技术的音频数据教学测评方法的典型实施例的流程示意图；
57.图2为应用本技术的终端设备的图形用户界面示意图，示出用户首次学唱的界面；
58.图3为应用本技术的终端设备的图形用户界面示意图，示出用户首次学唱后生成测试报告的界面；
59.图4为本技术实施例中对多个唱功维度的单项相似评分进行融合并生成测评报告
信息输出至图形用户界面的过程的流程示意图；
60.图5为本技术实施例中生成用于指导二次学唱过程的嘴部模拟动画的过程的流程示意图；
61.图6为应用本技术的终端设备的图形用户界面示意图，示出用户二次学唱时对标记位置进行提示的界面；
62.图7为应用本技术的终端设备的图形用户界面示意图，示出用户二次学唱时到达标记位置播放嘴部模拟动画的界面；
63.图8为本技术的音频数据教学测评装置的原理框图；
64.图9为本技术所采用的一种计算机设备的结构示意图。
具体实施方式
65.下面详细描述本技术的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本技术，而不能解释为对本技术的限制。
66.本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
67.本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。
68.本技术领域技术人员可以理解，这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他诸如个人计算机、平板电脑之类的通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；pcs(personal communications service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；pda(personal digital assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或gps(global positioning system，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音
乐/视频播放终端，例如可以是pda、mid(mobile internet device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。
69.本技术所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件，本质上是具备个人计算机等效能力的电子设备，为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置，计算机程序存储于其存储器中，中央处理器将存储在外存中的程序调入内存中运行，执行程序中的指令，与输入输出设备交互，借此完成特定的功能。
70.需要指出的是，本技术所称的“服务器”这一概念，同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理，所述各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本技术的网络部署方式的实施方式。
71.本技术的一个或数个技术特征，除非明文指定，既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问，也可直接部署并运行于客户端来实施访问。
72.本技术中所引用或可能引用到的神经网络模型，除非明文指定，既可部署于远程服务器且在客户端实施远程调用，也可部署于设备能力胜任的客户端直接调用，某些实施例中，当其运行于客户端时，其相应的智能可通过迁移学习来获得，以便降低对客户端硬件运行资源的要求，避免过度占用客户端硬件运行资源。
73.本技术所涉及的各种数据，除非明文指定，既可远程存储于服务器，也可存储于本地终端设备，只要其适于被本技术的技术方案所调用即可。
74.本领域技术人员对此应当知晓：本技术的各种方法，虽然基于相同的概念而进行描述而使其彼此间呈现共通性，但是，除非特别说明，否则这些方法都是可以独立执行的。同理，对于本技术所揭示的各个实施例而言，均基于同一发明构思而提出，因此，对于相同表述的概念，以及尽管概念表述不同但仅是为了方便而适当变换的概念，应被等同理解。
75.本技术即将揭示的各个实施例，除非明文指出彼此之间的相互排斥关系，否则，各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例，只要这种结合不背离本技术的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通，本领域技术人员应当知晓。
76.本技术的一种音频数据教学测评方法，可被编程为计算机程序产品，部署于客户端和/或服务器中运行而实现，藉此，客户端可以网页程序或应用程序的形式访问该计算机程序产品运行后开放的接口，通过图形用户界面与该计算机程序产品的进程实现人机交互。
77.请参阅图1，本技术的音频数据教学测评方法在其典型实施例中，该方法包括如下步骤：
78.步骤s1100、获取练唱音频数据和教学音频数据，所述练唱音频数据与教学音频数据为同一歌曲相同歌词的不同演唱版本：
79.所述的教学音频数据，一般为音乐学唱服务中，作为教学范本提供的歌曲文件，既可存储于云端服务器中，也可存储于本地客户端，只要本技术的计算机程序产品在运行后
可以获取即可。教学音频数据可以是一首包含人声演唱旋律和伴奏音乐的完整歌曲，也可以仅包括人声演唱部分，对于前者，后续可以进行音轨分离而获得相应的人声演唱部分，本技术后续可基于人声演唱部分对各个唱功维度进行对比分析，从而确定相应的相似评分。
80.所述的练唱音频数据，为使用音乐学唱服务的用户通过其终端设备进行歌唱时由终端设备进行语音信号采集而产生的语音文件，由本技术的计算机程序产品调用获取即可。用户歌唱时，其使用的歌曲为所述教学音频数据相对应的歌曲，通常是仅包含伴奏音乐部分，可以由用户自行从完整歌曲中设置消除人声演唱部分来单纯播放伴奏音乐部分，然后由用户进行演唱，计算机设备在获取到用户的语音输入后，进行常规的回声消除和噪声跟踪等处理，获得单纯的人声演唱部分的音频数据，即可作为所述的练唱音频数据。
81.可以理解，教学音频数据和练唱音频数据也可以均是既包含伴奏音乐又包含人声演唱部分的完整音频数据，只要后续在进行唱功维度的对比分析时能够仅针对其中的人声演唱部分进行即可，本领域技术人员可以按需灵活实施。
82.由此可以理解，教学音频数据与练唱音频数据中，两者一般是基于同一歌曲和相同歌词进行演唱的不同演唱版本，不同演唱版本由不同的人演唱所得，其中一个用作教学范本，一个为学唱样本。
83.一个实施例中，可以通过如下过程来获取所述的练唱音频数据：
84.首先，播放教学音频数据，启动接收用户语音输入：
85.如图2所示，在用户所在的终端设备中，经过必要的用户操作选取教学歌曲调用相应的教学音频数据，进入学唱界面进行播放之后，在计算机设备的后台便开始接收用户的语音输入，以便采集相应的语音数据，生成相应的练唱音频数据。
86.此处，播放所述的教学音频数据具体是播放其中的伴奏音乐部分，因此，其对应的歌曲是一首完整歌曲，既包括伴奏音乐部分也包括人声演唱部分，用户可通过设置去除原声来达到仅播放伴奏音乐的效果。
87.然后，在所述教学音频数据的播放过程中同步显示该教学音频数据的歌词文本：
88.为了方便用户学唱，在图2所示的界面中，一般会同步于所述伴奏音乐部分的播放，而显示相应的歌词文本，以便起到提示作用。
89.最后，采集用户输入的语音数据，获得相应的练唱音频数据：
90.计算机设备在后台接收声卡采集的语音数据，便可获得相应的练唱音频数据，通常，在相应的采集线程中，还会对所述的语音数据进行回声消除、叠加环回时延等处理，使得所述语音数据消除了环境噪声，并且尽量在时域上与所述的伴奏音乐实现对齐，以便后续的对比分析。
91.经过以上过程，便获得了所述的练唱音频数据，而所述的教学音频数据则已经预先提供，因此，两者均可直接调用。
92.步骤s1200、针对两个以上的唱功维度，根据所述练唱音频数据和教学音频数据的声道运动特征信息计算相应的唱功维度的单项相似评分：
93.为了实现将所述练唱音频数据与所述教学音频数据进行综合比较，需要基于两个以上的唱功维度对两者进行量化计算相似度，获得各个唱功维度相应的相似评分。
94.影响歌唱测评的特征参数可大致分为两类：一类是歌唱者生理决定的固有特性相关的参数，此类参数无法轻易改变；另一类是歌唱者声道运动的动态特征，由发声方式和发
声习惯形成，会表现在声音信号频率结构的时间变化上，这类参数相对稳定且可进行学唱指导。据此，本技术根据音频数据中所包含的声道运动特征信息来计算相应的唱功维度的相似评分。从音频数据中获取声道运动特征参数来构成声道运动特征信息的手段，为本领域技术人员所知晓，但是对于声道运动特征信息在本技术中的应用，则请参阅以下继续说明。
95.本技术中，根据不同的唱功维度来从音频数据中获取到相应的声道运动特征信息，所述唱功维度表征歌唱者的演唱技巧，在本技术中的一种较佳的实施例中将其划分为多个维度，分别为音准维度、节奏维度、歌词维度以及气息维度，其中：
96.所述的音准维度，用于指示音频数据中人声演唱部分的音准表现，可通过音频数据的语音帧考察基频数据来获取相关的特征信息；
97.所述的节奏维度，用于指示音频数据中人声演唱部分的节奏表现，同理可通过音频数据的语音帧考察基频数据来获取相关的特征信息；
98.所述的歌词维度，用于指示音频数据中人声演唱部分的读音表现，可通过音频数据的语音帧考察音频数据的音素来获取相关的特征信息；
99.所述的气息维度，用于指示音频数据中人声演唱部分的声强表现，可通过音频数据的语音帧考察音频数据的功率能量来获取相关的特征信息。
100.本技术的其他实施例中，推荐采用的唱功维度为其中各个维度的两种或两种以上，只要后续尽量全面系统地评价用户的唱功技巧是否与教学音频数据中的唱功技巧相接近。
101.根据以上的不同唱功维度，可以分别计算所述练唱音频数据与教学音频数据中人声演唱部分数据之间的相似度，以便确定各个维度相应的各个单项相似评分，推荐的一个实施例中，可按照如下过程进行所述相似评分的计算：
102.首先，针对任意预先指定的唱功维度，从所述练唱音频数据和教学音频数据中提取出对应的声道运动特征信息：
103.以采用本技术所列的所述音准维度、节奏维度、歌词维度、气息维度全部四个唱功维度为例，可分别针对其中每个维度从所述练唱音频数据和教学音频数据的语音帧中，提取出与人声演唱部分相对应的声道运动特征信息，即可用于后续的比较评分。
104.本领域技术人员知晓，将所述练唱音频数据和教学音频数据的语音帧从时域变换到频域，根据转换后的数据获得其中的基频信息及梅尔倒谱系数等数据，便可用于提取各个唱功维度相对应的声道运动特征信息，后续便可进行进一步的比较。
105.然后，应用动态时间规整算法，将相同唱功维度的两个声道运动特征信息进行相似度计算，获得该唱功维度相应的单项相似评分：
106.在语音识别中，简单地将输入模板与相应的参考模板直接做比较存在很大的缺点，因为语音信号具有相当大的随机性，即使是同一个人在不同时刻发出的同一个语音，也不可能具有完全相同的时间长度，因此，时间规整(归正)处理是必有可少的。动态时间弯折(dynamic time warping，dtw)是时间归正和距离测度相结合起来的一种非线性归正技术，也是语音识别中一种很成功的匹配算法。
107.本技术中，可将所述教学音频数据作为参考模板，将所述练唱音频数据作为输入模板，应用动态时间规整算法进行两者关于各个唱功维度的声道运动特征参数之间的匹配
计算，获得各个唱功维度相对应的单项相似评分。具体而言，各个唱功维度可按如下方式应用动态时间规整算法，以获得相应的相似评分：
108.当所述唱功维度为音准维度时，两个声道运动特征信息分别为练唱音频数据和教学音频数据相对应的基音频率信息，应用动态时间规整算法，计算相应的两个声道运动特征信息的规整路径距离，便可获得与音准维度相对应的第一单项相似评分。
109.当所述唱功维度为节奏维度时，两个声道运动特征信息分别为练唱音频数据和教学音频数据相对应的基音频率信息，应用动态时间规整算法，计算相应的两个声道运动特征信息的元素间对齐度，便可获得与节奏维度相对应的第二单项相似评分。
110.当所述唱功维度为歌词维度时，两个声道运动特征信息分别为练唱音频数据和教学音频数据相对应的音素信息，应用动态时间规整算法，计算相应的两个声道运动特征信息的音素间相似度，便可获得与歌词维度相对应的第三单项相似评分；本领域技术人员可以理解，除了从两份音频数据的梅尔倒谱信息获取所述音素信息之外，也可从两份音频数据的时域信息中获取所述的音素信息。
111.当所述唱功维度为气息维度时，两个声道运动特征信息分别为练唱音频数据和教学音频数据相对应的功谱图信息，应用动态时间规整算法，计算相应的两个声道运动特征信息的频率间能量强度，便可获得与气息维度相对应的第四单项相似评分。
112.至此，本领域技术人员根据此处的揭示可以知晓，只要根据本技术此处揭示的原理，通过本领域已知的手段从所述练唱音频数据和教学音频数据中提取出所述各个唱功维度的声道运动特征信息，即可利用所述动态时间规整算法来求得各个唱功维度相应的各项相似评分。
113.步骤s1300、根据所述单项相似评分生成评测报告，显示于终端设备的图形用户界面中：
114.获得所述的各个单项相似评分之后，便可据此生成相应的评测报告。所述的评测报告，可以由本领域技术人员预先设定其报告格式，包括对所述各个单项相似评分及其综合所得的评分如何进行数据或图表上的呈现。
115.所述评测报告，如图3所示的实施方式中，可以包括各个唱功维度相对应的单项相似评分信息，以便使用户可以全面掌握其各方面的唱功技巧表现。
116.一个实施例中，可以在后台获取与所述各个单项相似评分相对应的教学推荐信息，以便向用户推荐相应的教学课程服务。具体而言，终端设备在获得用户练唱音频数据相对应的各个单项相似评分之后，可以将其提交至远程服务器，由远程服务器从数据库中查询与所述各个唱功维度的单项相似评分相匹配的相关教学推荐信息推荐给用户，其中服务器在查询与所述单项相似评分相匹配的教学推荐信息时，如果所述数据库中以各个唱功维度的等级形式关联存储所述的教学推荐信息，则可以先将所述单项相似评分转义为相应的等级，然后从所述数据库中获取相对应等级的教学推荐信息。
117.根据本技术的典型实施例及其变通实施例可以看出，本技术在获取练唱音频数据的基础上，基于多个唱功维度将练唱音频数据中的歌唱表现与教学音频数据中的歌唱表现进行逐一比较确定相应的单项相似评分，然后根据该些单项相似评分生成测评报告输出显示，据此，对用户学唱过程中的多个唱功维度进行系统性地关注和分析，获得更为全面综合的测评数据，可以更全面地指导用户进行歌曲学唱，且可为后续的教学推荐信息的制定奠
定坚实的基础，所述的测评报告无论是针对所述练唱音频数据实时生成还是后续生成，均可为用户学唱过程提供更有助益的指导作用。
118.请参阅图4，深化的实施例中，所述步骤s1300、根据所述单项相似评分生成评测报告，显示于终端设备的图形用户界面中,包括如下步骤：
119.步骤s1310、将所述各个单项相似评分进行融合，获得综合相似评分：
120.本实施例中，为了更为全面系统地体现用户练唱音频数据的综合表现，可以根据预设算法，对所述的各个单项相似评分进行线性融合，例如，采用加权求和的方式对各个唱功维度相应的单项相似评分进行汇总，以便获得最终的综合相似评分。
121.其中，针对各个唱功维度，本领域技术人员可以根据实际情况或先验知识确定其中各个唱功维度进行加权求和的具体权重，例如，可以按照如下的顺序自大至小依次匹配各个维度的权重：歌词维度、节奏维度、音准维度、气息维度，根据此一权重匹配方案体现用户的综合演唱技法水平，更符合听感，也即，用户先将歌词发音唱准，是一首歌曲演唱效果好不好的重要基础，因此，歌词维度应占有最高权重；继而，节奏维度如果把握得不好，整个演唱效果也非常不和谐，因此，节奏维度可以占有次高权重；进而，音准维度主要是衡量用户在每个发音的稳定度，如果用户在演唱每个音调时出现不准确的情况，则无法达到乐谱的要求，但因为有时候个别字的音高发生细微的偏离并不易被感知，因此，音准维度可以匹配以第三高的权重；最后，所述气息维度的单项相似评分可以匹配以最低权重，主要考虑到同一首歌曲由不同人演唱时，可以运用不同的换气方法，只要演唱者可以驾驭即可。由此，可见，本技术以此一方案来确定的综合相似评分，相对于现有技术而言，具有更为系统合理的科学性，不仅全面体现了用户的演唱功法，而且也衡量了各种具体唱功所占的比重，故能准确地反映用户综合唱功技法，为后续定制教学推荐信息奠定了可靠的基础。
122.步骤s1320、生成测评报告信息，该测评报告信息中包含所述唱功维度及其相应的单项相似评分映射关系的数据对，以及所述综合相似评分：
123.本实施例中，所述的测评报告信息中，不仅包含所述各个唱功维度相应的各个单项相似评分，也包含所述的综合相似评分，反映在计算机程序数据层面，可以将构造为“唱功维度
‑
相似评分”之间映射关系的数据对，以便终端设备的应用程序对应解析获取。
124.变通的实施例中，可以如前所述，根据所述综合相似评分从远程服务器的数据库中进行查询，以匹配出相应的教学推荐信息，然后将所述教学推荐信息添加至所述测评报告信息中，区别于现有技术中逐项测评逐项推荐专项课程信息的方式，本实施例中，所述教学推荐信息包括与所述综合相似评分相对应的综合课程信息，以进一步体现出本技术的优越性。
125.步骤s1330、将所述测评报告信息输出至终端设备的图形用户界面中显示：
126.所述测评报告信息生成之后，便可被解析显示，然后将其输出至终端设备的图形用户界面中，如图3所示。其中，如果本技术的计算机程序产品的相关业务逻辑实现于服务器，则可由该服务器将所述测试报告信息推送至用户的终端设备处，由用户的终端设备对该测评报告信息进行解析显示；如果该业务逻辑实现于终端设备上运行的应用程序中，则由该应用程序做相应的处理即可。
127.变通的实施例中，在终端设备的图形用户界面显示所述的测评报告信息时，可以根据所述测评报告信息中的所述数据对生成各个唱功维度相对应的图表，将该图表输出至
所述图形用户界面中显示，所述图表展示练唱音频数据与教学音频数据之间的单项相似评分所转义的信息。
128.本实施例通过将练唱音频数据与教学音频数据对比匹配之后获得的相似评分进行匹配合理权重实现线性融合，获得能够全面系统体现用户的演唱功法的综合相似评分，该综合相似评分作为重要基础，一方面能够为用户的学唱过程提供科学的量化评价信息，另一方面可为在线学唱服务提供重要的信息推荐依据，而方便在线演唱服务根据用户的实际演唱水平推荐合适的教学推荐信息，提供合理的综合课程信息，对用户学唱服务而言，是一个非常重要的技术基础，有利于促使“人人都是音乐人”的早日实现。
129.请参阅图5，深化的实施例中，为了实现实时地为用户的学唱过程提供其各个唱功维度相应的相似评分信息，而在前述各实施例的基础上，进一步深化，故此，所述步骤s1200、针对两个以上的唱功维度，根据所述练唱音频数据和教学音频数据的声道运动特征信息计算相应的唱功维度的单项相似评分的步骤同步于所述练唱音频数据的接收而执行，且在该步骤中执行如下具体步骤：
130.步骤s1210、响应于所述唱功维度的单项相似评分的实时生成事件，即时反馈该唱功维度相应的单项相似评分相对应图表，输出至图形用户界面中显示：
131.本实施例中，终端设备实时接收用户语音输入而形成所述的练唱音频数据，针对这些动态生成的练唱音频数据，以语音帧或者预设定时为基本单位，在产生每个语音帧便运用本技术前述各实施例的方法实时地进行各个唱功维度的单项相似评分的计算，当每次更新一个唱功维度的单项相似评分时，便触发其相应的实时生成事件。
132.故此，响应于该实时生成事件，便可按照本技术前述各实施例相同的方式，生成测评报告信息，并将测评报告信息输出至终端设备的图形用户界面中显示。为了方便用户快速掌握相关信息，所述的图形用户界面中，可以如前所述，以图表的形式表示出各个唱功维度相对应的单项相似评分。可以理解，由于练唱音频数据是实时输入的，从而促进各个唱功维度相对应的单项相似评分被实时动态更新，用户可以实时地看到自身演唱功法相应的各个评分信息。
133.步骤s1220、当所述单项相似评分低于预设值时，对所述教学音频数据进行位置标记，以标记出获得所述单项相似评分相对应的时域位置：
134.为了对用户的学唱过程进行及时的自动化指导，可以在终端设备的后台实现一个判断逻辑，针对用户学唱过程中实时产生的各个唱功维度相对应的单项相似评分进行阈值判决，当一个唱功维度的单项相似评分低于其相应的预设阈值时，便可对教学音频数据进行位置标记，以在教学音频数据的时域位置上标示出产生低于相应预设阈值的单项相似评分的时刻。进行所述的位置标记时，一般会关联相应的唱功维度和单项相似评分，并在用户利用该教学音频数据进行二次练唱时调出并显示，如图6所示。
135.每个唱功维度可以分别对应设置一个所述的预设阈值，以便从不同唱功维度对用户的学唱目标提出不同程度的要求。或者，对于部分实施例中将各个唱功维度的单项相似评分预先归一化为同一分数体系的情况，可以使用统一的预设阈值。又如，即使对于归一化为同一分数体系的情况，不同的唱功维度也可对应于不同的预设阈值，同理可以实现对不同的唱功维度约束不同的学唱目标。对此，本领域技术人员均可灵活设置。
136.步骤s1230、生成用于模拟教学音频数据中所述时域位置相对应的人声演唱部分
相对应嘴部模拟动画，将其配置为关联于该教学音频数据同步播放：
137.为了方便指导用户的二次学唱，对于所述单项相似评分低于预设阈值的情况，针对相应的唱功维度，可以在后台自动为其生成相对应嘴部模拟动画，所述的嘴部模拟动画根据所述位置标记相对应的一段预设时长的歌词内容来生成，可以借助预训练的神经网络模型来实现，也可直接调用预先存储的各个嘴部基础发音动画拼接组成，由此形成的嘴部模拟动画，可以将其实现与所述教学音频数据在时域上的对应关联，据此，当用户二次调用教学音频数据进行学唱时，便可根据相应的关联信息，当到达相应的时域位置时，便在图形用户界面中播放所述的嘴部模拟动画，如图7所示，用户于是可以参照该嘴部模拟动画进行演唱，实现自动模拟教学。
138.本实施例通过根据用户在各个唱功维度的相似评分表现，通过设置一个预设值来决定是否为用户标记需要关注的时域位置，并且为其生成相应的嘴部模拟动画，可以在用户二次调用教学音频数据进行演唱时适时播放该动画，从而起到依据本技术获得的各个唱功维度的相似评分信息实施智能自动化模拟教学的作用，大大提升了在线学唱的人机互动效率。
139.请参阅图8，本技术提供的一种音频数据教学测评装置，适应本技术的音频数据教学测评方法进行功能化部署，包括：数据获取模块1100、逐项评分模块1200，以及报告输出模块1300，其中，所述数据获取模块1100，用于获取练唱音频数据和教学音频数据，所述练唱音频数据与教学音频数据为同一歌曲相同歌词的不同演唱版本；所述逐项评分模块1200，用于针对两个以上的唱功维度，根据所述练唱音频数据和教学音频数据的声道运动特征信息计算相应的唱功维度的单项相似评分；所述报告输出模块1300，用于根据所述单项相似评分生成评测报告，显示于终端设备的图形用户界面中。
140.深化的实施例中，所述数据获取模块1100包括：音频播放子模块，用于播放教学音频数据，启动接收用户语音输入；歌词显示子模块，用于在所述教学音频数据的播放过程中同步显示该教学音频数据的歌词文本；练唱采集子模块，用于采集用户输入的语音数据，获得相应的练唱音频数据。
141.具体的实施例中，所述唱功维度包括：音准维度，用于指示音频数据中人声演唱部分的音准表现；节奏维度，用于指示音频数据中人声演唱部分的节奏表现；歌词维度，用于指示音频数据中人声演唱部分的读音表现；气息维度，用于指示音频数据中人声演唱部分的声强表现。
142.进一步的实施例中，所述逐项评分模块1200包括：信息提取子模块，用于针对任意预先指定的唱功维度，从所述练唱音频数据和教学音频数据中提取出对应的声道运动特征信息；规整评分子模块，用于应用动态时间规整算法，将相同唱功维度的两个声道运动特征信息进行相似度计算，获得该唱功维度相应的单项相似评分。
143.进一步的实施例中，所述规整评分子模块被配置为：当所述唱功维度为音准维度时，两个声道运动特征信息分别为练唱音频数据和教学音频数据相对应的基音频率信息，应用动态时间规整算法，计算相应的两个声道运动特征信息的规整路径距离以获得与音准维度相对应的第一单项相似评分；当所述唱功维度为节奏维度时，两个声道运动特征信息分别为练唱音频数据和教学音频数据相对应的基音频率信息，应用动态时间规整算法，计算相应的两个声道运动特征信息的元素间对齐度以获得与节奏维度相对应的第二单项相
似评分；当所述唱功维度为歌词维度时，两个声道运动特征信息分别为练唱音频数据和教学音频数据相对应的音素信息，应用动态时间规整算法，计算相应的两个声道运动特征信息的音素间相似度以获得与歌词维度相对应的第三单项相似评分；当所述唱功维度为气息维度时，两个声道运动特征信息分别为练唱音频数据和教学音频数据相对应的功谱图信息，应用动态时间规整算法，计算相应的两个声道运动特征信息的频率间能量强度以获得与气息维度相对应的第四单项相似评分。
144.深化的实施例中，所述报告输出模块1300包括：评分融合子模块，用于将所述各个单项相似评分进行融合，获得综合相似评分；报告生成子模块，用于生成测评报告信息，该测评报告信息中包含所述唱功维度及其相应的单项相似评分映射关系的数据对，以及所述综合相似评分；格式化输出子模块，用于将所述测评报告信息输出至终端设备的图形用户界面中显示。
145.具体的实施例中，所述报告生成子模块包括：教学推荐单元，用于根据所述综合相似评分匹配相应的教学推荐信息，将所述教学推荐信息添加至所述测评报告信息中，所述教学推荐信息包括与所述综合相似评分相对应的综合课程信息。
146.较佳的实施例中，所述格式化输出子模块包括：格式处理单元，用于根据所述测评报告信息中的所述数据对生成各个唱功维度相对应的图表，将该图表输出至所述图形用户界面中显示，所述图表展示练唱音频数据与教学音频数据之间的单项相似评分所转义的信息。
147.深化的实施例中，所述逐项评分模块1200还包括：即时反馈子模块，用于响应于所述唱功维度的单项相似评分的实时生成事件，即时反馈该唱功维度相应的单项相似评分相对应图表，输出至图形用户界面中显示；时域标记子模块，用于当所述单项相似评分低于预设值时，对所述教学音频数据进行位置标记，以标记出获得所述单项相似评分相对应的时域位置；动画生成子模块，用于生成用于模拟教学音频数据中所述时域位置相对应的人声演唱部分相对应嘴部模拟动画，将其配置为关联于该教学音频数据同步播放。
148.为解决上述技术问题，本技术实施例还提供计算机设备。如图9所示，计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中，该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种音频数据教学测评方法方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行本技术的音频数据教学测评方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图9中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
149.本实施方式中处理器用于执行图8中的各个模块及其子模块的具体功能，存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本技术的音频数据教学测评装置中执行所有模块/子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执
行所有子模块的功能。
150.本技术还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本技术任一实施例的音频数据教学测评方法的步骤。
151.本技术还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被一个或多个处理器执行时实现本技术任一实施例所述方法的步骤。
152.本领域普通技术人员可以理解实现本技术上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(read
‑
only memory，rom)等计算机可读存储介质，或随机存储记忆体(random access memory，ram)等。
153.综上所述，本技术实现为音乐学唱所得的练唱音频数据进行多个唱功维度的集中统一评分，可以根据评分指导用户学唱，实现歌曲学唱的智能自动教学，便于为学唱用户科学定制教学推荐信息。
154.本技术领域技术人员可以理解，本技术中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本技术中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本技术中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
155.以上所述仅是本技术的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本技术原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本技术的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：段小磊
技术所有人：广州酷狗计算机科技有限公司
我是此专利的发明人

上一篇：一种抗静电橡塑起电性检测装置的制作方法
上一篇：一种生态门的安装结构的制作方法