一种音频测评方法及装置制造方法

文档序号：2827670阅读：199来源：国知局

一种音频测评方法及装置制造方法
【专利摘要】本发明实施例提供一种音频测评方法及装置，其中的方法可包括：获取待测评的演唱单句在目标音频文件中的顺序以及所述演唱单句的待测特征序列；根据所述演唱单句在所述目标音频文件中的顺序，在源音频文件中定位参考单句，并获取所述参考单句的参考特征序列；对所述参考特征序列和所述待测特征序列进行相关运算，获得相关系数序列；根据所述相关系数序列，确定所述演唱单句的测评分数。本发明能够对目标音频文件包含的演唱单句进行测评，满足对音频文件的应用需求，提升音频文件的应用智能性。
【专利说明】一种音频测评方法及装置

【技术领域】
[0001] 本发明涉及互联网【技术领域】，具体涉及音频处理【技术领域】，尤其涉及一种音频测评方法及装置。

【背景技术】
[0002] 随着互联网技术的发展，互联网音频库中收录了大量的诸如歌曲、歌曲片段等音频文件，关于互联网音频的应用也日渐增多，例如：KTV(Karaoke Television，卡拉0K)系统、K歌系统等等。在应用音频文件的过程中，大部分用户希望在音频演绎过程中实时获知演绎水准，例如：用户在演唱某歌曲时，希望获得歌曲各句的测评分数，以了解每句的演唱情况，等等，因此，如何对诸如歌曲等音频文件中的音频单句进行测评成为一个亟待解决的技术问题。

【发明内容】

[0003] 本发明实施例提供一种音频测评方法及装置，能够对目标音频文件包含的演唱单句进行测评，满足对音频文件的应用需求，提升音频文件的应用智能性。
[0004] 本发明实施例第一方面提供一种音频测评方法，可包括：
[0005] 获取待测评的演唱单句在目标音频文件中的顺序以及所述演唱单句的待测特征序列；
[0006] 根据所述演唱单句在所述目标音频文件中的顺序，在源音频文件中定位参考单句，并获取所述参考单句的参考特征序列；
[0007] 对所述参考特征序列和所述待测特征序列进行相关运算，获得相关系数序列；
[0008] 根据所述相关系数序列，确定所述演唱单句的测评分数。
[0009] 本发明实施例第二方面提供一种音频测评装置，可包括：
[0010] 待测获取模块，用于获取待测评的演唱单句在目标音频文件中的顺序以及所述演唱单句的待测特征序列；
[0011] 参考获取模块，用于根据所述演唱单句在所述目标音频文件中的顺序，在源音频文件中定位参考单句，并获取所述参考单句的参考特征序列；
[0012] 相关运算模块，用于对所述参考特征序列和所述待测特征序列进行相关运算，获得相关系数序列；
[0013] 测评模块，用于根据所述相关系数序列，确定所述演唱单句的测评分数。
[0014] 实施本发明实施例，具有如下有益效果：
[0015] 本发明实施例中，可获取目标音频文件中待测评的演唱单句的待测特征序列，以及获取源音频文件中的参考单句的参考特征序列，通过对待测特征序列和参考特征序列的相关运算获得相关系数序列，基于该相关系数序列实现了对目标首频文件的演唱单句的测评，既满足了用户对于音频文件的应用过程中的实际需求，又提升了音频文件的应用智能性。

【专利附图】

【附图说明】
[0016] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0017] 图1为本发明实施例提供的一种音频测评方法的流程图；
[0018] 图2为图1所示的步骤S103的一个实施例的流程图；
[0019] 图3为图1所示的步骤S104的一个实施例的流程图；
[0020] 图4为图1所示的步骤S104的另一个实施例的流程图；
[0021] 图5为本发明实施例提供的一种音频测评装置的结构示意图；
[0022] 图6为图5所不的相关运算|旲块的实施例的结构不意图；
[0023] 图7为图5所示的测评模块的一个实施例的结构示意图；
[0024] 图8为图5所示的测评模块的另一个实施例的结构示意图。

【具体实施方式】
[0025] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0026] 本发明实施例中，音频文件可以包括但不限于：歌曲、歌曲片段等文件。源音频文件指可用于作为音频测评的参考基准的文件，例如：原唱歌曲，或者从原唱歌曲中截取的歌曲片段等等；目标音频文件指需要进行音频测评的文件，例如：用户针对原唱歌曲重新演唱的歌曲，或者从用户重新演唱的歌曲中截取的歌曲片段等等。
[0027] 本发明实施例中，一个音频文件可由至少一个音频单句顺序排列而成，该至少一个音频单句的集合描述了音频文件中需要进行演唱的部分。以歌曲A为例，歌曲A的描述可表示如下：
[0028] [661,860]aaaaaaaa
[0029] [1541，320]bbbbbbbb
[0030] [1871，245]cccccccc
[0031] ......
[0032] 上述歌曲A的描述中，诸如一个音频单句，各音频单句之前的" □"用于描述对应的音频单句的时间属性，其单位时间通常为ms,例如：上述[661,860]用于描述音频单句"aaaaaaaa"的时间属性，其中的"661" 表示音频单句"aaaaaaaa"的开始时间，"860"表示音频单句"aaaaaaaa"的持续时间，假设歌曲A共5分钟，音频单句"aaaaaaaa"则从第661ms开始演唱，持续860ms结束演唱。按照开始时间的先后顺序，可确定音频文件包含的各音频单句的顺序，例如：根据上述歌曲A的描述，音频单句"aaaaaaaa"为第一个音频单句，其在歌曲A中的顺序为1 ;音频单句 "bbbbbbbb"为第二个音频单句，其在歌曲A中的顺序为2 ;以此类推。可以理解的是，每个音频单句开始之前或结束之后还可包含无需进行演唱的部分，例如：上述歌曲A的0-661ms 时间段则为无需进行演唱的部分，该部分可包含前奏信息。
[0033] 本发明实施例中，所述源音频文件由至少一个音频单句顺序排列而成，该音频单句可称为演唱单句。所述目标音频文件由至少一个音频单句顺序排列而成，该音频单句可称为演唱单句。除特别说明外，本发明后续各实施例中，所述参考单句特指从所述源音频文件中定位的参考单句，所述演唱单句特指所述目标音频文件中待测评的演唱单句。
[0034] 下面将结合图1-图4,对本发明实施例提供的音频测评方法进行详细介绍。
[0035] 请参见图1，为本发明实施例提供的一种音频测评方法的流程图；该方法可包括以下步骤S101-步骤S104。
[0036] S101，获取待测评的演唱单句在目标音频文件中的顺序以及所述演唱单句的待测特征序列。
[0037] 音符又叫note，指用于记录不同长短的音的进行的符号，可包括全音符、二分音符、四分音符、八分音符等等种类。一个音频单句可以表示为多个音频帧组成的一个帧序列，每个音频帧均携带音符，各个音符按照各个音频帧在该音频单句中的时间先后顺序构成该音频单句的旋律。音高又叫Pitch，指音的高度。一个音频单句可以表示为多个音频帧组成的一个帧序列，每个音频帧均携带音高，各个音高按照各个音频帧在该音频单句中的时间先后顺序构成该音频单句的旋律。综上，音频单句的音符序列或音高序列均可反映该音频单句的旋律特征。
[0038] 本发明实施例中，优选地，待测评的演唱单句可以为当前演唱单句，此时音频测评过程即可为实时音频测评过程。其中，当前演唱单句指所述目标音频文件中当前正在播放的时间所对应的演唱单句。目标音频文件为歌曲A，以上述歌曲A的描述为例：假设歌曲A共5分钟，当前正在播放的时间为1895ms，根据歌曲A的描述，1895ms属于音频单句 "CCCCCCCC"的时间属性所描述的时间段内，由此可确定音频单句"CCCCCCCC"为当前演唱单句，进一步，可确定音频单句"CCCCCCCC"为待测评的演唱单句，所述待测评的演唱单句在目标音频文件中的顺序为3。
[0039] 本步骤中，可获取该待测评的演唱单句的待测特征序列，所述待测特征序列为所述待测评的演唱单句的音符序列或音高序列。优选地，在所述待测评的演唱单句演唱结束后，获取该待测评的演唱单句的待测特征序列。
[0040] S102,根据所述演唱单句在所述目标音频文件中的顺序，在源音频文件中定位参考单句，并获取所述参考单句的参考特征序列。
[0041] 所述源音频文件可以由至少一个参考单句顺序排列而成。本步骤中，所定位的参考单句在所述源音频文件中的顺序与所述待测评的演唱单句在所述目标音频文件中的顺序相同。按照本实施例的上述例子，若以歌曲A为目标音频文件，则歌曲A在出版发行时的原唱歌曲B为源音频文件，所述待测评的演唱单句的顺序为3,则歌曲B所定位的参考单句的顺序也为3,即从歌曲B中选取第3个参考单句作为所述待测评的演唱单句的测评基准。 [0042] 在本发明实施例的一种可行的实施方式中，所述待测特征序列为所述演唱单句的音符序列，所述参考特征序列为所述参考单句的音符序列。在本发明实施例的另一种可行的实施方式中，所述待测特征序列为所述演唱单句的音高序列，所参考特征序列为所述参考单句的首1?序列。
[0043] S103,对所述参考特征序列和所述待测特征序列进行相关运算，获得相关系数序列。
[0044] 由于所述参考特征序列可用于表征源音频文件中所定位的参考单句的旋律特征，所述待测特征序列可用于表征目标音频文件中待测评的演唱单句的旋律特征，本步骤可对所述参考特征序列和所述待测特征序列之间的相关运算，获得相关系数序列。
[0045] S104,根据所述相关系数序列，确定所述演唱单句的测评分数。
[0046] 本步骤中，所述待测评的演唱单句的测评分数越高，表明所述待测评的演唱单句的演唱效果越好，其越接近所定位的参考单句的演唱效果。反之，所述待测评的演唱单句的测评分数越低，表明所述待测评的演唱单句的演唱效果越差，其越偏离所定位的参考单句的演唱效果。
[0047] 本发明实施例中，可获取目标音频文件中待测评的演唱单句的待测特征序列，以及获取源音频文件中的参考单句的参考特征序列，通过对待测特征序列和参考特征序列的相关运算获得相关系数序列，基于该相关系数序列实现了对目标首频文件的演唱单句的测评，既满足了用户对于音频文件的应用过程中的实际需求，又提升了音频文件的应用智能性。
[0048] 下面将结合附图2-附图4,对附图1所示的音频测评方法中的各步骤进行详细介绍。需要说明的是，后续图2-图4所示实施例中，设定所定位的参考单句包括N个音频帧，所述参考特征序列可表示为P(i);其中，i为整数，且〇彡i彡N-1。具体地，若所述参考特征序列为所述参考单句的音符序列，则P(〇)表示所定位的参考单句中的第一个音频帧的音符，P(l)表示所定位的参考单句中的第二个音频帧的音符，以此类推，P(N-l)表示所定位的参考单句中的第N个音频帧的音符。若所述待测特征序列为所述演唱单句的音高序列，则P(〇)表示所定位的参考单句中的第一个音频巾贞的音高，P(l)表示所定位的参考单句中的第二个音频帧的音符，以此类推，P(N-l)表示所定位的参考单句中的第N个音频帧的音符。
[0049] 设定待测评的演唱单句包括N个音频帧，所述待测特征序列可表示为s (i)，其中， i为整数，且0彡i彡N-ι。具体地，若所述待测特征序列为所述演唱单句的音符序列，则 s(〇)表示所述待测评的演唱单句中的第一个音频帧的音符，s(l)表示所述待测评的演唱单句中的第二个音频帧的音符，以此类推，s(N-l)表示所述待测评的演唱单句中的第N个音频帧的音符。若所述待测特征序列为所述演唱单句的音高序列，则s(0)表示所述待测评的演唱单句中的第一个音频帧的音高，s(l)表示所述待测评的演唱单句中的第二个音频帧的音高，以此类推，s(N-l)表示所述待测评的演唱单句中的第N个音频帧的音高。
[0050] 请参见图2,为图1所示的步骤S103的一个实施例的流程图；该步骤S103可包括以下步骤slOOl-步骤sl004。
[0051] S1001，分别计算所述参考特征序列的均值及所述待测特征序列的均值。
[0052] 本步骤中，可采用下述公式（1)分别计算所述参考特征序列p(i)的均值以及所述待测特征序列s(i)的均值，该公式（1)如下：
[0053] MP = mean (p (i))
[0054] MS = mean (s (i)) (1)
[0055] 上述公式⑴中，MP表示所述参考特征序列p (i)的均值，MS表示所述参考特征序列P(i)的均值，mean()为求均值操作。
[0056] S1002,采用所述参考特征序列的均值，对所述参考特征序列进行规整处理，采用所述待测特征序列的均值，对所述待测特征序列进行规整处理。
[0057] 规整处理的目的在于：将所述参考特征序列和所述待测特征序列调整至同一基准，以消除所述参考特征序列与所述待测特征序列由于均值求取标准不一致所带来的计算偏差影响。
[0058] 本步骤中，可采用公式（2)对所述参考特征序列进行规整处理，该公式（2)可表示如下：
[0059] p2 (i) = p (i) -MP (2)
[0060] 上述公式（2)中，p2 (i)表示规整处理后得到的参考特征序列。
[0061] 本步骤中，可采用公式（3)对所述待测特征序列进行规整处理，该公式（3)可表示如下：
[0062] s2 (i) = s (i) -MS (3)
[0063] 上述公式（3)中，s2(i)表示规整处理后得到的待测特征序列。
[0064] S1003,采用预设削波阈值，将规整处理后的所述参考特征序列转换为参考数值序列，将规整处理后的所述待测特征序列转换为待测数值序列。
[0065] 其中，所述预设削波阈值可根据实际需要进行设定，优选地，所述削波阈值可采用公式（4)进行设定，该公式（4)可表示如下：
[0066] Th_xue = max (max (abs (p2 (i)), max (abs (s2 (i))) (4)
[0067] 上述公式⑷中，Th_xue表示所述预设的削波阈值，max()为最大值求取操作， abs ()为绝对值求取操作。
[0068] 本步骤中，可采用公式（5)将规整处理后的所述参考特征序列转换为参考数值序列，该公式（5)可表示如下：
[0069]

【权利要求】
1. 一种音频测评方法，其特征在于，包括：获取待测评的演唱单句在目标音频文件中的顺序以及所述演唱单句的待测特征序列；根据所述演唱单句在所述目标音频文件中的顺序，在源音频文件中定位参考单句，并获取所述参考单句的参考特征序列；对所述参考特征序列和所述待测特征序列进行相关运算，获得相关系数序列；根据所述相关系数序列，确定所述演唱单句的测评分数。
2. 如权利要求1所述的方法，其特征在于，所述待测特征序列为所述演唱单句的音符序列，所述参考特征序列为所述参考单句的音符序列；或者，所述待测特征序列为所述演唱单句的音高序列，所参考特征序列为所述参考单句的音 1?序列。
3. 如权利要求1所述的方法，其特征在于，所述对所述参考特征序列和所述待测特征序列进行相关运算，获得相关系数序列，包括：分别计算所述参考特征序列的均值及所述待测特征序列的均值；采用所述参考特征序列的均值，对所述参考特征序列进行规整处理，采用所述待测特征序列的均值，对所述待测特征序列进行规整处理；采用预设削波阈值，将规整处理后的所述参考特征序列转换为参考数值序列，将规整处理后的所述待测特征序列转换为待测数值序列；采用互相关函数对所述参考数值序列和所述待测数值序列进行相关运算，获得相关系数序列。
4. 如权利要求1-3任一项所述的方法，其特征在于，所述根据所述相关系数序列，确定所述演唱单句的测评分数，包括：计算所述相关系数序列的最大值；将所述相关系数序列的最大值，确定为所述演唱单句的测评分数。
5. 如权利要求1-3任一项所述的方法，其特征在于，所述根据所述相关系数序列，确定所述演唱单句的测评分数，包括：计算所述相关系数序列的最大值；将所述相关系数序列的最大值映射至预设分数区间，获得所述相关系数序列的最大值的映射值；将所述映射值确定为所述演唱单句的测评分数。
6. -种音频测评装置，其特征在于，包括：待测获取模块，用于获取待测评的演唱单句在目标音频文件中的顺序以及所述演唱单句的待测特征序列；参考获取模块，用于根据所述演唱单句在所述目标音频文件中的顺序，在源音频文件中定位参考单句，并获取所述参考单句的参考特征序列；相关运算模块，用于对所述参考特征序列和所述待测特征序列进行相关运算，获得相关系数序列；测评模块，用于根据所述相关系数序列，确定所述演唱单句的测评分数。
7. 如权利要求6所述的装置，其特征在于，所述待测特征序列为所述演唱单句的音符序列，所述参考特征序列为所述参考单句的音符序列；或者，所述待测特征序列为所述演唱单句的音高序列，所参考特征序列为所述参考单句的音 1?序列。
8. 如权利要求6所述的装置，其特征在于，所述相关运算模块包括：均值计算单元，用于分别计算所述参考特征序列的均值及所述待测特征序列的均值；规整处理单元，用于采用所述参考特征序列的均值，对所述参考特征序列进行规整处理，采用所述待测特征序列的均值，对所述待测特征序列进行规整处理；序列转换单元，用于采用预设削波阈值，将规整处理后的所述参考特征序列转换为参考数值序列，将规整处理后的所述待测特征序列转换为待测数值序列；相关运算单元，用于采用互相关函数对所述参考数值序列和所述待测数值序列进行相关运算，获得相关系数序列。
9. 如权利要求6-8任一项所述的装置，其特征在于，所述测评模块包括：第一计算单元，用于计算所述相关系数序列的最大值；第一测评单元，用于将所述相关系数序列的最大值，确定为所述演唱单句的测评分数。
10. 如权利要求6-8任一项所述的装置，其特征在于，所述测评模块包括：第二计算单元，用于计算所述相关系数序列的最大值；映射单元，用于将所述相关系数序列的最大值映射至预设分数区间，获得所述相关系数序列的最大值的映射值；第二测评单元，用于将所述映射值确定为所述演唱单句的测评分数。
【文档编号】G10L25/69GK104157296SQ201410362595
【公开日】2014年11月19日申请日期:2014年7月28日优先权日:2014年7月28日
【发明者】赵伟峰申请人:腾讯科技（深圳）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵伟峰
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：一种基于文本信息的波形拼接语音合成方法
上一篇：基于加权贝叶斯混合模型的与文本无关的说话人识别方法