一种音频响度异常检测方法、设备及存储介质与流程

文档序号：33191593发布日期：2023-02-04 08:43阅读：95来源：国知局

1.本发明涉及音频检测技术领域，特别涉及一种音频响度异常检测方法、设备及存储介质。

背景技术：

2.音频文件中可能存在响度忽大忽小的情况，导致整个作品响度听起来不一致，用户体验差。例如，在一些播客节目中，经常有一些固定的音频片头、片中、片尾，比如“欢迎来到某某有声书平台，我是主持人某某”，“今天的节目到此结束，欢迎收听下一期节目，谢谢大家，再见！”等等。因为这些都是固定的，因此一般只录制一遍后保存，每次主播只要录制正文，然后将固定的片头、片尾等，插入到正文需要的位置，即可完成作品的制作；有些有声书朗读，比如网文，篇章较多，甚至达上千章，因此通过自动化的处理片段片尾也很常见。现实上，由于有些主播对音频编辑的专业性不足、或者考虑不周、或者自动化处理时，未考虑固定片头、片中、片尾等音频片段的响度，与拼接前后正文的音频响度的关系，从而导致，片头、片尾的声音，存在过大、过小的可能，如片头的声音明显比正文的声音要大，或片头的声音明显比正文的声音要小，因此导致整个作品响度听起来不一致。综上，在实现本发明的过程中，发明人至少发现现有技术中存在音频文件中响度忽大忽小不一致的问题。

技术实现要素：

3.有鉴于此，本发明的目的在于提供一种音频响度异常检测方法、设备及介质，能够实现自动化的对音频文件进行响度异常检测，及时从海量音频文件中发现存在响度异常的音频文件。其具体方案如下：
4.第一方面，本技术公开了一种音频响度异常检测方法，包括：
5.获取待检测音频，按照预设时间长度对所述待检测音频进行分割，得到多个音频片段；
6.计算每个所述音频片段对应的音频响度值，从所有所述音频响度值中筛选出目标音频响度值，并将所述目标音频响度值对应的音频片段作为目标音频片段；
7.根据所述目标音频片段与所述目标音频片段左侧的音频片段之间的音频响度差异，以及所述目标音频片段与所述目标音频片段右侧的音频片段之间的音频响度差异，判断所述待检测音频是否存在响度异常。
8.可选的，所述根据所述目标音频片段与所述目标音频片段左侧的音频片段之间的音频响度差异，以及所述目标音频片段与所述目标音频片段右侧的音频片段之间的音频响度差异，判断所述待检测音频是否存在响度异常，包括：
9.按照目标音频集合生成规则，生成以所述目标音频片段为锚点的目标音频集合；
10.选取与所述目标音频集合左侧相邻的连续预设数量的音频片段作为第一音频片段集合，选取与所述目标音频集合右侧相邻的连续预设数量的音频片段作为第二音频片段集合；
11.根据所述目标音频集合与所述第一音频片段集合之间的音频响度差异，以及所述目标音频集合与所述第二音频片段集合之间的音频响度差异，判断所述目标音频片段所在的音频片段大集合内是否存在响度异常，并根据音频片段大集合的判断结果判定所述待检测音频是否存在响度异常。
12.可选的，所述按照目标音频集合生成规则，生成以所述目标音频片段为锚点的目标音频集合之前，还包括：
13.从所有所述音频响度值中筛选出最大音频响度值和最小音频响度值，并计算所述最大音频响度值与所述最小音频响度值的差值；
14.若所述差值小于第一预设阈值，则判定所述待检测音频不存在响度异常；
15.若所述差值大于或等于所述第一预设阈值，则执行所述按照目标音频集合生成规则，以所述目标音频片段为锚点生成对应的目标音频集合的操作。
16.可选的，所述按照目标音频集合生成规则，生成以所述目标音频片段为锚点的目标音频集合，包括：
17.以所述目标音频片段左侧相邻的音频片段为首个音频片段，向左依次计算每个音频片段与所述目标音频片段的响度差值，并将所述响度差值小于第二预设阈值的音频片段作为待选片段，直至出现首个响度差值大于或等于所述第二预设阈值的音频片段后停止计算；
18.以所述目标音频片段右侧相邻的音频片段为首个音频片段，向右依次计算每个音频片段与所述目标音频片段的响度差值，并将所述响度差值小于第二预设阈值的音频片段作为待选片段，直至出现首个响度差值大于或等于所述第二预设阈值的音频片段后停止计算；
19.基于所有所述待选片段和所述目标音频片段，生成以所述目标音频片段为锚点的目标音频集合。
20.可选的，所述根据所述目标音频集合与所述第一音频片段集合之间的音频响度差异，以及所述目标音频集合与所述第二音频片段集合之间的音频响度差异，判断所述目标音频片段所在的音频片段大集合内是否存在响度异常，包括：
21.确定所述目标音频集合对应的第一音频响度均值，以及所述第一音频片段集合对应的第二音频响度均值和所述第二音频片段集合对应的第三音频响度均值；
22.若所述第一音频响度均值与所述第二音频响度均值的差值大于第三预设阈值，或，所述第一音频响度均值与所述第三音频响度均值的差值大于所述第三预设阈值，则判定所述目标音频片段所在的音频片段大集合内存在响度异常。
23.可选的，所述根据音频片段大集合的判断结果判定所述待检测音频是否存在响度异常，包括：
24.若任意一个所述音频片段大集合内存在响度异常，则判定所述待检测音频存在响度异常；
25.若所有所述音频片段大集合内均不存在响度异常，则判定所述待检测音频不存在响度异常。
26.可选的，所述从所有所述音频响度值中筛选出目标音频响度值，包括：
27.按照数值大小对所有所述音频响度值进行排序，根据排序取前n个音频响度值和
后n个音频响度值作为所述目标音频响度值。
28.可选的，所述按照预设时间长度对所述待检测音频进行分割之前，还包括：
29.对所述待检测音频进行语音活性检测，检测出所述待检测音频中的静音片段；
30.从所述待检测音频中删除所述静音片段。
31.第二方面，本技术公开了一种电子设备，包括：
32.存储器，用于保存计算机程序；
33.处理器，用于执行所述计算机程序，以实现前述的音频响度异常检测方法。
34.第三方面，本技术公开了一种计算机可读存储介质，用于存储计算机程序；其中计算机程序被处理器执行时实现前述的音频响度异常检测方法。
35.本技术中，获取待检测音频，按照预设时间长度对所述待检测音频进行分割，得到多个音频片段；计算每个所述音频片段对应的音频响度值，从所有所述音频响度值中筛选出目标音频响度值，并将所述目标音频响度值对应的音频片段作为目标音频片段；根据所述目标音频片段与所述目标音频片段左侧的音频片段之间的音频响度差异，以及所述目标音频片段与所述目标音频片段右侧的音频片段之间的音频响度差异，判断所述待检测音频是否存在响度异常。可见，通过将待检测音频分割成多个音频片段，并根据每个音频片段的响度值确定出目标音频片段，然后根据目标音频片段分别与该目标音频片段两侧的音频片段之间的音频响度差异判断待检测音频是否存在响度异常，实现自动化的对音频文件进行响度异常检测，及时从海量音频文件中发现存在响度异常的音频文件，以便反馈给音频上传者进行修改，或者进行技术修复，从而提升用户体验。
附图说明
36.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
37.图1为一种音频响度异常示意图；
38.图2为另一种音频响度异常示意图；
39.图3为本技术提供的音频响度异常检测方案所适用的系统框架示意图；
40.图4为本技术提供的一种音频响度异常检测方法流程图；
41.图5为本技术提供的一种具体的音频响度异常检测方法流程图；
42.图6为本技术提供的一种具体的音频片段示意图；
43.图7为本技术提供的一种具体的音频响度异常检测方法流程图；
44.图8为本技术提供的一种音频响度异常检测装置结构示意图；
45.图9为本技术提供的一种电子设备结构图。
具体实施方式
46.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术
人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
47.现有技术中，音频文件中可能存在响度忽大忽小的情况，导致整个作品响度听起来不一致，用户体验差。例如，在一些播客节目中，经常有一些固定的音频片头、片中、片尾等等。因为这些都是固定的，因此一般只录制一遍后保存，每次主播只要录制正文，然后将固定的片头、片尾等，插入到正文需要的位置，即可完成作品的制作；有些有声书朗读，比如网文，篇章较多，甚至达上千章，因此通过自动化的处理片段片尾也很常见。现实上，由于有些主播对音频编辑的专业性不足、或者考虑不周、或者自动化处理时，未考虑固定片头、片中、片尾等音频片段的响度，与拼接前后正文的音频响度的关系，从而导致，片头、片尾的声音，存在过大、过小的可能。如图1所示，片头的声音明显比正文的声音要大，或如图2所示，片头的声音明显比正文的声音要小，因此导致整个作品响度听起来不一致。为克服上述技术问题，本技术提出一种音频响度异常检测方法，能够自动化的对音频文件进行响度异常检测，及时从海量音频文件中发现存在响度异常的音频文件。
48.本技术的音频检索方案中，采用的系统框架具体可以参见图3所示，具体可以包括：后台服务器和与后台服务器建立通信连接的若干数量的用户端。其中，用户端包括但不限于平板电脑、笔记本电脑、智能手机、个人电脑(personal computer，pc)，此处不做限定。
49.本技术中，用户端用于向后台服务器发送待检测音频，后台服务器执行音频响度异常检测方法的步骤，包括获取待检测音频，按照预设时间长度对所述待检测音频进行分割，得到多个音频片段；计算每个所述音频片段对应的音频响度值，从所有所述音频响度值中筛选出目标音频响度值，并将所述目标音频响度值对应的音频片段作为目标音频片段；根据所述目标音频片段与所述目标音频片段左侧的音频片段之间的音频响度差异，以及所述目标音频片段与所述目标音频片段右侧的音频片段之间的音频响度差异，判断所述待检测音频是否存在响度异常。后台服务器将该待检测音频的响度异常检测结果推送至用户端显示，且当检测结果为响度异常是可以生成相应的更改提示。
50.本技术实施例公开了一种音频响度异常检测方法，参见图4所示，该方法可以包括以下步骤：
51.步骤s11：获取待检测音频，按照预设时间长度对所述待检测音频进行分割，得到多个音频片段。
52.本实施例中，获取待检测音频后，按照预设时间长度对待检测音频进行分割，得到多个音频片段；即进行音频片段，每片音频的时间长度为t，如每片1秒或2秒。
53.步骤s12：计算每个所述音频片段对应的音频响度值，从所有所述音频响度值中筛选出目标音频响度值，并将所述目标音频响度值对应的音频片段作为目标音频片段。
54.本实施例中，音频分割后，计算每个音频片段对应的音频响度值，然后根据所有音频响度值，筛选出目标音频响度值，并将目标音频响度值对应的音频片段作为目标音频片段。音频响度值的单位可以为lufs(loudness units relative to full scale，相对于满量程(dbfs)的响度单位)。
55.本实施例中，所述从所有所述音频响度值中筛选出目标音频响度值，可以包括：按照数值大小对所有所述音频响度值进行排序，根据排序取前n个音频响度值和后n个音频响度值作为所述目标音频响度值。具体的，使用ebu r.128算法，对分片后的音频片段依次计算音频响度，获取最大n个响度值和最小的n个响度值作为目标音频响度值，这些响度值对
应是时间片段为目标音频片段。其中ebu r.128是欧洲广播联盟(ebu，european broadcasting union)出的一个关于响度控制的建议书，该建议书在itu-r bs.1770标准的基础之上，对响度的被测主体、积分窗长等细节作了定义。
56.步骤s13：根据所述目标音频片段与所述目标音频片段左侧的音频片段之间的音频响度差异，以及所述目标音频片段与所述目标音频片段右侧的音频片段之间的音频响度差异，判断所述待检测音频是否存在响度异常。
57.本实施例中，目标音频片段确定后，将该目标音频片段与处于该目标音频片段左侧的音频片段进行比较，确定音频响度差异，同时，将该目标音频片段与处于该目标音频片段右侧的音频片段进行比较，确定音频响度差异，然后根据得到的两个音频响度差异判断待检测音频是否存在响度异常，具体可以在目标音频片段左侧的预设距离范围内选取音频片段进行比较，右侧同理，在目标音频片段右侧的预设距离范围内选取音频片段进行比较；具体可以将音频响度差异与预设阈值进行比较，根据比较结果判断待检测音频是否存在响度异常。也就是说，本实施例中将筛选出的目标音频片段分别与该目标音频片段两侧的音频片段进行响度值比较，并根据响度差异判断待检测音频是否存在响度异常。
58.由上可见，本实施例中获取待检测音频，按照预设时间长度对所述待检测音频进行分割，得到多个音频片段；计算每个所述音频片段对应的音频响度值，从所有所述音频响度值中筛选出目标音频响度值，并将所述目标音频响度值对应的音频片段作为目标音频片段；根据所述目标音频片段与所述目标音频片段左侧的音频片段之间的音频响度差异，以及所述目标音频片段与所述目标音频片段右侧的音频片段之间的音频响度差异，判断所述待检测音频是否存在响度异常。可见，通过将待检测音频分割成多个音频片段，并根据每个音频片段的响度值确定出目标音频片段，然后根据目标音频片段分别与该目标音频片段两侧的音频片段之间的音频响度差异判断待检测音频是否存在响度异常，实现自动化的对音频文件进行响度异常检测，及时从海量音频文件中发现存在响度异常的音频文件，以便反馈给音频上传者进行修改，或者进行技术修复，从而提升用户体验。
59.本技术实施例公开了一种具体的音频响度异常检测方法，参见图5所示，该方法可以包括以下步骤：
60.步骤s21：获取待检测音频，按照预设时间长度对所述待检测音频进行分割，得到多个音频片段。
61.步骤s22：计算每个所述音频片段对应的音频响度值，从所有所述音频响度值中筛选出目标音频响度值，并将所述目标音频响度值对应的音频片段作为目标音频片段。
62.步骤s23：按照目标音频集合生成规则，生成以所述目标音频片段为锚点的目标音频集合。
63.本实施例中，所述按照目标音频集合生成规则，生成以所述目标音频片段为锚点的目标音频集合之前，还可以包括：从所有所述音频响度值中筛选出最大音频响度值和最小音频响度值，并计算所述最大音频响度值与所述最小音频响度值的差值；若所述差值小于第一预设阈值，则判定所述待检测音频不存在响度异常；若所述差值大于或等于所述第一预设阈值，则执行所述按照目标音频集合生成规则，以所述目标音频片段为锚点生成对应的目标音频集合的操作。可以理解的是，若最大音频响度值与最小音频响度值的差值小于第一预设阈值，则直接返回响度正常的结果，即最大值和最小值，其响度差异小于预定的
阈值，说明整体音频文件的响度都在一定的范围内，响度正常，上述第一预设阈值可以取10db到12db。若最大音频响度值与最小音频响度值的差值大于第一预设阈值，则表明音频文件整体存在一定的响度差异，此时需要进一步细致的判断是否存在响度异常，因此执行按照目标音频集合生成规则，以所述目标音频片段为锚点生成对应的目标音频集合的操作。
64.本实施例中，确定目标音频片段后，按照目标音频集合生成规则，生成以目标音频片段为锚点的目标音频集合，即按照目标音频集合生成规则将目标音频片段周围与目标音频片段响度相近的音频片段形成一个集合。
65.本实施例中，上述步骤s23：按照目标音频集合生成规则，生成以所述目标音频片段为锚点的目标音频集合，可以包括以下子步骤：
66.s230：以所述目标音频片段左侧相邻的音频片段为首个音频片段，向左依次计算每个音频片段与所述目标音频片段的响度差值，并将所述响度差值小于第二预设阈值的音频片段作为待选片段，直至出现首个响度差值大于或等于所述第二预设阈值的音频片段后停止计算。
67.本实施例中，即以目标音频片段为起点，向左侧寻找连续的响度差值在第二预设阈值范围的音频片段，作为待选片段，直至出现首个响度差值大于或等于所述第二预设阈值的音频片段后停止计算，即目标音频片段左侧的待选片段连续且与目标音频片段相连。
68.s231：以所述目标音频片段右侧相邻的音频片段为首个音频片段，向右依次计算每个音频片段与所述目标音频片段的响度差值，并将所述响度差值小于第二预设阈值的音频片段作为待选片段，直至出现首个响度差值大于或等于所述第二预设阈值的音频片段后停止计算。
69.同时，向右侧寻找连续的响度差值在第二预设阈值范围的音频片段，作为待选片段，直至出现首个响度差值大于或等于所述第二预设阈值的音频片段后停止计算，即目标音频片段右侧的待选片段连续且与目标音频片段相连。
70.s232：基于所有所述待选片段和所述目标音频片段，生成以所述目标音频片段为锚点的目标音频集合。
71.将所有待选片段和目标音频片段作为以目标音频片段为锚点的目标音频集合，目标音频集合是一段连续的音频。
72.步骤s24：选取与所述目标音频集合左侧相邻的连续预设数量的音频片段作为第一音频片段集合，选取与所述目标音频集合右侧相邻的连续预设数量的音频片段作为第二音频片段集合。
73.本实施例中，确定目标音频集合后，选取与目标音频集合左侧相邻的连续预设数量的音频片段作为第一音频片段集合，选取与目标音频集合右侧相邻的连续预设数量的音频片段作为第二音频片段集合。若目标音频集合已经处于待检测音频的头部，则无法选取左侧的第一音频片段集合，此时选取右侧第二音频片段集合即可，同理，若目标音频集合处于待检测音频的尾部，则仅选取左侧第一音频片段集合即可。可以理解的是，通过生成目标音频集合可以将目标音频片段周围与目标音频片段响度值相近的音频片段集合起来，作为一个目标音频集合，然后在该目标音频集合两侧再取两个集合，最后根据集合间的差异判断响度异常，相比于单个音频片段的差异检测，通过生成集合后再进行集合之间的对比，能
够避免误检，提高响度异常检测的能力。
74.步骤s25：根据所述目标音频集合与所述第一音频片段集合之间的音频响度差异，以及所述目标音频集合与所述第二音频片段集合之间的音频响度差异，判断所述目标音频片段所在的音频片段大集合内是否存在响度异常，并根据音频片段大集合的判断结果判定所述待检测音频是否存在响度异常。
75.本实施例中，根据目标音频集合与第一音频片段集合之间的音频响度差异，以及目标音频集合与第二音频片段集合之间的音频响度差异，判断目标音频片段所在的音频片段大集合内是否存在响度异常，音频片段大集合即为第一音频片段集合、目标音频集合和第二音频片段集合组成的大集合，最后根据音频片段大集合的判断结果判定待检测音频是否存在响度异常。
76.本实施例中，上述步骤s25：根据所述目标音频集合与所述第一音频片段集合之间的音频响度差异，以及所述目标音频集合与所述第二音频片段集合之间的音频响度差异，判断所述目标音频片段所在的音频片段大集合内是否存在响度异常，并根据音频片段大集合的判断结果判定所述待检测音频是否存在响度异常。可以包括以下子步骤：
77.s250：确定所述目标音频集合对应的第一音频响度均值，以及所述第一音频片段集合对应的第二音频响度均值和所述第二音频片段集合对应的第三音频响度均值。
78.即分别计算目标音频集合、第一音频片段集合和第二音频片段集合对应的音频响度均值，即将集合内包含的所有音频片段的响度值综合除以该集合内音频片段的数量得到对应的音频响度均值。
79.s251：若所述第一音频响度均值与所述第二音频响度均值的差值大于第三预设阈值，或，所述第一音频响度均值与所述第三音频响度均值的差值大于所述第三预设阈值，则判定所述目标音频片段所在的音频片段大集合内存在响度异常。
80.即若目标音频集合与第一音频片段集合之间的音频响度均值的差值大于第三预设阈值，或者，标音频片段集合与第二音频片段集合之间的音频响度均值的差值大于第三预设阈值，则判定目标音频片段所在的音频片段大集合内存在响度异常，否则该音频片段大集合正常。
81.s252：若任意一个所述音频片段大集合内存在响度异常，则判定所述待检测音频存在响度异常。
82.即每个目标音频片段都对应一个音频片段大集合，若待检测音频中存在任意一个音频片段大集合内存在响度异常，则判定待检测音频存在响度异常。
83.s253：若所有所述音频片段大集合内均不存在响度异常，则判定所述待检测音频不存在响度异常。
84.即若待检测音频中所有音频片段大集合内均不存在响度异常，则判定待检测音频不存在响度异常。
85.下面举例说明：
86.假设计算音频响度后，获取的最大n个响度值，分别表示为maxvol_1，maxvol_2,
…
,maxvol_n，其对应的片段位置为maxloc_1,maxloc_2,
…
,maxloc_n，最小的n个响度值分别表示为minvol_1，minvol_2,
…
,minvol_n，其对应的片段位置为minloc_1,minloc_2,
…
,minloc_n。
87.将最大n个响度值和最小的n个响度值，所对应的目标音频片段当做锚点。用vol(i)表示音频片段i的响度；目标音频集合vol_set(i,j,k,
…
)代表一组响度接近的连续片段，其中i，j，k，代表音频片段i，j，k；abs()表示取绝对值。
88.a.如果maxvol_1-minvol_1《thresh1，即最大音频响度值与最小音频响度值的差小于第一预设阈值，则直接返回结果，响度正常；
89.b.如果maxvol_1-minvol_1》＝thresh1，则获取各个锚点片段的目标音频集合vol_set。下面以maxloc_1为目标音频片段为例进行说明：
90.目标音频片段maxloc_1，向左侧寻找连续的响度在thresh2范围的音频片段，然后加入集合vol_set中；即如果abs(vol(maxloc_1)-vol(maxloc_1-1))《thresh2；则将片段(maxloc_1-1)纳入集合vol_set中，继续判断abs(vol(maxloc_1)-vol(maxloc_1-2))《thresh2；看片段(maxloc_1-2)是否满足条件，直到片段(maxloc_1-p)不满足条件，则片段(maxloc_1-1)、(maxloc_1-2)，(maxloc_1-p+1)都纳入集合vol_set中。
91.同理，音频片段maxloc_1，向右侧寻找连续的响度在thresh2范围的音频片段，然后加入集合vol_set中；即如果abs(vol(maxloc_1)-vol(maxloc_1+1))《thresh2；则将片段(maxloc_1+1)纳入集合vol_set中，继续判断abs(vol(maxloc_1)-vol(maxloc_1+2))《thresh2；看片段(maxloc_1-2)是否满足条件，直到片段(maxloc_1+q)不满足条件，则片段(maxloc_1+1)、(maxloc_1+2)，(maxloc_1+q-1)都纳入集合vol_set中。至此，相近响度的连续偏度即在集合vol_set中了；
92.例如图6所示，每一块即代表每一个音频片段。在目标音频片段的左右侧寻找与其响度相近的片段，生成包含6个片段的目标音频集合。
93.c.在vol_set的左右侧，取几个连续片段，比如4个片段，若每个片段2秒，即取8秒的音频数据，作为第一音频片段集合adj_set_l，和第二音频片段集合adj_set_r；
94.d.分别计算vol_set、adj_set_l、adj_set_r的均值，分别用vol_set_mean、adj_set_l_mean、adj_set_r_mean表示；
95.e.如果abs(vol_set_mean-adj_set_l_mean)》thresh3，或者abs(vol_set_mean-adj_set_r_mean)》thresh3，则表示锚点附近的响度差异较差，直接返回结果，响度异常；否则执行其他锚点，重复b-e的步骤。
96.f.如果上述执行完，仍没有返回结果，则返回响度正常。
97.上述a-e的步骤可以通过响度异常判决器执行来判断是否存在响度异常的现象，从而有效筛选出有响度异常的音频文件。
98.其中，关于上述步骤s21、步骤s22的具体过程可以参考前述实施例公开的相应内容，在此不再进行赘述。
99.由上可见，本实施例中按照目标音频集合生成规则，生成以所述目标音频片段为锚点的目标音频集合；选取与所述目标音频集合左侧相邻的连续预设数量的音频片段作为第一音频片段集合，选取与所述目标音频集合右侧相邻的连续预设数量的音频片段作为第二音频片段集合；根据所述目标音频集合与所述第一音频片段集合之间的音频响度差异，以及所述目标音频集合与所述第二音频片段集合之间的音频响度差异，判断所述目标音频片段所在的音频片段大集合内是否存在响度异常，并根据音频片段大集合的判断结果判定所述待检测音频是否存在响度异常。通过生成目标音频集合可以将目标音频片段周围与目
标音频片段响度值相近的音频片段集合起来，作为一个目标音频集合，然后在该目标音频集合两侧再取两个集合，最后根据集合间的差异判断响度异常，相比于单个音频片段的差异检测，通过生成集合后再进行集合之间的对比，能够避免误检，提高响度异常检测的能力。
100.本技术实施例公开了一种具体的音频响度异常检测方法，参见图7所示，该方法可以包括以下步骤：
101.步骤s31：获取待检测音频，对所述待检测音频进行语音活性检测，检测出所述待检测音频中的静音片段，从所述待检测音频中删除所述静音片段。
102.本实施例中，获取待检测音频后，首先对待检测音频进行语音活性检测(voice activity detection，vad)，从而检测出待检测音频中的静音片段，并从待检测音频中删除这些静音片段。可以理解的是，很多音频文件特别在有声书朗读场景下，停顿是比较常见的，因此通过语音活性检测，检测是否有语音存在，删除静音停顿片段对音频文件进行预处理，增加响度计算的准确性。
103.步骤s32：按照预设时间长度对所述待检测音频进行分割，得到多个音频片段。
104.步骤s33：计算每个所述音频片段对应的音频响度值，从所有所述音频响度值中筛选出目标音频响度值，并将所述目标音频响度值对应的音频片段作为目标音频片段。
105.步骤s34：根据所述目标音频片段与所述目标音频片段左侧的音频片段之间的音频响度差异，以及所述目标音频片段与所述目标音频片段右侧的音频片段之间的音频响度差异，判断所述待检测音频是否存在响度异常。
106.其中，关于上述步骤s32-步骤s34的具体过程可以参考前述实施例公开的相应内容，在此不再进行赘述。
107.由上可见，本实施例中获取待检测音频，对所述待检测音频进行语音活性检测，检测出所述待检测音频中的静音片段，从所述待检测音频中删除所述静音片段。
108.本实施例中，获取待检测音频后，首先对待检测音频进行语音活性检测，从而检测出待检测音频中的静音片段，并从待检测音频中删除这些静音片段。可以理解的是，因此通过语音活性检测，检测是否有语音存在，删除静音停顿片段对音频文件进行预处理，增加响度计算的准确性。
109.下面，以某款音乐app为例，对本技术的技术方案进行说明。
110.假设用户在用户端安装了这款音乐app，用户制作好了一集有声书后，向款音乐app的后台服务器发送携带待检测音频的音频响度异常检测请求。后台服务器获取到待检测音频后，对待检测音频进行语音活性检测，检测出待检测音频中的静音片段，并从待检测音频中删除静音片段；将按照2s对所述待检测音频进行分割，得到多个音频片段，然后计算每个音频片段对应的音频响度值，按照数值大小对所有音频响度值进行排序，根据排序取前n个音频响度值和后n个音频响度值作为目标音频响度值，将所述目标音频响度值对应的音频片段作为目标音频片段。然后，按照目标音频集合生成规则，生成以目标音频片段为锚点的目标音频集合；选取与目标音频集合左侧相邻的连续预设数量的音频片段作为第一音频片段集合，选取与目标音频集合右侧相邻的连续预设数量的音频片段作为第二音频片段集合；根据目标音频集合与第一音频片段集合之间的音频响度差异，以及目标音频集合与第二音频片段集合之间的音频响度差异，判断目标音频片段所在的音频片段大集合内是否
存在响度异常，并根据音频片段大集合的判断结果判定待检测音频是否存在响度异常。
111.相应的，本技术实施例还公开了一种音频响度异常检测装置，参见图8所示，该装置包括：
112.音频分割模块11，用于获取待检测音频，按照预设时间长度对所述待检测音频进行分割，得到多个音频片段；
113.响度值确定模块12，用于计算每个所述音频片段对应的音频响度值，从所有所述音频响度值中筛选出目标音频响度值，并将所述目标音频响度值对应的音频片段作为目标音频片段；
114.响度异常检测模块13，用于根据所述目标音频片段与所述目标音频片段左侧的音频片段之间的音频响度差异，以及所述目标音频片段与所述目标音频片段右侧的音频片段之间的音频响度差异，判断所述待检测音频是否存在响度异常。
115.由上可见，本实施例中获取待检测音频，按照预设时间长度对所述待检测音频进行分割，得到多个音频片段；计算每个所述音频片段对应的音频响度值，从所有所述音频响度值中筛选出目标音频响度值，并将所述目标音频响度值对应的音频片段作为目标音频片段；根据所述目标音频片段与所述目标音频片段左侧的音频片段之间的音频响度差异，以及所述目标音频片段与所述目标音频片段右侧的音频片段之间的音频响度差异，判断所述待检测音频是否存在响度异常。可见，通过将待检测音频分割成多个音频片段，并根据每个音频片段的响度值确定出目标音频片段，然后根据目标音频片段分别与该目标音频片段两侧的音频片段之间的音频响度差异判断待检测音频是否存在响度异常，实现自动化的对音频文件进行响度异常检测，及时从海量音频文件中发现存在响度异常的音频文件，以便反馈给音频上传者进行修改，或者进行技术修复，从而提升用户体验。
116.在一些具体实施例中，所述响度异常检测模块13具体可以包括：
117.目标音频集合生成单元，用于按照目标音频集合生成规则，生成以所述目标音频片段为锚点的目标音频集合；
118.音频片段集合确定单元，用于选取与所述目标音频集合左侧相邻的连续预设数量的音频片段作为第一音频片段集合，选取与所述目标音频集合右侧相邻的连续预设数量的音频片段作为第二音频片段集合；
119.响度异常判断单元，用于根据所述目标音频集合与所述第一音频片段集合之间的音频响度差异，以及所述目标音频集合与所述第二音频片段集合之间的音频响度差异，判断所述目标音频片段所在的音频片段大集合内是否存在响度异常，并根据音频片段大集合的判断结果判定所述待检测音频是否存在响度异常。
120.在一些具体实施例中，所述音频响度异常检测装置具体可以包括：
121.差值计算单元，用于在按照目标音频集合生成规则，生成以所述目标音频片段为锚点的目标音频集合之前，从所有所述音频响度值中筛选出最大音频响度值和最小音频响度值，并计算所述最大音频响度值与所述最小音频响度值的差值；
122.异常判定单元，用于若所述差值小于第一预设阈值，则判定所述待检测音频不存在响度异常；
123.操作执行单元，用于若所述差值大于或等于所述第一预设阈值，则执行所述按照目标音频集合生成规则，以所述目标音频片段为锚点生成对应的目标音频集合的操作。
124.在一些具体实施例中，所述目标音频集合生成单元具体可以包括：
125.第一待选片段确定单元，用于以所述目标音频片段左侧相邻的音频片段为首个音频片段，向左依次计算每个音频片段与所述目标音频片段的响度差值，并将所述响度差值小于第二预设阈值的音频片段作为待选片段，直至出现首个响度差值大于或等于所述第二预设阈值的音频片段后停止计算；
126.第二待选片段确定单元，用于以所述目标音频片段右侧相邻的音频片段为首个音频片段，向右依次计算每个音频片段与所述目标音频片段的响度差值，并将所述响度差值小于第二预设阈值的音频片段作为待选片段，直至出现首个响度差值大于或等于所述第二预设阈值的音频片段后停止计算；
127.目标音频集合确定单元，用于基于所有所述待选片段和所述目标音频片段，生成以所述目标音频片段为锚点的目标音频集合。
128.在一些具体实施例中，所述响度异常判断单元具体可以包括：
129.响度均值确定单元，用于确定所述目标音频集合对应的第一音频响度均值，以及所述第一音频片段集合对应的第二音频响度均值和所述第二音频片段集合对应的第三音频响度均值；
130.大集合响度异常判断单元，用于若所述第一音频响度均值与所述第二音频响度均值的差值大于第三预设阈值，或，所述第一音频响度均值与所述第三音频响度均值的差值大于所述第三预设阈值，则判定所述目标音频片段所在的音频片段大集合内存在响度异常。
131.在一些具体实施例中，所述响度异常判断单元具体可以包括：
132.第一判断单元，用于若任意一个所述音频片段大集合内存在响度异常，则判定所述待检测音频存在响度异常；
133.第二判断单元，用于若所有所述音频片段大集合内均不存在响度异常，则判定所述待检测音频不存在响度异常。
134.在一些具体实施例中，所述响度值确定模块12具体可以包括：
135.目标响度值确定单元，用于按照数值大小对所有所述音频响度值进行排序，根据排序取前n个音频响度值和后n个音频响度值作为所述目标音频响度值。
136.在一些具体实施例中，所述音频响度异常检测装置具体可以包括：
137.语音活性检测单元，用于对所述待检测音频进行语音活性检测，检测出所述待检测音频中的静音片段；
138.静音片段删除单元，用于从所述待检测音频中删除所述静音片段。
139.进一步的，本技术实施例还公开了一种电子设备，参见图9所示，图中的内容不能被认为是对本技术的使用范围的任何限制。
140.图9为本技术实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的音频响度异常检测方法中的相关步骤。
141.本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适
用于本技术技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。
142.另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统221、计算机程序222及包括待检测音频在内的数据223等，存储方式可以是短暂存储或者永久存储。
143.其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中海量数据223的运算与处理，其可以是windows server、netware、unix、linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的音频响度异常检测方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。
144.进一步的，本技术实施例还公开了一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现前述任一实施例公开的音频响度异常检测方法步骤。
145.本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
146.结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
147.最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
148.以上对本发明所提供的一种音频响度异常检测方法、装置、设备及介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈洲旋
技术所有人：腾讯音乐娱乐科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。