音频尾部POP音处理方法和装置与流程

文档序号：14736557发布日期：2018-06-19 20:36阅读：754来源：国知局

本申请涉及信号处理技术，尤其涉及一种音频尾部POP音处理方法和装置。

背景技术：

用户在使用音频设备播放音频文件的过程中，可能会产生POP音。POP音是指音频播放过程中不正常地出现破音，例如在音频播放结束时声音幅值突然上升。POP音严重影响用户的感受，还可能对用户的耳朵造成潜在伤害。

产生POP音的原因有很多，目前消除POP音的方法主要是针对硬件电路上的缺陷进行改进。然而，很多POP音的产生原因也可能是音频数据本身。例如录音停止时还存在外界声音，这将导致在音频尾部录入了较大的外界声音；或者录音停止时将按下停止键的按键声音录入音频文件作为音频的一部分，这些原因都导致了音频尾部产生音量陡然增加的POP音，无法通过现有的电路改进消除。

现有的POP音消除方法无法消除因为音频本身原因导致的POP音。

技术实现要素：

本发明提供一种音频尾部POP音处理方法和装置，以消除因为音频本身原因导致的POP音，提高用户体验。

根据本发明的第一方面，提供一种音频尾部POP音处理方法，包括：

获取待处理音频数据以及所述待处理音频数据的播放时长；

根据所述待处理音频数据的播放时长，从所述待处理音频数据中获取具有预设的尾部播放时长的尾部音频数据；

获取所述尾部音频数据对应的多个音频幅值；

判断所述多个音频幅值是否均小于或等于POP音阈值，若否，则用预设的替换音频数据代替所述待处理音频数据中的尾部音频数据，得到处理后的音频数据，其中，所述替换音频数据的所有音频幅值均小于或等于所述POP音阈值。

作为一种实现方式，在所述替换音频数据的所有音频幅值中，播放时间在后的音频数据的音频幅值均小于或等于播放时间在前的音频数据的音频幅值。

作为一种实现方式，若所述多个音频幅值均小于或等于POP音阈值，所述方法还包括：

在所述多个音频幅值中，判断播放时间在后的音频数据的音频幅值是否均小于或等于播放时间在前的音频数据的音频幅值；

若否，则用所述替换音频数据代替所述待处理音频数据中的尾部音频数据，得到处理后的音频数据。

作为一种实现方式，在所述判断所述多个音频幅值是否均小于或等于POP音阈值之前，还包括：获取所述待处理音频数据的来源信息；

在所述得到处理后的音频数据之后，还包括：

播放所述处理后的音频数据，并根据所述来源信息确定保存或删除所述处理后的音频数据。

作为一种实现方式，所述根据所述来源信息确定保存或删除所述处理后的音频数据，包括：

根据所述来源信息判断所述待处理音频数据是否为本地录制的音频数据；

若是，则保存所述处理后的音频数据，并删除原存储的所述待处理音频数据；

若否，则删除所述处理后的音频数据。

作为一种实现方式，所述获取待处理音频数据以及所述待处理音频数据的播放时长，包括：

在获得音频播放请求后，对待播放的音频文件进行解码，获取解码后的待处理音频数据以及所述待处理音频数据的播放时长。

根据本发明的第二方面，提供一种音频尾部POP音处理装置，包括：

待处理音频获取模块，用于获取待处理音频数据以及所述待处理音频数据的播放时长；

尾部音频获取模块，用于根据所述待处理音频数据的播放时长，从所述待处理音频数据中获取具有预设的尾部播放时长的尾部音频数据；

幅值获取模块，用于获取所述尾部音频数据对应的多个音频幅值；

判断处理模块，用于判断所述多个音频幅值是否均小于或等于POP音阈值，若否，则用预设的替换音频数据代替所述待处理音频数据中的尾部音频数据，得到处理后的音频数据，其中，所述替换音频数据的所有音频幅值均小于或等于所述POP音阈值。

作为一种实现方式，在所述替换音频数据的所有音频幅值中，播放时间在后的音频数据的音频幅值均小于或等于播放时间在前的音频数据的音频幅值。

所述判断处理模块还用于：

若所述多个音频幅值均小于或等于POP音阈值，则在所述多个音频幅值中，判断播放时间在后的音频数据的音频幅值是否均小于或等于播放时间在前的音频数据的音频幅值；若否，则用所述替换音频数据代替所述待处理音频数据中的尾部音频数据，得到处理后的音频数据。

作为一种实现方式，所述待处理音频获取模块，还用于：在所述判断所述多个音频幅值是否均小于或等于POP音阈值之前，获取所述待处理音频数据的来源信息；

所述判断处理模块，还用于：在所述得到处理后的音频数据之后，播放所述处理后的音频数据，并根据所述来源信息确定保存或删除所述处理后的音频数据。

作为一种实现方式，所述判断处理模块，具体用于：

在所述得到处理后的音频数据之后，播放所述处理后的音频数据，并根据所述来源信息判断所述待处理音频数据是否为本地录制的音频数据；

若是，则保存所述处理后的音频数据，并删除原存储的所述待处理音频数据；

若否，则删除所述处理后的音频数据。

作为一种实现方式，所述待处理音频获取模块，具体用于：

在获得音频播放请求后，对待播放的音频文件进行解码，获取解码后的待处理音频数据以及所述待处理音频数据的整体播放时长。

根据本发明的第三方面，提供一种终端，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行第一方面及第一方面各种可能的设计的所述音频尾部POP音处理方法。

根据本发明的第四方面，提供一种存储介质，包括：可读存储介质和计算机程序，所述计算机程序用于实现第一方面及第一方面各种可能的设计所述音频尾部POP音处理方法。

本发明提供的一种音频尾部POP音处理方法和装置，首先获取待处理音频数据以及待处理音频数据的播放时长；并根据待处理音频数据的播放时长，从待处理音频数据中获取具有预设的尾部播放时长的尾部音频数据；在获取尾部音频数据对应的多个音频幅值后，判断所述多个音频幅值是否均小于或等于POP音阈值，若否，表明待处理音频数据存在发出POP音的可能，则用预设的替换音频数据代替待处理音频数据中的尾部音频数据，得到处理后的音频数据，以消除音频尾部的POP音，其中，替换音频数据的所有音频幅值均小于或等于POP音阈值，实现了可能在尾部产生POP音的音频数据进行尾部数据的处理，在不改变硬件电路的前提下消除音频数据尾部的POP音，提高了用户体验，降低了对用户耳朵的伤害。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种音频尾部POP音处理方法流程示意图；

图2为本发明实施例提供的一种音频尾部POP音处理示例的示意图；

图3为本发明实施例提供的另一种音频尾部POP音处理流程示意图；

图4为本发明实施例提供的一种音频尾部POP音处理装置；

图5为本发明实施例提供的一种终端的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，本文中使用的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

取决于语境，如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。

应当理解，本申请中音频数据是记录声音信息的数据，可以是从其他电子设备或网络服务器处获得的，也可以是在本地录制的。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

本发明针对因为音频数据本身原因导致产生POP音的问题，尤其是因为在音频尾部录入了幅值较大或突然增加的音频数据导致的POP音的问题，提出了一种音频尾部POP音处理方法和装置，以预设好的替换音频数据代替原有尾部音频数据，从音频数据本身着手进行处理，实现消除因为音频本身原因导致的POP音，提高用户体验。

图1为本发明实施例提供的一种音频尾部POP音处理方法流程示意图。图1所示实施例的执行主体可以是音频尾部POP音处理装置，该装置可以是例如终端的电子设备，也可以是内嵌于电子设备中的音频处理单元。该终端可以是移动终端，也可以是固定终端。移动终端包括但不限于手机、个人数字助理(Personal Digital Assi stant，PDA)、平板电脑、便携设备(例如，便携式计算机、袖珍式计算机或手持式计算机)等具有音频处理功能的移动设备。固定终端包括但不限于门禁、智能固定电话、控制台等具有音频处理功能的固定设备。本发明实施例对终端的形式并不限定。图1所示实施例包括：

S101，获取待处理音频数据以及待处理音频数据的播放时长。

在一种实现方式中，可以是在获取到新的音频文件时，根据音频文件得到待处理音频数据。其中，在获取到新的音频文件时，具体可以是在首次从其他终端接收到或首次从网络下载到本地没有的音频文件的时刻，也可以是在本地录制得到新的音频文件的时刻。在检测到得到了待处理音频数据时，从待处理音频数据的属性信息中，例如数据头中获取到待处理音频数据的播放时长。例如在录音结束后得到本地录制的录音文件，从文件头得到该录音文件的播放时长为10分钟。

在另一种实现方式中，可以是在接收播放音频文件的请求时，从该音频文件获取待处理音频数据，或者在接收到播放指定的音频数据的请求时，将指定的音频数据作为待处理音频数据。其中，在接收播放音频文件的请求时，从该音频文件获取待处理音频数据的具体实现方式可以是：在获得音频播放请求后，对待播放的音频文件进行解码，获取解码后的待处理音频数据，待处理音频数据例如可以是解码后的编码调制数据(pulse code modulation，简称：PCM)。在得到待处理音频数据后再获取待处理音频数据的播放时长。

S102，根据待处理音频数据的播放时长，从待处理音频数据中获取具有预设的尾部播放时长的尾部音频数据。

其中，尾部播放时长，具体可以是根据大量存在POP音的音频数据样本，得到的最可能引起POP音的尾部播放时长。尾部播放时长例如可以是1秒、2秒或者3秒。尾部播放时长，具体也可以是以待处理音频数据的播放时长百分比来确定，例如以待处理音频数据的播放时长的1％作为尾部播放时长，例如播放时长为300秒的待处理音频数据，其尾部播放时长为3秒。在一种可选的实现方式中，按照播放顺序获取待处理音频数据的内容以及该内容对应的播放时间点，并根据待处理音频数据的播放时长判断当前获取到的内容是否为尾部音频数据，如果获取到的内容不是尾部音频数据，则对获取到的内容进行播放，如果获取到的内容是尾部数据，则进行S103的处理步骤。

S103，获取尾部音频数据对应的多个音频幅值。

具体地，可以是对尾部音频数据进行幅值采样，获得尾部音频数据对应的按照播放时间排列的多个音频幅值。音频幅值即表示了在播放尾部音频数据时音量的高低变化，在音频幅值较大时播放音量增大。因此如果音频幅值在某个时刻突然跳变增大，或在某个时刻之后陡然上升，则在播放尾部音频数据时会在该时间点发出突然的爆破声，由此形成POP音，不仅降低了用户体验，还可能对用户的耳朵造成潜在伤害。需要注意的是，在采样频率过小时，对采样间隔时间内出现的高频脉冲信号就无法采集到，导致高幅值的脉冲被漏检。而在采样频率超过待处理音频数据的编码频率和解码频率时，并无法提高采样进度，又增加了计算负荷。因此，对尾部音频数据进行幅值采样时的采样频率，可以是与待处理音频数据的编码频率或解码频率一致，也可以是小于待处理音频数据的编码频率或解码频率。编码频率是指对待处理音频数据进行数据编码时使用的采样频率，解码频率是指对待处理音频数据进行数据解码时使用的采样频率。

S104，判断所述多个音频幅值是否均小于或等于POP音阈值，若否，则转入S105。

S105，用预设的替换音频数据代替待处理音频数据中的尾部音频数据，得到处理后的音频数据，其中，替换音频数据的所有音频幅值均小于或等于POP音阈值。

具体地，可以是先确定获得的多个音频幅值的最大幅值，以最大幅值与POP阈值进行比较判断，如果最大幅值小于或等于POP阈值，表明获得的多个音频幅值都小于或等于POP音阈值，在POP音阈值足够小的情况下不会产生POP音，则可以不对待处理音频数据进行POP音处理，或者可以进行进一步的判断是否有产生POP音的可能。如果最大幅值大于POP阈值，则表明在尾部音频数据中存在大于POP音阈值的音频幅值，可能产生POP音。

在确定了待处理音频数据的尾部音频数据可能产生POP音后，则用预设的替换音频数据代替待处理音频数据中的尾部音频数据，得到处理后的音频数据。具体地，可以是将替换音频数据与待处理音频数据除去尾部音频数据的音频部分进行拼接，得到处理后的音频数据。在一种实现方式中，替换音频数据可以是根据尾部音频数据生成的，替换音频数据的播放时长与尾部音频数据相同，由此得到的处理后的音频数据具有与待处理音频数据相同的播放时长。例如在尾部音频数据的播放长度为3秒时，生成一段3秒的替换音频数据。在另一种实现方式中，替换音频数据也可以是预先存储好的，其播放长度固定，与尾部音频数据的播放时长可能不同，由此得到的处理后的音频数据的播放时长与待处理音频数据的播放时长可能不同。例如预先存储有播放时长为2秒的替换音频数据，在尾部音频数据长度为3秒时，仍旧以播放时长为2秒的替换音频数据进行拼接，由此得到的处理后的音频数据的播放时长比待处理音频数据的播放时长少1秒。

其中，POP音阈值，可以是根据多个音频数据样本中POP音对应的幅值确定的。替换音频数据的所有音频幅值均小于或等于POP音阈值。具体地，替换音频数据的所有音频幅值可以都是相同的音频幅值，也可以是逐渐减小的音频幅值。逐渐减小的音频幅值具有较好的淡化效果，并具有较好的用户体验。

本实施例提供的一种音频尾部POP音处理方法，首先获取待处理音频数据以及待处理音频数据的播放时长；并根据待处理音频数据的播放时长，从待处理音频数据中获取具有预设的尾部播放时长的尾部音频数据；在获取尾部音频数据对应的多个音频幅值后，判断所述多个音频幅值是否均小于或等于POP音阈值，若否，表明待处理音频数据存在发出POP音的可能，则用预设的替换音频数据代替待处理音频数据中的尾部音频数据，得到处理后的音频数据，以消除音频尾部的POP音，其中，替换音频数据的所有音频幅值均小于或等于POP音阈值，实现了可能在尾部产生POP音的音频数据进行尾部数据的处理，在不改变硬件电路的前提下消除音频数据尾部的POP音，提高了用户体验，降低了对用户耳朵的伤害。

图2为本发明实施例提供的一种音频尾部POP音处理示例的示意图。图2所示的实施例是在图1所示实施例的基础上的一种实现方式。如图2所示，在替换音频数据的所有音频幅值中，播放时间在后的音频数据的音频幅值均小于或等于播放时间在前的音频数据的音频幅值。图2所示替换音频数据的幅值呈现逐渐减小的锥形，具有较好的淡出效果，提高了用户体验。如图2所示，在待处理音频数据中确定尾部音频数据的音频幅值，判断得出尾部音频数据的部分音频幅值大于POP音阈值，则将预设的替换音频数据与尾部音频数据之前的音频进行拼接，获得处理后的音频数据。图2所示处理后的音频数据尾部的音频幅值呈逐渐减小的状态，用户听到的是逐渐淡化的声音效果。

在图1和图2所示实施例的基础上，为了提高对可能产生POP音的音频数据的检测率，在S104所示的判断过程中，可以在判断得出所述多个音频幅值均小于或等于POP音阈值时进行下述进一步判断的过程。

在所述多个音频幅值中，进一步判断播放时间在后的音频数据的音频幅值是否均小于或等于播放时间在前的音频数据的音频幅值；

若否，表明待处理音频数据不是逐渐淡化的声音效果，仍然有可能产生POP音，则用替换音频数据代替待处理音频数据中的尾部音频数据，得到处理后的音频数据；

若是，表明待处理音频数据不会常常POP音，则不对待处理音频数据做尾部POP音处理。

本实施例中的替换音频数据可以是如图2所示的音频幅值逐渐减小。

图3为本发明实施例提供的另一种音频尾部POP音处理流程示意图。在上述实施例中，待处理音频数据可能是本地录制生成的，也可能是从外部获取的。而对于从外部获取的待处理音频数据，其尾部音频数据虽然可能产生POP音而影响用户体验，但不能排除其尾部音频数据存在有用信息的可能。因此，在上述实施例的基础上，本实施例在判断所述多个音频幅值是否均小于或等于POP音阈值之前，还进行了对待处理音频数据进行来源判断，并对本地录制生成的待处理音频数据和从外部获取的待处理音频数据以不同处理方式进行音频尾部POP音处理，下面结合图3对本实施例进行详细描述。

S201，获取所述待处理音频数据的来源信息。

具体地，可以是在需要播放待处理音频数据时，从待处理音频数据的文件属性信息中，获取到该待处理音频数据，是本地录制生成的待处理音频数据，还是从外部获取的待处理音频数据。一种实现方式可以是给所有本地录制生成的待处理音频数据设置本地特定的标识信息，在检测到此类标识信息时，则判断为是本地录制的待处理音频数据，而在没有检测到此类标识信息时，则判断为是从外部获取的待处理音频数据。

S202，获取待处理音频数据以及所述待处理音频数据的播放时长。

S203，根据所述待处理音频数据的播放时长，从所述待处理音频数据中获取具有预设的尾部播放时长的尾部音频数据。

S204，获取所述尾部音频数据对应的多个音频幅值。

S205，判断所述多个音频幅值是否均小于或等于POP音阈值，若否，则转入S206.

S206，用预设的替换音频数据代替所述待处理音频数据中的尾部音频数据，得到处理后的音频数据。

步骤S202-S206的具体实现方式可以参见步骤S101-S105的描述，其实现原理和技术效果类似，此处不再赘述。

S207，播放所述处理后的音频数据，并根据所述来源信息确定保存或删除所述处理后的音频数据。

本实施例是在准备播放待处理音频数据时进行上述音频尾部POP音处理，在获得处理后的音频数据后进行播放。播放时是将处理后的音频数据获取到缓冲区等待进行播放的操作，在播放的过程中，或者在播放结束后，可以根据所述来源信息确定保存或删除所述处理后的音频数据。在一种实现方式中，根据所述来源信息确定保存或删除所述处理后的音频数据，具体可以是：根据来源信息判断待处理音频数据是否为本地录制的音频数据；若是，则保存处理后的音频数据，并删除原存储的待处理音频数据；若否，则删除处理后的音频数据。

图4为本发明实施例提供的一种音频尾部POP音处理装置。如图4所示的音频尾部POP音处理装置可以是终端，也可以是内嵌于终端中的软件模块、硬件模块或者软件与硬件模块的结合。图4所示音频尾部POP音处理装置包括：

待处理音频获取模块41，用于获取待处理音频数据以及所述待处理音频数据的播放时长；

尾部音频获取模块42，用于根据所述待处理音频数据的播放时长，从所述待处理音频数据中获取具有预设的尾部播放时长的尾部音频数据；

幅值获取模块43，用于获取所述尾部音频数据对应的多个音频幅值；

判断处理模块44，用于判断所述多个音频幅值是否均小于或等于POP音阈值，若否，则用预设的替换音频数据代替所述待处理音频数据中的尾部音频数据，得到处理后的音频数据，其中，所述替换音频数据的所有音频幅值均小于或等于所述POP音阈值。

图4所示实施例的音频尾部POP音处理装置对应地可用于执行图1所示方法实施例中的步骤，其实现原理和技术效果类似，此处不再赘述。

在上述实施例的基础上，在所述替换音频数据的所有音频幅值中，播放时间在后的音频数据的音频幅值均小于或等于播放时间在前的音频数据的音频幅值。

在上述实施例的基础上，判断处理模块还用于：

在上述实施例的基础上，待处理音频获取模块，还用于：在所述判断所述多个音频幅值是否均小于或等于POP音阈值之前，获取所述待处理音频数据的来源信息；

在上述实施例的基础上，判断处理模块，具体用于：

在所述得到处理后的音频数据之后，播放所述处理后的音频数据，并根据所述来源信息判断所述待处理音频数据是否为本地录制的音频数据；

若是，则保存所述处理后的音频数据，并删除原存储的所述待处理音频数据；

若否，则删除所述处理后的音频数据。

在上述实施例的基础上，待处理音频获取模块，具体用于：

在获得音频播放请求后，对待播放的音频文件进行解码，获取解码后的待处理音频数据以及所述待处理音频数据的整体播放时长。

图5为本发明实施例提供的一种终端的硬件结构示意图。如图5所示，该终端包括：处理器511以及存储器512；其中

存储器512，用于存储计算机程序，该存储器还可以是闪存(flash)。

处理器511，用于执行存储器存储的执行指令，以实现上述音频尾部POP音处理方法中终端执行的各个步骤。具体可以参见前面方法实施例中的相关描述。

可选地，存储器512既可以是独立的，也可以跟处理器511集成在一起。

当所述存储器512是独立于处理器511之外的器件时，所述终端还可以包括：

总线513，用于连接所述存储器512和处理器511。

本发明还提供一种可读存储介质，可读存储介质中存储有执行指令，当终端的至少一个处理器执行该执行指令时，终端执行上述的各种实施方式提供的音频尾部POP音处理方法。

本发明还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。终端的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得终端实施上述的各种实施方式提供的音频尾部POP音处理方法。

在上述终端或者服务器的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：ApplicationSpecific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨鑫贵
技术所有人：上海传英信息技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、毕老师：机构动力学与控制
2、袁老师：1.计算机视觉 2.无线网络及物联网
3、王老师：1.计算机网络安全 2.计算机仿真技术
4、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
5、张老师：1.机械设计的应力分析、强度校核的计算机仿真 2.生物反应器研制 3.生物力学
如您是高校老师，可以点此联系我们加入专家库。