爆音检测方法及装置与流程

文档序号:17473081发布日期:2019-04-20 05:56阅读:1067来源:国知局
爆音检测方法及装置与流程

本申请涉及多媒体处理技术领域,尤其涉及一种爆音检测方法及装置。



背景技术:

由于音频在生成、处理、传输、储存等步骤的复杂性,有些音乐在音频上出现了"失真",比如爆音(popnoise)、毛刺、断点等。爆音是比较常见的一种失真现象,所谓爆音是指在音乐波形存在着短暂的脉冲,听起来像是"嗒"的一声,这种声音会给听者带来比较差的体验。

因而为了在电子产品上平顺地播放音频文件,有必要检测音频文件中存在爆音的部分,进而将其消除。通常,检测爆音多半仰赖人耳来判断,因此有可能发生许多问题,例如:听者无法做长时间广范围的测试,听觉灵敏度不佳,或主观成分太重等诸多不便。



技术实现要素:

有鉴于此,本发明提出了一种爆音检测装置,其特征在于所述的装置包括:一控制模块、一取样模块和比对模块,该控制模块与该取样模块和该比对模块之间均电性链接,其中该取样模块用于针对一音源信号,取得在一时域内按照时间顺序所形成的多个音频框以及针对每一个音频框进行取样;该比对模块用于分别将每一个音频框中的每一取样结果的一取样振幅值与一预设取样振幅值进行比较,并且根据每一音频框的比较的结果而确认每一音频框属于白噪音部位或类爆音部位;以及该控制模块用于判断该些音频框中是否依照时间顺序出现相邻白噪音部位、相邻类爆音部位及相邻白噪音部位,以供确认该音源信号是否出现爆音,其中当一音频框与其相邻至少一个音频框均为白噪音部位时,则其相应的音频框属于相邻白噪音部位,当一音频框与其相邻至少一个音频框均为类爆音部位时,则其相应的音频框属于相邻类爆音部位。

本申请还提出了一种爆音检测方法,其特征在于所述方法包括:针对一音源信号,取得在一时域内按照时间顺序所形成的多个音频框;针对每一个音频框进行取样;分别将每一个音频框中的每一取样结果的一取样振幅值与一预设取样振幅值进行比较;根据每一音频框的比较的结果,以确认每一音频框属于白噪音部位或类爆音部位;以及判断该些音频框中是否依照时间顺序出现相邻白噪音部位、相邻类爆音部位及相邻白噪音部位,以供确认该音源信号是否出现爆音,其中当一音频框与其相邻至少一个音频框均为白噪音部位时,则其相应的音频框属于相邻白噪音部位,当一音频框与其相邻至少一个音频框均为类爆音部位时,则其相应的音频框属于相邻类爆音部位。

因此,通过本发明所提出的爆音检测方法和装置,可望解脱听者难以长时间、广范围、专注聆听爆音是否产生的困境。

为了能更进一步了解本发明为达成既定目的所采取之技术、方法及功效,请参阅以下有关本发明的详细说明及附图,相信本发明的目的、特征与特点,当可由此得以深入且具体的了解,然而附图仅提供参考与说明之用,并非用来对本发明加以限制。

附图说明

为了更清楚的说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来说,在不付出过多努力的前提下,还可以根据这些附图获得其它的附图。其中,

图1呈现本发明实施例中一音频文件的波形,其中出现了爆音的部分;

图2呈现根据图1中的声音输出编码成音频文件;

图3呈现一典型爆音波形的示意图;

图4呈现本发明一实施例所绘示爆音检测方法的流程图;

图5呈现本发明一实施例所绘示爆音检测装置的方块图。

具体实施方式

在下文将参看附图更充分地描述各种例示性实施例,在附图中展示一些例示性实施例。然而,本发明概念可能以许多不同形式来体现,且不应解释为限于本文中所阐述的例示性实施例。确切而言,提供此等例示性实施例为的是使得本发明将为详尽且完整,且将向本领域技术人员充分传达本发明概念的范畴。在各图中,类似数字始终指示类似组件。

将理解的是,虽然“第一”、“第二”、“第三”等用语可于本文中用来描述各种组件或组件,但这些组件或组件不应被这些用语所限制。这些用语仅用以区分一个组件或组件与另一组件或组件。因此,下述讨论的第一组件或组件,在不脱离本发明的教示下,可被称为第二组件或第二组件。

电子产品可能在某些操作的过程中产生爆音,这些操作状态例如包括开机、关机、系统进入待机、系统从待机中唤醒及电源瞬断等。

请参见图1,其呈现本发明实施例中一音频文件的波形,其中在时域中0.035秒(sec)处出现了爆音。图1纵轴是代表振幅,以db(即倍数)来表示,其转换公式为ydb=20log(x),以16-bit脉冲编码调变数据pcmdata来分析,振幅值最大值0x7fff即为0db,当定义预设振幅值0x40时,可计算出0x7fff是0x40的约512倍。当知道0x40是0x7fff的1/512倍时,也可表示为-54db。

此音源信号的文件原以wav的文件格式进行录音,在本图的中间部分,原本应该是白噪音(whitenoise)的声音输出发生了爆音,音频文件呈现图1中间部分所示棘波。可以观察到,从0.035秒(sec)处至0.045秒(sec)处,出现了持续10毫秒(ms)的爆音(popnoise)。

请参见图2,其呈现根据图1中的音频编码成wav文件;随后,将此wav文件以16位编辑器ultraedit打开之后,可观察到其中有一段数据呈现此音源信号以44.1khz取样频率,经左、右声道取样后的脉冲编码调变数据(pcmdata),其声音强度的数值以16位2的补码表示,其中0x7fff代表正值的边界值,0x8000代表负值的边界值。之后,对脉冲编码调变数据进行分析,从行数18a0h的第1笔数据至行数1f80h的第1笔数据出现了明显非白噪音的声音强度。此段数据长度具有l/r(0x1f7-0x18a+1)*8+2=882个取样数。此恰与图1所示爆音的部分占时10毫秒(ms)呈现一致(44.1k*0.01*2)。

图3呈现一典型爆音波形示意图,横轴代表包含了爆音的时间特征,纵轴代表爆音的强度特征。根据常见的爆音数据分析推知:常出现的爆音波形时间长度t2一般介于2.5毫秒与0.4秒之间,本发明着重于检测较严重的爆音,即原本不应有声音,只有白噪音的的状况下产生了爆音的情况。所以,在t2的前后各定义了占时间长度t1和t3的白噪音(whitenoise)。如此一来,图3所示波形整体代表的物理涵意可以是在原本应该安静只有白噪音的t1+t2+t3时间长度下,产生了持续时间t2的爆音。因此,可对相邻类爆音部位(consecutivecandidatepopnoisesection,ccps)及相邻白噪音部位(consecutivewhitenoisesection,cws)进行以下判断,若符合以下条件式i则代表此处有爆音产生:

(0.4s>(t2forccps)>2.5ms)&(t1for(cwsbeforeccps)>2s)&(t3for(cwsafterccps)>2s)为真(条件式i)

在一实施例中,ccps可被定义成:按照时间顺序所形成的多个部位出现超过1个类爆音部位;cws可被定义成:按照时间顺序所形成的多个部位出现超过1个白噪音部位。

然而,在另一个实施例中,ccps可被定义成:按照时间顺序所形成连续2个部位均出现类爆音部位;cws可被定义成:按照时间顺序所形成连续2个部位均出现白噪音部位。在其他的实施例中,ccps可被定义成:按照时间顺序所形成连续n个部位共出现n个类爆音部位,cws可被定义成:按照时间顺序所形成连续n个部位共出现n个白噪音部位,其中n可为3,4,5...n-1。

在一个实施例中,白噪音部位(whitenoisesection,ws)可被定义成:针对每一音频框进行取样(取样数量比如为50),将这50个取样结果的取样振幅绝对值与一预设振幅值(比如pcmdata为0x40,或db值为-54db)做比较,以取样振幅绝对值大于预设振幅值的数量形成一第一数量,若该第一数量小于或等于一预设比较值(比如10)则该部位为白噪音部位;另一方面,类噪音部位(candidatepopnoisesection(ccps))可被定义成:针对每一音频框进行取样(取样数量比如为50),将这50个取样结果的取样振幅绝对值与一预设振幅值(比如pcmdata为0x40,或db值为-54db)做比较,统计取样振幅值大于预设振幅值的取样数量,以形成一第一数量,若第一数量大于一预设比较值(比如10)则该部位为类噪音部位。

[有关于爆音检测的第一实施例]

请参见图4,其呈现本发明一实施例所绘示爆音检测方法的流程图。如图4所示,爆音检测方法可包括以下步骤:

步骤s401,在一时域内按时间顺序将待检测的一段音源信号划分为多个音频框。作为本发明的一个实施例,本发明中,将待检测的一段音源信号划分为多个音频框可包括:采用滑动窗方式将待检测的音源信号划分为多个音频框,其中,在划分音频框时按照从待检测的一段音源信号中每移动一个设定平移长度划分一个音频框,且划分的音频框的长度为设定滑动窗宽度。若以设定平移长度为5毫秒(ms),设定滑动窗宽度为40毫秒(ms)为例,则对于一个待检测的一段100毫秒(ms)时长的音源信号,划分出13个音频框f,分别为:第1个音频框f01:0_40ms,第2个音频框f02:5ms_45ms;第3个音频框f01:10ms_50ms…最后一个音频框f13:60ms_100ms。

步骤s402,针对每一个音频框进行取样;本发明中,每一个音频框内的取样点数为:fl*fs,fl为音频框长度,fs为默认取样频率。作为本发明的一个实施例,fl可以介于1毫秒到0.4秒之间,fs可以介于16khz和44.1khz之间。当针对每一音频框,其fl均为40毫秒,fs为16khz时,取样点数则为0.04*16000=640。

在步骤s403之中,在每一音频框,所有取样点数中的每一取样具有相应的一取样振幅值。在本实施例中,分别将每一个音频框中的每一取样结果的一取样振幅值与一预设取样振幅值进行比较;由于爆音属短暂的脉冲。预设取样振幅值可以设定为介于人耳听力所及的声音强度的边界值附近。

在一个实施例中,预设取样振幅值可由多个音频框的取样振幅值而决定;在另一个实施例中,预设取样振幅值也可由两个音频框之间的短时能量差而决定;在另一个实施例中,预设取样振幅值可由所有音频框的低频段平均能量值而决定,本发明的应用并不局限于此。因此,可以根据每一音频框的比较的结果,以确认每一音频框属于白噪音部位(whitenoisesection)或类爆音部位(candidatepopnoisesection)。

在一实施例中,若一音频框中取样结果的一取样振幅值大于该预设取样振幅值的一第一数量n1小于一预设比较值时,便可确认该音频框为白噪音部位,其中该第一数量n1可以介于5-fs之间,这依不同的应用而定。若一音频框中取样结果的一取样振幅值大于该预设取样振幅值的一第一数量n1不小于(大于或等于)一预设比较值时,便可确认该音频框为类爆音部位。以上是以音源信号之中个别音频框所取样的强度信息以决定单一个音频框是否于白噪音部位或类爆音部位。

在步骤s404之中,还考虑了取样自音源信号的多个音频框所隐含的强度信息以判断该些音频框中是否依照时间顺序出现相邻白噪音部位(consecutivewhitenoisesection)、相邻类爆音部位(consecutivecandidatepopnoisesection)及相邻白噪音部位(consecutivewhitenoisesection),以供确认该音源信号是否出现爆音。

在一实施例中,当一音频框以及与其相邻至少一个音频框均为白噪音部位时,比如第2个音频框f02和第3个音频框f03的取样频率为50,而在第2个音频框f02和第3个音频框f03中的50取样结果的取样振幅值,经统计后,大于预设取样振幅值的第一数量n1分别为8和9,均小于一预设比较值(比如为10)时,则第2个音频框f02和第3个音频框f03都被判定成为白噪音部位。由于第2个音频框f02和第3个音频框f03均为白噪音部位,则音频框f02和f03被归属于同一个相邻白噪音部位,共占时45毫秒(ms)。

在一实施例中,当一音频框与其相邻至少一个音频框均为类爆音部位时,比如第11个音频框f11和第12个音频框f12的取样频率为50,而在第11个音频框f11和第12个音频框f12中的50取样结果的取样振幅值,经统计后大于预设取样振幅值的第一数量n1分别为11和12,均大于等于一预设比较值(比如为10)时,则第11个音频框f11和第12个音频框f12都被判定成为类爆音部位。由于第11个音频框f11和第12个音频框f12均为类爆音部位,则音频框f11和f12被归属于同一个相邻类爆音部位,共占时45毫秒(ms)。

此外,由于爆音的波形类似一短暂的脉冲,本发明也考虑了多个音频框所隐含有关于爆音的时间特征。当该些音频框中依照时间顺序出现相邻白噪音部位、相邻类爆音部位及相邻白噪音部位时,还包括以下步骤:判断相邻类爆音部位的前一个相邻白噪音部位所相应的音频框所占一第一总时间长度t1是否大于一第一预设时间;判断相邻类爆音部位所相应的音频框所占一第二总时间长度t2是否落在一预设时间区间内;以及判断相邻类爆音部位的后一个相邻白噪音部位所相应的音频框所占一第三总时间长度t3是否大于该第一预设时间。

在一实施例中,当该第一总时间长度t1以及该第三总时间长度t3均大于该第一预设时间,而该第二总时间长度t2落在该预设时间区间内时,确认该音源信号出现爆音。

在一实施例中,该第一预设时间为2秒,该预设时间区间介于2.5毫秒到0.4秒之间。在其他的实施例中,该第一预设时间和该预设时间区间可以被指定成其他值,以使得相邻白噪音部位、相邻类爆音部位及相邻白噪音部位等三者的组合波形更加类似一短暂脉冲。

[有关于爆音检测的第二实施例]

请参见图5,其呈现本发明一实施例所绘示爆音检测装置500的方块图。如图5所示,爆音检测装置500包括:一取样模块501、比对模块502和一控制模块503,上述三个模块彼此之间均电性链接。爆音检测装置500可运行于一服务器设备之中。

该服务器设备包括:处理器、存储装置、输入输出控制器、网络通信接口。上述组件可透过总线进行通信。

本实施例中,存储装置中储存有多个程序模块,例如,操作系统、网络通信模块和应用程序。

处理器可以读取存储装置中的应用程序中的各种模块来执行服务器设备的各种功能应用以及数据处理。本实施例中的处理器可以为一个,也可以为多个,其可以为cpu,处理单元/模块,和asic等。

输入输出控制器具有显示器和输入设备,用于完成相关数据的输入、输出及显示等。

操作系统包括但不限于:android操作系统、symbian操作系统、windows操作系统、linux操作系统等等。

应用程序用于实现本发明所揭露的爆音检测装置500而应具备的所有模块。

取样模块501用于针对一音源信号,取得在一时域内按照时间顺序所形成的多个音频框以及针对每一个音频框f进行取样。

比对模块502,用于分别将每一个音频框f中的每一取样结果的一取样振幅值与一预设取样振幅值进行比较,并且根据每一音频框f的比较的结果而确认每一音频框f属于白噪音部位或类爆音部位。

控制模块503,用于判断该些音频框中是否依照时间顺序出现相邻白噪音部位、相邻类爆音部位及相邻白噪音部位,以供确认该音源信号是否出现爆音,其中每一音频框f的相邻至少一个音频框均为白噪音部位时,则其相应的音频框属于相邻白噪音部位,每一音频框f的相邻至少一个音频框均为类爆音部位时,则其相应的音频框属于相邻类爆音部位。

在一实施例中,该音频框为白噪音部位是指该音频框中取样结果的该取样振幅值大于该预设取样振幅值的一第一数量小于一预设比较值。

在一实施例中,该控制模块503判断相邻类爆音部位的前一个相邻白噪音部位所相应的音频框所占一第一总时间长度t1是否大于一第一预设时间;判断相邻类爆音部位所相应的音频框所占一第二总时间长度t2是否落在一预设时间区间内;以及判断相邻类爆音部位的后一个相邻白噪音部位所相应的音频框所占一第三总时间长度t3是否大于该第一预设时间。

本实施例中,网络通信接口与网络通信模块相配合完成服务器设备各种网络信号的收发以及下载网络上的音频文件等。

在其他的实施例中,爆音检测装置包括:一取样模块、比对模块502和一控制模块,上述三个模块彼此之间均电性链接。爆音检测装置即可运行本发明的方法,而毋需搭配另一服务器设备。

另外,本发明的每一个实施例可以通过由数据处理设备如计算器执行的数据处理程序来实现。显然,数据处理程序构成了本发明。此外,通常储存在一个存储装置中的数据处理例程通过直接将程序读取出存储装置或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此,这样的存储装置也构成了本发明。存储装置可以使用任何类型的记录方式,例如纸张存储装置(如纸带等)、磁存储装置(如软盘、硬盘、闪存等)、光存储装置、磁光存储装置等。

〔实施例的可能技术效果〕

通过本申请实施例的爆音检测方法和装置,可望解脱人工测试难以长时间、广范围、仔细聆听爆音是否产生的困境。而且,人工判断爆音方式往往过于主观,需依靠个别听者的听觉的敏感度。本发明可以建立较为客观的测试标准。再者,在进行人工测试时,细微的爆音有时难以察觉,本发明所公开的爆音检测装置仍可确认细微的爆音。

最后必须说明的是,于前述说明中,尽管已将本发明技术的概念以多个示例性实施例具体地示出与阐述,然而在此项技术的领域中普通技术人员将理解,在不背离由以下权利要求所界定的本发明技术的概念的范围的条件下,可对其作出形式及细节上的各种变化。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1