音频信号处理方法及装置与流程

文档序号:26091181发布日期:2021-07-30 17:59阅读:116来源:国知局
音频信号处理方法及装置与流程

本公开涉及信号处理领域,尤其涉及一种音频信号处理方法及装置。



背景技术:

齿音是用舌尖顶住上门牙,让气流经过牙齿发出的声音。譬如在读zhi,chi,shi,zi,ci,si等拼音时会自然地将舌头抵住口腔内上半部分的牙龈,这使得空气与舌头、口腔、以及牙齿之间的接触面积增大,声音表现则会变得刺耳不少。齿音对于一个演唱者演唱的美感的影响有利有弊。适当的齿音的存在会让人声更有质感,提升人声亮度,但过多的齿音则是一种噪声和失真,会让人声发硬、发刺。在实际演唱中,如果齿音表现得过少,则声音会少许发闷、缺乏声音的真实度;如果齿音表现得过多,则会显得人声表现较为刺耳。

去齿音技术即在保留声音的真实度的同时,将一些刺耳的空气与牙齿之间摩擦的高频声音去除,使得人声整体表现更为委婉。在相关技术中,去齿音的方式主要有使用均衡器滤除刺耳的频带,或者使用动态扩展器将音量低于某一个阈值的声音衰减(因为通常齿音的音量都小于元音的音量),但上述方式或多或少都会影响到演唱者的其他不需要去齿音的演唱细节或者改变原始音色。



技术实现要素:

本公开提供一种音频信号处理方法及装置,以至少解决相关技术中在衰减齿音的同时对音色、声音真实度、其他声音内容等方面产生影响的问题。本公开的技术方案如下:

根据本公开实施例的第一方面,提供一种音频信号处理方法,包括:获取音频信号的第一部分,其中,所述第一部分为所述音频信号处于预设频带的部分;对所述第一部分进行动态压缩处理;基于动态压缩处理后的所述第一部分,得到齿音衰减后的所述音频信号;其中,所述预设频带为齿音集中的频带。

可选地,所述对所述第一部分进行动态压缩处理的步骤包括:基于所述音频信号的过零率和所述第一部分的音量中的至少一个,对所述第一部分进行动态压缩处理;或者,基于所述第一部分的过零率和所述第一部分的音量中的至少一个,对所述第一部分进行动态压缩处理。

可选地,所述基于所述音频信号的过零率和所述第一部分的音量中的至少一个,对所述第一部分进行动态压缩处理的步骤包括:分别针对所述第一部分中的每一采样点,如果满足该采样点所对应的音频帧的过零率高于第一预设阈值、以及该采样点的音量高于第二预设阈值中的至少一项,则对该采样点进行动态压缩处理,以得到动态压缩处理后的所述第一部分。

可选地,所述基于所述第一部分的过零率和所述第一部分的音量中的至少一个,对所述第一部分进行动态压缩处理的步骤包括:分别针对所述第一部分中的每一采样点,如果满足该采样点所对应的音频帧的所述第一部分的过零率高于第三预设阈值、以及该采样点的音量高于第四预设阈值中的至少一项,则对该采样点进行动态压缩处理,以得到动态压缩处理后的所述第一部分。

可选地,所述动态压缩处理的参数按照以下至少一种设置方式进行设置:压缩比设置为5:1、起始时间设置为10ms、释放时间设置为10ms。

可选地,所述预设频带为4000hz-9000hz。

可选地,所述基于动态压缩处理后的所述第一部分,得到齿音衰减后的所述音频信号的步骤包括:将动态压缩处理后的所述第一部分、与所述音频信号之中除所述第一部分之外的部分进行叠加后,作为齿音衰减后的所述音频信号。

可选地,所述获取音频信号的第一部分的步骤包括:通过交叉滤波器将所述音频信号分割成包括所述第一部分在内的多个部分;其中,所述多个部分对应的频带各不相同。

根据本公开实施例的第二方面,提供一种音频信号处理装置,包括:分频单元,被配置为获取音频信号的第一部分,其中,所述第一部分为所述音频信号处于预设频带的部分;压缩单元,被配置为对所述第一部分进行动态压缩处理;处理单元,被配置为基于动态压缩处理后的所述第一部分,得到齿音衰减后的所述音频信号;其中,所述预设频带为齿音集中的频带。

可选地,所述压缩单元被配置为:基于所述音频信号的过零率和所述第一部分的音量中的至少一个,对所述第一部分进行动态压缩处理;或者,基于所述第一部分的过零率和所述第一部分的音量中的至少一个,对所述第一部分进行动态压缩处理。

可选地,所述压缩单元被配置为:分别针对所述第一部分中的每一采样点,如果满足该采样点所对应的音频帧的过零率高于第一预设阈值、以及该采样点的音量高于第二预设阈值中的至少一项,则对该采样点进行动态压缩处理,以得到动态压缩处理后的所述第一部分。

可选地,所述压缩单元被配置为:分别针对所述第一部分中的每一采样点,如果满足该采样点所对应的音频帧的所述第一部分的过零率高于第三预设阈值、以及该采样点的音量高于第四预设阈值中的至少一项,则对该采样点进行动态压缩处理,以得到动态压缩处理后的所述第一部分。

可选地,所述动态压缩处理的参数按照以下至少一种设置方式进行设置:压缩比设置为5:1、起始时间设置为10ms、释放时间设置为10ms。

可选地,所述预设频带为4000hz-9000hz。

可选地,所述处理单元被配置为:将动态压缩处理后的所述第一部分、与所述音频信号之中除所述第一部分之外的部分进行叠加后,作为齿音衰减后的所述音频信号。

可选地,所述分频单元被配置为:通过交叉滤波器将所述音频信号分割成包括所述第一部分在内的多个部分;其中,所述多个部分对应的频带各不相同。

根据本公开实施例的第三方面,提供一种音频信号处理装置,包括:至少一个处理器;至少一个存储计算机可执行指令的存储器,其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行如上所述的音频信号处理方法。

根据本公开实施例的第四方面,提供一种计算机可读存储介质,当述计算机可读存储介质中的指令被至少一个处理器运行时,促使所述至少一个处理器执行如上所述的音频信号处理方法。

根据本公开实施例的第五方面,提供一种计算机程序产品,包括计算机指令,所述计算机指令被至少一个处理器执行时实现如上所述的音频信号处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果:能够自动实时地衰减由于录制设备、发音方式等造成的音频信号中的过重齿音,使齿音衰减后的人声更委婉动听,并且不会影响演唱者的音色和其他演唱内容并保留声音的真实度。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种音频信号处理方法的流程图。

图2是根据一示例性实施例示出的交叉滤波器的频响图。

图3是根据一示例性实施例示出的一种音频信号处理方法的示例。

图4是根据另一示例性实施例示出的一种音频信号处理方法的示例。

图5是根据一示例性实施例示出的压缩比设置为不同值时的压缩情况的示例。

图6是根据一示例性实施例示出的一种音频信号处理装置的框图。

图7是根据另一示例性实施例示出的一种音频信号处理装置的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括a和b之中的至少一个”即包括如下三种并列的情况:(1)包括a;(2)包括b;(3)包括a和b。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。

图1是根据一示例性实施例示出的一种音频信号处理方法的流程图,如图1所示,包括以下步骤。作为示例,该音频信号处理方法可由电子终端或服务器来执行。例如,所述电子终端可以是移动通信终端(例如,智能手机)、智能可穿戴设备(例如,智能手表)、个人计算机、平板电脑、数字多媒体播放器等能够接收音频信号的电子终端。

在步骤s11中,获取音频信号的第一部分。

这里,所述第一部分为所述音频信号处于预设频带的部分。作为示例,所述预设频带可为齿音集中的频带。作为示例,所述预设频带可为齿音集中的中频带。例如,所述预设频带可为4000hz-9000hz。

作为示例,可通过分频器将所述音频信号分割成包括所述第一部分在内的多个部分,其中,所述多个部分对应的频带各不相同。

作为示例,可通过交叉滤波器(crossoverfilter)将所述音频信号分割成包括所述第一部分在内的多个部分,其中,其中,所述多个部分对应的频带各不相同。交叉滤波器为多段滤波器,其整体幅值频率相应是平坦的,例如,如图2所示,可将交叉滤波器的分频点设置为4000hz和9000hz,以将音频信号分成低、中、高三个频带部分。

在步骤s12中,对所述第一部分进行动态压缩处理。

在步骤s13中,基于动态压缩处理后的所述第一部分,得到齿音衰减后的所述音频信号。

作为示例,步骤s13可包括:将动态压缩处理后的所述第一部分、与所述音频信号之中除所述第一部分之外的部分进行叠加后,作为齿音衰减后的所述音频信号。

在一个实施例中,步骤s12可包括:基于所述音频信号的过零率(zerocrossingrate)和所述第一部分的音量中的至少一个,对所述第一部分进行动态压缩处理。

具体地,作为示例,可分别针对所述第一部分中的每一采样点,如果满足该采样点所对应的音频帧的过零率高于第一预设阈值、以及该采样点的音量高于第二预设阈值中的至少一项,则对该采样点进行动态压缩处理,以得到动态压缩处理后的所述第一部分。

应该理解,采样点所对应的音频帧即获取该采样点所基于的音频帧,换言之,对该音频帧的处于所述预设频带的部分进行采样,得到包括该采样点在内的多个采样点。

应该理解,针对所述第一部分中的每一采样点,如果该采样点满足上述条件,则对该采样点进行动态压缩处理,如果该采样点不满足上述条件,则确定该采样点不需要进行动态压缩处理,动态压缩处理后的采样点和不需要进行动态压缩处理的采样点共同构成了动态压缩处理后的所述第一部分。

图3是根据一示例性实施例示出的一种音频信号处理方法的示例。

参照图3,可将原始音频信号帧输入到交叉滤波器,以通过交叉滤波器分离出该音频信号帧的中频部分(即,上述第一部分)、高频部分、以及低频部分。计算该音频信号帧的过零率,并基于过零率的计算结果来控制动态压缩器的开启和关闭,当该音频信号帧的过零率高于第一预设阈值时,开启动态压缩器,即,通过动态压缩器对第一部分进行动态压缩处理(具体地,仅对第一部分中的音量高于第二预设阈值的采样点进行动态压缩处理,不对其他采样点进行动态压缩处理,也即,动态压缩器的阈值设置为第二预设阈值),将经由动态压缩处理后的第一部分和该音频信号帧的其他部分进行叠加,获得齿音衰减后的该音频信号帧;当该音频信号帧的过零率低于或等于第一预设阈值时,关闭动态压缩器,即,不对第一部分进行动态压缩处理。本公开考虑到齿音以噪音为主,使得齿音的过零率远高于其他声音内容,因此,可将过零率作为是否开启动态压缩器的判断条件。

在另一个实施例中,步骤s12可包括:基于所述第一部分的过零率和所述第一部分的音量中的至少一个,对所述第一部分进行动态压缩处理。

具体地,作为示例,可分别针对所述第一部分中的每一采样点,如果满足该采样点所对应的音频帧的所述第一部分的过零率高于第三预设阈值、以及该采样点的音量高于第四预设阈值中的至少一项,则对该采样点进行动态压缩处理,以得到动态压缩处理后的所述第一部分。

作为示例,采样点所对应的音频帧的所述第一部分的过零率即采样点所对应的音频帧处于所述预设频带的部分的过零率。

图4是根据另一示例性实施例示出的一种音频信号处理方法的示例。

参照图4,可将原始音频信号帧输入到交叉滤波器,以通过交叉滤波器分离出该音频信号帧的中频部分(即,上述第一部分)、高频部分、以及低频部分。计算第一部分的过零率,并基于过零率的计算结果来控制动态压缩器的开启和关闭,当第一部分的过零率高于第三预设阈值时,开启动态压缩器,即,通过动态压缩器对第一部分进行动态压缩处理(具体地,仅对第一部分中的音量高于第四预设阈值的采样点进行动态压缩处理,不对其他采样点进行动态压缩处理,也即,动态压缩器的阈值设置为第四预设阈值),将经由动态压缩处理后的第一部分和该音频信号帧的其他部分进行叠加,获得齿音衰减后的该音频信号帧;当第一部分的过零率低于或等于第三预设阈值时,关闭动态压缩器,即,不对第一部分进行动态压缩处理。

应该理解,第一预设阈值和第三预设阈值可相同或不同,第二预设阈值和第四预设阈值可相同或不同。仅作为示例,第一预设阈值可设置为0.2,第二预设阈值可设置为-30db。

经过动态压缩(drc)处理的音频信号,音量大的部分将被减小,音量小的部分将被提升,使得声音的动态范围被压缩。动态压缩处理可涉及以下几个参数:压缩比(ratio)、阈值(threshold)、attacktime(起始时间)、releasetime(释放时间)、以及拐点宽度(kneewidth)。本公开考虑到齿音持续时间较短,可将起始时间和释放时间设置较小,作为示例,可将起始时间设置为10ms左右,和/或将释放时间设置为10ms左右。此外,图5示出了压缩比设置为不同值时的压缩情况,作为示例,可将压缩比设置为5:1。

作为示例,可通过下式计算每一帧的过零率zn:

其中,sgn[]为符号函数,m表示一帧的起始采样点,n表示一帧的结束采样点,n表示帧长,x(m)表示采样点信号。

图6是根据一示例性实施例示出的一种音频信号处理装置的框图。参照图6,该音频信号处理装置10包括:分频单元11、压缩单元12、以及处理单元13。

具体说来,分频单元11被配置为获取音频信号的第一部分。

这里,所述第一部分为所述音频信号处于预设频带的部分,其中,所述预设频带为齿音集中的频带。作为示例,所述预设频带可为4000hz-9000hz。

压缩单元12被配置为对所述第一部分进行动态压缩处理。

处理单元13被配置为基于动态压缩处理后的所述第一部分,得到齿音衰减后的所述音频信号。

作为示例,压缩单元12可被配置为:基于所述音频信号的过零率和所述第一部分的音量中的至少一个,对所述第一部分进行动态压缩处理;或者,基于所述第一部分的过零率和所述第一部分的音量中的至少一个,对所述第一部分进行动态压缩处理。

在一个实施例中,压缩单元12可被配置为:分别针对所述第一部分中的每一采样点,如果满足该采样点所对应的音频帧的过零率高于第一预设阈值、以及该采样点的音量高于第二预设阈值中的至少一项,则对该采样点进行动态压缩处理,以得到动态压缩处理后的所述第一部分。

在另一实施例中,压缩单元12可被配置为:分别针对所述第一部分中的每一采样点,如果满足该采样点所对应的音频帧的所述第一部分的过零率高于第三预设阈值、以及该采样点的音量高于第四预设阈值中的至少一项,则对该采样点进行动态压缩处理,以得到动态压缩处理后的所述第一部分。

作为示例,所述动态压缩处理的参数可按照以下至少一种设置方式进行设置:压缩比设置为5:1、起始时间设置为10ms、释放时间设置为10ms。

作为示例,处理单元13可被配置为:将动态压缩处理后的所述第一部分、与所述音频信号之中除所述第一部分之外的部分进行叠加后,作为齿音衰减后的所述音频信号。

作为示例,分频单元11可被配置为:通过交叉滤波器将所述音频信号分割成包括所述第一部分在内的多个部分;其中,所述多个部分对应的频带各不相同。

关于上述实施例中的装置,其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

此外,应该理解,根据本公开示例性实施例的音频信号处理装置10中的各个单元可被实现硬件组件和/或软件组件。本领域技术人员根据限定的各个单元所执行的处理,可以例如使用现场可编程门阵列(fpga)或专用集成电路(asic)来实现各个单元。

图7是根据另一示例性实施例示出的一种音频信号处理装置的框图。参照图7,该音频信号处理装置20包括:至少一个存储器21和至少一个处理器22,所述至少一个存储器21中存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个处理器22执行时,执行如上述示例性实施例所述的音频信号处理方法。

作为示例,音频信号处理装置20可以是pc计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,音频信号处理装置20并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。音频信号处理装置20还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。

在音频信号处理装置20中,处理器22可包括中央处理器(cpu)、图形处理器(gpu)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器22还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器22可运行存储在存储器21中的指令或代码,其中,存储器21还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。

存储器21可与处理器22集成为一体,例如,将ram或闪存布置在集成电路微处理器等之内。此外,存储器21可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器21和处理器22可在操作上进行耦合,或者可例如通过i/o端口、网络连接等互相通信,使得处理器22能够读取存储在存储器中的文件。

此外,音频信号处理装置20还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。音频信号处理装置20的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例,还可提供一种存储指令的计算机可读存储介质,其中,当指令被至少一个处理器运行时,促使至少一个处理器执行如上述示例性实施例所述的音频信号处理方法。这里的计算机可读存储介质的示例包括:只读存储器(rom)、随机存取可编程只读存储器(prom)、电可擦除可编程只读存储器(eeprom)、随机存取存储器(ram)、动态随机存取存储器(dram)、静态随机存取存储器(sram)、闪存、非易失性存储器、cd-rom、cd-r、cd+r、cd-rw、cd+rw、dvd-rom、dvd-r、dvd+r、dvd-rw、dvd+rw、dvd-ram、bd-rom、bd-r、bd-rlth、bd-re、蓝光或光盘存储器、硬盘驱动器(hdd)、固态硬盘(ssd)、卡式存储器(诸如,多媒体卡、安全数字(sd)卡或极速数字(xd)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的示例性实施例,还可提供一种计算机程序产品,该计算机程序产品中的指令可由至少一个处理器执行以完成如上述示例性实施例所述的音频信号处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1