音频信号的信号提取方法与装置的制造方法

文档序号：10727072阅读：250来源：国知局

音频信号的信号提取方法与装置的制造方法
【专利摘要】一种音频信号的信号提取方法与装置。转换音频信号为多个音频帧，其中上述多个音频帧依时间顺序排列。获得各音频帧的频谱数据。依时间顺序取出N个音频帧各自的频谱数据，并且对上述N个音频帧执行频谱相连性运算。最后，将各音频帧中与相邻音频帧之间具有频谱相连性的信号判定为理想信号。
【专利说明】
音频信号的信号提取方法与装置
技术领域
[0001]本发明涉及一种处理音频信号的方法与装置，且特别涉及一种音频信号的信号提取方法与装置。
【背景技术】
[0002]—般而言，在进行语音或音乐等音频信号的处理程序时，会保留音频信号中的理想信号，并将噪声从音频信号中移除。理想信号与噪声的分割可分成为噪声检测和信号提取两类方法。噪声检测方法包括下列几种:使用振幅、功率频谱密度(Power SpectralDensity，PSD)、过零率(Zero Crossing Rate，ZCR)等的能量检测法；使用机率模型(Probability Model)、频谱特征模型(Spectrum Model)、相似度(Likelihood)等的模型比对法；使用最小均方法(Least Mean Square，LMS)、正规化最小均方法(NormalizedLeast Mean Square, NLMS)等自动收敛法；使用自适应滤波器(Adaptive Filter)、移动平均(Moving Average)、线性预测编码(Linear Predictive Coding, LPC)等的适应性估计法等。
[0003]而能量检测法和模型比对法大多在时间轴上区分理想信号和噪声。自动收敛法无法独立出理想信号和噪声的频带来做进一步的分析。而适应性估计法，在信噪比较低时，估计就会失准。
[0004]另外，使用信号提取的方法，大多属于已知信号类型的判读和辨识，包含频谱图二维遮罩(Spectrogram 2D Masking)、信号模型比对等。此种方法只能提取出期望的信号种类，对于信号种类太多时，相当耗费资源。

【发明内容】

[0005]本发明提供一种音频信号的信号提取方法与装置，能够快速地提取出音频信号中的理想信号。
[0006]本发明的音频信号的信号提取方法，包括下列步骤。转换音频信号为多个音频帧，其中上述多个音频帧依时间顺序排列。获得各音频帧的频谱数据。分别以各音频帧作为当前音频帧，依时间顺序取出N个音频帧各自的频谱数据，并且对N个音频帧执行频谱相连性运算。执行频谱相连性运算的步骤包括:基于N个音频帧各自所包括的频谱数据，获得N个音频帧各自的信号区块列表，其中信号区块列表用以记录存在有信号值的频谱指数范围；以及依据各音频帧的信号区块列表，寻找各音频帧与其相邻的音频帧之间的频谱相连性。最后，将各音频帧中与相邻音频帧之间具有频谱相连性的信号判定为理想信号。
[0007]本发明的一种音频信号的信号提取装置，包括:处理单元以及存储单元。存储单元耦接至处理单元，且包括多个模块。处理单元驱动上述多个模块来检测音频信号中的理想信号。上述多个模块包括:转换模块以及运算模块。转换模块用以转换音频信号为多个音频帧，其中上述多个音频帧依时间顺序排列。运算模块用以获得各音频帧的频谱数据，并且分别以各音频帧作为当前音频帧，依时间顺序取出N个音频帧各自的频谱数据，并且对N个音频帧执行频谱相连性运算。上述频谱相连性运算包括:基于N个音频帧各自所包括的频谱数据，获得N个音频帧各自的信号区块列表，其中信号区块列表用以记录存在有信号值的频谱指数范围；以及依据各音频帧的信号区块列表，寻找各音频帧与其相邻的音频帧之间的频谱相连性；以及将各音频帧中与相邻音频帧之间具有频谱相连性的信号判定为理想信号。
[0008]基于上述，藉由执行频谱相连性运算来找出相连的信号区块，藉以排除频谱上小区块孤立的短暂信号，进而可快速区分出理想信号与噪声。
[0009]为让本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合附图作详细说明如下。
【附图说明】
[0010]图1是依照本发明一实施例所绘示的一种音频信号的信号提取装置的方块图。
[0011]图2是依照本发明一实施例所绘示的一种分离理想信号及噪声方法的示意图。
[0012]图3是依照本发明一实施例所绘示的一种音频信号的信号提取方法的流程图。
[0013]图4是依照本发明一实施例的相邻两个音频帧的频谱数据的示意图。
[0014]图5是依照本发明一实施例的频谱相连性运算的示意图。
[0015]【符号说明】
[0016]100:信号提取装置
[0017]110:存储单元
[0018]120:处理单元
[0019]130:转换模块
[0020]140:运算模块
[0021]201:音频成帧模块
[0022]203:视窗模块
[0023]205:FFT 模块
[0024]207:绝对值模块
[0025]211:背景估计模块
[0026]213:相连性搜寻模块
[0027]221:VAD 模块
[0028]223:分割模块
[0029]225:噪声档
[0030]227:抑制噪声模块
[0031]229:1FFT 模块
[0032]401?403、411?413:频谱指数范围
[0033]a、b、η ?η+1:音频帧
[0034]DO?D4:频谱数据
[0035]SBLO?SBL4:信号区块列表
[0036]CBL_F0?CBL_F4:第一相连性区块列表
[0037]CBL_S0?CBL_S4:第二相连性区块列表
[0038]S310?S340:噪声检测方法各步骤
[0039]S51?S57:频谱相连性运算各步骤
【具体实施方式】
[0040]图1是依照本发明一实施例所绘示的一种音频信号的信号提取装置的方块图。信号提取装置100包括存储单元110与处理单元120。处理单元120耦接至存储单元110。处理单元120例如为中央处理单元(Central Processing Unit，CPU)、可编程的微处理器(Microprocessor)、嵌入式控制芯片等。
[0041]存储单元110例如是任意型式的固定式或可移动式随机存取存储器(RandomAccess Memory,RAM)、只读存储器(Read-Only Memory,ROM)、快闪存储器(Flash memory)、硬盘或其他类似装置或这些装置的组合。存储单元110中存储有多个程序代码片段，上述程序代码片段在被安装后，会由处理单元120来执行，以实现音频信号的信号提取方法，藉此快速且准确地提取出音频信号中的理想信号。存储单元110可存储音频信号以及信号提取方法所需的或所产生的各种数值与数据。
[0042]在此，音频信号例如是将模拟信号格式的原始音频信号经由模拟数字转换后所产生的数字信号。上述的原始音频信号可以是通过麦克风所接收的使用者的语音指令，或是由电视、多媒体播放器等电子装置所发出的信号。所述噪声则例如是背景白噪声或是在特定频率区段具有较强幅度的有色噪声(例如红噪声等)。
[0043]存储单元110包括转换模块130以及运算模块140。通过处理单元120来驱动存储单元110中的转换模块130以及运算模块140，藉以实现音频信号的信号提取方法。上述转换模块130用以将音频信号转换为多个音频帧(frame)，这些音频帧依照时间顺序而排列。运算模块140用以寻找各音频帧与其相邻音频帧之间的频谱相连性，进而将具有频谱相连性的信号判定为理想信号。
[0044]另外，在其他实施例中，转换模块130以及运算模块140也可以通过处理器来实现。即，利用多个处理器来分别实现转换模块130以及运算模块140的功能。
[0045]下文列举一例来说明上述信号提取装置100的其中一种应用方式，然而，并不以此来限定其范围。图2是依照本发明一实施例所绘示的一种分离理想信号及噪声方法的示意图。在此，理想信号所指为具有频谱相连性的信号。
[0046]请参照图1及图2，在本实施例中，转换模块130包括音频成帧模块201、视窗模块203、快速傅立叶变换(Fast Fourier Transform, FFT)模块205以及绝对值模块207。运算模块140包括背景估计模块211以及相连性搜寻模块213。
[0047]音频成帧模块201用以将音频信号转换为多个音频帧。音频成帧模块201将M个采样点集合成一个观测单位，称为音频帧。而为了避免相邻两个音频帧的变化过大，因此设定两个相邻音频帧之间有一段重叠区域，此重叠区域包含了 I个采样点，通常I的值可以是M的1/2或1/3，但不限于1/2或1/3。一般而言，信号处理所用的音频帧的采样频率为SkHz或 16kHz ο
[0048]视窗模块203用以将每一个音频帧乘上一个视窗函数(window funct1n)。这是因为原本完整的音频信号硬生生被音频帧截断，因此在使用傅立叶变换(FourierTransform)分析频率会产生误差。为了避免在进行傅立叶变换所产生的误差，在执行傅立叶变换之前先将音频帧乘上一个视窗函数，以增加音频帧左端和右端的连续性。在此，视窗函数例如为汉明视窗(Hamming window)或韩恩视窗(Hann window)。
[0049]快速傅立叶变换(Fast Fourier Transform, FFT)模块(下文简称FFT模块)205用以将音频帧从时域(Time domain)转换至频域(Frequency domain)。即，音频帧在乘上视窗函数后，每个音频帧还必需再经过FFT模块205以得到在频谱上的能量分布。而由于经由FFT模块205所获得的频谱包括多个频谱分量，且各频谱分量包括实部与虚部。因此，再通过绝对值模块207来求出每一频谱分量的绝对值。例如，绝对值模块207计算每一频谱分量的实部的平方与虚部的平方的总和后再开方根，即可获得绝对值，并且以此绝对值作为每一频谱分量的幅度。在此，将经由绝对值模块207的结果称为频域信号fft_abs。
[0050]在获得频域信号fft_abs之后，由背景估计模块211对频域信号fft_abs执行短时区(short time)背景估计法来获得一估计值。之后，相连性搜寻模块213基于估计值，对频域信号fft_abS执行滤除操作，藉以获得音频帧的频谱数据。例如，将频域信号fft_abs中小于或等于估计值的信号值滤除，只保留大于估计值的信号值。
[0051]语音活性检测(Voice activity detect1n, VAD)模块221与分割模块223为选择性构件。使用VAD模块221与分割模块223可进一步让信号提取的准确率及速度提升，但若不使用VAD模块221与分割模块223亦能够检测噪声。藉由VAD模块221来判断音频信号是否为噪声，若是噪声，则分割模块223区分为噪声数据，反之，则为混和信号数据。分割模块223将噪声数据传送至一噪声档(noise prof ile) 225进行更新，并将混和信号数据(语音活性检测结果)传送至运算模块140的相连性搜寻模块213。
[0052]由于理想信号指的是具有频谱相连性的信号，所以要再根据混和信号数据中频谱是否相连的特性，找出理想信号。因此，相连性搜寻模块213可进一步依据经由VAD模块221的语音活性检测结果以及估计值，对频域信号fft_abs执行信号提取的操作。在其他实施例中，相连性搜寻模块213也可以只依据估计值对频域信号fft_abs执行信号提取。相连性搜寻模块213在获得各音频帧的频谱数据后，便可执行频谱相连性搜寻，相关描述将于下文详述。而相连性搜寻模块213在判定音频帧中哪些信号属于理想信号后，将不属于理想信号的数据视为噪声数据传送至噪声档225做更新。
[0053]抑制噪声模块227则会根据噪声档225及相连性搜寻模块213的输出，对FFT模块205所输出的信号进行噪声抑制。之后，逆向(inverse)快速傅立叶变换模块(IFFT模块)229针对抑制噪声模块227的输出进行IFFT运算而将音频帧由频域转换为时域，进而可获得去噪声信号。
[0054]下文再针对噪声检测来进行详细的说明。
[0055]图3是依照本发明一实施例所绘示的一种音频信号的信号提取方法的流程图。请参照图1?图3，在步骤S310中，转换模块130转换音频信号为多个音频帧，而上述多个音频帧依时间顺序排列。例如，通过音频成帧模块201来获得多个音频帧，并且再经由视窗模块203、FFT模块205以及绝对值模块207来获得各音频帧的频域信号fft_abs。
[0056]接着，在步骤S320中，运算模块140获得各音频帧的频谱数据。例如，运算模块140通过背景估计模块211执行短时区背景估计法，并通过相连性搜寻模块213依据背景估计模块211的输出结果来获得各音频帧在频域上的频谱数据。在此，频谱数据为基于频谱指数(spectral index)的数据。相连性搜寻模块213依据一估计值可将频域信号fft_abs的各频谱指数转换为有信号或无信号。例如，依据背景估计模块211所获得的估计值，将频域信号fft_abs中小于或等于估计值的信号值滤除(视为无信号)，只保留大于估计值的信号值(视为有信号)。
[0057]举例来说，图4是依照本发明一实施例的相邻两个音频帧的频谱数据的示意图。在此，图4表示依照时间顺序且前后相邻的音频帧a与音频帧b的频谱数据。在音频帧a中，频谱指数范围401、402、403代表有信号值。在音频帧b中，频谱指数范围411、412、413代表有信号值。在此，频谱指数以O?127来表示。
[0058]返回图3，在获得频谱数据之后，在步骤S330中，运算模块140通过相连性搜寻模块213分别以各音频帧作为当前音频帧，依时间顺序来取出N个音频帧各自的频谱数据，并且对这些N个音频帧执行频谱相连性运算。即，相连性搜寻模块213每次平移一个音频帧来采样，且每次取出时间相连的N个音频帧来判断N个音频帧之间的频谱相连性。
[0059]步骤S330包括步骤S330_a及步骤S330_b。在步骤S330_a中，相连性搜寻模块213会先基于所取出的N个音频帧所包括的频谱数据，来获得各音频帧的信号区块列表。所述信号区块列表用以记录存在有信号值的频谱指数范围。以图4的音频帧a而言，音频帧a的信号区块列表记录有频谱指数范围401、402、403各自的起始点与结束点。例如，频谱指数范围401的起始点为频谱指数3，而结束点为频谱指数4，故，以[3，4]来表示。以此类推，频谱指数范围402、403分别以[9,10], [100，100]来表示。
[0060]接着，在步骤S330_b中，相连性搜寻模块213依据各音频帧的信号区块列表，寻找各音频帧与其相邻音频帧之间的频谱相连性。所谓频谱相连性指的是，在连续相邻的N个音频帧中的信号在频谱指数上具有重复或相连接的范围，其中N为大于等于2的整数。以图4而言，以连续相邻的两个音频帧的频谱相连性为例，音频帧a的频谱指数范围401 ([3，4])与音频帧b的频谱指数范围411 ([4，5])两者的频谱指数范围有重复的部分，因此具有频谱相连性。而音频帧a的频谱指数范围402 ([9，10])与音频帧b的频谱指数范围412 ([11，11])两者的频谱指数范围为相连接，因此亦具有频谱相连性。而音频帧a的频谱指数范围403([100，100])与音频帧b的频谱指数范围413([110，110])由于其频谱指数范围并无重复亦未相连接，因此不具有频谱相连性。
[0061]之后，在步骤S340中，运算模块140的相连性搜寻模块213将各音频帧中与其相邻音频帧之间具有频谱相连性的信号判定为理想信号。也就是说，各音频帧中与其相邻音频帧之间不具有频谱相连性的信号为噪声。以图4而言，音频帧a的频谱指数范围403与音频帧b的频谱指数范围413会被判定为噪声。
[0062]下文再举一例来详细说明上述频谱相连性运算的其中一种应用例。
[0063]图5是依照本发明一实施例的频谱相连性运算的示意图。在本实施例中，相连性搜寻模块213逐一以各音频帧作为当前音频帧，每次取N个音频帧来执行，在此N = 5。BP,先以第I个音频帧为当前音频帧，取音频帧I?音频帧5来执行频谱相连性运算；接着，以第2个音频帧为当前音频帧，取音频帧2?音频帧6来执行频谱相连性运算；而后，以第3个音频帧为当前音频帧，取音频帧3?音频帧7来执行频谱相连性运算，以此类推。据此，除了第I个音频帧之外，其他音频帧会执行2次以上的频谱相连性运算。在本实施例中，由于N为5，因此从第5个音频帧开始，每个音频帧会执行5次的频谱相连性运算。在此，以图5为例来说明每一次的频谱相连性运算，然并不以此为限。
[0064]下文针对所取出的5个音频帧(音频帧η至音频帧η+4)来执行I次的频谱相连性运算进行说明。相连性搜寻模块213取出音频帧η至音频帧η+4的频谱数据DO?D4。接着，相连性搜寻模块213基于音频帧η至音频帧η+4所包括的频谱数据DO?D4，获得各音频帧的信号区块列表SBLO?SBL4。以频谱数据DO而言，其在频谱指数2、5、7?8、101中存在有信号值，故，其信号区块列表SBLO表示为[2，2]、[5，5]、[7，8]、[101，101]，其他亦以此类推，而获得音频帧η至音频帧η+4的信号区块列表SBLO?SBL4。之后，相连性搜寻模块213便可根据信号区块列表SBLO?SBL4来找出各音频帧与其相邻的音频帧之间的频谱相连性。
[0065]具体而言，相连性搜寻模块213依据各音频帧的信号区块列表，依照时间顺序由后往前，寻找相邻N个音频帧之间的频谱相连性，而获得上述5个音频帧各自的第一相连性区块列表CBL_F0?CBL_F4。第一相连性区块列表CBL_F0?CBL_F4用以记录时间上由后往前相邻N个音频帧之间具有频谱相连性的频谱指数范围，详细内容参照下述步骤S51?步骤S54。
[0066]在步骤S51中，对音频帧η+4与其前一个音频帧η+3进行频谱相连性的搜寻。先比较音频帧η+4与音频帧η+3两者的信号区块列表SBL4与信号区块列表SBL3，而分别获得第一相连性区块列表CBL_F4与CBL_F3。在步骤S51中，滤除掉音频帧η+4的信号区块列表SBL4中的频谱指数范围[120，121]，而获得第一相连性区块列表CBL_F4 ;同时，在步骤S51中，由于音频帧η+3的信号区块列表SBL3中的频谱指数范围与音频帧η+4的信号区块列表SBL4中的频谱指数范围具相连性，因此不滤除任何的频谱指数范围，即可获得第一相连性区块列表CBL_F3。
[0067]在步骤S52中，对音频帧η+3与其前一个音频帧η+2进行频谱相连性的搜寻。由于音频帧η+3已与音频帧η+4进行比对而获得第一相连性区块列表CBL_F3，因此，以音频帧η+3的第一相连性区块列表CBL_F3与音频帧η+2的信号区块列表SBL2来进行比较，进而获得第一相连性区块列表CBL_F2。在步骤S52中，滤除掉音频帧η+2的信号区块列表SBL2中的频谱指数范围[98，101]，而获得第一相连性区块列表CBL_F2。
[0068]在步骤S53中，对音频帧η+2与其前一个音频帧η+1进行频谱相连性的搜寻。以音频帧η+2的第一相连性区块列表CBL_F2与音频帧η+1的信号区块列表SBLl来进行比较，进而获得第一相连性区块列表CBL_F1。在步骤S53中，滤除掉音频帧η+1的信号区块列表SBLl中的频谱指数范围[50，50]、[101，101]，而获得第一相连性区块列表CBL_F1。
[0069]在步骤S54，对音频帧η+1与其前一个音频帧η进行频谱相连性的搜寻。以音频帧η+1的第一相连性区块列表CBL_F1与音频帧η的信号区块列表SBLO来进行比较，进而获得第一相连性区块列表CBL_F0。在步骤S54中，滤除掉音频帧η的信号区块列表SBLO中的频谱指数范围[101，101]，而获得第一相连性区块列表CBL_F0。
[0070]在执行步骤S51?步骤S54之后，相连性搜寻模块213再依据各音频帧的第一相连性区块列表CBL_F0?CBL_F4，依照时间顺序由前往后，寻找相邻N个音频帧之间的频谱相连性，而获得各音频帧的第二相连性区块列表CBL_S0?CBL_S4。第二相连性区块列表CBL_S0?CBL_S4用以记录时间上由前往后相邻的N个音频帧之间具有频谱相连性的频谱指数范围，详细内容参照下述步骤S55?步骤S57。
[0071]在依照时间顺序由前往后，比较相邻N个音频帧的过程中，由于音频帧η与音频帧η+1在步骤S54中已经比较过了，因此直接以其第一相连性区块列表CBL_FO与第一相连性区块列表CBL_F1作为第二相连性区块列表CBL_SO与第二相连性区块列表CBL_S1。
[0072]之后，在步骤S55中，对音频帧η+1与音频帧η+2进行频谱相连性的搜寻。以音频帧η+1的第二相连性区块列表CBL_S1与音频帧η+2的第一相连性区块列表CBL_F2来进行比较，进而获得音频帧η+2的第二相连性区块列表CBL_S2。
[0073]在步骤S56中，对音频帧η+2与音频帧η+3进行频谱相连性的搜寻。以音频帧η+2的第二相连性区块列表CBL_S2与音频帧η+3的第一相连性区块列表CBL_F3来进行比较，进而获得音频帧η+3的第二相连性区块列表CBL_S3。在步骤S56中，滤除掉音频帧η+3的第一相连性区块列表CBL_F3的频谱指数范围[12，12]，而获得第二相连性区块列表CBL_S3 ο
[0074]在步骤S57中，对音频帧η+3与音频帧η+4进行频谱相连性的搜寻。以音频帧η+3的第二相连性区块列表CBL_S3与音频帧η+4的第一相连性区块列表CBL_F4来进行比较，进而获得音频帧η+4的第二相连性区块列表CBL_S4。
[0075]藉由依时间顺序由后往前、再由前往后进行比对，可确实地找出该音频帧与其相邻音频帧之间皆具有频谱相连性的信号。在本实施例中所举的范例是先依照时间顺序由后往前进行寻找，之后再依照时间顺序由前往后进行寻找。而在其他实施例中，也可先依照时间顺序由前往后进行寻找，再依照时间顺序由后往前进行寻找，在此并不限制。
[0076]之后，相连性搜寻模块213依据各音频帧被取出来执行频谱相连性运算的次数(即，每个音频帧执行步骤S330的次数)，将每一次所获得的第二相连性区块列表中所记录的频谱指数范围进行或(OR)逻辑运算，而获得最终相连性区块列表。例如，倘若每次取出5个音频帧来执行频谱相连性运算，则从第5个音频帧开始，每个音频帧总共会执行5次的频谱相连性运算。因此，以第5个音频帧为例，其具有对应的5个第二相连性区块列表。而相连性搜寻模块213会对上述5个第二相连性区块列表所记录的频谱指数范围进行或(OR)逻辑运算，藉此来获得第5个音频帧的最终相连性区块列表。
[0077]在获得每一个音频帧的最终相连性区块列表之后，相连性搜寻模块213依据各音频帧的最终相连性区块列表中所记录的频谱指数范围，以提取各音频帧在频域上的频谱数据，即获得具有频谱相连性的信号，并将其判定为理想信号。
[0078]综上所述，在上述实施例中，使用短时区背景估计法来找出可能的信号频带，之后藉由执行频谱相连性运算来找出相连的信号区块，藉以排除频谱上小区块孤立的短暂信号，进而可快速区分出理想信号与噪声。
[0079]虽然本发明已以实施例公开如上，然其并非用以限定本发明，本领域技术人员在不脱离本发明的精神和范围内，当可作些许的更动与润饰，故本发明的保护范围当视所附权利要求书界定范围为准。
【主权项】
1.一种音频信号的信号提取方法，包括: 转换音频信号为多个音频帧，其中上述多个音频帧依时间顺序排列；获得每一上述音频帧的频谱数据；分别以每一上述音频帧作为当前音频帧，依上述时间顺序取出N个上述音频帧各自的上述频谱数据，并且对上述N个音频帧执行频谱相连性运算，包括: 基于每一上述N个音频帧所包括的上述频谱数据，获得每一上述N个音频帧的信号区块列表，其中上述信号区块列表用以记录存在有信号值的频谱指数范围；以及依据每一上述音频帧的上述信号区块列表，寻找每一上述音频帧与其相邻的上述音频帧之间的频谱相连性；以及将每一上述音频帧与相邻上述音频帧之间具有上述频谱相连性的信号判定为理想信号。2.如权利要求1所述的音频信号的信号提取方法，其中依据每一上述音频帧的上述信号区块列表，寻找每一上述音频帧与其相邻的上述音频帧之间的上述频谱相连性的步骤包括: 依据上述N个音频帧各自的上述信号区块列表，依照上述时间顺序由后往前，寻找相邻N个上述音频帧之间的上述频谱相连性，而获得上述N个音频帧各自的第一相连性区块列表，其中上述第一相连性区块列表用以记录依照上述时间顺序由后往前相邻N个上述音频帧之间具有上述频谱相连性的上述频谱指数范围；以及依据上述N个音频帧各自的上述第一相连性区块列表，依照上述时间顺序由前往后，寻找相邻N个上述音频帧之间的上述频谱相连性，而获得上述N个音频帧各自的第二相连性区块列表，其中上述第二相连性区块列表用以记录依照上述时间顺序由前往后相邻的N个上述音频帧之间具有上述频谱相连性的上述频谱指数范围。3.如权利要求2所述的音频信号的信号提取方法，其中依照上述时间顺序由后往前，寻找相邻N个上述音频帧之间的上述频谱相连性的步骤包括: 比较第N个上述音频帧与第N-1个上述音频帧两者的上述信号区块列表，而获得上述第N个音频帧与上述第N-1个音频帧各自的上述第一相连性区块列表；以及比较第j个上述音频帧的上述第一相连性区块列表与第j_l个上述音频帧的上述信号区块列表，而获得上述第j-ι个音频帧的上述第一相连性区块列表，其中，j为正整数且2 ^ j ^ N-104.如权利要求3所述的音频信号的信号提取方法，其中依照上述时间顺序由前往后，寻找相邻N个上述音频帧之间的上述频谱相连性的步骤包括: 将上述N个音频帧中的第I个上述音频帧与第2个上述音频帧两者的上述第一相连性区块列表，设定为上述第I个音频帧与上述第2个音频帧各自的上述第二相连性区块列表；以及比较第k个上述音频帧的上述第二相连性区块列表与第k+Ι个上述音频帧的上述第一相连性区块列表，而获得上述第k+Ι个音频帧的上述第二相连性区块列表，其中k为正整数且2彡k彡N-105.如权利要求2所述的音频信号的信号提取方法，其中在对上述N个音频帧执行上述频谱相连性运算的步骤之后，还包括: 依据每一上述音频帧被取出来执行上述频谱相连性运算的次数，将每一次所获得的上述第二相连性区块列表中所记录的上述频谱指数范围进行或逻辑运算，而获得最终相连性区块列表。6.如权利要求5所述的音频信号的信号提取方法，其中将每一上述音频帧中与其相邻上述音频帧之间具有上述频谱相连性的信号判定为理想信号的步骤包括: 依据每一上述音频帧的上述最终相连性区块列表中所记录的上述频谱指数范围，以提取每一上述音频帧在频域上的上述频谱数据中，获得具有上述频谱相连性的信号，并将其判定为上述理想信号。7.如权利要求1所述的音频信号的信号提取方法，其中获得每一上述音频帧的上述频谱数据的步骤包括: 转换每一上述音频帧为频域信号；对每一上述音频帧的上述频域信号执行短时区背景估计法来获得估计值；以及基于上述估计值，对上述频域信号执行滤除操作，藉以获得每一上述音频帧的上述频谱数据。8.如权利要求7所述的音频信号的信号提取方法，其中获得每一上述音频帧的上述频谱数据的步骤还包括: 对每一上述音频帧的上述频域信号执行语音活性检测；以及基于上述语音活性检测的结果以及上述估计值，对上述频域信号执行上述滤除操作，藉以获得每一上述音频帧的上述频谱数据。9.一种音频信号的信号提取装置，包括: 处理单元；以及存储单元，耦接至上述处理单元，且包括多个模块，其中上述处理单元驱动上述多个模块来检测音频信号中的理想信号，上述多个模块包括: 转换模块，转换上述音频信号为多个音频帧，其中上述多个音频帧依时间顺序排列；以及运算模块，获得每一上述音频帧的频谱数据，并且分别以每一上述音频帧作为当前音频帧，依上述时间顺序取出N个上述音频帧各自的上述频谱数据，并且对上述N个音频帧执行一频谱相连性运算，其中上述频谱相连性运算包括:基于每一上述N个音频帧所包括的上述频谱数据，获得每一上述N个音频帧的信号区块列表，其中上述信号区块列表用以记录存在有信号值的频谱指数范围；以及依据每一上述音频帧的上述信号区块列表，寻找每一上述音频帧与其相邻的上述音频帧之间的频谱相连性；并且，上述运算模块将每一上述音频帧中与相邻上述音频帧之间具有上述频谱相连性的信号判定为上述理想信号。10.如权利要求9所述的音频信号的信号提取装置，其中上述运算模块依据上述N个音频帧各自的上述信号区块列表，依照上述时间顺序由后往前，寻找相邻N个上述音频帧之间的上述频谱相连性，而获得上述N个音频帧各自的第一相连性区块列表，其中上述第一相连性区块列表用以记录依照上述时间顺序由后往前相邻的N个上述音频帧之间具有上述频谱相连性的上述频谱指数范围；且上述运算模块依据上述N个音频帧各自的上述第一相连性区块列表，依照上述时间顺序由前往后，寻找相邻N个上述音频帧之间的上述频谱相连性，而获得上述N个音频帧各自的第二相连性区块列表，其中上述第二相连性区块列表用以记录依照上述时间顺序由前往后相邻的N个上述音频帧之间具有上述频谱相连性的上述频谱指数范围。11.如权利要求10所述的音频信号的信号提取装置，其中上述运算模块比较第N个上述音频帧与第N-1个上述音频帧两者的上述信号区块列表，而获得上述第N个音频帧与上述第N-1个音频帧各自的上述第一相连性区块列表；以及上述运算模块比较第j个上述音频帧的上述第一相连性区块列表与第j-ι个上述音频帧的上述信号区块列表，而获得上述第j-ι个音频帧的上述第一相连性区块列表，其中，j为正整数且2彡j彡N-1 ;且上述运算模块将上述N个音频帧中的第I个上述音频帧与第2个上述音频帧两者的上述第一相连性区块列表，设定为上述第I个音频帧与上述第2个音频帧各自的上述第二相连性区块列表；以及上述运算模块比较第k个上述音频帧的上述第二相连性区块列表与第k+Ι个上述音频帧的上述第一相连性区块列表，而获得上述第k+Ι个音频帧的上述第二相连性区块列表，其中k为正整数且2彡k彡N-1。12.如权利要求10所述的音频信号的信号提取装置，其中上述运算模块依据每一上述音频帧被取出来执行上述频谱相连性运算的次数，将每一次所获得的上述第二相连性区块列表中所记录的上述频谱指数范围进行或逻辑运算，而获得最终相连性区块列表。13.如权利要求12所述的音频信号的信号提取装置，其中上述运算模块依据每一上述音频帧的上述最终相连性区块列表中所记录的上述频谱指数范围，以提取每一上述音频帧在频域上的上述频谱数据中，获得具有上述频谱相连性的信号，并将其判定为上述理想信号。14.如权利要求9所述的音频信号的信号提取装置，其中上述模块还包括:背景估计模块，其中，上述转换模块转换每一上述音频帧为频域信号；上述背景估计模块对每一上述音频帧的上述频域信号执行短时区背景估计法来获得估计值；上述运算模块基于上述估计值，对上述频域信号执行滤除操作，藉以获得每一上述音频帧的上述频谱数据。15.如权利要求14所述的音频信号的信号提取装置，还包括: 语音活性检测模块，对每一上述音频帧的上述频域信号执行语音活性检测；其中，上述运算模块基于上述语音活性检测结果以及上述估计值，对上述频域信号执行上述滤除操作，藉以获得每一上述音频帧的上述频谱数据。
【文档编号】G10L25/18GK106098079SQ201510381774
【公开日】2016年11月9日
【申请日】2015年7月2日
【发明人】许宗奇
【申请人】智原科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：许宗奇;
技术所有人：智原科技股份有限公司;
我是此专利的发明人