声音分段设备和方法以及声音检测系统的制作方法

文档序号:2836084阅读:221来源:国知局
专利名称:声音分段设备和方法以及声音检测系统的制作方法
技术领域
本发明涉及声音分段设备和声音分段方法,以及声音检测系统。
背景技术
声音检测方法通常涉及作为第一步骤的声音分段处理和作为第二步骤的声音分类处理。在声音分段处理中,输入声音序列(音频序列)被分段为多个声音段,每个声音段被认为具有相同属性。然后,在声音分类处理中,这些声音段被输入到声音分类器,并且输出声音段的声音类别。声音分段处理常常在声音检测方法中起到重要的作用,这是因为声音分段处理的性能直接影响声音分类处理的结果,因此直接影响声音检测方法的性能。已提出了被称为“基于尺度度量的方法(metric based methods) ”的声音分段方法。在基于尺度度量的方法中,两个连续声音段之间的点被作为候选分割点。计算这两个连续声音段之间的某些种类的距离度量,并且,将这些距离度量与预定阈值进行比较,用以做出关于该候选分割点是否是该声音段的分割点的判决。在如上所述的基于距离度量的方法中,常常难以从候选分割点确定分割点,这是因为这些方法要求适当的阈值,而所述阈值常常需要对于不同的训练数据而被调整,并且无法对所有种类的声音数据保证稳定性和稳健性。还存在被称为“基于模型选择的方法(model selection based method) ”的声音分段方法。这种方法的一个例子是Delta贝叶斯信息准则(Delta Bayesian InformationCriterion, ABIC)方法。ΛBIC方法不需要任何对模型的事先训练。在ABIC方法中,通常对声音序列应用处理窗。在常规Λ BIC方法中,处理窗的尺寸(长度)是固定的,并且在该处理窗中的点被处理之后简单地偏移处理窗,直到输入声音序列中的所有点都已被处理为止。处理窗中的点(更特别地,对应于这些点的声音特征)被用来计算ABIC值。然后,计算出的ABIC值被用于判断是否在当前处理窗中出现分割点。如果在当前处理窗中出现分割点,则偏移处理窗以使得该分割点成为经偏移的处理窗的起点,并且,在经偏移的处理窗中继续检测下一个分割点。如果在当前处理窗中未出现分割点,则处理窗被偏移固定尺寸,并且,在经偏移的处理窗中继续检测分割点。在美国专利N0.6421645、6424946和6748356中,提出了使用可变尺寸的处理窗的ABIC方法。在该方法中,通过使用可变尺寸的处理窗而非使用固定尺寸的处理窗来计算Λ BIC值(其构成Λ BIC序列)。图1示出美国专利N0.6421645,6424946和6748356中公开的声音分段方法的示意性流程图。根据图1所示的方法,处理窗被应用于从声音序列中提取的声音特征序列,并且,对于加窗的声音特征序列计算ABIC序列,其中,ABIC序列中的每个值指示当声音序列中的相应点被作为分割点时所获得的信息熵。如果确定ABIC序列中的最小值小于零,则对应于该最小值的点被作为当前窗中的分割点。如果确定ABIC序列中的最小值不小于零,则处理窗的尺寸和/或位置被调整,并且以类似的方式处理经调整的窗。

发明内容
在计算各ABIC值时,需要对三个不同的高斯模型估计均值(或均值向量)和方差(或者协方差矩阵)两者,因此ABIC方法的计算量非常大。此外,在美国专利N0.6421645、6424946和6748356中,必须对于处理窗两端以外的所有点计算ABIC值。也就是说,即使在一些处理窗中可能实际上不存在分割点,也需要对处理窗中的几乎每个点执行ABIC值的计算。本发明的发明人发现,美国专利N0.6421645、6424946和6748356中公开的方法的
计算复杂度非常大。因此,需要一种新的声音分段方法,该新的声音分段方法能够执行声音分段而无
需大的计算量。为了解决以上技术问题,本发明提供一种声音分段方法,包括:非静音检测步骤,从声音序列中检测非静音声音段;特征提取步骤,从所述非静音声音段中提取特征序列;第一检测步骤,如果特征序列的处理窗中的点集满足规定条件,则将该处理窗确定为候选区域;第二检测步骤,在所述候选区域内检测分割点;以及第一处理窗调整步骤,如果在所述第一检测步骤中所述处理窗中的点集不满足所述规定条件或者如果在所述第二检测步骤中没有检测到分割点,则调整所述处理窗,其中,对于在第一处理窗调整步骤中经调整的处理窗,再次执行所述第一检测步骤和第二检测步骤。此外,为了解决以上技术问题,本发明提供一种声音分段设备,包括:非静音检测单元,被配置为用于从声音序列中检测非静音声音段;特征提取单元,被配置为用于从所述非静音声音段中提取特征序列;第一检测单元,被配置为如果特征序列的处理窗中的点集满足规定条件,则将该处理窗确定为候选区域;第二检测单元,被配置为用于在所述候选区域内检测分割点;以及第一处理窗调整单元,被配置为如果在所述第一检测单元中所述处理窗中的点集不满足所述规定条件或者如果所述第二检测单元没有检测到分割点,则调整所述处理窗,其中,对于由第一处理窗调整单元调整的处理窗,所述第一检测单元和第二检测单元再次执行操作。此外,本发明提供一种声音检测系统,包括:存储单元,被配置为用于存储多个声音模型,每个声音模型对应于一个声音类别;如前文所述的声音分段设备,被配置为用于将声音序列分段为多个声音段;以及声音分类器,被配置为用于通过利用所述声音模型,将从所述声音分段设备输出的声音段进行分类。得益于根据本发明的声音分段设备和声音分段方法,由于仅在候选区域中而非在所有处理窗中执行对分割点的检测,因此声音分段中的计算量可大大降低。在本发明的一些实施方式中,通过使用具有较低精度和较低复杂度的第一检测来确定候选区域,而通过使用具有较高精度和较高复杂度的第二检测来检测分割点,从而在总体性能方面能够实现低计算量和高精度两者。在本发明的一些其它实施方式中,通过使用具有中等精度和中等复杂度的第一检测来确定候选区域,通过使用具有较低精度和较低复杂度的第二检测来检测分割点,而通过使用具有较高精度和较高复杂度的第三检测来核实分割点,从而在总体性能方面能够实现低计算量和高精度两者。从参照附图的以下描述,本发明的其它特性特征和优点将变得清晰。


并入说明书中并且构成说明书的一部分的附示本发明的实施例,并且与描述一起用于说明本发明的原理。图1示出现有技术中的声音分段方法的示意性流程图。图2是示出能够实施本发明的实施例的计算机系统的硬件配置的框图。图3示出根据本发明的声音分段设备的示意性功能框图。图4示出根据本发明的声音分段方法的流程图。图5示出根据本发明的第一实施例的声音分段设备的示意性功能框图。图6示出根据本发明的第一实施例的声音分段方法的流程图。图7A和7B是用于图示第一处理窗调整步骤和第二处理窗调整步骤中的处理的示意图。图8示出根据本发明第二实施例的声音分段设备的示意性功能框图。图9示出根据本发明的第二实施例的声音分段方法的流程图。图1OA到IOD示出根据本发明的第二实施例的声音分段的说明性例子。图11示出用于声音检测系统的示意性功能框图。
具体实施例方式以下将参照附图详细描述本发明的实施例。请注意,类似的参考数字和字母指的是图中的类似的项目,因而一旦在一幅图中定义了 一个项目,就不需要在之后的图中讨论了。首先,将说明本公开的上下文中的一些术语的含义。在本公开中,“分割点”是两个声音段之间的边界,S卩,从一个声音段到另一声音段的变化点。从声音序列检测出的分割点等同于从该声音序列提取的声音特征序列的分割点。一旦对于声音序列确定分割点,可相应地确定作为声音分段的结果的各个声音段。如果包含在序列中的某个邻域内的点在该邻域内具有最小值,且该点不位于该邻域的任何端点处,则该最小值被称为该序列的“局部最小值”,并且该点被称作“具有局部最小值的点”或“对应于局部最小值的点”。一个序列可具有一个或更多个局部最小值,也可不具有局部最小值。如果包含在序列中的某个邻域内的点在该邻域内具有最大值,且该点不位于该邻域的任何端点处,则该最大值被称为该序列的“局部最大值”,并且该点被称作“具有局部最大值的点”或“对应于局部最大值的点”。一个序列可具有一个或更多个局部最大值,也可不具有局部最大值。例如,当序列具有单调增大或减小的值的点时,该序列既不具有局部最大值也不具有局部最小值。根据本公开中的定义,点的ABIC值表示整体声音段的信息熵与通过将该点作为该整体声音段的分割点而获得的两个声音段的信息熵之间的差。也就是说,本发明中的Λ BIC值涉及与美国专利N0.6421645、6424946和6748356中的Λ BIC值基本上具有相反符号的值,在美国专利N0.6421645,6424946和6748356中,点的ABIC值指示通过将该点作为整体声音段的分割点而获得的两个声音段的信息熵与该整体声音段的信息熵之间的差。图2是示出能够实施本发明的实施例的计算机系统1000的硬件配置的框图。如图2中所示,计算机系统包括计算机1110。计算机1110包括经由系统总线1121连接的处理单元1120、系统存储器1130、固定非易失性存储器接口 1140、可移动非易失性存储器接口 1150、用户输入接口 1160、网络接口 1170、视频接口 1190和输出外围接口1195。系统存储器1130包括R0M(只读存储器)1131和RAM(随机存取存储器)1132。BIOS(基本输入输出系统)1133驻留在ROM 1131中。操作系统1134、应用程序1135、其它程序模块1136和某些程序数据1137驻留在RAM 1132中。诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口1140。固定非易失性存储器1141例如可以存储操作系统1144、应用程序1145、其它程序模块1146和某些程序数据1147。诸如软盘驱动器1151和⑶-ROM驱动器1155之类的可移动非易失性存储器连接到可移动非易失性存储器接口 1150。例如,软盘1152可以被插入到软盘驱动器1151中,以及⑶(光盘)1156可以被插入到⑶-ROM驱动器1155中。诸如麦克风1161和键盘1162之类的输入设备被连接到用户输入接口 1160。计算机1110可以通过网络接口 1170连接到远程计算机1180。例如,网络接口1170可以经由局域网1171连接到远程计算机1180。或者,网络接口 1170可以连接到调制解调器(调制器-解调器)1172,以及调制解调器1172经由广域网1173连接到远程计算机1180。远程计算机1180可以包括诸如硬盘之类的存储器1181,其存储远程应用程序1185。视频接口 1190连接到监视器1191。输出外围接口 1195连接到打印机1196和扬声器1197。图2所示的计算机系统仅仅是说明性的并且决不意图对本发明、其应用或用途进行任何限制。图2所示的计算机系统可以被实施于任何实施例,可作为独立计算机,或者也可作为设备中的处理系统,可以移除一个或更多个不必要的组件,也可以向其添加一个或更多个附加的组件。图3示出根据本发明的声音分段设备的示意性功能框图。如图3所示,根据本发明的声音分段设备3000包括:非静音检测单元3100,被配置为用于从声音序列中检测非静音声音段;特征提取单元3200,被配置为用于从所述非静音声音段中提取特征序列;第一检测单元3300,被配置为如果特征序列的处理窗中的点集满足规定条件,则将该处理窗确定为候选区域;第二检测单元3400,被配置为用于在所述候选区域内检测分割点;以及第一处理窗调整单元3500,被配置为如果在所述第一检测单元3300中所述处理窗中的点集不满足所述规定条件或者如果所述第二检测单元3400没有检测到分割点,则调整所述处理窗。对于由第一处理窗调整单元3500调整的处理窗,所述第一检测单元3300和第二检测单元3400再次执行各自的操作。图4示出根据本发明的声音分段方法的流程图。该声音分段方法可由图3中所示的声音分段设备3000来实施。如图4所示,所述声音分段方法包括:非静音检测步骤S410,从声音序列中检测非静音声音段;特征提取步骤S420,从所述非静音声音段中提取特征序列;第一检测步骤S430,如果特征序列的处理窗中的点集满足规定条件,则将该处理窗确定为候选区域;第二检测步骤S440,在所述候选区域内检测分割点;以及第一处理窗调整步骤S450,如果在所述第一检测步骤S430中所述处理窗中的点集不满足所述规定条件或者如果在所述第二检测步骤S440中没有检测到分割点,则调整所述处理窗。对于在第一处理窗调整步骤S450中经调整的处理窗,再次执行所述第一检测步骤S430和第二检测步骤S440。所述点集可以仅包含一个点,也可以包含多个点。所述规定条件可以是用于判断在处理窗中是否可能出现分割点的任何适当条件。在本发明的一种示例性实施方式中,所述点集至少包括处理窗的中点的邻域内的一个点。上述的邻域可以由距处理窗的中点的距离不大于处理窗的尺寸(长度)的五分之一的点构成。现在将参照图5描述第一实施例。图5不出根据本发明的第一实施例的声音分段设备的示意性功能框图。根据第一实施例,声音分段设备3000包括如前面所描述的非静音检测单元3100、特征提取单元3200、第一检测单元3300、第二检测单元3400和第一处理窗调整单元3500。根据本发明的一种示例性实施方式,第一处理窗调整单元3500可以包括:增大单元3510,被配置为用于以预定增大值增大所述处理窗的尺寸(即,以预定增大值偏移处理窗的终点而不偏移处理窗的起点);确定单元3520,被配置为用于确定从所述增大单元3510中输出的处理窗的尺寸是否大于上限尺寸;以及窗偏移单元3530,被配置为如果从所述增大单元3510输出的处理窗的尺寸大于所述上限尺寸,则以预定偏移值偏移所述处理窗的起点并且将经偏移的处理窗的尺寸重新设置为下限尺寸。对于经第一处理窗调整单元3500调整的处理窗,所述第一检测单元3300和第二检测单元3400再次执行各自的操作。图6示出根据本发明的第一实施例的声音分段方法的流程图。图6中所示的声音分段方法可由图5中所示的声音分段设备3000来实施。在非静音检测步骤S410中,从声音序列中检测非静音声音段。任何非静音声音段检测方法可被用于步骤S410。例如,在郑展恒等人的“一种语音端点检测方法的研究”(桂林电子科技大学学报,Vo 1.28,N0.1,2008年2月)中提出的方法可在此被用于步骤S410。然而,用于非静音声音段检测的方法不限于任何特定方法,诸如使用时域信息(短时能量(short-term energy)或过零率(zero-crossing rate)等)的方法、使用频域信息(线性预测参数(linear prediction parameters)或Mel傅立叶倒谱系数(Mel Fourier Cepstral Coefficients, MFCC)等)的方法以及使用时域信息和频域信息两者的方法之类的各种公知的声音活动性检测方法也可被用于步骤S410。然后,在特征提取步骤S420中,从非静音声音段中检测特征序列。在步骤S420中可采用各种声音特征。例如,所述声音特征可以是诸如短时能量(Short-Time Energy, STE)、低短时能量比(Low Short Time Energy Ratio, LSTER)、子带能量(sub-band energies)、过零率(Zero-Crossing Rate, ZCR)、高过零率比(HighZero-Crossing Rate Ratio, HZCRR)、谱质心(spectral centroid)、谱带宽(spectralbandwidth)或基頻 (fundamental frequency)等的感知特征(perceptual feature)。所述声音特征也可以是诸如Mel傅立叶倒谱系数(MFCC)、线性预测倒谱系数(LinearPredictive Cepstral Coefficients, LPCC)或感知线性预测(Perceptual LinearPrediction,PLP)等的倒谱系数。所述声音特征还可以是基于频率滤波器的谱参数,诸如基于对数滤波带能量(Log Filtered Bank Energy)或频率滤波带能量(Frequency FilteredBank Energy, FFBE)的频率序列的滤波的参数等。以上例示了许多声音特征。然而应该注意,可以取决于具体应用或具体声音类别来选择不同的声音特征。也可组合不同的声音特征及其一阶/二阶导数以构建特征向量。类似地,可取决于具体应用或具体声音类别而采用不同声音特征的不同组合来构建特征向量。声音特征序列中的每个元素可以是这样的特征向量。然后,在第一检测步骤S430中,确定当前处理窗中的点集是否满足规定条件。如果所述点集满足所述规定条件,则确定为特征序列的当前处理窗是候选区域(步骤S430中为“是”),并且流程去往步骤S440。如果所述点集不满足所述规定条件,则确定为特征序列的当前处理窗不是候选区域(步骤S430中为“否”),并且流程去往步骤S450。在初次执行步骤S430时,初始的处理窗可具有下限尺寸。处理窗的该下限尺寸可以根据声音序列中所包含的可能的声音类别、允许的处理时间或要求的精度等而被预先确定。也就是说,本领域技术人员可根据具体应用来预先确定处理窗的下限尺寸。例如,如果要被检测的声音段的尺寸预期是大的(长的),则下限尺寸可被设为较大,而如果要被检测的声音段的尺寸预期是小的(短的),则下限尺寸可被设为较小。作为替换方案,如果要求高的精度,则可将下限尺寸设为较小,而如果不要求高的精度,则可将下限尺寸设为较大。如前面所述,所述点集可以仅包含一个点,也可以包含多个点。所述规定条件可以是用于判断在当前处理窗中是否有可能出现分割点的任何适当条件。可根据允许的处理时间或要求的精度等来确定点集中的点的数量和/或位置。点集中的点的数量可以充分小于当前处理窗中的所有点的数量。在本实施例的一种示例性实施方式中,所述点集至少包含当前处理窗的中点的邻域内的一个点。上述的邻域可以由距当前处理窗的中点的距离不大于当前处理窗的尺寸的五分之一的点构成。在点集包含多于一个的点的情况下,点集中的点可具有预定的间隔。例如,点集中的点可以基本上等分当前处理窗。
例如,点集可仅包含一个点,该一个点将当前处理窗X分割为第一段X1和第二段x2。在这种情况下,所述规定条件可以是:所述第一段的基于第一高斯分布的概率与所述第二段的基于第二高斯分布的概率的和大于整个当前处理窗的基于第三高斯分布的概率(即,所述一个点是将在后面描述的第一类的点)。作为替换方案,所述点集也可包含多个点,所述多个点中的每一个将当前处理窗分割为相应的第一段和相应的第二段。在这种情况下,所述规定条件可以是:第一类的点的数量大于第二类的点的数量。第一类和第二类可被如下定义。对于第一类的点,第一段的基于第一高斯分布的概率与第二段的基于第二高斯分布的概率的和大于整个当前处理窗的基于第三高斯分布的概率。对于第二类的点,第一段的基于第一高斯分布的概率与第二段的基于第二高斯分布的概率的和小于或等于整个当前处理窗的基于第三高斯分布的概率。以上,第一高斯分布可以具有从所述第一段计算出的均值(均值向量)U1和方差(协方差矩阵)Σ i,第二高斯分布可以具有从所述第二段计算出的均值(均值向量)112和方差(协方差矩阵)Σ 2,而第三高斯分布可以具有从整个当前处理窗(第一段和第二段的级联)计算出的均值(均值向量)μ和方差(协方差矩阵)Σ。在第二检测步骤S440中,在候选区域中检测分割点的出现情况。根据第一实施例的一种示例性实施方式,在第二检测步骤S440中,可在候选区域的概率距离序列中检测具有局部最大值的点或者所述具有局部最大值的点的邻域内的点,作为分割点。在此,概率距离序列中的每个值可指示通过将对应于该值的点作为候选区域的分割点而获得的两个声音段之间的概率距离。作为替换方案,在第二检测步骤S440中,可在候选区域的Delta贝叶斯信息准则(ABIC)序列中检测具有局部最大值的点或者所述具有局部最大值的点的邻域内的点,作为分割点。在此,ABIC序列中的每个值对应于整个声音段的信息熵与通过将相应点作为整个声音段的分割点而获得的两个声音段的信息熵之间的差。在此,“邻域”可以是点周围的适当区域,而且可以取决于所要求的精度而被确定。如果在第二检测步骤S440中检测到分割点(步骤S440中为“是”),则该分割点可以被输出作为当前声音段的终点。如果在第二检测步骤S440中没有检测到分割点(步骤S440中为“否”,例如,在候选区域的概率距离序列不具有局部最大值的情况下或者在候选区域的ABIC序列不具有局部最大值的情况下),流程去往步骤S450。如上所述,在第一检测步骤S430中处理窗中的点集不满足规定条件的情况下或者在第二检测步骤S440中没有检测到分割点的情况下,流程来到步骤S450。在第一处理窗调整步骤S450中,处理窗被调整。在步骤S450中调整处理窗之后,流程再次去往步骤S430,在步骤S430,由经调整的处理窗加窗的特征序列经受第一检测步骤S430以及可能的情况下第二检测步骤S440中的处理,如图6所示。在本实施例的一种示例性实施方式中,第一处理窗调整步骤S450可以包含:增大步骤S451,以预定增大值增大所述处理窗的尺寸(即,以预定增大值偏移处理窗的终点,但不偏移处理窗的起点);确定步骤S452,确定从所述增大步骤S451中输出的处理窗的尺寸是否大于上限尺寸;以及窗偏移步骤S453,如果从所述增大步骤S451输出的处理窗的尺寸大于所述上限尺寸(步骤S452中为“是”),则以预定偏移值偏移所述处理窗的起点并且将经偏移的处理窗的尺寸重新设置为下限尺寸。在步骤S453中偏移且重新设置的处理窗从步骤S450中输出。如果从增大步骤S451输出的处理窗的尺寸等于或小于所述上限尺寸(步骤S452中为“否”),则在增大步骤S451中经调整尺寸的处理窗从步骤S450中输出。在此,处理窗的增大值和偏移值中的每一个可以根据声音序列中包含的可能的声音类别、允许的处理时间或要求的精度等而被预先确定。例如,如果要被检测的声音段的尺寸预期是大的(长的),则增大值和偏移值中的每一个可被设为较大,而如果要被检测的声音段的尺寸预期是小的(短的),则增大值和偏移值中的每一个可被设为较小。作为替换方案,如果允许长的处理时间,则可将增大值和偏移值中的每一个设为较小,而如果要求短的处理时间,则可将增大值和偏移值中的每一个设为较大。与下限尺寸类似,处理窗的上限尺寸可根据声音序列中包含的可能的声音类别、要求的精度或允许的处理时间等而被预先确定。虽然图6中没有示出,但是声音分段方法可进一步包括第二处理窗调整步骤。在第二检测步骤S440中检测到(从第二检测步骤S440输出)分割点时(步骤S440中为“是”),执行第二处理窗调整步骤。在第二处理窗调整步骤中,处理窗被偏移并且经偏移的处理窗的尺寸被重新设置。更具体地,在步骤S440中检测到的分割点被作为处理窗的起点,经偏移的处理窗的尺寸被重新设置为下限尺寸。对于在第二处理窗调整步骤中调整的处理窗,再次执行第一检测步骤和第二检测步骤。在第二处理窗调整步骤中调整处理窗之后,流程再次去往步骤S430,在步骤S430,由经调整的处理窗加窗的特征序列经受第一检测步骤S430以及在可能的情况下第二检测步骤S440中的处理。在这种情况下,声音分段设备3000可进一步包括相应的第二处理窗调整单元(未示出),该第二处理窗调整单元被配置为用于执行上述的第二处理窗调整步骤中的处理。图7A和7B示出用于图示第一处理窗调整步骤和第二处理窗调整步骤中的处理的示意图。在图7A和7B中,“Nmin”表示下限尺寸,“Nmax”表示上限尺寸,“Nshift”表示偏移值,“Nine”表示增大值。如图7A所示,处理窗的初始尺寸为Nmin,处理窗的尺寸每次增大Nine。在处理窗的尺寸达到Nmax之后,处理窗的尺寸不再增大,而是处理窗的起点偏移Nshift并且处理窗的尺寸被重新设置为初始尺寸Nmin (第一处理窗调整步骤)。如图7B所示,一旦发现或者核实了分割点,处理窗的起点就被偏移到该分割点并且处理窗的尺寸被重新设置为初始尺寸Nmin (第二处理窗调整步骤)。在第一实施例中,第二检测单元的性能可优于第一检测单元的性能。此外,第二检测单元的计算复杂度可大于第一检测单元的计算复杂度。根据第一实施例,代替处理每个处理窗中的每个点以检测分割点,对于分割点将仅仅检测满足规定条件的处理窗。因此,即使当使用可变尺寸的窗时,计算量也不变大。现在将参照图8描述第二实施例。图8示出根据本发明的第二实施例的声音分段设备的示意性功能框图。根据第二实施例,声音分段设备3000包括:非静音检测单元3100、特征提取单元3200、第一检测单元3300、第二检测单元3400和第一处理窗调整单元3500,这些单元可与对于第一实施例描述的各单元相同或类似。此外,声音分段设备3000还包括第三检测单元3600,所述第三检测单元3600被配置为用于核实由第二检测单元3400检测出的分割点是否是有效的。根据第二实施例,如果第二检测单元3400检测出的分割点是无效的,则第一处理窗调整单元3500也调整处理窗。也就是说,如果在第一检测单元3300中处理窗中的点集不满足规定条件,如果第二检测单元3400没有检测到分割点,或者如果在第三检测单元3600中第二检测单元3400检测到的分割点是无效的,则第一处理窗调整单元3500调整处理窗。对于由第一处理窗调整单元3500调整的处理窗,第一检测单元3300、第二检测单元3400和第三处理单元3600再次执行相应操作。
图9示出根据本发明的第二实施例的声音分段方法的流程图。图9中所示的声音分段方法可由图8中所示的声音分段设备3000实施。在非静音检测步骤S410中,从声音序列中检测非静音声音段。然后,在特征提取步骤S420中,从非静音声音段中检测特征序列。然后,在第一检测步骤S430中,确定当前处理窗中的点集是否满足规定条件。如果所述点集满足所述规定条件,则确定为特征序列的当前处理窗是候选区域(步骤S430中为“是”)并且流程去往步骤S440。如果所述点集不满足所述规定条件,则确定为特征序列的当前处理窗不是候选区域(步骤S430中为“否”)并且流程去往步骤S450。第二实施例中的非静音检测步骤S410、特征提取步骤S420和第一检测步骤S430以及其中涉及的值和条件可与第一实施例中的相同,并且将省略重复描述。在第二检测步骤S440中,在候选区域中检测分割点的出现情况。根据第二实施例的一种示例性实施方式,在第二检测步骤S440中,可在候选区域的概率距离序列中检测具有局部最大值的点或者所述具有局部最大值的点的邻域内的点,作为分割点。在此,概率距离序列中的每个值可指示通过将对应于该值的点作为候选区域的分割点而获得的两个声音段之间的概率距离。在此,“邻域”可以是点周围的适当区域,而且可以取决于所要求的精度而被确定。如果在第二检测步骤S440中检测到分割点(步骤S440中为“是”),则流程去往第三检测步骤S460。如果在第二检测步骤S440中未检测到分割点(步骤S440中为“否”,例如在候选区域的概率距离序列不具有局部最大值的情况下),则流程去往步骤S450。在第三检测步骤S460中,核实在第二检测步骤S440中检测到的分割点是否有效。如果核实为在第二检测步骤S440中检测到的分割点是有效的,则该有效分割点被输出作为当前声音段的终点。如果确定为在第二检测步骤S440中检测到的分割点是无效的,则流程去往步骤S450。第三检测步骤S460可由第三检测单元3600来实施。在第二实施例的一种示例性实施方式中,在第三检测步骤S460中,通过判断分割点的Delta贝叶斯信息准则(ABIC)值是否大于零来核实在第二检测步骤S440中检测到的分割点是否有效。在此,ABIC值对应于整个声音段的信息熵与通过将相应点作为整个声音段的分割点而获得的两个声音段的信息熵之间的差。如上所述,在第一检测步骤S430中处理窗中的点集不满足所述规定条件的情况下,在第二检测步骤S440中未检测到分割点的情况下,或者在第三检测步骤S460中分割点被确定为无效的情况下,流程来到步骤S450。在第一处理窗调整步骤S450中,调整处理窗。在步骤S450中调整处理窗之后,流程再次去往步骤S430,在步骤S430,由经调整的处理窗加窗的特征序列经受第一检测步骤S430以及在可能的情况下第二和第三检测步骤S440和S460中的处理,如图9所示。第二实施例中的第一处理窗调整步骤S450可与第一实施例中描述的第一处理窗调整步骤S450相同,因而将省略重复描述。虽然在图9中没有示出,但是声音分段方法还可以包括第二处理窗调整步骤。当在第三检测步骤S460中将分割点核实为有效时(步骤S460中为“是”),执行第二处理窗调整步骤。第二实施例中的第二处理窗调整步骤也可与第一实施例中描述的第二处理窗调整步骤相同,因而将省略重复描述。对于在第二处理窗调整步骤中调整的处理窗,再次执行第一检测步骤、第二检测步骤和第三检测步骤。在第二处理窗调整步骤中调整处理窗之后,流程再次去往步骤S430,在步骤S430,由经调整的处理窗加窗的特征序列经受第一检测步骤S430以及在可能的情况下第二和第三检测步骤S440和S460中的处理。在这种情况下,声音分段设备3000可进一步包括相应的第二处理窗调整单元(未示出),该第二处理窗调整单元被配置为用于执行上述的第二处理窗调整步骤中的处理。在第二实施例中,第三检测单元的性能可优于第一检测单元的性能,第一检测单元的性能可优于第二检测单元的性能。此外,第三检测单元的计算复杂度可大于第一检测单元的计算复杂度,第一检测单元的计算复杂度可大于第二检测单元的计算复杂度。根据第二实施例,代替处理每个处理窗中的每个点以检测分割点,对于分割点将仅仅检测满足规定条件的处理窗。因此,即使当使用可变尺寸的窗时,计算量也不变大。此外,由于还执行第三检测步骤以核实第二检测步骤中检测出的分割点是否有效,可进一步提高声音分段的精度。同时,由于仅对于由第二检测步骤检测出的个别分割点执行具有更高性能和更大的计算复杂度的第三检测步骤,整个声音分段方法的计算量不变大。现在,将参照图1OA到IOD描述根据本发明的第二实施例的声音分段的说明性例子。图1OA示出从声音序列中提取的特征序列的例子。图1OB示出在第一检测步骤中(或者由第一检测单元)检测的候选区域(由图1OB中的矩形框表示)。可以看出,在本例子中仅检测到五个候选区域,并且,仅需要对这些候选区域而非所有处理窗执行第二检测步骤。图1OC示出在第二检测步骤中(或者由第二检测单元)在这些候选区域中检测到的分割点(由图1OC中的实垂直线表示)。如图1OD所示,仅对第二检测步骤中(或者由第二检测单元)检测出的五个分割点执行第三检测步骤,并且,这五个分割点中的三个被核实为有效的(由图1OD中的实垂直线表示)并且被输出作为分段结果。如图1OD中所示,声音序列被分段为四个声音段,三个分割点作为其间的边界。以上描述的单元和以下要描述的单元是用于实施本公开中描述的处理的示例性和/或优选的模块。这些模块可以是硬件单元(诸如场可编程门阵列、数字信号处理器或专用集成电路等)和/或软件模块(诸如计算机可读程序)。以上并未详尽地描述用于实施各个步骤的模块。然而,只要有执行某个处理的步骤,就可以有用于实施同一处理的对应的功能模块或单元(由硬件和/或软件实施)。通过所描述的步骤以及与这些步骤对应的单元的所有组合限定的技术方案都被包括在本申请的公开内容中,只要它们构成的这些技术方案是完整并且可应用的。此外,由各种单元构成的上述设备可以作为功能模块被并入到诸如计算机之类的硬件装置中。除了这些功能模块之外,计算机当然可以具有其他硬件或者软件部件。以下将描述可用于本发明的检测方法的一些例子。应注意,以下的检测方法仅是示例性和说明性的例子,本发明决不限于这些示例性例子。在第一实施例和第二实施例二者中,可根据被称为“改进的广义似然比(ModifiedGeneralized Likelihood Ratio, MGLR)方法”的概率距离方法来执行第一检测单元3300进行的关于点落入第一类还是第二类的确定。对于样本序列(在本发明中为处理窗中的特征序列)X = IxJ,i = 1,2,...叫,ni+l,...,ηι+η2,并且每个Xi是维度为d的实向量,一个可能的分割点可将样本序列分成两
个连续段
权利要求
1.一种声音分段方法,包括: 非静音检测步骤,从声音序列中检测非静音声音段; 特征提取步骤,从所述非静音声音段中提取特征序列; 第一检测步骤,如果特征序列的处理窗中的点集满足规定条件,则将该处理窗确定为候选区域; 第二检测步骤,在所述候选区域内检测分割点;以及 第一处理窗调整步骤,如果在所述第一检测步骤中所述处理窗中的点集不满足所述规定条件或者如果在所述第二检测步骤中没有检测到分割点,则调整所述处理窗, 其中,对于在第一处理窗调整步骤中经调整的处理窗,再次执行所述第一检测步骤和第二检测步骤。
2.根据权利要求1的声音分段方法,还包括: 第三检测步骤,核实在所述第二检测步骤中检测到的分割点是否有效, 其中,如果在所述第一检测步骤中所述处理窗中的点集不满足所述规定条件、如果在所述第二检测步骤中没有检测到分割点、或者如果在所述第二检测步骤中检测到的所述分割点无效,则在所述第一处理窗调整步骤中调整所述处理窗,以及 其中,对于在第一处理窗调整步骤中经调整的处理窗,再次执行所述第一检测步骤、第二检测步骤和所述第三检测步骤。
3.根据权利要求1或2的声音分段方法,其中 所述第一处理窗调整步骤包括: 增大步骤,以预定增大值增大所述处理窗的尺寸, 确定步骤,确定从所述增大步骤中输出的处理窗的尺寸是否大于上限尺寸;以及窗偏移步骤,如果从所述增大步骤输出的处理窗的尺寸大于所述上限尺寸,则以预定偏移值偏移所述处理窗的起点并且将经偏移的处理窗的尺寸重新设置为下限尺寸。
4.根据权利要求1的声音分段方法,还包括: 第二处理窗调整步骤,如果在所述第二检测步骤中检测到分割点,则将处理窗的起点偏移到该分割点,并且将经偏移的处理窗的尺寸重新设置为下限尺寸, 其中,对于在第二处理窗调整步骤中经调整的处理窗,再次执行所述第一检测步骤和第二检测步骤。
5.根据权利要求2的声音分段方法,还包括: 第二处理窗调整步骤,如果在所述第三检测步骤中核实为分割点有效,则将处理窗的起点偏移到该分割点,并且将经偏移的处理窗的尺寸重新设置为下限尺寸, 其中,对于在第二处理窗调整步骤中经调整的处理窗,再次执行所述第一检测步骤、第二检测步骤和第三检测步骤。
6.根据权利要求1或2的声音分段方法,其中 所述点集至少包括处理窗的中点的邻域内的一个点。
7.根据权利要求6的声音分段方法,其中 所述点集仅包括一个点,所述一个点将所述处理窗分割为第一段和第二段,并且,所述规定条件是:所述第一段的基于高斯分布的概率与所述第二段的基于高斯分布的概率的和大于整个处理窗的基于高斯分布的概率。
8.根据权利要求6的声音分段方法,其中 所述点集包括多个点,所述多个点中的每一个将处理窗分割为相应的第一段和相应的第二段,以及 所述规定条件是:第一类的点的数量大于第二类的点的数量,其中对于所述第一类的点,第一段的基于高斯分布的概率与第二段的基于高斯分布的概率的和大于整个处理窗的基于高斯分布的概率,而对于所述第二类的点,第一段的基于高斯分布的概率与第二段的基于高斯分布的概率的和小于或等于整个处理窗的基于高斯分布的概率。
9.根据权利要求1或2的声音分段方法,其中 所述第二检测步骤在候选区域的概率距离序列中检测具有局部最大值的点或者所述具有局部最大值的点的邻域内的点, 其中,所述概率距离序列中的每个值指示通过将对应于该值的点作为候选区域的分割点而获得的两个声音段之间的概率距离。
10.根据权利要求1的声音分段方法,其中 所述第二检测步骤在候选区域的Delta贝叶斯信息准则序列中检测具有局部最大值的点或者所述具有局部最大值的点的邻域内的点。
11.根据权利要求2的声音分段方法,其中 所述第三检测步骤通过判断在所述第二检测步骤中检测到的分割点的Delta贝叶斯信息准则值是否大于零来核实该分割点是否有效。
12.—种声音分段设备,包括: 非静音检测单元,被配置为用于从声音序列中检测非静音声音段; 特征提取单元,被配置为用于从所述非静音声音段中提取特征序列; 第一检测单元,被配置为如果特征序列的处理窗中的点集满足规定条件,则将该处理窗确定为候选区域; 第二检测单元,被配置为用于在所述候选区域内检测分割点;以及第一处理窗调整单元,被配置为如果在所述第一检测单元中所述处理窗中的点集不满足所述规定条件或者如果所述第二检测单元没有检测到分割点,则调整所述处理窗, 其中,对于由第一处理窗调整单元调整的处理窗,所述第一检测单元和第二检测单元再次执行操作。
13.根据权利要求12的声音分段设备,还包括: 第三检测单元,被配置为用于核实所述第二检测单元检测到的分割点是否有效, 其中,如果在所述第一检测单元中所述处理窗中的点集不满足所述规定条件、如果所述第二检测单元没有检测到分割点、或者如果所述第二检测单元检测到的所述分割点无效,则由所述第一处理窗调整单元调整所述处理窗,以及 其中,对于由第一处理窗调整单元调整的处理窗,所述第一检测单元、第二检测单元和所述第三检测 单元再次执行操作。
14.根据权利要求12或13的声音分段设备,其中 所述第一处理窗调整单元包括: 增大单元,被配置为用于以预定增大值增大所述处理窗的尺寸, 确定单元,被配置为用于确定从所述增大单元中输出的处理窗的尺寸是否大于上限尺寸;以及 窗偏移单元,被配置为如果从所述增大单元输出的处理窗的尺寸大于所述上限尺寸,则以预定偏移值偏移所述处理窗的起点并且将经偏移的处理窗的尺寸重新设置为下限尺寸。
15.根据权利要求12的声音分段设备,还包括: 第二处理窗调整单元,被配置为如果所述第二检测单元检测到分割点,则将处理窗的起点偏移到该分割点,并且将经偏移的处理窗的尺寸重新设置为下限尺寸, 其中,对于由第二处理窗调整单元调整的处理窗,所述第一检测单元和第二检测单元再次执行操作。
16.根据权利要求13的声音分段设备,还包括: 第二处理窗调整单元,被配置为如果在所述第三检测单元中核实为分割点有效,则将处理窗的起点偏移到该分割点,并且将经偏移的处理窗的尺寸重新设置为下限尺寸, 其中,对于由第二处理窗调整单元调整的处理窗,所述第一检测单元、第二检测单元和第三检测单元再次执行操作。
17.根据权利要求12或13的声音分段设备,其中 所述点集至少包括处理窗的中点的邻域内的一个点。
18.根据权利要求17的声音分段设备,其中 所述点集仅包括一个点,所述一个点将所述处理窗分割为第一段和第二段,并且,所述规定条件是:所述第一段的基 于高斯分布的概率与所述第二段的基于高斯分布的概率的和大于整个处理窗的基于高斯分布的概率。
19.根据权利要求17的声音分段设备,其中 所述点集包括多个点,所述多个点中的每一个将处理窗分割为相应的第一段和相应的第二段,以及 所述规定条件是:第一类的点的数量大于第二类的点的数量,其中,对于所述第一类的点,第一段的基于高斯分布的概率与第二段的基于高斯分布的概率的和大于整个处理窗的基于高斯分布的概率,而对于所述第二类的点,第一段的基于高斯分布的概率与第二段的基于高斯分布的概率的和小于或等于整个处理窗的基于高斯分布的概率。
20.根据权利要求12或13的声音分段设备,其中 所述第二检测单元在候选区域的概率距离序列中检测具有局部最大值的点或者所述具有局部最大值的点的邻域内的点, 其中,所述概率距离序列中的每个值指示通过将对应于该值的点作为候选区域的分割点而获得的两个声音段之间的概率距离。
21.根据权利要求12的声音分段设备,其中 所述第二检测单元在候选区域的Delta贝叶斯信息准则序列中检测具有局部最大值的点或者所述具有局部最大值的点的邻域内的点。
22.根据权利要求13的声音分段设备,其中 所述第三检测单元通过判断由所述第二检测单元检测到的分割点的Delta贝叶斯信息准则值是否大于零来核实该分割点是否有效。
23.—种声音检测系统,包括:存储单元,被配置为用于存储多个声音模型,每个声音模型对应于一个声音类别;根据权利要求12到22中的任一项所述的声音分段设备,被配置为用于将声音序列分段为多个声音段;以及 声音分类器,被配置为用于通过利用所述声音模型,将从所述声音分段设备输出的声音段进行分类。
全文摘要
本发明提供一种声音分段设备和方法以及声音检测系统。所述声音分段方法包括非静音检测步骤,从声音序列中检测非静音声音段;特征提取步骤,从所述非静音声音段中提取特征序列;第一检测步骤,如果特征序列的处理窗中的点集满足规定条件,则将该处理窗确定为候选区域;第二检测步骤,在所述候选区域内检测分割点;以及第一处理窗调整步骤,如果在所述第一检测步骤中所述处理窗中的点集不满足所述规定条件或者如果在所述第二检测步骤中没有检测到分割点,则调整所述处理窗,其中,对于在第一处理窗调整步骤中经调整的处理窗,再次执行所述第一检测步骤和第二检测步骤。得益于本发明,可以获得好的性能而无需大的计算量。
文档编号G10L15/08GK103165127SQ20111041884
公开日2013年6月19日 申请日期2011年12月15日 优先权日2011年12月15日
发明者穆向禹, 刘贺飞, 郭莉莉 申请人:佳能株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1