UBM分字模型的建立方法、声纹特征生成方法及装置与流程

文档序号:11867404阅读:420来源:国知局
UBM分字模型的建立方法、声纹特征生成方法及装置与流程

本发明涉及声纹识别技术领域,尤其涉及一种通用背景模型UBM分字模型的建立方法、基于该UBM分字模型的声纹特征生成方法以及装置。



背景技术:

随着声纹识别技术的快速发展,声纹识别已经逐渐被应用到各种各样的应用场景中。例如,通过声纹识别来进行登录认证,具体地,注册时认证系统会给用户提供一定长度的字符串,通过获取用户朗诵该字符串以提取该用户的注册声纹特征并完成注册;在用户进行登录时,认证系统会再次给用户提供该字符串,用户通过朗诵该字符串以完成登录,在登录的过程中,通过获取用户朗诵该字符串以提取该用户的登录声纹特征,并对该登录声纹特征与注册声纹特征进行匹配以判断对该用户进行身份验证,若登录声纹特征与注册声纹特征匹配,则可确定该用户身份验证通过,以完成用户的登录认证。

但是,目前存在的问题是,在用户进行语音注册时,该用户的通用背景模型UBM主要是通过该用户朗诵的整段语音而建立的,使得在声纹特征提取阶段,通过通用背景模型UBM所提取到的声纹特征是该整段语音所对应的声纹,而在UBM模型建立的过程中,如果用户使用过程中有大量的噪声或者停顿,则通过上述声纹特征提取方式所提取到的声纹会大大影响准确性,明显降低声纹系统的性能,而在声纹认证场景下,也会大大降低认证的精确度。



技术实现要素:

本发明的目的旨在至少在一定程度上解决上述的技术问题之一。

为此,本发明的第一个目的在于提出一种通用背景模型UBM分字模型的建立方法。该方法分别为每个字符单独建立一个对应的UBM分字模型以及声纹特征提取器,可以获得更加精确的Baum-Welch统计量,进而可以得到精确的声纹模型,使得在声纹提取阶段,通过该UBM分字模型以及声纹特征提取器可以大大提高声纹特征的提取准确性,提高了声纹系统的性能。

本发明的第二个目的在于提出一种基于UBM分字模型的声纹特征生成方法。

本发明的第三个目的在于提出一种通用背景模型UBM分字模型的建立装置。

本发明的第四个目的在于提出一种基于UBM分字模型的声纹特征生成装置。

为达上述目的,本发明第一方面实施例的通用背景模型UBM分字模型的建立方法,包括:提取训练语音的声学特征,并对所述训练语音进行语音识别以获取所述训练语音中的各个字符;从所述训练语音的声学特征中确定所述各个字符的声学特征;针对每个字符,分别对所述每个字符的声学特征进行训练以建立对应的UBM分字模型;针对所述每个字符,分别根据所述每个字符的声学特征以及对应的UBM分字模型生成对应的声纹特征提取器。

本发明实施例的通用背景模型UBM分字模型的建立方法,可先提取训练语音的声学特征,并对训练语音进行语音识别以获取训练语音中的各个字符,之后,可从训练语音的声学特征中确定各个字符的声学特征,并针对每个字符,分别对每个字符的声学特征进行训练以建立对应的UBM分字模型,最后,针对每个字符,分别根据每个字符的声学特征以及对应的UBM分字模型生成对应的声纹特征提取器。即针对训练语音,分别为每个字符单独建立一个对应的UBM分字模型以及声纹特征提取器,可以获得更加精确的Baum-Welch统计量,进而可以得到精确的声纹模型,使得在声纹提取阶段,通过该UBM分字模型以及声纹特征提取器可以大大提高声纹特征的提取准确性,提高了声纹系统的性能,并且在声纹登录认证时,通过对应的UBM模型以及声纹特征提取器同时对每个字符进行声纹特征提取,减少了时间消耗,从而改善了用户使用声纹登录服务的体验。

为达上述目的,本发明第二方面实施例的基于本发明第一方面实施例所述的UBM分字模型的声纹特征生成方法,包括:提取测试语音的声学特征,并对所述测试语音进行语音识别以获取所述测试语音中的各个字符;从所述测试语音的声学特征中确定所述各个字符的声学特征;针对每个字符,分别将所述每个字符的声学特征在所述对应的UBM分字模型中计算后验概率,以得到所述每个字符的Baum-Welch统计量;根据所述每个字符的Baum-Welch统计量以及所述对应的声纹特征提取器生成所述每个字符的声纹特征。

本发明实施例的基于UBM分字模型的声纹特征生成方法,可先提取测试语音的声学特征,并对测试语音进行语音识别以获取测试语音中的各个字符,之后可从测试语音的声学特征中确定各个字符的声学特征,然后,针对每个字符,分别将每个字符的声学特征在对应的UBM分字模型中计算后验概率,以得到每个字符的Baum-Welch统计量,并根据每个字符的Baum-Welch统计量以及对应的声纹特征提取器生成每个字符的声纹特征。即通过每个字符的UBM分字模型以及声纹特征提取器来对测试语音进行声纹特征的提取,大大提高了声纹特征的提取准确性,提高了声纹系统的性能,并提高了声纹密码作为认证手段的可用性,并且在声纹登录认证时,通过对应的UBM模型以及声纹特征提取器同时对每个字符进行声纹特征提取,减少了时间消耗,从而改善了用户使用声纹登录服务的体验。

为达上述目的,本发明第三方面实施例的通用背景模型UBM分字模型的建立装置,包括:提取模块,用于提取训练语音的声学特征;语音识别模块,用于对所述训练语音进行语音识别以获取所述训练语音中的各个字符;确定模块,用于从所述训练语音的声学特征中确定所述各个字符的声学特征;建立模块,用于针对每个字符,分别对所述每个字符的声学特征进行训练以建立对应的UBM分字模型;生成模块,用于针对所述每个字符,分别根据所述每个字符的声学特征以及对应的UBM分字模型生成对应的声纹特征提取器。

本发明实施例的通用背景模型UBM分字模型的建立装置,可通过提取模块提取训练语音的声学特征,语音识别模块对训练语音进行语音识别以获取训练语音中的各个字符,确定模块可从训练语音的声学特征中确定各个字符的声学特征,建立模块针对每个字符,分别对每个字符的声学特征进行训练以建立对应的UBM分字模型,生成模块针对每个字符,分别根据每个字符的声学特征以及对应的UBM分字模型生成对应的声纹特征提取器。即针对训练语音,分别为每个字符单独建立一个对应的UBM分字模型以及声纹特征提取器,可以获得更加精确的Baum-Welch统计量,进而可以得到精确的声纹模型,使得在声纹提取阶段,通过该UBM分字模型以及声纹特征提取器可以大大提高声纹特征的提取准确性,提高了声纹系统的性能,并且在声纹登录认证时,通过对应的UBM模型以及声纹特征提取器同时对每个字符进行声纹特征提取,减少了时间消耗,从而改善了用户使用声纹登录服务的体验。

为达上述目的,本发明第四方面实施例的基于本发明第三方面实施例所述的UBM分字模型的声纹特征生成装置,包括:提取模块,用于提取测试语音的声学特征;语音识别模块,用于对所述测试语音进行语音识别以获取所述测试语音中的各个字符;确定模块,用于从所述测试语音的声学特征中确定所述各个字符的声学特征;获取模块,用于针对每个字符,分别将所述每个字符的声学特征在所述对应的UBM分字模型中计算后验概率,以得到所述每个字符的Baum-Welch统计量;第一生成模块,用于根据所述每个字符的Baum-Welch统计量以及所述对应的声纹特征提取器生成所述每个字符的声纹特征。

本发明实施例的基于UBM分字模型的声纹特征生成装置,可通过提取模块提取测试语音的声学特征,语音识别模块对测试语音进行语音识别以获取测试语音中的各个字符,确定模块从测试语音的声学特征中确定各个字符的声学特征,获取模块针对每个字符,分别将每个字符的声学特征在对应的UBM分字模型中计算后验概率,以得到每个字符的Baum-Welch统计量,第一生成模块根据每个字符的Baum-Welch统计量以及对应的声纹特征提取器生成每个字符的声纹特征。即通过每个字符的UBM分字模型以及声纹特征提取器来对测试语音进行声纹特征的提取,大大提高了声纹特征的提取准确性,提高了声纹系统的性能,并提高了声纹密码作为认证手段的可用性,并且在声纹登录认证时,通过对应的UBM模型以及声纹特征提取器同时对每个字符进行声纹特征提取,减少了时间消耗,从而改善了用户使用声纹登录服务的体验。

本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,

图1是根据本发明一个实施例的UBM分字模型的建立方法的流程图;

图2是根据本发明一个实施例的UBM分字模型的建立装置的结构框图;

图3是根据本发明一个具体实施例的UBM分字模型的建立装置的结构框图;

图4是根据本发明一个实施例的基于UBM分字模型的声纹特征生成方法的流程图;

图5是根据本发明一个实施例的基于UBM分字模型的声纹特征生成方法的示例图;

图6是根据本发明一个实施例的基于UBM分字模型的声学特征生成装置的结构框图;

图7是根据本发明一个具体实施例的基于UBM分字模型的声学特征生成装置的结构框图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

可以理解,在声纹认证方法中,由于用户在注册和登录过程中所处的环境、场景和习惯等不同,所以导致注册和登录时字符串(如数字串)的长短的不同。但是发明人通过研究而发现:如果使用分字模型来对用户使用过程中每个字符串单独建模,可以使得声纹匹配的性能有明显的提升。为此,本发明提供了一种UBM(Universal Background Model)分字模型的建立方法、以及基于该BM分字模型的声纹特征生成方法以及装置。具体地,下面参考附图描述根据本发明实施例的通用背景模型UBM分字模型的建立方法、基于UBM分字模型的声纹特征生成方法以及装置。

图1是根据本发明一个实施例的UBM分字模型的建立方法的流程图。如图1所示,该UBM分字模型的建立方法可以包括:

S110,提取训练语音的声学特征,并对训练语音进行语音识别以获取训练语音中的各个字符。其中,在本发明的实施例中,该声学特征可为但不限于MFCC(Mel Frequency Cepstrum Coefficient,梅尔频率倒谱系数)特征。

具体而言,在本发明的实施例中,可先获取训练语音,并对该训练语音进行声学特征的提取,之后,可通过语音识别技术对训练语音进行分帧处理以获取多个语音帧,并对这些多个语音帧进行帧对齐以获取每个语音帧对应的字符。其中,在本发明的实施例中,该训练语音可以是一个或多个语句所对应的语音。

更具体地,在提取出训练语音中每句话的声学特征(例如MFCC特征)之后,可通过语音识别技术对该训练语音进行分帧处理以得到多个语音帧,并对这些语音帧进行帧对齐,得到每一个语音帧对应的具体字符,以完成每个帧的语音识别。其中,在本发明的实施例中,该字符可包括但不限于数字、字母、汉字、特殊字符(如!@#$%^&*()等)、图片等。

S120,从训练语音的声学特征中确定各个字符的声学特征。

具体地,从上述得到的训练语音的声学特征中确定每个字符的声学特征。作为一种示例,可通过字符标签从该训练语音的声学特征中确定每个语音帧所对应的声学特征。

S130,针对每个字符,分别对每个字符的声学特征进行训练以建立对应的UBM分字模型。

具体而言,在本发明的实施例中,对属于同一个字符标签的所有语音帧的声学特征进行训练以建立对应的GMM模型(Gaussian Mixture Model,高斯混合模型),并将对应的GMM模型作为属于同一个字符标签所对应的字符的UBM分字模型。

更具体地,可先确定属于同一个字符标签的语音帧,之后,可对属于同一个字符标签的所有语音帧的声学特征进行训练以得到对应的GMM模型,并将该对应的GMM模型作为该属于同一个字符标签的所有语音帧所对应的字符的UBM分字模型,以实现针对每一个字符建立一个对应的UBM模型。

S140,针对每个字符,分别根据每个字符的声学特征以及对应的UBM分字模型生成对应的声纹特征提取器。其中,在本发明的实施例中,该声纹特征提取器可为ivector提取器。

具体而言,在本发明的实施例中,可先将属于同一个字符标签的每个语音帧的声学特征在对应的UBM分字模型中计算后验概率,以得到属于同一个字符标签所对应的字符的Baum-Welch统计量,之后,可根据Baum-Welch统计量通过联合因子分析方法生成同一个字符标签所对应的字符的声纹特征提取器。其中,该对应的UBM分字模型应理解为该属于同一个字符标签的语音帧所对应的字符的UBM模型。

更具体地,可先确定属于同一个字符标签的语音帧,之后,可将属于同一个字符标签的每一个语音帧的声学特征在对应的UBM分字模型中计算后验概率,得到训练语音中每个字符的发声的Baum-Welch统计量,然后,根据该Baum-Welch统计量利用联合因子分析的方法以得到该同一个字符标签所对应的字符的声纹特征提取器,以实现针对每一个字符生成一个对应的声纹特征提取器。

本发明实施例的UBM分字模型的建立方法,可先提取训练语音的声学特征,并对训练语音进行语音识别以获取训练语音中的各个字符,之后,可从训练语音的声学特征中确定各个字符的声学特征,并针对每个字符,分别对每个字符的声学特征进行训练以建立对应的UBM分字模型,最后,针对每个字符,分别根据每个字符的声学特征以及对应的UBM分字模型生成对应的声纹特征提取器。即针对训练语音,分别为每个字符单独建立一个对应的UBM分字模型以及声纹特征提取器,可以获得更加精确的Baum-Welch统计量,进而可以得到精确的声纹模型,使得在声纹提取阶段,通过该UBM分字模型以及声纹特征提取器可以大大提高声纹特征的提取准确性,提高了声纹系统的性能,并且在声纹登录认证时,通过对应的UBM模型以及声纹特征提取器同时对每个字符进行声纹特征提取,减少了时间消耗,从而改善了用户使用声纹登录服务的体验。

与上述几种实施例提供的UBM分字模型的建立方法相对应,本发明的一种实施例还提供一种UBM分字模型的建立装置,由于本发明实施例提供的UBM分字模型的建立装置与上述几种实施例提供的UBM分字模型的建立方法相对应,因此在前述UBM分字模型的建立方法的实施方式也适用于本实施例提供的UBM分字模型的建立装置,在本实施例中不再详细描述。图2是根据本发明一个实施例的UBM分字模型的建立装置的结构框图。如图2所示,该UBM分字模型的建立装置可以包括:提取模块110、语音识别模块120、确定模块130、建立模块140和生成模块150。

具体地,提取模块110可用于提取训练语音的声学特征。其中,在本发明的实施例中,该声学特征可为MFCC特征。

语音识别模块120可用于对训练语音进行语音识别以获取训练语音中的各个字符。具体而言,在本发明的实施例中,语音识别模块120可通过语音识别技术对训练语音进行分帧处理以获取多个语音帧,并对多个语音帧进行帧对齐以获取每个语音帧对应的字符。

确定模块130可用于从训练语音的声学特征中确定各个字符的声学特征。

建立模块140可用于针对每个字符,分别对每个字符的声学特征进行训练以建立对应的UBM分字模型。具体而言,在本发明的实施例中,建立模块140可对属于同一个字符标签的所有语音帧的声学特征进行训练以建立对应的GMM模型,并将对应的GMM模型作为属于同一个字符标签所对应的字符的UBM分字模型。

生成模块150可用于针对每个字符,分别根据每个字符的声学特征以及对应的UBM分字模型生成对应的声纹特征提取器。其中,在本发明的实施例中,该声纹特征提取器可为ivector提取器。

具体而言,在本发明的一个实施例中,如图3所示,该生成模块150可包括:获取单元151和生成单元152。其中,获取单元151可用于将属于同一个字符标签的每个语音帧的声学特征在对应的UBM分字模型中计算后验概率,以得到属于同一个字符标签所对应的字符的Baum-Welch统计量。生成单元152可用于根据Baum-Welch统计量通过联合因子分析方法生成同一个字符标签所对应的字符的声纹特征提取器。

本发明实施例的UBM分字模型的建立装置,可通过提取模块提取训练语音的声学特征,语音识别模块对训练语音进行语音识别以获取训练语音中的各个字符,确定模块可从训练语音的声学特征中确定各个字符的声学特征,建立模块针对每个字符,分别对每个字符的声学特征进行训练以建立对应的UBM分字模型,生成模块针对每个字符,分别根据每个字符的声学特征以及对应的UBM分字模型生成对应的声纹特征提取器。即针对训练语音,分别为每个字符单独建立一个对应的UBM分字模型以及声纹特征提取器,可以获得更加精确的Baum-Welch统计量,进而可以得到精确的声纹模型,使得在声纹提取阶段,通过该UBM分字模型以及声纹特征提取器可以大大提高声纹特征的提取准确性,提高了声纹系统的性能,并且在声纹登录认证时,通过对应的UBM模型以及声纹特征提取器同时对每个字符进行声纹特征提取,减少了时间消耗,从而改善了用户使用声纹登录服务的体验。

为了提高声纹特征提取的精确性,可将通过本发明实施例的UBM分字模型的建立方法所建立的UBM分字模型应用于声纹特征提取的应用场景中,即可基于该UBM分字模型来进行声纹特征的提取,为此,本发明还提出了一种基于UBM分字模型的声纹特征生成方法。具体地,图4是根据本发明一个实施例的基于UBM分字模型的声纹特征生成方法的流程图。需要说明的是,在本发明的实施例中,该UBM分字模型可以是通过本发明上述任一个实施例所述的UBM分字模型的建立方法所建立的UBM模型。

如图4所示,该基于UBM分字模型的声纹特征生成方法可以包括:

S410,提取测试语音的声学特征,并对测试语音进行语音识别以获取测试语音中的各个字符。其中,在本发明的实施例中,该声学特征可为MFCC特征。

具体而言,在本发明的实施例中,可通过语音识别技术对测试语音进行分帧处理以获取多个语音帧,并对多个语音帧进行帧对齐以获取每个语音帧对应的字符。其中,在本发明的实施例中,该测试语音可以是一个或多个语句所对应的语音。

更具体地,可先获取测试语音,并对该测试语音进行声学特征的提取,之后,可通过语音识别技术对该测试语音进行分帧处理以得到多个语音帧,并对这些语音帧进行帧对齐,得到每一个语音帧对应的具体字符,以完成每个帧的语音识别。其中,在本发明的实施例中,该字符可包括但不限于数字、字母、汉字、特殊字符(如!@#$%^&*()等)、图片等。

S420,从测试语音的声学特征中确定各个字符的声学特征。

具体地,从上述得到的测试语音的声学特征中确定每个字符的声学特征。作为一种示例,可通过字符标签从该测试语音的声学特征中确定每个语音帧所对应的声学特征。

S430,针对每个字符,分别将每个字符的声学特征在对应的UBM分字模型中计算后验概率,以得到每个字符的Baum-Welch统计量。

具体而言,在本发明的实施例中,可将属于同一个字符标签的所有语音帧的声学特征在对应的UBM分字模型中计算后验概率,以得到每个字符的Baum-Welch统计量。其中,该对应的UBM分字模型应理解为该属于同一个字符标签的语音帧所对应的字符的UBM模型。

更具体地,可先确定属于同一个字符标签的语音帧,之后,可将属于同一个字符标签的所有语音帧的声学特征在该对应的UBM分字模型中计算后验概率,得到测试语音中每个字符的发声的Baum-Welch统计量。

S440,根据每个字符的Baum-Welch统计量以及对应的声纹特征提取器生成每个字符的声纹特征。其中,在本发明的实施例中,该声纹特征可为ivector。

具体地,在得到每个字符的发声的Baum-Welch统计量之后,可根据该Baum-Welch统计量并结合该每个字符对应的声纹特征提取器以得到每个字符的声纹特征。

为了提高可用性,进一步地,在本发明的一个实施例中,该声纹特征生成方法还可包括:按照预设规律将每个字符的声纹特征进行拼接以生成测试语音的声纹特征。具体地,可将该测试语音中所有字符的声纹特征按照一定的顺序拼接在一起,以作为该测试语音的声纹特征。其中,该预设规律可理解是根据字符的类型的不同而设定不同的规律,例如,以该字符为数字为例,该预设规律可以是按照数字从小到大的顺序。

举例而言,以测试语音中的字符为数字、声纹特征为ivector为例,如图5所示,可提取测试语音的声学特征(如MFCC特征),并通过语音识别技术对测试语音进行帧对齐,得到每一帧对应的具体数字,之后,从测试语音的声学特征中确定各个数字的声学特征(如MFCC特征)。然后,针对每个数字,将同一个数字标签的所有帧的声学特征在对应的UBM分字模型中计算后验概率,以得到每个数字的Baum-Welch统计量。之后,针对每个数字,根据Baum-Welch统计量通过每个数字对应的ivector提取器生成每个数字的ivector。最后,按照数字从小到大的顺序将所有数字的ivector拼接在一起,以得到该测试语音的ivector,如图5所示的M={m1,m2,…,mN}即为测试语音的ivector。

本发明实施例的基于UBM分字模型的声学特征生成方法,可先提取测试语音的声学特征,并对测试语音进行语音识别以获取测试语音中的各个字符,之后可从测试语音的声学特征中确定各个字符的声学特征,然后,针对每个字符,分别将每个字符的声学特征在对应的UBM分字模型中计算后验概率,以得到每个字符的Baum-Welch统计量,并根据每个字符的Baum-Welch统计量以及对应的声纹特征提取器生成每个字符的声纹特征。即通过每个字符的UBM分字模型以及声纹特征提取器来对测试语音进行声纹特征的提取,大大提高了声纹特征的提取准确性,提高了声纹系统的性能,并提高了声纹密码作为认证手段的可用性,并且在声纹登录认证时,通过对应的UBM模型以及声纹特征提取器同时对每个字符进行声纹特征提取,减少了时间消耗,从而改善了用户使用声纹登录服务的体验。

与上述几种实施例提供的基于UBM分字模型的声纹特征生成方法相对应,本发明的一种实施例还提供一种基于UBM分字模型的声纹特征生成装置,由于本发明实施例提供的基于UBM分字模型的声纹特征生成装置与上述几种实施例提供的基于UBM分字模型的声纹特征生成方法相对应,因此在前述基于UBM分字模型的声纹特征生成方法的实施方式也适用于本实施例提供的基于UBM分字模型的声纹特征生成装置,在本实施例中不再详细描述。图6是根据本发明一个实施例的基于UBM分字模型的声学特征生成装置的结构框图。需要说明的是,在本发明的实施例中,该UBM分字模型可以是通过本发明上述任一个实施例所述的UBM分字模型的建立装置所建立的UBM模型。

如图6所示,该基于UBM分字模型的声学特征生成装置可以包括:提取模块210、语音识别模块220、确定模块230、获取模块240和第一生成模块250。

具体地,提取模块210可用于提取测试语音的声学特征。其中,在本发明的实施例中,该声学特征可为MFCC特征。

语音识别模块220可用于对测试语音进行语音识别以获取测试语音中的各个字符。具体而言,在本发明的实施例中,语音识别模块220通过语音识别技术对测试语音进行分帧处理以获取多个语音帧,并对多个语音帧进行帧对齐以获取每个语音帧对应的字符。

确定模块230可用于从测试语音的声学特征中确定各个字符的声学特征。

获取模块240可用于针对每个字符,分别将每个字符的声学特征在对应的UBM分字模型中计算后验概率,以得到每个字符的Baum-Welch统计量。具体而言,在本发明的实施例中,获取模块240可将属于同一个字符标签的所有语音帧的声学特征在对应的UBM分字模型中计算后验概率,以得到每个字符的Baum-Welch统计量。

第一生成模块250可用于根据每个字符的Baum-Welch统计量以及对应的声纹特征提取器生成每个字符的声纹特征。其中,在本发明的实施例中,该声纹特征可为ivector。

为了提高可用性,进一步地,在本发明的一个实施例中,如图7所示,该声纹特征生成装置还可包括:第二生成模块260。其中,第二生成模块260可用于按照预设规律将每个字符的声纹特征进行拼接以生成测试语音的声纹特征。其中,该预设规律可理解是根据字符的类型的不同而设定不同的规律,例如,以该字符为数字为例,该预设规律可以是按照数字从小到大的顺序。

本发明实施例的基于UBM分字模型的声纹特征生成装置,可通过提取模块提取测试语音的声学特征,语音识别模块对测试语音进行语音识别以获取测试语音中的各个字符,确定模块从测试语音的声学特征中确定各个字符的声学特征,获取模块针对每个字符,分别将每个字符的声学特征在对应的UBM分字模型中计算后验概率,以得到每个字符的Baum-Welch统计量,第一生成模块根据每个字符的Baum-Welch统计量以及对应的声纹特征提取器生成每个字符的声纹特征。即通过每个字符的UBM分字模型以及声纹特征提取器来对测试语音进行声纹特征的提取,大大提高了声纹特征的提取准确性,提高了声纹系统的性能,并提高了声纹密码作为认证手段的可用性,并且在声纹登录认证时,通过对应的UBM模型以及声纹特征提取器同时对每个字符进行声纹特征提取,减少了时间消耗,从而改善了用户使用声纹登录服务的体验。

需要说明的是,本发明实施例的基于UBM分字模型的声纹特征生成方法可应用于声纹认证系统中,例如,在声纹注册和登录阶段,可通过本发明实施例的基于UBM分字模型的声纹特征生成方法来提取用户朗诵的语音的注册声纹和登录声纹,由此,通过单个字符对应的UBM模型对语音进行声纹提取,可以有效地去除语音中的噪声或者停顿,大大提升了声纹匹配的性能,提高声纹认证的准确性。

在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1