声纹模型自动重建的方法和装置的制造方法_4

文档序号：8300070阅读：来源：国知局

匹配，将匹配概率最高的时间窗管道中的原语音数据更新为新的参数化的语音数据；
[0110]根据更新结果获得筛选后的多组语音数据。
[0111]优选地，所述装置还包括:
[0112]当时间窗管道中的语音数据更新频率超过一定阈值时，采用模型自适应的方式创建声纹模型。
[0113]优选地，所述时间窗管道中可容纳的语音数据的数据量为10至20段的语音数据，根据实际情况各段语音数据可以是文本相关的，也可以是文本无关的。
[0114]综上所述，本申请实施例一种声纹模型自动重建的装置主要包括以下优点:首先，将语音数据以时间点为标签构建时变数据库，使用时变数据库存储用户各个时间段的语音数据，同时将语音数据进行语音数据帧的参数化处理，从而大大降低了时变数据库的存储成本。
[0115]其次，通过以时间窗管道为基本单元，按照语音数据的时间顺序获取时变数据库中的参数化的语音数据，根据确定出的参数化的语音数据对应的音素的空间分布信息筛选时间窗管道中的语音数据，获得筛选后的多组语音数据，使用筛选后的多组语音数据更新时间窗管道中的语音数据，并使用更新后的时间窗管道中的语音数据建立时间窗管道的声纹模型，通过实时获取时间窗管道中当前用户的最新语音数据，并使用最新的语音数据生成声纹模型，保证了声纹模型对说话人识别的准确性，同时也维持了系统的鲁棒性。
[0116]对于系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0117]本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。
[0118]以上对本申请所提供的一种声纹模型自动重建的方法和装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在【具体实施方式】及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。
【主权项】
1.一种声纹模型自动重建的方法，其特征在于，包括: 将语音数据以时间点为标签构建时变数据库，其中，所述时变数据库包括:参数化的语音数据、语音数据对应的音素和语音数据对应的音素的空间分布信息；以时间窗管道为基本单元，按照语音数据的时间顺序获取时变数据库中参数化的语音数据，其中，所述时间窗管道包括多组语音数据；确定获取的参数化的语音数据对应的音素的空间分布信息，根据确定的所述音素的空间分布信息筛选时间窗管道中的语音数据，获得筛选后的多组语音数据；使用筛选后的多组语音数据更新时间窗管道中的语音数据；使用更新后的时间窗管道中的语音数据建立时间窗管道的声纹模型。
2.根据权利要求1所述的方法，其特征在于，将语音数据以时间点为标签构建时变数据库的步骤包括: 使用美尔频域倒谱系数将所述语音数据以语音数据帧为基本单位进行参数化处理，获取参数化的语音数据；使用语音识别器识别语音数据，获得语音数据对应的音素；根据参数化的语音数据和语音数据对应的音素构建时变数据库。
3.根据权利要求1所述的方法，其特征在于，根据确定的所述音素的空间分布的信息筛选时间窗管道中的语音数据，获得筛选后的多组语音数据的步骤包括: 当新的参数化的语音数据进入时间窗管道中时，将新的参数化的语音数据的音素空间分布信息分别与时间窗管道中的原语音数据对应的音素的空间分布信息进行匹配，将匹配概率最高的时间窗管道中的原语音数据更新为新的参数化的语音数据；根据更新结果获得筛选后的多组语音数据。
4.根据权利要求1所述的方法，其特征在于，还包括: 当时间窗管道中的语音数据更新频率超过一定阈值时，采用模型自适应的方式创建声纹模型。
5.根据权利要求1所述的方法，其特征在于，所述时间窗管道中可容纳的语音数据的数据量为10至20段语音数据，各段语音数据是文本相关或文本无关。
6.一种声纹模型自动重建的装置，其特征在于，包括: 构建模块，用于将语音数据以时间点为标签构建时变数据库，其中，所述时变数据库包括:参数化的语音数据、语音数据对应的音素和语音数据对应的音素的空间分布信息；获取模块，用于以时间窗管道为基本单元，按照语音数据的时间顺序获取时变数据库中参数化的语音数据，其中，所述时间窗管道包括多组语音数据；确定模块，用于确定获取的参数化的语音数据对应的音素的空间分布信息，根据确定的所述音素的空间分布的信息筛选时间窗管道中的语音数据，获得筛选后的多组语音数据；筛选模型，用于使用筛选后的多组语音数据更新时间窗管道中的语音数据；建立模块，用于使用更新后的时间窗管道中的语音数据建立时间窗管道的声纹模型。
7.根据权利要求6所述的装置，其特征在于，构建模块在将语音数据以时间点为标签构建时变数据库包括: 使用美尔频域倒谱系数将所述语音数据以语音数据帧为基本单位进行参数化处理，获取参数化的语音数据；使用语音识别器识别语音数据，获得语音数据对应的音素；根据参数化的语音数据和语音数据对应的音素构建时变数据库。
8.根据权利要求6所述的装置，其特征在于，确定模块在根据确定的所述音素的空间分布的信息筛选时间窗管道中的语音数据，获得筛选后的多组语音数据包括: 当新的参数化的语音数据进入时间窗管道中时，将新的参数化的语音数据的音素空间分布信息分别与时间窗管道中的原语音数据对应的音素的空间分布信息进行匹配，将匹配概率最高的时间窗管道中的原语音数据更新为新的参数化的语音数据；根据更新结果获得筛选后的多组语音数据。
9.根据权利要求6所述的装置，其特征在于，还包括: 当时间窗管道中的语音数据更新频率超过一定阈值时，采用模型自适应的方式创建声纹模型。
10.根据权利要求6所述的装置，其特征在于，所述时间窗管道中可容纳的语音数据的数据量为10至20段语音数据，各段语音数据是文本相关或文本无关。
【专利摘要】本申请提供了一种声纹模型自动重建的方法和装置，包括：将语音数据以时间点为标签构建时变数据库，其中，所述时变数据库包括：参数化的语音数据、语音数据对应的音素和语音数据对应的音素的空间分布信息；以时间窗管道为基本单元，按照语音数据的时间顺序获取时变数据库中参数化的语音数据；确定获取的参数化的语音数据对应的音素的空间分布信息，根据确定的所述音素的空间分布信息筛选时间窗管道中的语音数据，获得筛选后的多组语音数据；使用筛选后的多组语音数据更新时间窗管道中的语音数据；使用更新后的时间窗管道中的语音数据自动重建声纹模型。从而解决了由于时间变化导致说话人模型波动，进而导致话说人识别正确率低的问题。
【IPC分类】G10L17-04
【公开号】CN104616655
【申请号】CN201510061721
【发明人】郑方, 李蓝天, 邬晓钧, 别凡虎, 王军
【申请人】清华大学
【公开日】2015年5月13日
【申请日】2015年2月5日

完整全部详细技术资料下载

当前第4页1 2 3 4