1.一种用于说话人识别系统的说话人建模的方法,包括:
接收包括说话人的话语的信号;以及
对于该信号的多个帧:
获得所述说话人的话语的频谱;
通过施加与相应的发声力度有关的影响来生成至少一个经修改的频谱;以及
从所述说话人的话语的频谱和所述至少一个经修改的频谱中提取特征;以及
进一步包括:
基于所提取的特征形成至少一个话语模型。
2.根据权利要求1所述的方法,包括:
对于包含浊音话语的信号的多个帧,获得所述说话人的话语的频谱。
3.根据权利要求1或2所述的方法,包括:
对于所述信号的多个重叠帧,获得所述说话人的话语的频谱。
4.根据权利要求1、2或3所述的方法,其中每一帧具有10ms和50ms之间的持续时间。
5.根据权利要求1至4中的一项所述的方法,包括:
通过施加与相应的发声力度有关的影响来生成多个经修改的频谱。
6.根据任一项前述权利要求所述的方法,其中生成至少一个经修改的频谱的步骤包括:
确定所述说话人的话语的至少一个共振峰分量的频率和带宽;
通过修改该共振峰分量或每一共振峰分量的频率和带宽中的至少一个来生成至少一个经修改的共振峰分量;以及
由该经修改的共振峰分量或每一经修改的共振峰分量生成经修改的频谱。
7.根据权利要求6所述的方法,包括确定所述说话人的话语中处于3-5个范围内的共振峰分量的频率和带宽。
8.根据权利要求6或7所述的方法,其中生成经修改的共振峰分量包括:
修改该共振峰分量或每一共振峰分量的频率和带宽。
9.根据任一项前述权利要求所述的方法,其中从用户的话语的频谱中所提取的特征包括梅尔频率倒谱系数。
10.根据任一项前述权利要求所述的方法,其中形成至少一个话语模型的步骤包括形成所述说话人的话语的模型。
11.根据权利要求10所述的方法,其中所述方法是在所述说话人识别系统中对所述说话人进行注册时执行的。
12.根据任一项前述权利要求所述的方法,其中形成至少一个话语模型的步骤包括部分地基于所述说话人的话语形成用于所述说话人识别系统的背景模型。
13.一种用于说话人识别系统的说话人建模的系统,该系统被配置用于执行根据权利要求1至12中的任一项所述的方法。
14.一种用于说话人建模的系统,该系统包括:
输入,用于接收包括说话人的话语的信号;以及
处理器,被配置用于针对该信号的多个帧,执行如下步骤:
获得所述说话人的话语的频谱;
通过施加与相应的发声力度有关的影响来生成至少一个经修改的频谱;
从所述说话人的话语的频谱和所述至少一个经修改的频谱中提取特征;以及
基于所提取的特征形成至少一个话语模型。
15.一种包括根据权利要求13或14中的任一项所述的系统的设备。
16.根据权利要求15所述的设备,其中所述设备包括移动电话、音频播放器、视频播放器、移动计算平台、游戏设备、遥控器设备、玩具、机器或家庭自动化控制器或家用电器。
17.一种计算机程序产品,包括计算机可读有形介质,以及用于执行根据权利要求1至12中的任一项所述的方法的指令。
18.一种非暂时性计算机可读存储介质,在所述非暂时性计算机可读存储介质上存储有计算机可执行指令,当由处理器电路系统执行所述计算机可执行指令时,所述计算机可执行指令使所述处理器电路系统执行根据权利要求1至12中的任一项所述的方法。