说话者识别设备、说话者识别程序、和说话者识别方法

文档序号：2822461阅读：222来源：国知局

专利名称：说话者识别设备、说话者识别程序、和说话者识别方法
技术领域：
本发明涉及说话者识别设备、用于说话者识别的计算机程序、以及说话者识别方法，用于通过使用包括在声波中的个人信息来识别说话者。
背景技术：
已经提出了基于说预定内容的语音而识别说话者的取决于文本的说话者识别设备、以及基于说任何内容的语音而标识说话者的与文本无关的说话者识别设备作为说话者识别设备。
说话者识别设备通常将输入的声波转换为模拟信号，将所转换的模拟信号转换为数字信号，执行数字信号的离差分析，并然后产生包括个人信息的语音特征向量序列。这里，倒谱(cepstrum)系数用作语音特征向量。在登记模式中，说话者识别设备将语音特征向量序列群集为预定数量的簇(cluster)，例如三十二个簇，并且产生作为每个簇的形心(centroid)的代表向量(参见Furui所著，日本Morikita Shuppan Co.Ltd的“Speech Information Processing”，第一版，第56-57页)。此外，在标识模式中，说话者识别设备基于每个语音特征向量而计算在登记模式从输入声波中产生的语音特征向量序列和预先登记的码本之间的距离，算出平均值(平均距离)，并且基于该平均距离标识说话者。
在其中说话者识别设备用作说话者验证设备的情况下，计算在从要被识别的说话者产生的语音特征向量序列和关于该说话者的码本之间的距离，并且将该距离和阈值进行比较以执行说话者验证。在其中说话者识别设备用作说话者标识设备的情况下，计算在从要被标识的说话者中产生的语音特征向量序列和所有登记的说话者的码本之间的距离，并且从对应于登记的说话者的多个距离中选出最短的距离以执行说话者标识。
当前，反映声道形状的倒谱系数、或者指示声带的振动频率的音调通常被用作语音特征量。它的信息包括指示话音内容的音韵(phonological)信息，以及取决于说话者的个人信息。当作为距离计算说话者语音的差别时，因为音韵信息的离差大于个人信息的离差，所以将音韵信息的离差与个人信息的离差进行比较不是所希望的。相反地，希望比较相同的音韵信息。因此，依据现有的说话者识别设备，通过在观察空间中群集向量离差而执行音素的近似归一化，并且将通过对近似相同的音素进行比较而获得的反映个性的说话者距离计算为失真量。
然而，当群集语音特征向量序列时，应该将语音特征向量设置为哪个阶是个问题。通常，大量的音韵信息存在于低阶，而大量的个人信息存在于高阶。因此，如果当群集时为了改善音韵分辨性能而将语音特征向量阶设置为低阶，则可能降低说话者分辨性能。相反地，如果为了提高说话者分辨性能而将语音特征向量设置为高阶，则可能降低音韵分辨性能。这导致折衷关系的问题。因为这个问题，语音特征向量阶当前被设置为由实验方法确定的最合适的阶数。

发明内容
因此，本发明的目的是消除在音韵分辨性能和演说者分辨性能之间的折衷关系，并且实现精确的说话者识别。
依据本发明的一个方面，提供了一种说话者识别设备，其中基于从要被登记的说话者的语音中产生的第一语音特征向量序列中的低阶语音特征向量组而获得第一语音特征向量序列的语音特征向量之间的距离。基于所获得的距离而群集第一语音特征向量序列，并且产生和存储包括多个代表向量的码本。基于从要被识别的说话者的语音中产生的第二语音特征向量序列的低阶语音特征向量组，而获得在(a)第二语音特征向量序列中的每个语音特征向量和(b)存储在码本中的多个代表向量中对应的一个之间的量化距离。基于所获得的量化距离而量化第二语音特征向量序列中的每个语音特征向量。并且基于第二特征向量序列的高阶语音特征向量组，而获得在第二语音特征向量序列的每个语音特征向量和存储在码本中的多个代表向量中对应的一个之间的量化失真。基于所获得的量化失真执行说话者识别。
依据本发明的另一个方面，提供了一种说话者识别设备，其中在从要被登记的说话者的语音中产生的第一语音特征向量序列的语音特征向量之间获得基于第一权重的加权向量距离。基于所获得的加权向量距离而群集第一语音特征向量序列，并且产生和存储包括多个代表向量的码本。获得在存储在码本中的多个代表向量中对应的一个和从要被识别的说话者语音中产生的第二语音特征向量序列的每个语音特征向量之间的基于第二权重的加权量化距离。基于所获得的加权量化距离而量化第二语音特征向量序列中的每个语音特征向量。以及获得在存储在码本中的多个代表向量中对应的一个和第二语音特征向量序列的每个语音特征向量之间的基于与第一权重和第二权重不同的第三权重的加权量化失真。基于该量化失真执行说话者识别。
依据本发明，可以实现高度精确的说话者识别。

图1为示出了本发明的说话者识别设备的结构的方框图；图2为示意地示出为了从语音特征向量序列中获得代表向量而进行的群集的模式图；图3为示出了在说话者识别设备中提供的说话者识别部分的结构的方框图；图4为示出特征向量的结构的模式图；以及图5为示出由软件实现的本发明的说话者识别设备的示例结构的方框图。
具体实施例方式
将参考图1到4说明本发明的第一实施例。图1为示出第一实施例的说话者识别设备100的结构的方框图。
如图1所示，该说话者识别设备100包括麦克风1、低通滤波器2、A/D转换器3、特征向量产生部分4、说话者识别部分5、说话者模型产生部分6、以及存储部分7。利用这些部分和元件，可以执行各种装置(或者步骤)。
麦克风1把输入的语音转换为电模似信号。低通滤波器2从输入模拟信号中去除高于预定频率的频率。A/D转换器3以预定取样频率和量化位数将输入模拟信号转换为数字信号。语音输入部分8包括麦克风1、低通滤波器2、和A/D转换器3。
特征向量产生部分4执行输入数字信号的离散分析并且产生和输出M阶语音特征向量序列(特征参数时间序列)。此外，特征向量产生部分4包括切换器(未显示)，用于选择登记模式和标识模式。依据所选择的模式，在登记模式中，特征向量产生部分4电连接到说话者模型产生部分6，并且向说话者产生部分6输出M阶语音特征向量序列，而在标识模式中，特征向量产生部分4电连接到说话者识别部分5，并且向说话者识别部分5输出M阶语音特征向量序列。在本发明的这个实施例中，M阶语音特征向量序列是16阶语音特征向量序列(M＝16)，而且该特征向量包括1到16阶LPC倒谱系数，但是不局限于这个示例。
说话者模型产生部分6在登记模式中，从在特征向量产生部分4处产生的语音特征向量序列中产生码本，作为说话者模型。存储部分7是存储(登记)在说话者模型产生部分6处产生的码本的词典。
说话者识别部分5计算在预先存储在存储部分7中的码本和在特征向量产生部分4处产生的语音特征向量序列之间的距离，然后基于该距离识别说话者，并且输出结果作为说话者识别结果。
接下来，将参考图2描述说话者模型产生部分6，其是示意地示出为了从语音特征向量序列获得代表向量(形心)而进行的群集的模式图。
如图2所示，说话者模型产生部分6将在登记模式中在特征向量产生部分4处从要被登记的说话者语音中产生的M阶语音特征向量序列群集为多个对应于预定码本尺寸的簇。说话者模型产生部分6然后为每个簇获得作为该簇的加权中心的形心，作为该簇的代表向量，并且作为码本元素将多个代表向量(每个簇的形心)登记到存储部分7(词典)。为每个登记的说话者产生码本。
这里，通过使用M阶语音特征向量序列中的N阶(N＜M)语音特征向量序列(图2中的阴影区)而执行群集，并且获得M阶代表向量。N阶语音特征向量序列是低阶语音特征向量组。
可以从以下的公式(1)中获得在群集中使用的向量之间的向量距离D1。在本发明的这个实施例中，N＝8、M＝16、且码本尺寸是32。
D1=[ΣK=1N(XK-YK)2]12---(1)]]>其中D1向量距离XK、YKM阶特征向量N＜M也就是说，说话者模型产生部分6使用在登记模式中在特征向量产生部分4处产生的M阶语音特征向量序列中的N阶语音特征向量序列，按照公式(1)获得向量距离D1，然后基于所获得的向量距离D1群集M阶语音特征向量序列，并且产生由多个M阶代表向量组成的码本。
接下来，将参考图3说明说话者识别部分5，该图为示出说话者识别部分5的结构的方框图。
如图3所示，说话者识别部分5包括说话者距离计算部分11和识别部分12。
说话者距离计算部分11计算在存储在码本中的多个代表向量和在特征向量产生部分4处从要被识别的说话者语音中产生的M阶语音特征向量序列之间的距离(在码本和特征向量序列之间的距离)。也就是说，说话者距离计算部分11为在特征向量产生部分4处产生的M阶语音特征向量序列中的每个特征向量，计算来自特征向量产生部分4的特征向量和存储部分7中的码本的代表向量之间的距离(在代表向量和特征向量之间的距离)。
这里，在码本和特征向量序列之间的距离可以通过下述获得(a)基于通过使用N阶元素计算的在代表向量和特征向量之间的量化距离D2，量化该语音特征向量序列中的每个M阶语音特征向量；以及(b)通过使用M阶语音特征向量而获得在代表向量和特征向量之间的失真距离D3(量化失真)。因此，作为所获得的量化失真的平均值而计算在码本和特征向量序列之间的距离。这里，N阶语音特征向量序列是低阶语音特征向量组，而且M阶语音特征向量序列是高阶语音特征向量组。
可以从以下的公式(2)中获得在量化处理中使用的代表向量和特征向量之间的量化距离D2，而且可以从以下的公式(3)中获得失真距离D3。
D2=[ΣK=1N(CK-XK)2]12---(2)]]>其中，D2代表向量-特征向量距离(量化距离)CK代表向量XKM阶特征向量D3=[ΣK=1M(CK-XK)2]12---(3)]]>其中，D3代表向量-特征向量距离(失真距离)CK代表向量
XKM阶特征向量说话者距离计算部分11根据公式(2)获得量化距离D2。D2是在代表向量和特征向量之间的量化距离，也就是，在特征向量产生部分4处产生的M阶语音特征向量序列中的每个语音特征向量和在登记模式中存储在存储部分7的码本中的多个代表向量之间的量化距离。然后基于所获得的量化距离D2，通过使用N阶语音特征向量序列来执行M阶语音特征向量序列的量化。也就是说，量化M阶语音特征向量序列中的每个语音特征向量。然后，根据公式(3)计算在代表向量和特征向量之间的失真距离D3。D3是在存储部分7的码本中存储的多个代表向量和在特征向量产生部分4处产生的M阶语音特征向量序列之间的失真距离。
在这个实施例中，通过使用M阶语音特征向量序列获得量化失真，但是其不局限于这个示例。例如，可以通过使用包括(m到M)阶(N＜m＜M)语音特征向量序列(高阶语音特征向量序列)的语音特征向量序列获得量化失真。包括(m到M)阶(N＜m＜M)语音特征向量序列的语音特征向量序列应该是高阶语音特征向量组。如果高阶语音特征向量组包括高阶语音特征向量序列，则它应当足够高。(m到M)阶(N＜m＜M)语音特征向量序列可以是下列的任何一个仅仅包括图4(b)阴影区中所示的(m到M)阶倒谱系数的语音特征向量序列；包括图4(c)阴影区中所示的(m到M)阶倒谱系数以及(1到N)阶倒谱系数中的一部分的语音特征向量序列；或者包括图4(d)阴影区中所示的(1到M)阶倒谱系数的语音特征向量序列(M阶语音特征向量序列)。这里，(1到N)阶倒谱系数(图4(a)中的阴影区)是低阶倒谱系数，而(m到M)阶倒谱系数是高阶倒谱系数。高阶倒谱系数比低阶倒谱系数包括更多的个人信息，而低阶倒谱系数比高阶倒谱系数包括更多的音韵信息。在这个实施例中，N＝8且M＝16，但是不局限于这些值。
识别部分12基于在说话者距离计算部分11处获得的量化失真的平均值而识别说话者，并且输出识别结果作为说话者识别结果。当说话者识别设备100用作说话者验证设备时，说话者距离计算部分11计算在从要被识别的说话者语音中产生的语音特征向量序列和存储在要被识别的说话者的码本中的多个代表向量之间的距离(量化失真的平均值)。识别部分12通过将该距离和阈值比较来识别说话者。此外，当说话者识别设备100用作说话者标识设备时，说话者距离计算部分11计算在从要被识别的说话者语音中产生的语音特征向量序列和存储在所有登记的说话者的码本中的多个代表向量之间的距离，并然后通过从多个距离中选择最短距离来识别说话者。
依据本发明的第一实施例，在登记模式中，可以通过使用从要在登记模式中登记的说话者语音中产生的M阶语音特征向量序列中的N阶向量元素，而获得每个语音特征向量D1的向量到向量的距离。基于向量距离D1而群集M阶语音特征向量序列，并且产生由多个M阶形心组成的码本。此外，在标识模式中，基于在从要被识别的说话者语音中产生的每个M阶语音特征向量和码本的每个代表向量中的N阶向量元素之间的量化距离D2，而量化M阶语音特征向量序列中的每个语音特征向量，获得使用M阶向量元素的失真距离D3，并且基于量化失真的平均值执行说话者识别。利用上述结构，可以消除在音韵分辨性能和说话者分辨性能之间的折衷关系，并且可以确保它们的良好平衡。因此，可以实现高度精确的说话者识别。
在本发明的这个实施例中，从要被登记的说话者语音中产生的第一语音特征向量序列和从要被识别的说话者语音中产生的第二语音特征向量序列都是M阶语音特征向量序列，低阶语音特征向量组是N阶(N＜M)语音特征向量序列，码本包括M阶代表向量，而高阶语音特征向量组是M阶语音特征向量序列。因此，可以确信地确保稳定的识别性能。
可替换地，依据本发明的这个实施例，第一语音特征向量序列和第二语音特征向量序列都是M阶语音特征向量序列，低阶语音特征向量组是N阶(N＜M)语音特征向量序列，码本包括M阶代表向量，而高阶语音特征向量组是包括(m到M)阶(N＜m＜M)语音特征向量序列的语音特征向量序列。因此，可以确信地确保稳定的识别性能。
现在将说明本发明的第二实施例。第二实施例是本发明第一实施例的说话者识别部分5和说话者模型产生部分6的修改。因此，将用与第一实施例中相同的附图标记表示第二实施例中出现的相同结构的部分，并且除了说话者识别部分5和说话者模型产生部分6之外，将省略它们的说明。
将参考图2说明依据第二实施例的说话者模型产生部分6。说话者模型产生部分6将在登记模式中在特征向量产生部分4处从要被登记的说话者语音中产生的M阶语音特征向量序列群集为对应于预定码本尺寸的多个簇，获得作为每个簇的加权中心的形心以便使该形心成为该簇的代表向量，并且向存储部分(词典)7登记多个代表向量以作为码本。为每个登记的说话者产生码本。
这里，通过使用M阶语音特征向量序列执行群集，并且获得M阶代表向量。可以从以下的公式(4)中获得在群集中使用的向量之间的加权向量距离D1。在这个实施例中，N＝8、M＝16、而且码本尺寸是32。
D1=[ΣK=1MUK(XK-YK)2]12---(4)]]>其中D1向量距离UK权重UK=1K≤N0K>N]]>XK、YKM阶特征向量说话者模型产生部分6使用在特征向量产生部分4处产生的M阶语音特征向量序列依据公式(4)而获得每个加权向量距离D1，基于所获得的加权向量距离D1而群集该M阶语音特征向量序列，并且产生由多个M阶代表向量组成的码本。
接下来，将说明依据第二实施例的说话者识别部分5(参见图3)。说话者识别部分5基本上具有与第一实施例相似的结构，并且包括说话者距离计算部分11和识别部分12。
说话者距离计算部分11计算在存储部分7的码本中存储的多个代表向量和在特征向量产生部分4处从要被识别的说话者语音中产生的M阶语音特征向量序列之间的距离(在码本和特征向量序列之间的距离)。也就是说，说话者距离计算部分11为在特征向量产生部分4处产生的M阶语音特征向量序列中的每个特征向量，计算在特征向量和码本的代表向量之间的距离(在代表向量和特征向量之间的距离)。
这里，通过基于加权量化距离D2量化语音特征向量序列中的每个M阶语音特征向量，并然后通过使用该M阶语音特征向量获得在代表向量和特征向量之间的距离的加权失真距离D3(量化失真)，而获得在码本和特征向量之间的距离作为量化失真的平均值。
依据第二实施例，可以从以下公式(5)中获得在量化中使用的代表向量和特征向量的加权量化距离D2，而且可以从以下公式(6)中获得用于获得量化失真的加权失真距离D3。
D2=[ΣK=1MUK(CK-XK)2]12---(5)]]>其中，D2代表向量-特征向量距离(量化距离)UK权重UK=1K≤N0K>N]]>UK代表向量XKM阶特征向量D3=[ΣK=1MVK(CK-XK)2]12---(6)]]>其中，D3代表向量-特征向量距离(失真距离)VK权重(VK＝1)CK代表向量XKM阶特征向量因此，说话者距离计算部分11依据公式(5)获得在代表向量和特征向量之间的加权量化距离D2，其是在识别模式中存储在存储部分7的码本中的多个代表向量和在特征向量产生部分4处产生的M阶语音特征向量序列中的每个语音特征向量之间的距离。然后，基于所获得的加权量化距离D2执行M阶语音特征向量序列的量化。也就是说，量化M阶语音特征向量序列中的每个语音特征向量，依据公式(6)获得在存储部分7的码本中存储的多个代表向量和在特征向量产生部分4处产生的M阶语音特征向量序列中的每个语音特征向量之间的加权失真距离D3，并且获得所获得的加权失真距离D3的平均值(量化失真的平均值)。
识别部分12基于在说话者距离计算部分11处获得的量化失真的平均值而识别说话者，并且作为说话者识别结果而输出识别结果。当说话者识别设备100用作说话者验证设备时，说话者距离计算部分11计算在从要被识别的说话者语音中产生的语音特征向量序列和存储在要被识别的说话者的码本中的多个代表向量之间的距离，而且识别部分12通过将距离和阈值进行比较来验证说话者。此外，当说话者识别设备100用作说话者标识设备时，说话者距离计算部分11计算在从要被识别的说话者语音中产生的语音特征向量和存储在所有登记的说话者的码本中的多个代表向量之间的距离(量化失真的平均值)，并且通过从所获得的距离中选择最短距离来标识说话者。
依据上述本发明的第二实施例，在登记模式中，获得从要被登记的说话者语音中产生的M阶语音特征向量序列的每个向量的加权的向量到向量距离D1，基于所获得的加权向量距离D1而群集M阶语音特征向量序列，并且产生包括多个M阶代表向量的码本。在标识模式中，基于在从要被识别的说话者语音中产生的M阶语音特征向量序列中的每个语音特征向量和码本的每个代表向量之间的加权量化距离D2而量化每个语音特征向量，通过基于失真距离D3使用M阶语音特征向量序列而获得量化失真，并然后基于该量化失真的平均值而执行说话者识别。利用上述结构，可以消除在音韵分辨性能和说话者分辨性能之间的折衷关系，并且可以确保它们的良好平衡。因此，可以实现高度精确的说话者识别。
在本发明的第二实施例中，使用了公式(4)、(5)和(6)，但是不局限于这些公式。例如，公式(4)可以替换为以下的公式(7)(权重UK＝1)、公式(5)可以替换为以下的公式(8)(权重UK＝1)、以及公式(6)可以替换为以下的公式(9)(权重VK＝1/SK)。这里，预先统计地获得作为每个语音特征向量的离差值的标准偏差SK。
D1=[ΣK=1MUK(XK-YK)2]12---(7)]]>其中D1向量距离UK权重(UK＝1)XK、YKM阶特征向量D2=[ΣK=1MUK(Ck-XK)2]12---(8)]]>其中，D2代表向量-特征向量距离(量化距离)UK权重(UK＝1)CK代表向量XKM阶特征向量D3=[ΣK=1MVK(CK-XK)2]12---(9)]]>其中，D3代表向量-特征向量距离(失真距离)VK权重(VK＝1/SK)CK代表向量XKM阶特征向量
SKK阶标准偏差在本发明的第二实施例中，从要被登记的说话者的语音中产生的第一语音特征向量序列和从要被识别的说话者语音中产生的第二语音特征向量序列都是M阶语音特征向量序列。通过使用满足以下关系的权重分别获得加权的向量距离和加权的量化距离，UK＝1(k≤N)，0(k＞N)，其中N＜M。
这里UK是第一权重和第二权重。可以通过使用满足以下关系的权重获得加权的失真距离，VK＝1(k≤M)，其中第三权重是VK。
因此，可以实现高度精确的识别性能。
可替换地，在本发明的第二实施例中，第一语音特征向量序列和第二语音特征向量序列都是M阶语音特征向量序列。通过使用满足以下关系的权重分别获得加权的向量距离和加权的量化距离，UK＝1(k≤M)这里UK是第一权重和第二权重。可以通过使用满足以下关系的权重获得加权的失真距离，VK＝1/SK(k≤M)，其中第三权重是VK。
因此，可以实现高度精确的识别性能。
硬件结构不局限于上述特定结构，而且它可以通过软件实现。说话者识别部分5或者说话者模型产生部分6可以由软件实现。图5为示出由软件实现的说话者识别设备100的方框图。
如图5所示，说话者识别设备100包括CPU 101，其经由总线连接到存储BIOS等的ROM；以及存储器102，其包括ROM和RAM，以构成微型计算机。CPU 101通过I/O(未示出)经由总线连接到HDD 103、读取计算机可读CD-ROM 104的CD-ROM驱动器105、与因特网等通信的通信设备106、键盘107、诸如CRT或者LCD之类的显示器108、以及麦克风1。
作为计算机可读存储介质的CD-ROM 104存储实现本发明的说话者识别功能的程序，而且CPU 101可以通过安装该程序而实现本发明的说话者识别功能。此外，通过麦克风1输入的语音存储在HDD 103等中。然后，当程序运行时，读取存储在HDD 103等中的语音数据以执行说话者识别处理。说话者识别处理实现与特征向量产生部分4、说话者识别部分5和说话者产生部分6等中的每个部分相似的功能，因此可以获得与上述相似的效果。
对于存储介质，可以使用诸如DVD之类的各种光盘、各种光磁盘、诸如软盘之类的各种磁盘、以及半导体存储器等。此外，可以通过从例如因特网的网络中下载程序并且将该程序安装到作为存储部分的HDD 103中，而实现本发明。在这种情况下，在发送端的服务器处存储程序的存储装置成为本发明的存储介质。该程序可以在给定OS(操作系统)上运行，而且在那种情况下，该程序可以允许OS执行上述处理的某些部分，而且该程序可以是包括诸如字处理器软件之类的规定应用软件、或者OS等在内的程序文件组的一部分。
权利要求
1.一种说话者识别设备(100)，其特征在于包括用于基于从要被登记的说话者语音中产生的第一语音特征向量序列中的低阶语音特征向量组而获得在第一语音特征向量序列的语音特征向量之间的距离、基于所获得的距离而群集第一语音特征向量序列、并产生包括多个代表向量的码本的装置；用于存储所产生的码本的装置；用于基于从要被识别的说话者语音中产生的第二语音特征向量序列中的低阶语音特征向量组向量而获得在(a)第二语音特征向量序列中的每个语音特征向量和(b)存储在码本中的多个代表向量中对应的一个之间的量化距离、基于所获得的量化距离而量化第二语音特征向量序列中的每个所述语音特征向量、并基于第二特征向量序列中的高阶语音特征向量组而获得在第二语音特征向量序列中的每个所述语音特征向量和存储在码本中的多个代表向量中对应的一个之间的量化失真的装置；以及用于基于所获得的量化失真执行说话者识别的装置。
2.如权利要求1所述的说话者识别设备，其中，第一语音特征向量序列和第二语音特征向量序列中的每一个都是M阶语音特征向量序列，低阶语音特征向量组是N阶(N＜M)语音特征向量序列，相应的向量是M阶代表向量，而高阶语音特征向量组是M阶语音特征向量序列。
3.如权利要求1所述的说话者识别设备，其中，第一语音特征向量序列和第二语音特征向量序列中的每一个都是M阶语音特征向量序列，低阶语音特征向量序列是N阶(N＜M)语音特征向量序列，代表向量是M阶代表向量，而高阶语音特征向量组是包括m到M阶语音特征向量序列(N＜m＜M)的语音特征向量序列。
4.一种说话者识别设备(100)，其特征在于包括用于获得在从要被登记的说话者语音中产生的第一语音特征向量序列的语音特征向量之间的基于第一权重的加权向量距离、基于所获得的加权向量距离而群集第一语音特征向量序列、并产生包括多个代表向量的码本的装置；用于存储所产生的码本的装置；用于获得在码本存储中的多个代表向量中对应的一个和从要被识别的说话者语音中产生的第二语音特征向量序列中的每个语音特征向量之间的基于第二权重的加权量化距离、基于所获得的加权量化距离而量化第二语音特征向量序列中的每个所述语音特征向量、并获得在码本中存储的多个代表向量中对应的一个与第二语音特征向量序列中的每个所述语音特征向量之间的基于与第一权重和第二权重不同的第三权重的加权量化失真的装置；以及用于基于该量化失真执行说话者识别的装置。
5.如权利要求4所述的说话者识别设备，其中，第一语音特征向量序列和第二语音特征向量序列中的每一个都是M阶语音特征向量序列；其中加权向量距离的第一权重和加权量化距离的第二权重都是UK，其中UK＝1(k≤N)，0(k＞N)，以及N＜M；而且其中加权失真距离的第三权重是VK，其中VK＝1(k≤M)。
6.如权利要求4所述的说话者识别设备，其中，第一语音特征向量序列和第二语音特征向量序列中的每一个都是M阶语音特征向量序列；其中加权向量距离的第一权重和加权量化距离的第二权重都是UK，其中UK＝1(k≤M)；以及其中加权失真距离的第三权重是VK，其中VK＝1/SK(k≤M)，而且每个M阶的离差值是SK。
7.一种说话者识别方法，其特征在于包括用于基于从要被登记的说话者语音中产生的第一语音特征向量序列中的低阶语音特征向量组而获得在第一语音特征向量序列中的语音特征向量之间的向量距离、基于所获得的向量距离而群集第一语音特征向量序列、并且产生包括多个代表向量的码本的步骤；用于存储所产生的码本的步骤；用于基于从要被识别的说话者语音中产生的第二语音特征向量序列中的低阶语音特征向量组而获得在(a)第二语音特征向量序列中的每个语音特征向量和(b)存储在码本中的多个代表向量中对应的一个之间的量化距离、基于所获得的量化距离而量化第二语音特征向量序列中的每个所述语音特征向量、以及基于第二语音特征向量序列中的高阶语音特征向量组而获得在第二语音特征向量序列中的每个所述语音特征向量和存储在码本中的多个代表向量中对应的一个之间的量化失真的步骤；以及用于基于所获得的量化失真执行说话者识别的步骤。
8.一种说话者识别方法，其特征在于包括用于获得在从要被登记的说话者语音中产生的第一语音特征向量序列的语音特征向量之间的基于第一权重的加权向量距离、基于所获得的加权向量距离而群集第一语音特征向量序列、并且产生包括多个代表向量的码本的步骤；用于存储所产生的码本的步骤；用于获得在码本中存储的多个代表向量中对应的一个和从要被识别的说话者语音中产生的第二语音特征向量序列中的每个语音特征向量之间的基于第二权重的加权量化距离、基于所获得的加权量化距离而量化第二语音特征向量序列中的每个所述语音特征向量、并获得在码本中存储的多个代表向量中对应的一个与第二语音特征向量序列中的每个所述语音特征向量之间的基于与第一权重和第二权重不同的第三权重的加权量化失真的步骤；以及用于基于所获得的量化失真而执行说话者识别的步骤。
全文摘要
在说话者识别设备的说话者距离计算部分中，获得在从要被识别的说话者语音中产生的语音特征向量序列的语音特征向量和码本中的代表向量之间的量化距离。基于该量化距离而量化语音特征向量。并且通过使用语音特征向量序列中的高阶语音特征向量组而获得量化失真。在说话者识别设备的识别部分中，基于量化失真执行说话者识别，其中该量化失真例如是多个量化失真的平均值。
文档编号G10L15/00GK1932974SQ20051009954
公开日2007年3月21日申请日期2005年9月13日优先权日2005年9月13日
发明者柿野友成, 伊久美智则申请人:东芝泰格有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：柿野友成;伊久美智则
技术所有人：东芝泰格有限公司
我是此专利的发明人

上一篇：音频处理系统及音频处理方法
上一篇：乐器、其中的乐曲数据产生器及准确判别弦槌运动的方法