用于说话人识别的拓扑声纹的制作方法

文档序号:2819074阅读:254来源:国知局
专利名称:用于说话人识别的拓扑声纹的制作方法
技术领域
本申请涉及通过声音识别说话人。
背景技术
不同人的声音具有不同的声音特征。可以提取不同人的声音特征的差别来构成区分和辨认说话人的唯一辨认工具。从某种程度上说,说话人识别是一种基于从声音或语音信号获得的各个信息来自动地识别谁在讲话的过程。针对各种应用场合,说话人识别可分为说话人辨认(Speaker Identification)和说话人确认(SpeakerVerification)。说话人辨认是指确定一组已知的说话人中哪位已登记的说话人提供了给定的发音。对该给定的发音进行分析,并将其与已知说话人的声音信息相比较,以确定是否匹配。而在说话人确认中,未知说话人首先声称是某一已知说话人的实体,然后获得该未知说话人的发音,并将其与所声称的已知说话人的信息相比较,以确定是否匹配。
说话人识别技术有多种用途。例如,可以使用说话人的声音来控制对受限制的设备、装置、计算机系统、数据库、和各种服务的访问,例如,对银行、数据库服务、购物、以及语音邮件的电话访问,以及对安全设备和计算机系统的访问。在说话人辨认和确认中,都要求用户通过提供其语音样本来“登入”说话人识别系统,以使系统能够表征并分析用户的声音模式。
在说话人识别领域,已经开发了多种利用声音特征的向量(例如,频谱参数)之间的距离来辨别说话人的说话人识别方法。在这种频谱分析方法中,计算所提取的声音特征和已知说话人的声音模板之间的距离。基于统计学分析和其他的适当分析,如果对所接收到的声音或发音算出的距离在已知说话人的预定阈值之内,则所接收到的声音或发音属于该已知的说话人。

发明内容
本申请所描述的说话人识别技术是部分地以基于频谱参数距离计算的各种频谱分析方法中的多个技术局限性为基础而开发的。例如,由于同一说话人的不同发音可能具有略微不同的频谱,而确定基本上依赖于用来适应适当阈值的声音频谱数据库,所以这种频谱分析方法可能至少不是足够精确。
本申请的说话人识别技术使用从单个说话人计算出的声音的拓扑特征,来构成作为每一个说话人的生物测定特征的一组离散有理数(例如整数),并使用这些有理数来辨认经受检查的说话人或对象。与各种频谱分析方法中计算从不同的说话人的声音获得的频谱曲线之间的距离明显不同,该拓扑特征提供了对象和由一组有理数表示的模型或声纹之间的一一对应关系。因此,可以针对包括说话人辨认和确认的各种应用场合来形成面向不同已知说话人的有理数数据库。这种有理数的数据库相对于在各种频谱分析方法中使用的传统的个人声音数据库较小。每一个声纹包括用于区分说话人和其他说话人的一组离散整数或有理数形式的拓扑参数,并通过嵌入说话人声音的谱函数获得。
在一个实施例中,描述了一种用于通过声音来确定说话人身份的方法。首先,通过嵌入说话人声音的谱函数提取一组拓扑指数。接下来,选择拓扑指数作为说话人的生物测定特征,用于辨认和确认说话人和其他说话人。
在另一个实施例中,拓扑参数是从相对旋转速度(rrr)获得的例如整数的有理数。每一个对象都分配以可由简短的话语重构的一组有理数。这些数的子集不随同一说话人话语的不同而改变,而随对象的不同而不同。这样,可以不考虑数据库的特征的大小建立一种描述声音的标准方法。表征声音的这组有理数很稳定,可以很容易地在各种设备(例如磁性装置或打印装置)中进行编码。
在本申请中描述的典型方法包括以下步骤。记录说话人的语音信号并将其数字化。计算该离散信号的线性预测系数。根据该线性预测系数计算能谱。接着,由该能谱构建三维周期轨道,并由基准能谱(例如自然基准信号,natural reference signal)构建第二三维周期轨道。然后获得关于语音信号和自然基准信号的周期轨道的拓扑信息。使用选出的一组拓扑指数,将产生该语音信号的说话人与具有不同拓扑指数的其他说话人区分开。
本申请还描述了说话人识别系统。在一个例子中,说话人识别系统包括麦克风,用于从说话人接收声音样本;读头,用于从便携存储装置中读取唯一地表示已知说话人的声音的有理数的声音辨认数据;以及处理单元。处理单元连接至麦克风和读头,可用于从说话人的声音样本中提取拓扑信息,以从声音样本产生拓扑离散数。处理单元还可用于将已知说话人的离散数与得自声音样本的拓扑离散数进行比较,以确定说话人是否为已知的说话人。由于用于说话人识别的离散有理数的数字码的文件大小足够小,所以可以将一个或多个说话人的一个或多个声纹存储在用户可随身携带的便携存储装置中。
在附图具体实施例方式
和权利要求中将更为详细地描述这些和其他实例以及实施例。


图1示出了来自单个说话人(实线)和通用基准(虚线)的用于嵌入的周期函数。这些函数由采用1/2初始周期的初始log|H(f)|2构建。
图2示出了在函数的整个周期上针对两个不同说话人的、使用最大熵近似值的log|H(f)|2的三个实例。在第二共振峰之外,频谱自然地聚类成两个不同的组。初始声音段对应于从常规语音话语中提取的西班牙语元音[a]。
图3示出了由一个浊音片段(实线)计算的函数F(f)的延时嵌入(Δf=40Hz)的实例。
图4示出了三个年龄近乎相同的男性说话人的元音纹,其由在不同的登记时间段采集的大约10句话的短元音段(约100ms)构成。
图5A示出了通过麦克风从说话人获得的作为时间的函数的声音样本的实例。
图5B示出了从图5A中的声音样本获得的能谱。
图5C示出了用于从声音信号提取旋转数的拓扑法中的两个三维轨道1和2的连接。
图5D示出了由声音样本构成的轨道和来自基准信号的基准轨道之间的相对拓扑关系得到的相对旋转数。
图6A、图6B、图6C示出了从某一说话人的同一浊音的多个旋转矩阵中选择恒定旋转数作为该说话人的声纹的过程的实例。
图7示出了以完全匹配分析方式将未知说话人的声音与已知说话人的声纹进行比较的实例。
图8示出了对照三个已知说话人的三个声纹确认两个候选的步骤。
图9示出了说话人识别系统的实例。
图10示出了图9中的系统的操作。
具体实施方式
本文所描述的说话人识别技术可以多种形式实施。在一个实施例中,从说话人的声音样本中提取例如一组离散有理数(例如,整数)。所提取的有理数的子集存在于说话人的每一句话中,并且在正常的说话情形以及低噪音环境下,该子集在说话人的话与话之间不发生改变。这种子集被称为声纹,被用作说话人的生物测定特征,用于从其他说话人中辨认和确认该说话人。
因此,可以使用这种生物测定特征通过以下步骤实现说话人确认。首先,分析来自第二说话人的声音样本,以提取第二说话人的一组有理数。将第二说话人的这组离散有理数与说话人的声纹进行比较,比较过程中不使用阈值。随后,当第二说话人的这组有理数与说话人的声纹之间完全匹配时,证明第二说话人就是说话人。如果不匹配,则认为第二说话人为与说话人不同的人。
在说话人辨认的实施例中,从不同的已知说话人的声音样本中提取声纹。接着,分析来自未知说话人的声纹,以提取未知说话人的一组有理数,并将未知说话人的这组离散有理数与已知说话人的声纹进行比较,以确定是否匹配,从而辨认未知说话人是否为已知说话人之一。
值得注意的是,在上述说话人确认和说话人辨认过程中,在不同组离散有理数之间进行比较,以确定是否匹配。而不需要确定两个频谱特征之间的差值是否在选定的阈值内。本文所描述的说话人识别技术的各个特征优于基于谱图参数距离计算的各种频谱分析方法。
声音识别法为非侵害性的识别方法,因此,在这点上,声音识别法优于例如视网膜扫描法的其他生物测定识别方法。但是,用于说话人识别的频谱分析法并不像包括指纹识别的其他生物测定方法那样被广泛地使用,这一定程度上是由于当比较不同声音中的频谱特征时,对于肯定辨认来说难以确定多接近才是足够接近。本文所描述的说话人识别技术避免了使用阈值比较频谱特征的不确定性,并提供了一种从语音频谱信息中提取生物测定特征的新方法。
众所周知,人的声音的频谱特性承载了说话人的独有特质,因而可用于说话人识别。在产生浊音的过程中,通过由声带调节气流而产生的富频谱特征的声音信号通过说话人的声道过滤。作为无源滤波器的声道的共振由说话人的人类工程学特征决定,因此可用于辨认说话人。人类声音的物理性质可依照标准有源滤波理论(source-filter theory)进行描述。在产生类似元音的浊音过程中,气流引起声带的周期性振动。这种振动在无源线性滤波器(即声道)的输入处产生随时间变化的压力波动。源和滤波器之间的分离假定声带振动的回馈可以忽略,Laje等人在Phys.Rev.E64,05621(2001)中在常规语音条件下已经详尽地证实了该假设。富频谱特征的输入压力呈现出基频约为100Hz的谐波。声道从这些谐波中选择某些频率。这样,浊音的频谱载有关于声道的信息,而每个说话人的声道都是唯一的,因此,浊音的频谱可以用作说话人的生物测定特征。
说话人识别领域中的典型方法(例如各种频谱分析方法)使用表征不同对象的带有量值的特征向量,进行多维分组,然后通过对特征向量进行度量使与不同对象相关的组(cluster)分离。在声音的频谱特征的构架(framework)中,进行身份确认的一种方法为作出根据话语计算出的特性之间的距离(失真测量),例如两个频谱之间的差值在对数量级上的积分。另一种失真测量是基于频谱斜率(spectral slope)之间的差值,例如,能谱对相对于频率的对数的一阶导数。
这些频谱分析方法有许多技术缺陷。图1示出了同一说话人的三句不同话语的对数能谱的实例。对于同一说话人的不同话语,这些能谱在谱图峰值和外形方面略有不同。因此,在计算频谱特征之间的差值时,测量曲线之间的距离以及决定对于说话人识别可以接受多少误差本质上很困难而且复杂。例如,这种频谱分析方法的计算结果对不同说话人来说通常分散于多种范围之间。同样地,两个范围接近的说话人之间的可接受的值之间的界限设定在哪里也存在不确定性。
本文所述的说话人识别技术使用完全不同的从声音和话语中提取唯一的生物测定特征的方法。上述频谱比较可以替换地通过另一组称为倒谱系数的系数实现,该倒谱系数是频谱函数的傅立叶振幅。在一定程度上,这种实现方式可以理解为将声音频谱作为“时间”序列处理,其中频率f起时间的作用。在这种观点下,本发明人披露为比较两个周期轨道而在动力学系统理论中使用的技术可以用于浊音频谱的分析之中。这种表达信息的方法彻底避免了频谱特征差值的计算。特别地,本发明人探索了拓扑工具的使用,该拓扑工具用于捕获轨道的主要形态特征,不考虑轻微变形。非线性动力学系统的拓扑分析是一个成熟建立的技术领域,Robert Gilmore在Review of Modern Physics,Vol.70,No.4,1455-1592页(1998年10月)中的“Topological analysis of chaotic dynamical system”中详细描述了基本原理和分析框架。
以下部分描述如何通过使用动力学系统的不同领域中开发出的拓扑工具,通过若干组有理数表征频谱。特别地,在相对较少的一组说话人中,存在若干组似乎可强化说话人的身份信息的有理数子集。这些结果显示了以声音识别对象的一个新的方向有理数的排列限定了依赖于其自身的声纹,不用考虑任何接受/拒绝阈值。
在三维动力学系统的分析中,周期轨道是闭合曲线,该闭合曲线可以通过彼此以及自身纽结和连接的方式来表征。例如,参见Solari和Gilmore,“Relative rotation rates for driven dynamicalsystem”,Physical Review A37,3096-3109页(1998);Mindlin等人,“Classification of strange attractors by rational numbers”,PhysicalReview Letters,Vol.64,2350-2353页(1990);以及Mindlin和Gilmore,Physica D58,229页(1992)。为了将这种分析应用于说话人识别的课题中,利用通常应用于周期性“时间”序列分析中的技术,将浊音在对数标度上的能谱作为周期性数据串处理。可以利用延时嵌入,将该数据串构成三维轨道。
图2示出了两个说话人的三个发音的对数能谱的实例。这些频谱自然地分成分别对应于两个说话人的两组。可以发现,它们的嵌入的拓扑性质是用于身份确认的合适工具。
在上述引用的Solari和Gilmore的出版物中描述的相对旋转速度为引入用来辅助说明被周期性驱动的二维动力学系统的拓扑不变量,可用于从人类声音的频谱特性中提取生物测定信息。相对旋转速度还可针对一大类自治动力学系统以R3构建其中可以找到Poincaré部分。
为了描述声道的频率响应,计算每一个存储的浊音段的能谱的最大熵近似值。可以通过计算浊音段{yn}的m个线性预测系数来进行上面的计算,取速度r=1/Δyn=Σk=1mdkyn-k+xn---(1)]]>其中,假设在整个语音段中lp(线性预测)系数d1,d2,…,dm不变,并且选择该系数使得xn最大。这些lp系数可用于估算能谱|H(f)|2为具有m个极点的有理函数H(f)=d01-Σk=1mdkeik2πfΔ---(2)]]>其在[-1/2Δ,1/2Δ]内,即,Nyquist间隔内是周期性的。图2中的两个说话人的频谱是基于公式(2)重构的频谱的实例。
使用m=13个系数的公式(2),估计能谱函数的对数log|H(f)|2。该频谱相对于f=0对称。因此,每个频谱只有一半与拓扑有理数的分析和提取相关。在处理声音频谱的原始数据中,我们去掉log|H(f)|2和log|H(π/Δ)|之间的差值,加入线性函数并减去平均值。最终的谱函数F(f)为周期性函数,其周期为初始周期的二分之一。
再参照图1,与基准频谱函数一起示出了同一说话人的不同话语的F(f)的一些实例。可以使用延时δ,将所得到的函数F(f)嵌入相空间。图3进一步示出了使用δ=40Hz的轨道的实例。由F(f)、F(f-δ)、和F(f-2δ)定义的、相空间中的延时嵌入轨道总是在线F(f)=F(f-δ)=F(f-2δ)周围显示空洞。因此,由F(f)=F(f-2δ);F(f-δ)<F(f-2δ)定义的半面给出了良好的Poincaré部分。
选择相对于基准的相对旋转,作为这些周期轨道的拓扑特征。例如,使用通用基准平坦的、无节(non articulated)声道(假设浊音为零)。该通用基准独立于数据库,对本申请所描述实例来说对应于具有给定长度17.5cm的开放-封闭均匀管道的能谱的嵌入。
可以通过假设轨道具有pA和pB段区间(period),按照下述计算这些嵌入频谱的相对旋转。建立轨道A和B的相对旋转矩阵M∈ZpA×pB,]]>矩阵元素Mij相当于轨道A的第i区间相对于轨道B的第j区间的带符号的交叉点(signed crossing)的求和。可以通过将两个轨道A和B投影在二维子空间上来计算带符号的交叉点。在该投影中,刚好在交叉点上的两个区间的切向量沿气流的方向作出。上部切向量向下部切向量旋转,如果该旋转是向右(左)旋的,则将+1(-1)分配给交叉点。如上述建立的相对旋转矩阵的元素是有理数。
该相对旋转矩阵通过以下公式与相对旋转速度相关Rij(A,B)=1pApBΣk=0pApB-1Mi+k,j+k---(3)]]>其中,周期边界条件被用于该矩阵。
为了建立说话人的声音特征(voice signature),说话人所说的每一个元音都要被表征。表征元音的一种方法是通过叠加对应于同一浊音和同一说话人的所有相对旋转矩阵,并且通过在这些相对旋转矩阵中查找重合(coincidence),即,旋转数,当根据说话人说的不同话语计算旋转数时它不会改变。这些重合被称为“稳定的旋转数”,并且为有理数。进行的测试显示,这些稳定的旋转数对于一个说话人来说是唯一的,并且不同说话人的稳定旋转数不同。因此,说话人的这些稳定的旋转整数与说话人的指纹相似,可用作声音生物测定特征,用于辨认说话人与其他说话人。
位于原矩阵中的稳定旋转数的排列被称作说话人的“元音纹(vowelprint)”。说话人的元音纹的集合被称作“声纹”。图4示出了对应于三个年龄近乎相同的男性对象的西班牙元音[a]的三个元音纹实例。
上述声纹是离散有理数的集合,该集合表示说话人独特的元音生物测定特征。可通过将从说话人的声音中获得的这些有理数与从已知说话人获得的一组有理数相比较来识别说话人。两组离散有理数之间的这种比较避免了频谱特征之间距离的测量计算,并且避免了基于一些预定的阈值来匹配不同的频谱特征过程中固有的不确定性。此外,与频谱分析法中的频谱特征的通常较大的声音数据库相比,这些有理数的数字文件的大小相对较小。因此,可以将人的声纹作为数字码存储在各种便携存储装置中,例如,信用卡、身份证(例如,驾驶执照)以及银行卡上的磁条、印制在诸如打印文件(例如,护照和驾驶执照)和身份证的各种表面上的条形码、小型电子存储装置、以及其他。人们可以方便地携带声纹,并将声纹用于辨认、确认、以及其他目的。
在多个实施例中,可以使用计算机或者基于微处理器的电子装置和系统来接收和处理来自说话人的声音信号,并提取说话人的声纹的有理数。可存储该声纹,用于随后的说话人辨认和确认处理。例如,连接至计算机或基于微处理器的电子装置和系统的麦克风可用于获取来自说话人的声音样本。将麦克风接收到的声音信号数字化,然后使用上述轨道处理经过数字化的声音信号,以获得对于每一个说话人的一组稳定旋转数作为声纹。
图5A示出了由麦克风产生的、说话人的作为时间函数的声音信号的实例。选择一些声音信号片段,以形成用于进一步处理的声音频谱。图5B示出了从图5A中的一个信号段获得的声音能谱的一个实例和选定基准声音信号的频谱。在系统的实际训练中,从一组说话人在不同的登记期间中记录训练话语。
图5C示出了两个简单三维轨道1和2的连接(linking)的实例。如上所述,两个轨道1和2的组结和连接可用于获取相对旋转指数或相对旋转数。从类似于图3中的说话人的声音信号产生的轨道以及基准轨道可用于获取基于两个轨道的相关拓扑关系的相对旋转矩阵。图5D示出了通过声音样本的拓扑分析获得的相对旋转整数的实例。为了提取有理数,建立基于所记录的浊音的频谱特征的周期函数。使用相空间重构技术建立闭合三维轨道。在三维动力学系统的分析之后,从闭合轨道或曲线中提取连接和纽结特性。所提取的若干组有理数(旋转数)排列成如图5D所示的矩阵形式。接着,由旋转数的最终排列形成模型,旋转数对于每个说话人的话语的变化保持不变。只包括位于原矩阵位置的稳定数的矩阵可用于构成说话人的声音签名(voice signature)或声音模型。
图6A、图6B、图6C示出了对于特定说话人的声音模型的形成。可以计算声音信号F(f)的轨道相对于所选择基准的旋转速度。对于具有p段嵌入轨道的函数F(f)和q段的基准,可以获得p×q个旋转数的矩阵。图6A示出了4×4矩阵的旋转数的实例。该矩阵的矩阵元素(i,j)相当于说话人的周期轨道的第i段相对于基准的第j段的转数。每一个矩阵元素都是一个旋转数。计算声音模型作为训练组的所有话语的恒定旋转数。作为实例,图6B示出了从同一说话人获得的对于同一浊音的4个不同的矩阵。在所获得的4个矩阵中,一些旋转数随矩阵的不同而改变。图6B还示出了4个加阴影的矩阵元素,这些矩阵元素在4个矩阵中不变。基于图6B中的4个样本,建立如图6C所示的声音模型的最终矩阵。该声音模型的矩阵与原矩阵一样仍是p×q矩阵,除了只保留不变的矩阵元素,而其余矩阵元素为空。这些空的矩阵元素对应于变化最大的拓扑指数。对于每一个说话人和每一个浊音都有一个模型。对每一个说话人重复上述训练处理,以建立所有说话人的模型的声音数据库。
在建立了已知说话人的声音模型的数据库、并进行存储或使该数据库可由说话人识别系统访问之后,系统随时可以确认或辨认说话人。首先,获取来自未知说话人的声音样本,并且从要求登入数据库的未知说话人的声音模型计算一组旋转速度矩阵。这些测试矩阵针对每一个浊音与相应的声音模型进行比较。只有当测试矩阵与数据库中的声音模型中的一个完全匹配(模型匹配)时,才能确认未知说话人。只要使用全匹配标准,就不需要用于接受和拒绝门限的阈值。
图7的左边示出了说话人的声音模型的实例(例如,存储在信用卡中的代码),右边示出了从未知说话人获取的测试矩阵。在左边声音模型中的6个恒定旋转数中,右边矩阵中的旋转数只有3个匹配。因此,在该实例中没有完全匹配,确定未知说话人不是该已知说话人。
上述用于说话人识别的拓扑法成功地经受了检验。通过记录18个说话人中每个人重说六次含有5个西班牙元音的语句,然后根据从这些元音中获取的小片段(约100ms)构成拓扑矩阵,来建立声音数据库。最终的声音数据库具有从18个说话人中每个人的拓扑矩阵计算得到的声纹。
接着,记录来自要求进入数据库的说话人的声音样本,并从所记录的声音样本计算拓扑矩阵。将这些候选矩阵与数据库中相应的元音纹相比较。只有当该组候选矩阵与单个存储声纹完全匹配时,才能辨认该说话人为数据库的成员。在这里,完全匹配是指所有元音纹中的所有稳定数都出现在相应的候选矩阵中。
图8示出了对从18个说话人获得的单个元音纹进行比较的实例。图8中,两个候选矩阵与模型的数据库相比较。对于两个候选矩阵中的每一个,都示出了单个元音纹。如果说话人的候选矩阵与某一存储的声纹完全匹配,则将该说话人辨认为数据库的成员。模型中的灰色区域对应于矩阵中含有稳定数的位置。将候选人辨认为数据库的成员(即,完全匹配),要求位于候选矩阵的该位置处的数字与模型中的稳定数相同。声音数据库的108句话语中的每一句都用作候选进行辨认。该测试取得了理想的识别效果,没有一个错误的肯定或否定辨认。
在构成声纹过程中进行的旋转数子集选择可让人想到,可能会丢失一些信息。为了验证这个假设,将数据库中的每一个声纹用构成声纹的所有单个矩阵的集合来代替,这样就保存了所有的拓扑信息。该数据库的108句话语中的每一句都用作辨认的候选。计算候选矩阵与表征数据库中每一个说话人的一组矩阵之间的重合的数目。结果表明这是一种低性能的方法,这是由于发现了若干个错误的肯定和否定。因此,由于舍弃了由随话语的变化而变化的指数所承载的不必要的信息,拓扑稳定数似乎强化了相关频谱信息。
此外,对上述拓扑法和计量法之间进行了比较。在计量法中,计算频谱之间的二次距离(quadratic distance),并在最佳阈值下计算重合。在这种情况下,通过用于构成旋转矩阵的谱函数来代替数据库中每个说话人的声纹。这种计量法作为说话人识别的性能要低于拓扑法。
本拓扑法相对于各种计量法显现出许多有益的优势。在计算频谱之间距离的计量法中,需要定义阈值,它是一个数据库相关量。将由有理数构成的拓扑声纹与全匹配标准一起使用,引入了一种独立于数据库、不需要阈值确认接受的新方法。
实施了在标准个人计算机上运行本拓扑法的实施例,测试表明在PC上进行的拓扑处理很快。一旦记录了话语,就可以容易地提取浊音段。使用简便的交叉计数算法(cross-counting algorithm)(参见,例如,所引用的Gilmore论文)可以建立它们的相对旋转矩阵,并通过简单地计算小矩阵集合的重合来计算声纹。一旦建立了声音数据库,整个识别任务就是小矩阵的匹配。
在本拓扑法中,发现稳定数的数量的变化是训练组大小的函数。对于大于10个元音的训练组,稳定数的数量收敛于近似8。这些稳定数描述了浊音的谱函数相对于基准频谱的的相对峰高,其不随话语的变化而变化。将本数据库中对象的稳定数与从该对象严重感冒而嗓音改变时记录的话语中获取的拓扑指数相比较。测试表明稳定数的矩阵中的信息适度降低只有与最高频率相关的指数改变了,而声纹的大部分保持不变。
多种系统可以采用本发明的拓扑声音识别方法。一个简单的实施例可以将计算机或包括微处理器的处理单元用于处理来自连接至处理单元的麦克风的声音信号。可以使用例如电子存储装置、磁存储装置(例如,PC中的硬盘驱动器)、或光存储装置的存储介质来存储已知说话人的拓扑声纹。用户通过对着麦克风说话来提供声音样本。处理单元首先处理来自用户的声音样本,以提取用户的拓扑声音指数,然后将用户的拓扑声音指数与存储在存储装置中的指数相比较,以搜索用户和数据库中已知说话人之一的匹配。
图9示出了实施上述拓扑法的说话人识别系统的实例。图10示出了图9中的系统的操作流程。该系统包括处理单元,可以是计算机或包括微处理器,用于根据拓扑法处理声音信号,并用于将从读头读取的声音模型与由声音信号构成的测试矩阵进行比较;输入麦克风,与处理单元连接,用于记录来自说话人的声音信号;读头,也连接至处理单元,用于读取存储在便携存储装置上的一个或多个已知说话人的声音模型的有理数,该便携存储装置例如磁卡、光存储装置、印有以有理数编码的条形码的卡、或者电子存储装置或存储卡。
例如,假设读头为磁读取器,便携存储装置为存储有已知说话人的一个或多个声音模型的数字码的磁卡。要求声称是已知说话人的持卡人将卡片滑过读出器并对着麦克风说话,以便获取他的声音样本。处理单元处理该声音样本,以提取拓扑有理数,并将该拓扑有理数和从该卡读取的有理数相比较。在所有有理数之间完全匹配的情况下,确认该卡的用户为其声纹存储在该卡上的已知说话人。可以允许该卡的用户访问例如银行帐户或计算机系统。
可以通过计算机网络实现基于本拓扑法的计算机安全确认系统,其中,可以通过网络将来自用户的数字化声音样本发送到处理单元,处理单元确定该用户的声音样本是否与存储在拓扑数据库中的已知说话人的声音相匹配。这种用途可应用于互联网、电话线及网络、例如无线电话网络或无线数据网络的无线通信链路。各种用途可以结合本发明的拓扑声音识别作为确认过程的部分或是全部,所说确认过程例如电子银行或金融、在线购物、各种证明文件(例如护照、身份证)的确认、以及银行卡、信用卡、电子贸易、电话访问、无钥匙进入(keyless entry)(汽车、住宅、办公室等)和驾驶执照的用户身份的确认。
以上只描述了一些实施例。然而,应该理解,这些实施例可进行各种修改和加强。
权利要求
1.一种用于通过声音确定说话人的身份的方法,包括从说话人声音的谱函数的嵌入提取一组拓扑指数;以及使用选择的所述拓扑指数作为所述说话人的生物测定特征,以辨认并确认所述说话人和其他说话人。
2.根据权利要求1所述的方法,进一步包括分析来自第二说话人的声音样本,以提取所述第二说话人的一组拓扑指数;比较所述第二说话人的拓扑指数组和所述说话人的拓扑指数组;当所述第二说话人的拓扑指数组与所述说话人的拓扑指数组之间匹配时,确认所述第二说话人是所述说话人;以及当不匹配时,确认所述第二说话人是不同于所述说话人的人。
3.根据权利要求1所述的方法,进一步包括从不同的已知说话人的声音中提取多组拓扑指数;分析来自未知说话人的声音样本,以提取所述未知说话人的一组拓扑指数;比较所述未知说话人的拓扑指数组和所述已知说话人的多组拓扑指数,以确定是否匹配;当匹配时,确认所述未知说话人是其拓扑指数组与所述未知说话人的拓扑指数组相匹配的所述已知说话人。
4.根据权利要求1所述的方法,进一步包括将所述说话人的拓扑指数组存储在便携装置中;从拥有所述便携装置的用户获取声音样本;分析从所述用户获取的所述声音样本,以提取所述用户的一组拓扑指数;提供读取装置,以从所述便携装置中读取所述说话人的拓扑指数组;比较从所述便携装置中读出的所述说话人的拓扑指数组和所述用户的拓扑指数组,以确定是否匹配;以及当匹配时,确认所述用户是所述说话人。
5.根据权利要求4所述的方法,进一步包括使用磁存储装置作为所述便携装置。
6.根据权利要求5所述的方法,其中,所述便携装置为磁卡,并且所述说话人的拓扑指数组存储在所述磁卡中。
7.根据权利要求6所述的方法,其中,所述磁卡包括存储所述说话人的拓扑指数组的磁条。
8.根据权利要求4所述的方法,其中,所述便携装置具有印有条形码图案的表面,并且所述说话人的拓扑指数组存储在所述条形码图案中。
9.根据权利要求4所述的方法,进一步包括使用电子存储装置作为所述便携装置。
10.根据权利要求4所述的方法,进一步包括使用光存储装置作为所述便携装置。
11.根据权利要求1所述的方法,其中,从所述说话人的声音中提取所述拓扑指数组包括处理来自所述说话人的语音信号,以获取谱函数;由所述谱函数构建闭合三维轨道;相对于基准,从所述轨道获取一组拓扑指数;以及选择所述拓扑指数的子集作为所述说话人的生物测定特征。
12.一种方法,包括记录和处理来自说话人的语音信号;由所述语音信号计算线性预测系数;由所述线性预测系数计算能谱;基于所述能谱构建三维周期轨道;由自然基准信号的能谱构建三维周期轨道;获得关于所述语音信号和所述自然基准信号的所述周期轨道的拓扑信息;以及使用选择的一组拓扑指数,将产生所述语音信号的所述说话人从具有不同拓扑指数的其他说话人中区分出来。
13.根据权利要求12所述的方法,其中,所述拓扑信息由所述语音信号的周期轨道与另一基准轨道之间的相对旋转速度、和/或其自身的周期轨道的旋转速度获得。
14.根据权利要求12所述的方法,其中,所述拓扑信息通过计算连接特性和/或自连接特性而从轨道获得。
15.根据权利要求12所述的方法,其中,所述拓扑信息通过计算嵌入中的纽结类型而从所述轨道获得。
16.根据权利要求12所述的方法,其中,各个三维周期轨道相对于笛卡儿坐标系构建,所述三维周期轨道的轴由具有不同相位延迟的能谱定义。
17.根据权利要求12所述的方法,其中,各个三维周期轨道相对于笛卡儿坐标系构建,所述三维周期轨道的轴由其他积分微分嵌入定义。
18.根据权利要求12所述的方法,进一步包括形成包括多个已知说话人的不同的选择拓扑指数组的数据库;以及将未知说话人的选择的一组拓扑指数与所述数据库进行比较,以确定是否匹配。
19.一种方法,包括提供包括已知说话人的声纹的数据库,其中,每个声纹包括一组用于区分说话人和其他说话人的拓扑数,并得自从所述说话人声音的能谱获得的周期轨道与从音频基准的能谱获得的周期轨道之间在三维空间中的关系;以及将未知说话人的声纹与所述数据库进行比较,以确定是否匹配。
20.根据权利要求19所述的方法,其中,所述三维空间由具有不同延迟值的能谱函数定义。
21.根据权利要求20所述的方法,其中,所述三维空间按照三维积分微分嵌入定义。
22.一种用于从其他说话人中辨认说话人的声纹,包括一组有理数,表征谱函数的拓扑特征,用于将说话人与其他说话人区分,其中,所述拓扑参数得自从所述说话人的能谱获得的周期轨道与从音频基准的能谱获得的周期轨道之间在三维空间中的关系。
23.一种说话人识别系统,包括麦克风,用于从说话人接收声音样本;读头,用于从便携存储装置中读取表示已知说话人的有理数的声音辨认数据;以及处理单元,连接至所述麦克风和所述读头,所述处理单元可用于从来自所述说话人的所述声音样本中提取拓扑信息,以从所述声音样本产生拓扑有理数,并将所述已知说话人的所述有理数与得自所述声音样本的所述拓扑有理数相比较,以确定所述说话人是否为所述已知说话人。
24.根据权利要求22所述的系统,其中,所述读头为从磁便携存储装置中读取数据的磁读取器。
25.根据权利要求22所述的系统,其中,所述读头为从光便携存储装置中读取数据的光学读取器。
26.根据权利要求22所述的系统,其中,所述读头为从电子便携存储装置中读取数据的电子读取器。
全文摘要
本申请的说话人识别技术使用他/她的声音频谱特性的拓扑描述,将其用作说话人的生物测定特征。与各种频谱分析方法中计算从不同说话人的声音中获得的频谱曲线之间的距离明显不同,该拓扑特征提供了对象和由一组有理数表示的模型之间的一一对应关系。
文档编号G10L17/00GK1871639SQ200480030850
公开日2006年11月29日 申请日期2004年8月20日 优先权日2003年8月20日
发明者贝尔纳多·加布里埃尔·明德林, 马科斯·阿尔贝托·特雷维桑, 曼努埃尔·卡米洛·埃吉亚 申请人:加利福尼亚大学董事会, 布宜诺斯艾利斯大学, 基尔梅斯国立大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1