说话人估计方法和说话人估计设备的制作方法

文档序号：2825181阅读：224来源：国知局

专利名称：说话人估计方法和说话人估计设备的制作方法
技术领域：
本发明涉及一种说话人估计方法和说话人估计设备。
背景技术：
随着计算机技术的发展和在各个领域的广泛应用，针对语音资料的处理需求也日益扩大。语音文件的外在表现形式一般仅仅诸如文件名、文件格式、或者采样率等等。为了能够更好地管理和浏览语音文件，往往需要ー些额外的信息，其中说话人信息是重要的信息。说话人估计技术的目标在于自动提供说话人信息，也获得越来越广泛的应用。总体上，语音的特征可以分为低层特征和高层特征。其中，低层特征主要在于物理层面，诸如语音的音高(频率)、能量等等，每个说话人的语音在物理特征方面几乎有各自的特点，因此技术上可能根据语音数据的物理特征来判断语音数据所属的说话人。另一方面，高层特征主要在于语义方面，通常与语音的内容及与之相关的发音(即内容的读音)相关，传统观点认为内容特征及发音特征与说话人无关，然而近来的ー些观点认为，由于每个人的语言表达几乎有各自的习惯，常见的例子如不同的人可能有不同的ロ头禅，因此在说话人估计技术方面还可以考虑语音数据的内容及发音特征。然而，内容特征对于说话人估计技术来说是双刃剑。一方面如上所述可以辅助用于说话人估计，然而另一方面由于说话人语音的内容特征相对于物理特征存在相当大的不确定性，例如，同一人在不同场合的语音的内容特征可能存在很大差异，而不同人针对同一情况的语音的内容特征可能近似，因此在说话人估计过程中考虑内容特征也很可能形成干扰，反而造成估计结果的错误。因此，在对于语音内容特征的态度上，形成了两种截然相反的倾向。例如，专利文件US 7289957B1公开了ー种说话人估计方法，其考虑到了语音的高层特征(内容特征)，其通过将原始语音拆分然后随机合并来消除内容特征的影响，以使训练数据和测试数据更加匹配。也就是，此技术考虑到了语义特征，然而尽可能地消除高层特征的影响，因此仍然是采用物理特征来进行说话人估计。另外例如，专利文件US 20090150148A1也公开了ー种考虑到高层语音特征的说话人估计方法。其在采用物理特征来进行说话人估计的处理之后，再利用某些特殊的短语，诸如各人特有的ロ头禅，来调整估计结果，从而获得最后的输出結果。因此，现有技术尽管考虑到高层语音特征，然而或者尽可能消除其影响，或者仅仅将其作为估计处理后的调整手段，未充分挖掘高层语音特征对于改进说话人估计技术的巨大潜能。

发明内容
鉴于现有技术中存在的上述问题而做出本发明。本发明提出ー种采用基于高层语音特征对语音数据进行分类的技术的说话人估计方法和说话人估计设备。根据本发明实施例的ー个方面，提出了一种说话人估计方法，包括分类器建立步骤，建立用于将输入的语音数据转换为关于各个类别的语音帧集合的分类器；建模及加权步骤，利用所述分类器处理已知说话人的样本语音数据，关于各个类别分别建立说话人模型，并对各个类别分别设定权重；以及估计步骤，利用所述分类器处理未知说话人的测试语音数据，根据各个类别的说话人模型及权重，来估计该测试语音数据的说话人。根据本发明实施例的另ー个方面，提出了一种说话人估计设备，包括分类器建立装置，用于建立用于将输入的语音数据转换为关于各个类别的语音帧集合的分类器；建模及加权装置，用于利用所述分类器处理已知说话人的样本语音数据，关于各个类别分别建立说话人模型，并对各个类别分别设定权重；以及估计装置，用于利用所述分类器处理未知说话人的测试语音数据，根据各个类别的说话人模型及权重，来估计该测试语音数据的说话人。通过阅读结合附图考虑的以下本发明的优选实施例的详细描述，将更好地理解本发明的以上和其他目标、特征、优点和技术及エ业重要性。

图I示出按照本发明实施例的说话人估计方法的总体流程图。图2示出按照本发明实施例的建模及加权步骤的流程图。图3示出按照本发明实施例的准确度确定步骤的流程图。图4示出按照本发明实施例的估计步骤的流程图。图5示出按照本发明实施例的说话人估计设备的总体框图。图6示出按照本发明实施例的说话人估计系统的总体框图。
具体实施例方式下面结合附图描述本发明实施例。图I示出按照本发明实施例的说话人估计方法的总体流程图，如图I所示，该说话人估计方法，包括分类器建立步骤S100，可以建立用于将输入的语音数据转换为关于各个类别的语音帧集合的分类器；建模及加权步骤S200，可以利用所述分类器处理已知说话人的样本语音数据，关于各个类别分别建立说话人模型，并对各个类别分别设定权重；以及估计步骤S300，可以利用所述分类器处理未知说话人的测试语音数据，根据各个类别的说话人模型及权重，来估计该测试语音数据的说话人。按照本发明实施例的说话人估计方法的分类器建立步骤SlOO和建模及加权步骤S200属于语音数据训练步骤，而估计步骤S300属于测试步骤。在实际的应用中，对于外部而言，输入的语音数据经由估计步骤S300的处理，输出该语音数据的说话人可能性列表或者所判断的说话人。然而，估计步骤S300依赖于之前的训练，要经过对一个或多个说话人的语音样本的训练，才能估计出测试语音属于经过训练的各个说话人的概率，或者判断出测试语音属于经过训练的某个说话人。本领域技术人员可以理解，作为ー种依赖于模糊数学的技术，对于测试语音数据的判断的误差总是不可避免的。按照本发明实施例的说话人估计方法对于每个所输入的测试语音数据都将给出估计結果。即使输入的测试语音数据不属于经过训练的任何说话人，也能够获得估计结果，只是估计结果的精确性受到影响。另ー方面，即使输入的测试语音数据属于两个以上的说话人，也能够获得估计结果，在此情况下，可以通过任意的现有技术将原测试语音数据分割得足够小来使每次输入的测试语音数据仅涉及一个说话人，然而，即使不经过此操作也仍然可以实施本发明实施例，只是实施的技术效果受到影响。不论是用于训练的样本语音数据，还是待处理的测试语音数据，均可以通过诸如麦克风的输入设备输入，既可以在本地输入，也可以远程录入再通过有线或无线的任意传输方式输入，并且可以以任何记录介质记录，而输出不论是关于各个说话人的概率表，还是给出ー个判断结果，均可以以显示或打印的方式本地或通过网络远程输出。而且，样本语音数据和测试语音数据的输入及记录方式可以相同也可以不同，可以完全相互独立。在分类器建立步骤SlOO所建立的分类器可以通过将输入的语音数据识别为发音特征元素序列，并将该语音数据划分为语音帧序列，把语音帧分类到基于发音特征元素的各个类别，来将输入的语音数据转换为关于各个类别的语音帧集合。上述发音特征元素例如可以是音素，也就是，在此所建立的分类器可以以音素作为分类的基准，将输入的语音数据识别为音素序列。音素(也称“音位”，phoneme)是人类语言中能够区别意义的最小声音単位。ー个字或词可由一至数个音节组成，一个音节可由一至数个音段(元音、辅音等)组成。音素与音段很类似，然而音素的基本定义是要能区分语义，如果两个声音所代表是同一个词汇、同样的意义，则异音可被视为同一个音素；反之，一个词的任何ー个音素若被换成别的音素，那么它就不再是原来的那个词，意义也会随之改变。有意义的词都可由音素组成，代换其中任何音素却不能保证产生有意义的词，也有可能变成无意义的ー串音。音素并不是实际的语音。ー个音素可以有数种不同的发音，但是语言使用者心理上认定这几种发音是等同的，甚至可能不会察觉语音上有所不同。已经有现有的音素识别技术可以将语音数据识别为音素序列，例如，在以下非专利又件中所公开的万法Development of an acoustic-phonetic hidden Markov modelfor continuous speech recognition,IEEE Transactions on bignal Processing,IssueDate Jan 1991, Volume 39Issue :1, On page(s) :29_39。上述分类器还可以将该语音数据划分为语音帧序列，每个语音帧是原始输入语音的一部分，划分语音帧的原则可以是等时划分，使每个语音帧的长度一祥，也可以以语音能量的低点划分。考虑说话人估计处理的精确性，可以将各个语音帧划分得尽可能小。上述分类器还可以通过任意一种分类机制来把语音帧分类到基于音素的各个类另IJ，例如根据不同的音素定义不同的类别，或者利用上述音素序列中多个相邻音素形成的多元音素串，根据不同的多元音素串定义不同的类别。由于人类发音生理方面的限制，人类语言的主要音素不会多于100个，因此在确定分类机制的情况下，可以穷尽与音素或音素串相应的类别。由于上述语音帧序列和音素序列均源自同一语音数据，因此在语音帧与音素之间存在对应关系，每个音素或音素串对应于至少ー个语音帧。在建立与音素或音素串相对应的类别之后，可以把语音帧分类到其对应的音素或音素串的类别。从而，把输入的语音数据转换为关于各个类别的语音帧集合。本领域技术人员可以理解，能够采用的分类基准可以是除音素之外的其它发音特征元素，所建立的分类器不限于上文所描述。例如，可以以音节为基准，基于音节来进行分类，即把语音数据识别成音节，然后根据音节进行分类。本领域技术人员还可以理解，可以以不同基准建立各种不同的分类器来应用于本发明的实施例，所建立的分类器在随后的训练及测试过程中调用，来获得说话人估计結果。然而，在本发明实施例的同一次实施过程中，即对于说话人的样本语音数据进行训练以及在该说话人的范围内估计测试语音数据的归属的过程中，应采用同一分类器，也就是在同一次处理过程中，针对样本语音数据和测试语音数据采用同样的语音帧划分原则及同样的分类基准。不论采用何种分类器对语音数据SC进行处理，均得到与各个类别相对应的语音中贞集合Sci,即语音数据SC转换为{sc1; Sc2, . . . , scj ,其中i为索引值，代表类别，η为类别的总数。图2示出按照本发明实施例的建模及加权步骤S200的流程图。如图2所示，建模及加权步骤S200可以包括样本语音数据划分步骤S220，可以将样本语音数据划分为第一样本语音数据和第二样本语音数据；说话人模型建立步骤S240，可以利用所述分类器处理第一样本语音数据，建立关于各个类别的说话人模型；准确度确定步骤S260，可以利用所述分类器处理第二样本语音数据，基于各个类别的说话人模型来确定该类别的准确度；权重确定步骤S280，可以根据各个类别的准确度来设定该类别的权重。在样本语音数据划分步骤S220，可以把作为训练数据的样本语音数据划分为两部分，即第一样本语音数据TS和第二样本语音数据WS，其中，TS用来训练基于分类的说话人模型，WS用来对说话人模型进行权重设置。训练数据的划分过程可以是随机过程，然而应确保第一样本语音数据和第二样本语音数据分别属于全部说话人，也就是说，每个说话人都有一部分样本语音数据划在第一样本语音数据TS，一部分样本语音数据划在第二样本语音数据WS。尽管在理论上存在随机划分样本语音数据造成某个说话人的语音数据全部划在ー个集合中的情况的可能性，然而，在每个人的样本语音数据都足够多的情况下，出现上述情况的可能性几乎不存在，在实践中可以不考虑。出于侧重于建模方面的考虑，可以使TS的数据量大于WS的数据量。在说话人模型建立步骤S240，可以利用在分类器建立步骤SlOO建立的分类器将第一样本语音数据转换为关于各个类别的第一样本语音帧集合，利用统计模型训练方法训练各个类别的第一样本语音帧集合，建立关于各个类别的说话人模型。首先，利用所述分类器处理第一样本语音数据TS，把TS的全部语音帧Cts分到与η个类别分别相对应的语音帧集合ctsi，即Cts = {ctsl, cts2, . . .，ctsn}，其中i为索引值。然后，基于各个类别的语音帧集合Ctsi，利用统计模型训练方法训练出该类别相应的说话人模型gi，得到说话人模型的集合G = {gl, g2，. . .，gn}。由于用于训练的各个语音帧集合Ctsi分别包含各个不同说话人的语音帧，因此训练得到的各个说话人模型gi分别体现不同的说话人，可以用来估计ー个或多个语音帧属于各个说话人的可能性。基于语音帧集合训练出说话人模型的说话人模型训练方法可以使用统计模型训练方法，例如可以使用高斯混合方法，也可以使用其它说话人模型训练方法，诸如频率估计方法、隐马尔可夫模型方法、模式识别方法、神经网络方法、决策树方法等等。不论基于上述何种手段训练出说话人模型，只要事先经过了对语音帧的分类，利用某个类别的语音帧样本进行训练而得到相应类别的说话人模型，就可以显著区别于以往不经分类而训练得到的说话人模型，使得本发明实施例的说话人模型的类别针对性更強，对输入的语音帧的判断更加准确。在向该说话人模型输入该类别的语音帧或语音帧集合之后，从该说话人模型可以输出该语音帧或语音帧集合关于该类别属于各个说话人的分别的概率。在准确度确定步骤S260，可以由在分类器建立步骤SlOO建立的分类器处理第二样本语音数据WS，基于各个说话人模型来确定与该说话人模型相应的类别的准确度。图3示出按照本发明实施例的准确度确定步骤S260的流程图，如图3所示，准确度确定步骤S260可以包括语音帧子集获取步骤S262，可以利用所述分类器处理第二样本语音数据，分别获取关于各个类别的各个说话人的第二样本语音帧子集；正确率确定步骤S264，可以关于各个第二样本语音帧子集，通过相应类别的说话人模型对该第二样本语音帧子集进行判断，来确定关于该第二样本语音帧子集的判断正确率；准确度计算步骤S266，可以根据各个类别的第二样本语音帧子集的判断正确率，计算关于该类别的准确度。在语音帧子集获取步骤S262，对第二样本语音数据WS进行分类，设样本语音数据总共来自X个说话人，由于样本语音数据的说话人均已知，因此第二样本语音数据WS可以是X个说话人各自的第二样本语音数据Sspki的集合，其中i为索引值，即WS = (Sspkl,
°spk27 · · · 0Spkx^ ο仍然采用在说话人模型建立步骤S240中使用的分类器，来将各个说话人的第二样本语音数据Sspki e WS分别分类为η的类别的语音帧集合，由于在此所得的各个语音帧集合Cspkab不仅针对某个类别b，而且针对某个说话人a，因此称为第二样本语音帧子集cspkab。也就是，在语音帧子集获取步骤S262，将第二样本语音数据WS的全部语音帧Cspk
分类为
し spkll し spkl2 ... cSpkln^
Cspk21 CSpk22 …CSpk2n III ··. (
Cspkxl CSpkx2 ... CSpkxn ノ对于属于某个类别b的各个说话人的语音帧子集Cspkab e Cspk,对应于在说话人模型建立步骤S240建立的说话人模型gb e G0在正确率确定步骤S264，可以利用各个类别的说话人模型对相应的各个第二样本语音帧子集进行判断，来确定各个第二样本语音帧子集的判断正确率。例如，可以使第二样本语音帧子集Cspkab的全部语音帧经过说话人模型gb的判断，获得Cspkab相对于全部X个说话人分别的概率，由于已知Cspkab实际上来自于说话人a，因此可以将判断出的Cspkab属于说话人a的概率作为该第二样本语音帧子集Cspkab的判断正确率accuab。从而，经过正确率确定步骤S264，可以得到关于各个第二样本语音帧子集的判断
正确率，可以表示为
Iaccu11 accu12…acculn\
accu21 accu22…accu2n I
!!··. ; [ °
accuxlaccux2…accuxnJ
在准确度计算步骤S266，可以根据各个第二样本语音帧子集的判断正确率accuab。，计算各个类别的准确度。例如，对于类别b，可以利用与该类别相对应的X个说话人的第二样本语音帧子集的判断正确率accueb，通过以下公式(I)计算出类别b的准确度accub，其中e为索引值
权利要求
1.一种说话人估计方法，包括分类器建立步骤，建立用于将输入的语音数据转换为关于各个类别的语音帧集合的分类器；建模及加权步骤，利用所述分类器处理已知说话人的样本语音数据，关于各个类别分别建立说话人模型，并对各个类别分别设定权重；以及估计步骤，利用所述分类器处理未知说话人的测试语音数据，根据各个类别的说话人模型及权重，来估计该测试语音数据的说话人。
2.按照权利要求I所述的说话人估计方法，其中，所述分类器通过将输入的语音数据识别为发音特征元素序列，并将该语音数据划分为语音帧序列，把语音帧分类到基于发音特征元素的各个类别，来将输入的语音数据转换为关于各个类别的语音帧集合。
3.按照权利要求I所述的说话人估计方法，其中，所述建模及加权步骤包括样本语音数据划分步骤，将样本语音数据划分为第一样本语音数据和第二样本语音数据；说话人模型建立步骤，利用所述分类器处理第一样本语音数据，建立关于各个类别的说话人模型；准确度确定步骤，利用所述分类器处理第二样本语音数据，基于各个类别的说话人模型来确定该类别的准确度；权重确定步骤，根据各个类别的准确度来设定该类别的权重。
4.按照权利要求3所述的说话人估计方法，其中，所述第一样本语音数据和所述第二样本语音数据分别属于全部说话人。
5.按照权利要求3所述的说话人估计方法，其中，所述准确度确定步骤包括语音帧子集获取步骤，利用所述分类器处理第二样本语音数据，分别获取关于各个类别的各个说话人的第二样本语音帧子集；正确率确定步骤，关于各个第二样本语音帧子集，通过相应类别的说话人模型对该第二样本语音帧子集进行判断，来确定关于该第二样本语音帧子集的判断正确率；准确度计算步骤，根据各个类别的第二样本语音帧子集的判断正确率，计算关于该类别的准确度。
6.按照权利要求5所述的说话人估计方法，其中，所述正确率确定步骤包括第一概率计算步骤，从第二样本语音帧子集中多次分别提取多个第二样本语音帧，形成多个第二样本语音帧临时子集，基于相应类别的说话人模型计算各个第二样本语音帧临时子集分别属于各个说话人的第一概率；正确判断确定步骤，对于各个第二样本语音帧临时子集，如果在该第二样本语音帧临时子集属于各个说话人的第一概率之中该第二样本语音帧临时子集实际所属的说话人的第一概率最大，则确定对该第二样本语音帧临时子集作出正确判断；正确率计算步骤，根据对该多个第二样本语音帧临时子集作出正确判断的次数及该多个第二样本语音帧临时子集的数目，来确定关于该第二样本语音帧子集的判断正确率。
7.按照权利要求I所述的说话人估计方法，其中，所述估计步骤包括测试语音数据分类步骤，利用所述分类器处理未知说话人的测试语音数据，获取测试语音数据的关于各个类别的测试语音帧集合；第二概率确定步骤，针对各个测试语音帧集合，基于相应类别的说话人模型来计算该测试语音帧集合属于各个说话人的第二概率；第三概率确定步骤，根据各个测试语音帧集合分别属于各个说话人的第二概率、以及与各个测试语音帧集合相应的类别的权重，确定测试语音数据分别属于各个说话人的第三概率，作为估计该测试语音数据的说话人的结果。
8.按照权利要求3所述的说话人估计方法，其中，在说话人模型建立步骤中，利用所述分类器将第一样本语音数据转换为关于各个类别的第一样本语音帧集合，利用统计模型训练方法训练各个类别的第一样本语音帧集合，建立关于各个类别的说话人模型。
9.按照权利要求3所述的说话人估计方法，其中，在权重确定步骤中，将准确度低于预定阈值的类别的权重设定为O。
10.一种说话人估计设备，包括分类器建立装置，用于建立用于将输入的语音数据转换为关于各个类别的语音帧集合的分类器；建模及加权装置，用于利用所述分类器处理已知说话人的样本语音数据，关于各个类别分别建立说话人模型，并对各个类别分别设定权重；以及估计装置，用于利用所述分类器处理未知说话人的测试语音数据，根据各个类别的说话人模型及权重，来估计该测试语音数据的说话人。
全文摘要
本发明实施例提供一种说话人估计方法，包括分类器建立步骤，建立用于将输入的语音数据转换为关于各个类别的语音帧集合的分类器；建模及加权步骤，利用所述分类器处理已知说话人的样本语音数据，关于各个类别分别建立说话人模型，并对各个类别分别设定权重；以及估计步骤，利用所述分类器处理未知说话人的测试语音数据，根据各个类别的说话人模型及权重，来估计该测试语音数据的说话人。本发明实施例还相应地提供一种说话人估计设备。
文档编号G10L17/00GK102810311SQ20111014560
公开日2012年12月5日申请日期2011年6月1日优先权日2011年6月1日
发明者鲁耀杰, 尹悦燕, 郑继川申请人:株式会社理光

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：鲁耀杰;尹悦燕;郑继川
技术所有人：株式会社理光
我是此专利的发明人

上一篇：语音合成系统的制作方法
上一篇：一种基于加权混合激励的嵌入式语音合成方法