更新用数据生成装置及更新用数据生成方法

文档序号：2829637阅读：187来源：国知局

专利名称：更新用数据生成装置及更新用数据生成方法
技术领域：
本发明涉及一种说话人对照技术，特别涉及适用于由多个假说的加权和构成的说话人识别器的更新中的更新用数据的生成方法、以及使用上述更新用数据的说话人识别器的更新方法等。
背景技术：
非专利文献1中，记载了以往的说话人对照方法之一例。图7中示出了使用上述方法的说话人识别器学习装置。图7所示的说话人识别器学习装置，具有声音输入部301、声音分析机构302、说话人识别器学习机构303、背景说话人数据存储部304、以及说话人识别器存储部305。
图8中示出了使用以往的说话人对照方法的说话人对照装置。图8所示的说话人对照装置，具有声音输入部401、声音分析机构402、说话人对照机构403、说话人识别器存储部405、以及对照结果输出部404。
具有这样的构成的以往的说话人识别器学习装置以及说话人对照装置，如下进行动作。
也即，说话人登录时，从声音输入部301输入登录说话人的声音，由声音分析机构302变换成特征量数据，使用上述所变换的登录说话人声音特征量数据、与背景说话人数据存储部304中存储的不确定多个说话人的发声的特征量数据即背景说话人声音特征量数据，由说话人识别器学习机构303，学习对登录说话人声音与其他说话人即背景说话人声音进行识别的说话人识别器，在说话人识别器存储部305中存储登录说话人的识别器。
说话人对照时，从声音输入部401输入对照说话人的声音，由声音分析机构402变换成特征量数据，使用该对照声音特征量数据、与说话人识别器存储部405中所存储的由对照说话人主张的主张说话人的识别器，由说话人对照机构403判断对照说话人声音与主张说话人是否是同一个说话人，并将对照结果输出给对照结果输出部404。
对以往的说话人识别器学习机构303进行说明。
学习数据通过(公式1)表示。将声音特征量数据用x表示，将教师级别标识用y表示。这里，y对于登录说话人声音而言是+1，对于背景说话人声音而言是-1。
公式1(x1，y1)，…，(xN，yN)另外，设登录说话人声音特征数据数为Na，背景说话人声音特征数据数为Nb，学习数据总数为N＝Na+Nb。
学习到的说话人识别器通过(公式2)表示。识别器H(x)，由M个假说(hypothesis)hm(x)的加上权重αm的和构成。
公式2H(x)=Σm=1Mαmhm(x),hm(x)&Element;[-1,1]]]>识别器学习对学习数据决定hm(x)以及αm，使得损失函数(公式3)最小化。
公式31NΣi=1Nexp[-yiH(xi)]]]>该hm(x)以及αm决定，使用AdaBoost算法执行。
各个假说hm(x)，对于输入数据x而言是输出从-1到1的实数值的函数，如果输出值为非负，便判断为登录说话人声音，如果为负，则判断为其他说话人声音。将各个假说hm(x)的输出值，称作假说得分。
该以往方式中，这些假说hm(x)的判断精度不需要很高，即使在判断精度较低的情况下，使用登录说话人声音与背景说话人声音来由多个假说的加权和所构成的识别器H(x)，其识别精度也能够很高。
说话人对照机构403中，对主张说话人的识别器H(x)输入对照声音数据，将其得分与阈值进行比较，判断能否将对照声音与主张说话人视为同一个说话人。
非专利文献1Stan Z.Li，Dong Zhang，Chengyuan Ma，Heung-Yeung Shum，and EricChang，“Learning to Boost GMM Based Speaker Verifications”，Proceedingsof EUROSPEECH Conference 2003.
上述以往的说话人识别器的第1问题点在于，登录时与对照时，随着时间的经过性能恶化较大。
其原因是，声音随着随年龄变化而变动这是公知的，而以往的识别器的学习，所学习的是区别登录说话人声音与背景说话人声音，因此如果登录时的声音与对照时的声音相比变动较大，则即使是本人，多数情况下也会弄错而被拒绝。
第2问题点在于，进行识别器的再学习与进行更新的成本很高。
其原因是，以往的识别器学习方式中，需要事先存储背景说话人数据，另外学习由多个假说的加权和所构成的说话人识别器所需的计算量较大。

发明内容
因此，本发明的目的在于，提供一种考虑到声音随年龄变化而发生变动，能够以低成本来更新登录说话人的识别器的说话人对照装置等。
本发明的更新用数据生成装置，具有通过将登录说话人的声音特征量与背景说话人的声音特征量输入给登录说话人的说话人识别器，来生成登录说话人得分矢量列与背景说话人得分矢量列的更新用数据生成装置。
上述更新用数据生成装置所生成的登录说话人得分矢量列与背景说话人得分矢量列，统计性地表示出在登录说话人的说话人识别器中输入登录说话人的声音特征量与登录说话人以外的人即背景说话人的声音特征量时所得到的得分的倾向。因此，只要使用这些数据，无需使用背景说话人的声音特征量本身，就能够进行考虑到了登录说话人的声音的随年龄变化所引起的变动等的说话人识别器的更新。
另外，由于登录说话人得分矢量列与背景说话人得分矢量列的数据大小，比多个背景说话人的声音特征量的数据大小更小，因此能够削减用来保存更新说话人识别器所需的数据的存储容量。
上述更新用数据生成装置中，可以计算出登录说话人得分矢量列与背景说话人得分矢量列的矢量空间中的分布的充分统计量。
通过这样，与存储得分矢量列本身的情况相比，能够削减为了保存更新说话人识别器所需的数据的存储容量。
上述更新用数据生成装置中，作为充分统计量，可计算出登录说话人声音特征量数据的个数、背景说话人声音特征量数据的个数、登录说话人得分矢量列的平均值、背景说话人得分矢量列的平均值、将登录说话人得分矢量与该矢量的转置矢量相乘所得到的矢量的平均值、以及将背景说话人得分矢量与该矢量的转置矢量相乘所得到的矢量的平均值。
通过这样，能够将假说得分的分布假定为正态分布，根据充分统计量计算出假说得分分布。
本发明的声音对照装置，具有更新用数据存储部，在该存储部中预先存储有登录说话人得分矢量列与背景说话人得分矢量列。更新用数据更新机构，将合法性得到确认的对照说话人的声音的特征量数据，输入给构成对照说话人的说话人识别器的M个假说，并生成以作为其输出得到的假说得分为要素的多个矢量所构成的对照说话人得分矢量列，通过将该矢量与更新用数据存储部中所存储的登录说话人得分矢量列相结合，来更新登录说话人得分矢量列。说话人识别器更新机构，通过对更新过的登录说话人得分矢量列与背景说话人得分矢量列应用M维空间中的两等级的最佳分离问题，求出投影方向的M维矢量，通过将该矢量的各个要素作为对照说话人的说话人识别器的权重，来更新对照说话人的说话人识别器。
上述说话人对照装置，通过对照时所得到的对照说话人得分矢量列，更新登录说话人得分矢量列，根据该更新后的登录说话人得分矢量列与背景说话人得分矢量列，更新对照说话人的说话人识别器。
因此，即使不保持背景说话人的声音特征量，也能够对应随年龄变化等所引起的对照说话人的声音的变化，更新对照说话人的声音识别器。
上述声音对照装置中，可以在更新用数据存储部中，事先保存登录说话人得分矢量列与背景说话人得分矢量列的矢量空间中的分布的充分统计量，说话人识别器更新机构，根据充分统计量计算出对照说话人得分矢量列与背景说话人得分矢量列的分布。
通过这样，与将得分矢量列本身作为说话人识别器的更新用数据来存储的情况相比，能够削减必需的存储容量。
上述声音对照装置中，事先存储登录说话人声音特征量数据的个数、背景说话人声音特征量数据的个数、登录说话人得分矢量列的平均值、背景说话人得分矢量列的平均值、将登录说话人得分矢量与该矢量的转置矢量相乘所得到的矢量的平均值、以及将背景说话人得分矢量与该矢量的转置矢量相乘所得到的矢量的平均值，作为充分统计量；说话人识别器更新机构，根据这些数据计算出M维正态分布，根据该M维正态分布，计算出使得登录说话人得分矢量列与背景说话人得分矢量列的分离达到最佳的1维投影，将表示该投影的方向的M维矢量的范数标准化为1，并将所得的矢量的各个要素作为权重，通过这样来更新对照说话人的说话人识别器。
通过这样，能够将得分矢量的分布假定为正态分布，来更新说话人识别器。
本发明的说话人识别器更新用数据的生成方法，具有取得登录说话人声音特征量数据，将该登录说话人声音特征数据输入给登录说话人的说话人识别器，取得作为多个假说的输出的假说得分，并生成以该假说得分为要素的多个矢量所构成的登录说话人得分矢量列的工序；取得背景说话人声音特征量数据，并与上述一样生成背景说话人得分矢量列的工序；以及计算出登录说话人得分矢量列与背景说话人得分矢量列的矢量空间中的分布的充分统计量，将该充分统计量作为说话人识别器更新用数据记录到存储装置中的工序。
上述更新用数据生成装置所生成的登录说话人得分矢量列与背景说话人得分矢量列，统计性地表示出了在登录说话人的识别器中输入登录说话人的声音特征量与登录说话人以外的人即背景说话人的声音特征量时所得到的得分的倾向。根据从该得分矢量列所生成的充分统计量，能够计算出得分矢量的分布。因此，如果使用通过该方法所计算出的充分统计量，无需使用背景说话人的声音特征量本身，就能对考虑到了登录说话人的声音的随年龄变化所引起的变动等的说话人识别器进行更新。
另外，充分统计量的数据大小，比多个背景说话人的声音特征量的数据大小要小，因此能够削减为了存储更新说话人识别器所需的数据的存储容量。
本发明的说话人识别器的更新方法，包括使用说话人识别器判断对照说话人的合法性的说话人对照工序；在该说话人对照工序中确认了对照说话人的合法性的情况下，将对照说话人的声音特征量数据输入给对照说话人的说话人识别器，并取得作为其输出结果的假说得分，生成以该假说得分为要素的多个矢量所构成的对照说话人得分矢量列的工序；计算出表示对照说话人矢量列的矢量空间中的分布的对照说话人充分统计量的充分统计量计算工序；将对照说话人充分统计量与存储装置中预先保存的更新用数据结合起来，对更新用数据进行更新，并将更新后的更新用数据保存到存储装置中的更新用数据更新工序；根据由更新用数据更新工序更新之后的更新用数据，计算出对照说话人与背景说话人的得分矢量的分布的分布计算工序；以及，根据该分布计算出使得对照说话人的得分矢量与背景说话人的得分矢量的分离达到最好的1维投影，将表示该投影方向的矢量的各个要素作为对照说话人的说话人识别器的权重，通过这样来更新对照说话人的说话人识别器的说话人识别器更新工序。
通过上述说话人识别器的更新方法，能够将对照时所得到的对照说话人的声音特征量反映到说话人识别器的更新用数据中。这样，无需使用背景说话人的声音特征量数据，就能使用最新的更新用数据计算出得分矢量的分布，并根据该分布来更新对照说话人的说话人识别器。
因此，能够对应随年龄变化等所引起的说话人的声音的变化，更新说话人识别器，同时能够削减保存用于更新的数据的存储装置的存储容量。
本发明的说话人识别器更新用数据的生成程序，让计算机执行以下功能取得登录说话人声音特征量数据后将该登录说话人声音特征量据输入给登录说话人的说话人识别器，取得作为上述多个假说的输出的假说得分，并生成以该假说得分为要素的多个矢量所构成的登录说话人得分矢量列的功能；取得背景说话人声音特征量数据后输入给上述登录说话人的上述说话人识别器，取得作为上述多个假说的输出的假说得分，并生成以该假说得分为要素的多个矢量所构成的背景说话人得分矢量列的功能；以及，计算出上述登录说话人得分矢量列与上述背景说话人得分矢量列的矢量空间中的分布的充分统计量，并将该充分统计量作为说话人识别器更新用数据记录到存储装置中的功能。
通过上述程序，能够让计算机作为说话人识别器更新用数据的生成装置进行动作，生成表示构成说话人识别器的假说的输出即得分的分布的充分统计量，作为更新用数据。根据该充分统计量，能够计算出得分矢量的分布。
因此，若使用由上述程序计算出的充分统计量，无需使用背景说话人的声音特征量本身，就能够对考虑到了登录说话人的声音的随年龄变化所引起的变动等的说话人识别器进行更新。
另外，充分统计量的数据大小，比多个背景说话人的声音特征量的数据大小要小，因此能够削减为了保存更新说话人识别器所需的数据的存储容量。
本发明的说话人识别器更新程序，让计算机执行以下功能使用说话人识别器来判断对照说话人的合法性的说话人对照功能；在由该说话人对照功能确认了对照说话人的合法性的情况下，将对照说话人的声音特征量数据输入给对照说话人的说话人识别器，并取得作为其输出结果的假说得分，生成以该假说得分为要素的多个矢量所构成的对照说话人得分矢量列的功能；计算出表示对照说话人得分矢量列的矢量空间中的分布的对照说话人充分统计量的充分统计量计算功能；将对照说话人充分统计量与存储装置中预先保存的更新用数据结合起来，对更新用数据进行更新，并将更新后的更新用数据保存到存储装置中的更新用数据更新功能；根据由更新用数据更新功能更新之后的更新用数据，计算出对照说话人与背景说话人的得分矢量的分布的分布计算功能；以及，根据该分布，计算出使得上述对照说话人的得分矢量与背景说话人的得分矢量的分离达到最好的1维投影，将表示该投影方向的矢量的各个要素作为对照说话人的说话人识别器的权重，通过这样来更新对照说话人的说话人识别器的说话人识别器更新功能。
通过上述说话人识别器更新程序，能够让计算机作为对说话人识别器进行更新的装置来工作，将对照时所得到的对照说话人的声音特征量反映到说话人识别器的更新用数据中。这样，不需要使用背景说话人的声音特征量数据，就能够使用最新的更新用数据计算出得分矢量的分布，并根据该分布来更新对照说话人的说话人识别器。
因此，能够对应随年龄变化等所引起的说话人的声音特征量的变化更新说话人识别器，同时能够削减保存用于更新的数据的存储装置的存储容量。
通过本发明，更新用数据生成装置，能够生成表示背景说话人与登录说话人的声音特征量的得分的统计性倾向的登录说话人得分矢量列与背景说话人得分矢量列。
因此，如果使用这些数据，不需要使用背景说话人的声音特征量本身，就能够进行考虑到了登录说话人的声音的随年龄变化所引起的变动等的说话人识别器的更新。
另外，由于登录说话人得分矢量与背景说话人得分矢量的数据大小，与多个背景说话人的声音特征量的数据大小相比很小，因此能够削减用来保存更新说话人识别器所需的数据的存储容量。

图1为表示作为本发明的一个实施方式的说话人对照系统的全体图。
图2为说话人登录装置的功能方框图。
图3为表示假说得分分布存储部中所存储的充分统计量的图。
图4为说话人对照装置的功能方框图。
图5为表示说话人登录装置的动作的流程图。
图6为表示说话人对照装置的动作的流程图。
图7为以往的说话人识别器学习装置的功能方框图。
图8为以往的说话人对照装置的功能方框图。
图中1-说话人对照系统，10-说话人登录装置(更新用数据生成装置)，11-声音输入部，12-声音分析机构，13-说话人识别器学习机构，17-假说得分分布计算机构(更新用数据生成机构)，18-存储装置，20-说话人对照装置，21-声音输入部，22-声音分析机构，23-说话人对照机构，25-假说得分分布更新机构(更新用数据更新机构)，28-说话人识别器更新机构，29-存储装置，30、31-充分统计量。
具体实施例方式
下面对照附图，对本发明的一个实施方式的说话人对照系统1的构成与动作进行说明。
图1为表示说话人对照系统1的全体构成的概要图。
说话人对照系统1，具有设置在数据中心3中的说话人登录装置(更新用数据生成装置)10与设置在多个店铺2中的说话人对照装置20。说话人登录装置10与说话人对照装置20，可经网络4互相进行通信。
用户(说话人)首先在说话人登录装置10中输入自己的声音，接受登录(register)。此时，说话人登录装置10，进行说话人对照所需要的说话人识别器的学习、以及说话人识别器的更新所必要的假说得分分布(hypothesis score distribution)的生成。
说话人的声音输入，既可以由说话人前往数据中心3来对说话人登录装置10直接输入说话人的声音数据，也可以输入给说话人对照装置20或其他的通信终端，将上述说话人的声音数据经网络4转发给说话人登录装置10。
说话人登录装置10所生成的说话人识别器与假说得分分布，既可以经网络4发送给说话人对照装置20，也可以散发存储有这些数据的存储介质。
进行过登录的说话人，例如在店铺2中使用信用卡时，为了接受认证而向说话人对照装置20输入声音。说话人对照装置20，判断所输入的声音被视为登录的说话人的声音的概率，在该概率很高的情况下认证说话人。另外，说话人对照装置20，还进行假说得分分布与说话人识别器的更新。
(说话人登录装置10的构成)图2为表示说话人登录装置10的构成的功能方框图。
说话人登录装置10，具有声音输入部11、声音分析机构12、说话人识别器学习机构13、背景说话人数据存储部14、假说得分分布计算机构(更新用数据生成机构)17、以及存储装置18。
存储装置18，例如是硬盘装置，具有背景说话人数据存储部14、说话人识别机器存储部15、以及假说得分分布存储部16。
背景说话人数据存储部14中，预先存储有登录者以外的人所发出的声音的特征量数据(背景说话人声音特征量数据)。该数据用于学习登录者的说话人识别器。
说话人识别器存储部15中，存储有通过说话人识别器学习机构13进行过学习后的说话人识别器。
假说得分分布存储部16中，存储有假说得分分布计算机构17所计算出的假说得分分布。
声音输入部11，例如由麦克风构成，将作为声波输入的登录者的声音变换成电信号后，输出给声音分析机构12。
声音分析机构12对从声音输入部所输入的声音(登录说话人声音)进行分析，并变换成特征量数据(登录说话人声音特征量数据)。该变换，例如与一般在声音识别或说话人对照中求取特征量的情况相同，通过倒谱分析等来进行。
特征量数据与以往例一样，通过(公式1)表示。
说话人识别器学习机构13，使用登录说话人声音的特征量数据、以及背景说话人数据存储部14中所存储的背景说话人声音特征量数据，学习对登录说话人与其他说话人进行识别的说话人识别器，在说话人识别器存储部15中，存储对登录说话人进行识别的说话人识别器。
说话人识别器通过(公式2)表示，由M个假说hm(x)的加上权重αm的和构成。说话人识别器学习机构13，例如通过非专利文献1中所记载的步骤，使用adaBoost算法进行学习，使得学习数据的损失函数(参照(公式3))最小化。
假说得分分布计算机构17，将登录说话人声音特征量数据与背景说话人数据存储部14中所存储的背景说话人声音特征量数据，变换成学习到的登录说话人的说话人识别器中的多个假说得分的矢量列，将该矢量列的假说得分矢量空间中的分布的充分统计量，分别存储在假说得分分布存储部16中。
这里，假说得分矢量列通过(公式4)表示，是对输入特征量数据x，由构成识别器的M个假说所对应的假说得分的矢量列构成的z(x)。假说得分分布计算机构17，根据输入特征量数据集合{x}，计算出该假说得分矢量集合{z}，对每个教师等级标识(teacher class lable)即每个y＝+1及y＝-1，计算出推定分布的充分统计量。
假说得分分布计算机构17，例如在假定假说得分矢量空间中的分布为M维正态分布时，将输入特征量数据个数Nz、通过(公式5)所表示的假说得分矢量的平均值<z>、以及通过(公式6)所表示的假说得分矢量的积的行列式的平均值，对每个教师等级标识计算出来，作为充分统计量存储起来。另外(公式6)中z的上标t，表示矢量的转置((公式7)之后的公式中也一样)。
或者，也可以不假定假说得分矢量集合的分布，将假说得分矢量集合本身，对每个教师级别存储在假说得分分布存储部16中。
公式4Z(x)＝(h1(x)，h2(x)，…，hM(x))公式5&lang;Z&rang;=1NzΣi=1NzZ(xi)]]>公式6&lang;ZtZ&rang;=1NzΣi=1NzZ(xi)tZ(xi)]]>图3为表示假说得分存储部16中所存储的数据之一例的概要图。与教师等级标识y为+1的数据相对应的假说得分矢量列的假说得分矢量空间中的分布的充分统计量(以下简称作充分统计量)30、以及教师等级标识y为-1的数据所对应的充分统计量31，分别保存在假说得分存储部16中。
充分统计量30，包含有表示教师等级标识为+1的输入特征量数据的个数的数据个数(Nz)30a、假说得分矢量平均值((公式)5的<z>)30b、以及假说得分矢量的积的行列式的平均值((公式6)的<ztz>)30c。
充分统计量31也一样，包含有表示教师等级标识为-1的输入特征量数据的个数的数据个数(Nz)31a、假说得分矢量平均值((公式)5的<z>)31b，以及假说得分矢量的积的行列式的平均值((公式6)的<ztz>)31c。
这里，如果对各个数据的概略大小进行讨论，则由于Nz30a、30b是整数，因此分别为4字节程度，<Z>30b、31b是以M个实数为要素的矢量，因此若暂且设M为10则分别为40(4×10)字节程度，<ztz>由于是M行×M列的行列式，因此为400(4×10×10)字节程度。也即，假说得分分布存储部16中所存储的充分统计量的数据大小，连1K字节也不到。
与此相对，背景说话人数据，对男女各1000名的说话人准备120秒的数据，每1秒的100帧，如果设为40维，则数据大小达到3.8G字节(2×1000×120×100×40×4)。
这样，通过本发明，能够将说话人识别器的更新所必需的数据大小，与使用背景说话人数据的情况相比大幅削减。
另外，虽然图2所示的说话人登录装置10作为硬件的结构来构建，但也可以通过计算机构成说话人登录装置10，通过上述计算机的CPU，逐次读出说话人登录用程序，软件上执行上述声音分析机构12、说话人识别器学习机构13、假说得分分布计算机构17的功能。这种情况下，声音输入部11由声-电变换器构成，将声音数据取入到计算机中。另外，包括背景说话人数据存储部14、说话人识别器存储部15以及假说得分分布存储部16的存储部18，例如通过硬盘装置构成。
图4为表示说话人对照装置20之构成的功能方框图。
说话人对照装置20，具有声音输入部21、声音分析机构22、说话人对照机构23、对照结果输出部24、假说得分分布更新机构25、说话人识别器更新机构28、说话人识别器存储部26、假说得分分布存储部27、以及存储装置29。
声音输入部21例如由麦克风构成，将作为声波输入的对照说话人的声音(对照说话人声音)变换成电信号后输出给声音分析机构22。
声音分析机构22，对从声音输入部输入的声音进行分析，并变换成特征量数据。
说话人对照机构23，使用对照声音的特征量数据与说话人识别器存储部26中所存储的对照说话人主张的主张说话人(claimed speaker)的说话人识别器，判断对照声音是否能够被视为是由主张说话人所发出的。该判断例如通过对主张说话人的识别器输入对照声音数据，并将所输出的得分与阈值进行比较来进行。
对照结果输出部24，将由说话人对照机构所作出的对照结果，例如作为图像输出给显示装置，来通知说话人。
假说得分分布更新机构25，将由说话人对照机构23视为同一个说话人的说话人识别器更新用特征量数据，变换成与构成主张说话人的识别器的多个假说相对应的假说得分的矢量列后，对假说得分分布存储部27中所存储的主张说话人的等级标识y＝+1的假说得分分布的充分统计量30进行更新。
也即，首先将所输入的对照声音数据列中被视为来自与主张说话人相同的说话人的部分设为{x’}，将该{x’}变换成构成主张说话人的识别器的各个假说的假说得分矢量集合{z’}。
接下来，计算出该{z’}的假说得分矢量空间中的分布的充分统计量，将其与假说得分分布存储部27中所存储的主张说话人的等级标识y＝+1的假说得分分布的充分统计量30结合并进行更新。
例如，在假定假说得分分布是M维正态分布时，将假说得分矢量平均值通过(公式7)更新，将假说得分矢量积行列式的平均值通过(公式8)更新，将特征量数据个数通过(公式9)更新。(公式9)中，Nz’是说话人识别器更新用特征量数据的要素数。
或者，在不假定假说得分矢量集合的分布的情况下，将得分矢量集合本身结合起来进行更新。
或者，作为输入至假说得分分布更新机构25的说话人识别器更新用特征量数据，使用借助以外部的说话人认证系统或用户的密码输入为基础的认证等合法性得到确认的发声数据，来更新说话人识别器。
公式7&lang;z&rang;&LeftArrow;1Nz+Nz(Nz&lang;z&rang;+Nz′&lang;z&rang;′)]]>公式8&lang;ztz&rang;&LeftArrow;1Nz+Nz(Nz&lang;ztz&rang;+Nz′&lang;ztz′&rang;′)]]>公式9Nz←Nz+Nz′说话人识别器更新机构28，根据假说得分分布存储部27中所存储的主张说话人的等级标识y＝+1及y＝-1的假说得分矢量分布的充分统计量30、31，计算出主张说话人及其背景说话人的分布，并计算出使得M维空间中的两等级(2class)的分离最为好的1维投影，将该投影方向的M维矢量，作为说话人识别器存储部26中所存储的主张说话人的αm，来更新主张说话人识别器。
例如，在假定假说得分分布为M维正态分布时，根据假说得分分布存储部16中所存储的主张说话人的等级标识y＝+1及y＝-1的充分统计量30、31，分别计算出M维正态分布。之后，根据上述两等级的正态分布，通过线性判断分析求出投影方向的M维矢量，并将该矢量的范数(norm)标准化为1之后所得到的结果，作为存储在说话人识别器存储部26中的主张说话人的说话人识别器的权重αm，对主张说话人识别器进行更新。
或者，在没有假定假说得分矢量集合的分布的情况下，作为M维空间中的两等级的最佳分离问题，通过线性判断分析等求出投影方向的M维矢量，并作为主张说话人的识别器的αm，对主张说话人识别器进行更新。
或者，进而在M维的假说得分矢量空间中，在两等级的分布或数据列中，计算出使得损失函数(参照(公式3))最小化的权重αm，并对主张说话人识别器进行更新。
另外，虽然图4所示的说话人对照装置20通过硬件结构来构建，但也可以通过计算机构成说话人对照装置20，通过上述计算机的CPU，逐次读出说话人识别器更新用数据的生成程序、说话人识别器的更新程序，软件上执行上述声音分析机构22、说话人对照机构23、假说得分分布更新机构25、说话人识别器更新机构28的功能。这种情况下，声音输入部21通过声-电变换器构成，将声音数据取入到计算机中。另外，包括说话人识别器存储部26与假说得分分布存储部27的存储装置29，例如通过硬盘装置构成。
(说话人登录装置10以及说话人对照装置20的动作)图5为表示说话人登录装置10的动作的流程图。
登录者的声音被输入至声音输入部11(ST100)后，声音分析机构12分析该声音，并变换成特征量数据(ST101)，说话人识别器学习机构113，使用从声音分析机构12所取得的登录说话人的声音的特征量数据、及从背景说话人数据存储部14所读出的背景说话人声音特征量数据，来学习登录说话人的说话人识别器(ST102)。说话人识别器学习机构13，将说话人识别器存储到说话人识别器存储部15中(ST103)。
假说得分分布计算机构17，将从声音分析机构12所取得的特征量数据、及从背景说话人数据存储部14所读出的背景说话人声音特征量数据，变换成构成登录说话人的说话人识别器的多个假说得分的矢量列(ST104)。假说得分分布计算机构17，计算出该假说得分的矢量空间中的分布的充分统计量，并存储在假说得分的分布存储部16中(ST105)。
图6为表示说话人对照装置20的动作的流程图。
对照声音被输入至声音输入部21(ST110)后，声音分析机构22便分析该声音，并变换成特征量(ST111)。
说话人对照机构23，例如对主张说话人的识别器H(x)输入特征量数据，将其输出得分与阈值进行比较，判断能否将对照声音视为与主张说话人相同的说话人的声音(ST112)。在判断为不能够视为同一个说话人的声音情况下，输出对照结果，结束处理(ST112的判断为否，ST116)。
在说话人对照机构23，判断为对照声音是主张说话人的声音(ST112的判断为是)的情况下，假说得分分布更新机构25，进行假说得分分布存储部27中所存储的充分统计量的更新。
假说得分分布更新机构25，首先将对照声音的特征量数据输入给主张说话人的说话人识别器，变换成假说得分的矢量列(ST113)。假说得分分布更新机构25，计算出所算出的矢量的假说得分矢量空间中的分布的充分统计量，将其与假说得分分布存储部16中所存储的主张说话人的等级标识y＝+1的假说得分分布的充分统计量30结合，并进行更新(ST114)。
接下来，说话人识别器更新机构28，使用更新过的充分统计量30，更新主张说话人的说话人识别器(ST115)。具体的说，根据假说得分分布存储部16中所存储的主张说话人的等级标识y＝+1及y＝-1的假说得分矢量分布的充分统计量30、31，计算出主张说话人及其背景说话人的分布，计算出使得M维空间中的两等级的分离达到最佳的1维投影，将该投影方向的M维矢量，作为说话人识别器存储部15中所存储的主张说话人的说话人识别器的αm，来更新主张说话人识别器。
最后，对照结果输出部25输出对照结果，结束对照处理(ST116)。
本发明还可以将上述各个处理作为由计算机执行的程序来实施。
说话人识别系统1中，在说话人登录时，说话人登录装置10的假说得分分布计算机构17，计算出登录说话人得分矢量列以及背景说话人得分矢量列，并将这些数据的充分统计量在假说得分分布存储部16中作为充分统计量30、31事先存储起来。
在进行说话人对照时，说话人对照装置20的假说得分分布更新机构25，根据对照时所输入的对照说话人的声音，对假说得分分布存储部27中所存储的充分统计量30的分布进行更新。
另外，说话人识别器更新机构28，根据更新过的充分统计量30与充分统计量31，更新对照说话人的说话人识别器中的加权函数。
这样，由于通过充分统计量的形式，存储说话人识别器的更新所必需的信息，因此与直接存储背景说话人的声音特征量的情况相比，能够削减数据存储量。
另外，说话人对照时，使用认证成功的声音，在不变更构成说话人识别器的假说hm(x)的情况下更新假说权重αm，由于通过这样来更新说话人识别器，因此与更新假说的情况相比，能够削减说话人识别器的更新所需的计算量。
也即，通过说话人对照系统1，能够以较低的成本，来实现考虑到说话人的声音的随年龄变化所引起的变动的登录说话人的识别器的更新。
权利要求
1.一种更新用数据生成装置，生成由多个假说的加权和构成的说话人识别器的更新中所使用的说话人识别器更新用数据，其特征在于具有更新用数据生成机构，其具备将登录说话人声音特征量数据输入给登录说话人的说话人识别器，取得作为上述多个假说的输出的假说得分，并生成以该假说得分为要素的多个矢量所构成的登录说话人得分矢量列的功能；将背景说话人声音特征量数据输入给上述登录说话人的上述说话人识别器，取得作为上述多个假说的输出的假说得分，并生成以该假说得分为要素的多个矢量所构成的背景说话人得分矢量列的功能；以及，将上述登录说话人得分矢量列与上述背景说话人得分矢量列保存到存储装置中的功能。
2.如权利要求1所述的更新用数据生成装置，其特征在于上述更新用数据生成机构，计算出上述登录说话人得分矢量列与上述背景说话人得分矢量列的矢量空间中的分布的充分统计量。
3.如权利要求2所述的更新用数据生成装置，其特征在于上述充分统计量，包括上述登录说话人声音特征量数据的个数、上述背景说话人声音特征量数据的个数、上述登录说话人得分矢量列的平均值、上述背景说话人得分矢量列的平均值、将登录说话人得分矢量与该矢量的转置矢量相乘所得到的矢量的平均值、以及将背景说话人得分矢量与该矢量的转置矢量相乘所得到的矢量的平均值。
4.一种说话人对照装置，具备预先对每个登录说话人存储由M个假说的加权和构成的说话人识别器的说话人识别器存储部、以及通过上述说话人识别器进行说话人对照的说话人对照机构，其特征在于该说话人对照装置中，具有更新用数据存储部，其预先存储登录说话人得分矢量列和背景说话人得分矢量列，其中登录说话人得分矢量列由多个矢量构成，该多个矢量以将登录说话人声音特征量数据输入给登录说话人的说话人识别器并作为上述多个假说的输出而得到的假说得分为要素，背景说话人得分矢量列由多个矢量构成，该多个矢量以将背景说话人声音特征量数据输入给上述登录说话人的上述说话人识别器并作为上述多个假说的输出而得到的假说得分为要素；更新用数据更新机构，其具有如下功能，在由上述说话人对照机构判断为对照说话人所主张的说话人合法的情况下，生成由多个矢量构成的对照说话人得分矢量列，该多个矢量以将上述对照说话人的声音的特征量数据输入给构成上述对照说话人的说话人识别器的上述各个假说并作为其输出所得到的假说得分为要素，并且通过将该矢量与上述登录说话人得分矢量列相结合，来更新上述登录说话人得分矢量列；以及，说话人识别器更新机构，其具有如下功能，通过对上述登录说话人得分矢量列与上述背景说话人得分矢量列应用M维空间中的两等级的最佳分离问题，求出投影方向的M维矢量，并通过将该矢量的各个要素作为上述权重，来更新上述对照说话人的说话人识别器。
5.如权利要求4所述的说话人对照装置，其特征在于上述更新用数据存储部中，保存有上述登录说话人得分矢量列与上述背景说话人得分矢量列的矢量空间中的分布的充分统计量，上述说话人识别器更新机构，具有根据上述充分统计量计算出上述对照说话人与上述背景说话人的得分矢量的分布的功能。
6.如权利要求5所述的说话人对照装置，其特征在于上述充分统计量，是上述登录说话人声音特征量数据的个数、上述背景说话人声音特征量数据的个数、上述登录说话人得分矢量列的平均值、上述背景说话人得分矢量列的平均值、将上述登录说话人得分矢量与该矢量的转置矢量相乘所得到的矢量的平均值、以及将上述背景说话人得分矢量与该矢量的转置矢量相乘所得到的矢量的平均值，上述说话人识别器更新机构，根据上述充分统计量计算出上述登录说话人得分矢量列与上述背景说话人得分矢量列的M维正态分布，根据该M维正态分布，计算出使得上述登录说话人得分矢量列与上述背景说话人得分矢量列的分离达到最佳的1维投影，将表示该投影的方向的M维矢量的范数标准化为1，并将所得到的矢量的各个要素作为上述权重。
7.一种说话人识别器更新用数据的生成方法，生成由多个假说的加权和构成的说话人识别器的更新中所使用的说话人识别器更新用数据，包括取得登录说话人声音特征量数据后将该登录说话人声音特征量据输入给登录说话人的说话人识别器，取得作为上述多个假说的输出的假说得分，并生成以该假说得分为要素的多个矢量所构成的登录说话人得分矢量列的工序；取得背景说话人声音特征量数据后输入给上述登录说话人的上述说话人识别器，取得作为上述多个假说的输出的假说得分，并生成以该假说得分为要素的多个矢量所构成的背景说话人得分矢量列的工序；以及，计算出上述登录说话人得分矢量列与上述背景说话人得分矢量列的矢量空间中的分布的充分统计量，并将该充分统计量作为说话人识别器更新用数据记录到存储装置中的工序。
8.一种说话人识别器的更新方法，更新由多个假说的加权和所构成的说话人识别器，包括使用上述说话人识别器来判断对照说话人的合法性的说话人对照工序；在该说话人对照工序中确认了上述对照说话人的合法性的情况下，将上述对照说话人的声音特征量数据输入给上述对照说话人的上述说话人识别器，并取得作为其输出结果的假说得分，生成以该假说得分为要素的多个矢量所构成的对照说话人得分矢量列的工序；计算出表示上述对照说话人得分矢量列的矢量空间中的分布的对照说话人充分统计量的充分统计量计算工序；将上述对照说话人充分统计量与存储装置中预先保存的更新用数据结合起来，对更新用数据进行更新，并将更新后的更新用数据保存到上述存储装置中的更新用数据更新工序；根据由上述更新用数据更新工序更新之后的更新用数据，计算出对照说话人与背景说话人的得分矢量的分布的分布计算工序；以及，根据上述分布，计算出使得上述对照说话人的得分矢量与上述背景说话人的得分矢量的分离达到最好的1维投影，将表示该投影方向的矢量的各个要素作为上述对照说话人的说话人识别器的上述权重，通过这样来更新上述对照说话人的说话人识别器的说话人识别器更新工序。
9.一种说话人识别器更新用数据的生成程序，生成由多个假说的加权和构成的说话人识别器的更新中所使用的说话人识别器更新用数据，其特征在于，让计算机执行如下功能取得登录说话人声音特征量数据后将该登录说话人声音特征量据输入给登录说话人的说话人识别器，取得作为上述多个假说的输出的假说得分，并生成以该假说得分为要素的多个矢量所构成的登录说话人得分矢量列的功能；取得背景说话人声音特征量数据后输入给上述登录说话人的上述说话人识别器，取得作为上述多个假说的输出的假说得分，并生成以该假说得分为要素的多个矢量所构成的背景说话人得分矢量列的功能；以及，计算出上述登录说话人得分矢量列与上述背景说话人得分矢量列的矢量空间中的分布的充分统计量，并将该充分统计量作为说话人识别器更新用数据记录到存储装置中的功能。
10.一种说话人识别器的更新程序，更新由多个假说的加权和所构成的说话人识别器，其特征在于，让计算机执行如下功能使用上述说话人识别器来判断对照说话人的合法性的说话人对照功能；在由该说话人对照功能确认了上述对照说话人的合法性的情况下，将上述对照说话人的声音特征量数据输入给上述对照说话人的上述说话人识别器，并取得作为其输出结果的假说得分，生成以该假说得分为要素的多个矢量所构成的对照说话人得分矢量列的功能；计算出表示上述对照说话人得分矢量列的矢量空间中的分布的对照说话人充分统计量的充分统计量计算功能；将上述对照说话人充分统计量与存储装置中预先保存的更新用数据结合起来，对更新用数据进行更新，并将更新后的更新用数据保存到上述存储装置中的更新用数据更新功能；根据由上述更新用数据更新功能更新之后的更新用数据，计算出对照说话人与背景说话人的得分矢量的分布的分布计算功能；以及，根据上述分布，计算出使得上述对照说话人的得分矢量与上述背景说话人的得分矢量的分离达到最好的1维投影，将表示该投影方向的矢量的各个要素作为上述对照说话人的说话人识别器的上述权重，通过这样来更新上述对照说话人的说话人识别器的说话人识别器更新功能。
全文摘要
本发明提供一种考虑到声音随年龄变化而变动，能够以较低成本来更新登录说话人的识别器的说话人对照装置等。更新用数据生成装置(10)具有更新用数据生成机构(17)，该机构具备将登录说话人声音特征量数据输入给登录说话人的说话人识别器来取得假说得分，并生成以该假说得分为要素的多个矢量所构成的登录说话人得分矢量列的功能；将背景说话人声音特征量数据输入给登录说话人的说话人识别器来取得假说得分，并生成以该假说得分为要素的多个矢量所构成的背景说话人得分矢量列的功能；以及，将登录说话人得分矢量列与背景说话人得分矢量列保存到存储装置(18)中的功能。
文档编号G10L15/00GK1920949SQ20061011084
公开日2007年2月28日申请日期2006年8月15日优先权日2005年8月23日
发明者大西祥史申请人:日本电气株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：大西祥史
技术所有人：日本电气株式会社
我是此专利的发明人

上一篇：乐器部件、乐器及其制作方法
上一篇：能够由演员实时控制音乐或声音的触发回放设备及方法