用于执行说话人识别的方法和设备与流程

文档序号：11531121阅读：384来源：国知局

相关申请

本申请是2014年9月18日提交的美国第14/489996号申请的继续，且要求该申请的优先权。此处以引证的方式将上述申请的整个示教并入。

背景技术：

语音处理和媒体技术中实现的发展，已经引起自动化用户机器交互跨不同应用和服务的广泛使用。使用自动化用户机器交互方法，企业可以以较便宜的成本提供客户服务和其他服务。一些这种服务可以采用说话人识别，即说话人的标识和核实(identificationandverification)。

技术实现要素：

本发明的实施方式提供用于说话人识别的方法和系统。根据本发明的实施方式，一种执行说话人识别的方法包括以下步骤：提示用户说出包括个人标识符和共用短语成分(phrasecomponent)的短语；分解所接收的所说短语，该分解包括定位所说短语内的个人标识符；以及最后基于分解的结果来标识并核实用户。根据这种实施方式，标识用户包括：将个人标识符与之前存储的标识信息进行比较。仍然更进一步地，根据实施方式，分解所接收的所说短语包括：定位共用短语成分，其中，共用短语成分是在所有用户的至少一个子组内的用户之间共用的、所说短语的成分。

根据方法的实施方式，核实用户包括：将共用短语成分与和所有用户的至少一个子组关联的一个或更多个之前存储的声纹进行比较。在本发明的另选实施方式中，所说短语的共用短语成分包括两个或更多个短语，并且在这种实施方式中，核实用户包括：计算共用短语成分的各短语的各自得分。根据这种实施方式，各自得分指示两个或更多个短语与一个或更多个已存储的声纹之间的对应级别。实施方式使用各自得分来核实用户。在又一个实施方式中，算出各自得分的平均数，然后为了核实用户，可以将该平均数与预定阈值进行比较。

进一步地，这种原理可以被采用于共用短语成分仅包括一个成分的实施方式中。在这种实施方式中，确定指示所接收所说短语与一个或更多个存储的声纹之间的对应级别的得分；当得分大于预定阈值时，核实用户。根据实施方式，使用关键字定位(keywordspotting)来执行分解。在另一个实施方式中，通过首先确定与个人标识符关联的多个候选用户，且然后采用语音生物统计标识多个候选用户中的用户，来标识用户。在这种实施方式中，采用语音生物统计包括：针对各候选用户，将所说短语或所接收所说短语的共用短语成分与对应的之前存储的声纹进行比较。

本发明的又一个实施方式致力于用于执行说话人识别的计算机系统。在这种实施方式中，计算机系统包括处理器和上面存储有计算机代码指令的存储器。处理器和存储器与计算机代码指令一起被配置为使得计算机系统进行如下操作：提示用户说出包括个人标识符和共用短语成分的短语；分解所接收的所说短语，该分解包括定位所说短语内的个人标识符；并且基于分解的结果标识并核实用户。

在计算机系统的实施方式中，标识用户可以包括将个人标识符与之前存储的标识信息进行比较。在计算机系统的又一个实施方式中，在分解所接收所说短语时，处理器和存储器与计算机代码指令一起被配置为使得系统定位共用短语成分，其中，共用短语成分是在所有用户的至少一个子组内的用户之中共用的、所说短语的成分。

在又一个实施方式中，计算机系统被配置为，使得在核实用户时，计算机系统被配置为将共用短语成分与和所有用户的至少一个子组关联的一个或更多个之前存储的声纹进行比较。在计算机系统的另选实施方式中，所说短语的共用短语成分包括两个或更多个短语，并且在核实用户时，处理器和存储器与计算机代码指令一起被配置为使得系统计算共用短语的各短语的各自得分，其中，各自得分指示两个或更多个短语与一个或更多个所存储的声纹之间的对应级别。在这种实施方式中，使用各自得分(例如，通过将得分与阈值进行比较)核实用户。

类似于上述方法的实施方式，核实用户可以包括确定指示所接收所说短语与一个或更多个存储的声纹之间的对应级别的得分，以及当得分大于预定阈值时核实用户。计算机系统的实施方式被配置为采用关键字定位来分解所接收所说短语。

根据计算机系统的另选实施方式中，在标识用户时，处理器和存储器与计算机代码指令一起还被配置为使得系统进行如下操作：确定与个人标识符关联的多个候选用户；并且采用语音生物统计来标识多个候选用户中的用户。在计算机系统的又一个实施方式中，在采用语音生物统计时，处理器和存储器与计算机代码指令一起还被配置为使得系统进行如下操作：针对各候选用户，将所说短语或所接收所说短语的共用短语成分与对应的之前存储的声纹进行比较。

所要求保护发明的又一个实施方式致力于用于执行说话人识别的计算机程序产品。在这种实施方式中，计算机程序程序产品包括：一个或更多个计算机可读有形存储装置，和存储在所述一个或更多个存储装置中的至少一个上的程序指令，其中，在被处理器加载并执行时，程序指令使得与处理器关联的设备进行如下操作：提示用户说出包括个人标识符和共用短语成分的短语；分解所接收的所说短语，包括定位所说短语内的个人标识符；并且基于分解的结果来标识并核实用户。

附图说明

如附图中例示的，根据本发明的示例实施方式的以下更具体的描述，前述内容将变得清楚，在附图中，同样的附图标记贯穿不同的图涉及相同的零件。附图不必须为等比例的，而是把重点放在例示本发明的实施方式上。

图1是可以实施本发明的实施方式的示例环境。

图2例示了可以用于本发明的实施方式中的、分解所说短语的简化图。

图3是例示了根据本发明的原理的说话人识别的流程图。

图4是根据本发明的实施方式的、分解短语并标识并核实用户的方法的简化图。

图5是可以被配置为实施本发明的实施方式的计算机系统的简化图。

图6是可以实施本发明的实施方式的计算机网络环境的简化图。

具体实施方式

下面是本发明的示例实施方式的描述。

本发明的实施方式解决了在不需要用于提供所要求身份的单独操作的情况下，使用共用密码短语说话人核实(commonpassphrasespeakerverification)的问题。然而，之前已经组合自动语音识别(asr：automaticspeechrecognition)和语音生物统计(vb：voicebiometric)来对单个短语实施身份要求核实，这些之前的方法常常依赖整个短语对于各用户是唯一或多半唯一的。该技术的问题中的一个是，已知唯一的密码短语具有比共用密码短语更高的错误率。这是因为共用密码短语大大受益于校准。

本发明的实施方式相反依赖于，含有用于身份要求的唯一成分和共用成分的短语，以便实现更高准确度的语音核实。在这里所述的实施方式中，密码短语的唯一成分可以使用关键字定位(keywordspotting)来提取。这是与现有方法的又一个不同，其中，这种之前的方法将整个短语用于自动语音识别。用于语音和说话人识别的一个现有方法需要两个操作：第一，提供所要求的身份，和；第二，说出共用核实短语。然而，该两个操作方法导致用于验证所要求身份的更长会话。另一个现有方法在一个操作中执行，不过这种方法遭受准确度问题。在这种一个操作方法中，用户说出诸如账号或电话号码这样的唯一密码短语，然后用自动语音识别处理该唯一密码短语，以检索所要求的身份，随后用已存储的声纹评估该同一唯一的密码短语，以核实所要求的标识。然而，该方法不具有可以在使用共用短语时实现的准确度益处。

和现有方法不同，本发明的实施方式在不需要用于提供所要求身份的单独操作的同时，提供现有两个操作方法的准确度。本发明的另外实施方式通过使用共用密码短语或几乎共用密码短语，来提供比现有一个操作方法更好的说话人核实准确度。

依赖文本的说话人核实是用于商业应用中的主要语音生物统计技术。共用密码短语核实(即，其中，所有用户使用同一短语(诸如“我的语音是我的密码”)来注册并核实)是最准确形式的依赖文本的说话人核实。共用密码短语核实允许被称为校准的强力微调操作，其中，可以对于该具体短语(例如，“我的语音是我的密码”)微调系统参数。微调使用对应于该具体短语的一组音频数据来执行。该校准操作允许针对错误率大致30％的降低。然而，校准在用户不使用共用短语而是使用唯一短语时具有远远更少的益处。

然而，共用密码短语核实不是没有其自己的缺点。将共用短语用于注册和核实的缺点中的一个是：提供所要求的身份需要单独的操作。例如，当银行客户尝试凭借语音生物统计来进入他的或她的账户时，客户不能仅说出共用密码短语，并且希望系统将在潜在的数百万用户中准确标识他或她。这是因为说话人标识(speakeridentification)是比说话人核实更困难的问题，并且这种场景中的错误率连同计算机处理要求一起，将被禁止成功部署。由此，用户必须首先提供所要求的身份(诸如账号、电话号码或全名)，随后用户单独表达语音生物统计密码短语。

本发明的实施方式在不需要提供所要求身份的单独操作的情况下，提供共用密码短语说话人核实的准确度益处。示例实施方式通过使用户说出含有伪唯一标识符连同共用短语部分这两者的短语来实施该方法。一个这种示例是“我的名字是约翰史密斯，并且我的语音是我的密码(mynameisjohnsmith,andmyvoiceismypassword)”。在该短语中，姓名约翰史密斯充当伪唯一标识符，而短语的剩余部分对应于共用短语部分。当提供有这种输入短语时，自动语音识别或具体地关键字定位可以用于提取伪唯一标识符“约翰史密斯”。伪唯一标识符然后可以用于检索对应于所要求的用户标识的声纹约翰史密斯。此时，根据本发明的原理操作的系统可以处理几乎共用或具有所选声纹的被提取共用短语成分的完整短语，以核实说话人。另外，在个人标识符不是唯一的情况下(即，如果存在用于约翰史密斯的多项)，则可以对于所有项执行声纹比较，以选择具有最佳匹配的一项。

还可以更一般地应用上述实施方式。本发明的实施方式可以首先基于可以由asr引擎标识的个人标识符确定候选者的“n最佳”列表。然后可以在声纹匹配的语境中(即，在标识潜在候选者之后)搜索该“n最佳”列表，可以将用于所标识的候选者的对应已存储的声纹与所说短语进行比较，以标识并核实说话人。该方法最后将允许用户说出：提供所要求身份和共用或几乎共用密码短语的单个短语。该处理在语音生物统计共同体中被称为“id&v”或“标识和核实(identificationandverification)”。尽管id&v之前已经通过仅使用唯一的密码短语(诸如账号)来执行，但这种方法产生比本发明的实施方式更低的准确度。

图1是可以采用本发明的实施方式的环境100的简化图。示例环境100包括用户位置102，从该用户位置102，用户101可以经由装置103拨打电话。装置103可以是本领域中已知的任意通信装置，诸如蜂窝电话。环境100还包括计算机处理环境110，该计算机处理环境110在地理上可以与用户的位置102分离。计算机处理环境110包括服务器108和存储装置109。服务器108可以是与本领域中已知相同的任意处理装置。进一步地，存储装置109可以是硬盘驱动器、固态存储装置、数据库或本领域中已知的任意其他存储装置。另外，环境110包括网络111，该网络111提供用户位置102与计算机处理环境110之间的通信连接。网络111可以是本领域中已知的任意网络，诸如局域网(lan)、广域网(wan)、公用开关电话网络(pstn)和/或领域中已知的任意网络或网络的组合。

下文中描述在环境100中执行实施方式的示例。根据这种示例，用户101尝试联系银行的客户服务中心来咨询账户信息。银行转而借助计算环境110进行路由呼叫，以执行用户101的标识和核实。根据这种实施方式，用户101经由网络111使用手持装置103拨打电话。响应于电话，计算环境110经由服务器108向用户101发送提示105。示例提示105可以是“请说出‘我的姓名是你的姓名且我的语音是我的密码’”。用户101然后响应提示105，并且经由网络111向计算环境110发送所说短语106。在计算环境110处接收所说短语106。在计算环境110处，分解所说短语，并且标识个人标识符部分(即，“你的姓名”)。服务器108然后基于所分解的结果并使用存储装置109上所存储的信息(诸如声纹)来标识并核实用户。作为响应，服务器108然后经由网络111向用户101发送标识和核实确认(verificationconfirmation)107。在执行标识和核实之后，计算环境110可以促进用户101与呼叫中心(诸如银行客户服务中心)之间的通信连接。

下文中描述由计算环境110执行的、关于分解以及标识和核实的另外细节。计算环境110连同服务器108和存储装置109可以被配置为执行这里所述的任意实施方式。

图2是根据本发明的实施方式的、可以对所说短语执行的分解处理332的简化图。如上所述，在实施方式中，当用户(诸如用户101)说出提示短语时，分解(332)该短语，使得可以执行用户的标识和核实。

图2中的方法332例示了执行所说短语的分解的一个这种方法。根据方法332，所说短语106被分解成共用成分221a和221b以及个人标识符成分222。在这种实施方式中，个人标识符可以使用asr或更具体地使用如本领域中已知的关键字定位来标识。共用短语成分221a和221b可以在使用关键字定位定位个人标识符222之后进行标识，使得将短语106的剩余部分被标识为共用短语成分221a和221b。在图2所例示的示例实施方式中，所说短语“我的姓名是约翰史密斯并且我的语音是我的密码”被分解成：共用成分“我的姓名是”和“并且我的语音是我的密码”以及个人标识符部分“约翰史密斯”。根据方法332的另选实施方式，该分解可以仅包括标识个人标识符222。

图3例示了用于执行说话人识别的方法330。方法330通过提示用户说出包括个人标识符和共用短语成分的短语(331)而开始。接着，分解所接收的所说短语(332)。分解332包括至少定位所接收所说短语中的个人标识符。方法330通过基于分解的结果标识并核实用户(333)而结束。

分解332可以如上文中关于图2中描述的来执行。另外，用户可以根据这里所述的任意实施方式(诸如下文中关于图4描述的实施方式)来标识并核实(333)。方法330可以由计算环境110在环境100中实施。进一步地，方法330可以在由处理装置执行的计算机代码指令中实施。

根据方法330的实施方式，方法330还可以包括以下步骤：通过将个人标识符与之前存储的标识信息进行比较来标识用户。更进一步地，在方法330的另选实施方式中，分解还包括定位共用短语成分，其中，共用短语成分是在所说短语在所有用户的至少一个子组内的用户之中共用的成分。根据这种实施方式，核实用户包括：将共用短语成分与和所有用户的至少一个子组关联的一个或更多个之前存储的声纹进行比较。更进一步地，在又一个实施方式中，共用短语成分例如如图2中例示地包括两个或更多个短语，并且核实包括：计算各共用短语成分的各自得分(score)。在这种实施方式中，各自得分指示两个或更多个短语与一个或更多个存储的声纹之间的对应级别；并且核实可以使用该各自得分。可以通过根据任意数学方法使用各自得分来核实用户，例如可以算出各自得分的平均数，并且可以将平均数与预定阈值进行比较。

方法330的另一个实施方式还包括注册用户。根据这种实施方式，注册用户包括：提示用户说出密码短语或密码短语的共用成分。然后可以存储这些所说短语，和/或从所说短语生成一个或更多个声纹并存储声纹。所存储的短语和/或声纹然后根据方法330的实施方式然后可以用于执行id&v。

根据方法330的实施方式，标识用户333包括：把在分解332中标识的个人标识符与之前存储的标识信息进行比较。根据另选实施方式，分解332还包括：定位共用短语成分，其中，共用短语成分是在所说短语在所有用户的至少一个子组内的用户之中共用的成分。在这种实施方式中，核实用户333包括：将共用短语成分与和所有用户的至少一个子组关联的一个或更多个之前存储的声纹进行比较。

根据实施方式，“共用短语”成分可以为密码短语的一个或更多个成分，或者整个密码短语本身。例如，关于图2，比较共用短语成分来核实用户可以包括：比较共用成分221a、221b和/或整个密码短语106。根据实施方式，核实用户333包括：计算共用短语成分(即，221a和221b)的各短语的各自得分，其中，各自得分指示各短语与一个或更多个已存储的声纹之间的对应级别。反过来，可以使用各自得分来核实用户(333)。

根据另选实施方式，还可以通过将整个短语与一个或更多个存储的声纹进行比较来确定得分。更进一步地，可以分别对于整个短语106和对于各成分221a和221b确定得分，然后这些得分可以用于核实用户(333)。例如，可以算出得分的平均数，然后可以将平均数与阈值进行比较，并且当得分在阈值以上时，该用户可以被认为已核实。进一步地，可以对于短语的单个成分或成分的某一组合来确定得分，然后这些一个或更多个得分用于核实用户。根据实施方式，所说短语的最长部分如可以由本领域一个技术人员确定地，可以用于核实用户的声纹比较，或密码短语具有最高质量音频的部分或某一其他部分。

根据方法330的实施方式，使用关键字定位来执行分解。在实施方式中，采用语音生物统计包括：对于各候选用户，将所说短语或所接收的所说短语的共用短语成分，与对应的之前存储的声纹进行比较。在又一个实施方式中，标识用户包括：确定与个人标识符关联的多个候选用户，且然后采用语音生物统计来标识多个候选用户中的用户。这种示例可能在例如所说的个人标识符类似于系统中所存储的其他个人标识符的情况下发生。例如，如果系统存储约翰史密斯、汤姆史密斯以及约翰史密斯，则这些可能足够类似，使得系统在用户说出一个时无法区分个人标识符。那么，在这种实施方式中，语音生物统计用于选择人。

图4例示了根据使用本发明的原理的示例实施方式的、执行说话人识别(标识和核实)的方法440。具体地，方法440例示了处理所接收的所说短语的示例方法。方法440可以在图3中例示，且在上文中描述的方法330中采用。方法440通过定位个人标识符和在所有用户的至少一个子组内的用户之中共用的、所接收的所说短语的共用短语成分(441)而开始。方法440通过将个人标识符与可以和所有用户的至少一个子组关联的、之前存储的标识信息进行比较(442)以标识用户而继续。最后，将共用短语成分与一个或更多个之前存储的声纹进行比较来核实用户(443)，其中，声纹可以与用户的至少同一个子组关联。

可以在方法330的分解操作332中采用定位441。如这里所述的，使用共用短语成分可以提高标识和核实的准确度。然而，根据本发明的实施方式，具有共用短语成分的“组”可以是有利的(即，将提示不同分组的人来说出不同的共用短语成分)。例如，可以基于人们从其呼叫的地理位置、人们尝试联系的具体号码、或优选语言来提示他们说出密码短语。作为示例，可以提示具有可能由账户余额确定的优选状态的用户来说出不同的密码短语。在又一个示例中，在多语言部署中，例如在加拿大，一些用户可以被提示用法语说出密码短语，而其他用户被提示用英语说出密码短语。在这种示例中，一个子组对应于使用法语密码短语的用户，而另一个子组对应于使用英语密码短语的用户。在示例实施方式中，分解441可以考虑子组，换言之，分解被配置为，根据子组的一个或更多个特性(即，语言)来寻找适当的成分。

比较个人标识符(442)和比较共用短语成分(443)可以在方法330的比较操作333处执行。根据实施方式，比较个人标识符(442)标识用户。比较个人标识符(442)还可以标识多个“候选用户”(即，可能已经说出密码短语的可能人)。这种示例可能在例如所说的个人标识符类似于系统中所存储的其他个人标识符的情况下发生。在这种实施方式中，当将个人标识符与之前存储的标识信息进行比较时，标识多个候选用户。然后，可以通过将共用短语成分与一个或更多个之前存储的声纹进行比较采用语音生物统计来标识多个候选用户中的用户(443)。在将个人标识符与之前存储的标识信息进行比较(442)、和将共用短语成分与一个或更多个之前存储的声纹进行比较(443)这两者时，可以在用户的整个全集级别或在用户某一子组处进行这种比较。例如，如果用户所说的密码短语仅与用户的子组关联，则比较442和443可以仅使用与用户的所述子组关联的数据来执行。这种实施方式可以允许更高效的处理。

根据本发明的实施方式，声纹可以基于用户所说的实际语音表达。例如，在建立银行账户时，可能需要用户说出所说短语、所说短语的某一部分，并且可以存储该信息，以便另外使用，诸如如这里所述的标识和核实。还可以处理初始的所说短语，以产生可以是语音表达的模型或参数表示的声纹。

图5是根据本发明的实施方式的、可以用于执行标识和核实的基于计算机的系统550的简化框图。系统550包括总线554。总线554充当系统550的各种部件之间的互连。连接到总线554的是：用于将各种输入和输出装置(诸如键盘、鼠标、显示器、扬声器等)连接到系统550的输入输出装置接口553。中央处理单元(cpu)552连接到总线554，并且为计算机指令的执行做准备。存储器556为用于执行计算机指令的数据提供易失性存储。储存器555为诸如操作系统(未示出)这样的软件指令提供非易失性存储。系统550还包括用于连接到本领域中已知的任意种类的网络(包括wan和lan)的网络接口551。

应理解的是，这里所述的示例实施方式可以以许多不同的方式来实施。在一些情况下，这里所述的各种方法和机器可以各由实体、虚拟或混合通用计算机(诸如计算机系统550)或计算机网络环境(诸如下文中描述的计算机环境600)来实施。计算机系统550可以被转换成：例如通过将软件指令加载到存储器556或非易失性储存器555以便由cpu552执行来执行这里所述方法的机器。系统550及其各种部件可以被配置为，进行这里所述的本发明的任意实施方式。

例如，系统550可以被配置为执行上文中关于图3描述的方法330。在这种示例实施方式中，cpu552和存储器556与在存储器556和/或存储装置555上存储的计算机代码指令一起将设备550配置为：提示用户说出包括个人标识符和共用短语成分的短语；分解所接收的所说短语，其中，分解的步骤包括定位所说短语内的个人标识符；并且基于分解的结果来标识并核实用户。

图6例示了可以实施本发明的计算机网络环境600。在计算机网络环境600中，服务器601借助通信网络602联系到客户端603a-n。环境600可以用于允许客户端603a-n单独或结合服务器601执行上述的各种方法。在示例实施方式中，客户端603a经由网络602向服务器601发送所接收的所说短语604。服务器601然后执行如这里所述的说话人识别方法(诸如方法330)，并且因此经由网络602向客户端603a发送标识和核实确认605。在这种实施方式中，客户端603a例如可以为银行，并且响应于客户联系银行，银行可以采用在服务器601上实施的方法来执行用户的标识和核实。

实施方式或其方面可以以硬件、固件或软件的形式来实施。如果在软件中实施，则软件可以存储在被配置为使得处理器能够加载软件或其指令的子集的任意永久计算机可读介质上。处理器然后可以执行指令，并且被配置为操作或使得设备以如这里所述的方式来操作。

进一步地，固件、软件、例程或指令在这里可以被描述为执行数据处理器的特定动作和/或功能。然而，应理解，这里所含的这种描述仅是为了方便，并且实际上因计算装置、处理器、控制器或其他装置执行固件、软件、例程、指令等而产生这种动作。

还应理解，流程图、框图以及网络图可以包括更多或更少元件，被不同地设置，或者被不同地表示。但进一步应理解，特定实施方案可以指定：例示了以特定方式实施的实施方式的执行的框图和网络图以及框图和网络图的数量。

因此，另外的实施方式还可以以各种计算机架构、实体、虚拟、云计算机和/或其一些组合来实施，由此，这里所述的数据处理器旨在仅为了例示的目的，并且不为实施方式的限制。

虽然已经参照本发明的示例实施方式具体示出并描述了本发明，但本领域技术人员将理解，可以在不偏离由所附权利要求包含的本发明的范围的情况下，在本发明内进行形式和细节的各种变更。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：A·阿利-雷兹;K·R·法雷尔;O·亚龙;L·斯卡尔帕托
技术所有人：纽昂斯通讯公司
我是此专利的发明人

上一篇：用于恢复音频信号的方法和设备与流程
上一篇：关键短语用户识别的增强的制造方法与工艺