针对用于说话人验证的非介入性训练的装置、媒体及方法与流程

文档序号：13139322阅读：215来源：国知局

相关申请案交叉参考

本申请案主张2016年4月15日提出申请的标题为“用于文本无关说话人验证的非介入性训练(unobtrusivetrainingfortext-independentspeakerverification)”的美国临时专利申请案第62/323,038号的权益及优先权。此申请案的全部内容出于所有目的以其全文引用的方式并入本文中。

本申请案涉及基于计算机的语音辨识；具体来说，涉及实施用于说话人验证的非介入性训练。

背景技术：

在基于计算机的语音辨识领域中，说话人验证是指确定未知话音的语音样本是否对应于特定所登记用户的话音的任务。实施说话人验证的挑战之一涉及用户登记/训练过程。针对文本相关说话人验证系统(即，取决于预定义密码的系统)，用户可通过说出密码达较少次数来训练且因此登记他/她的话音。然而，此类系统由于其仅可基于所登记用户的密码的说出(而非一般语音)辨识他/她而受限制。此外，虽然训练过程为相对短的，但如果在此过程期间捕获外来词语或声音，那么仍可出现问题，此可就用户来说导致挫败。

文本无关说话人验证系统比文本相关系统灵活，这是因为所述文本无关说话人验证系统可在不需要所登记用户讲出特定密码的情况下辨识所述用户。此允许不同类型的验证方法，例如在用户正说话时的“连续验证”。同时，针对文本无关系统的登记/训练过程通常为长得多且较密集的。举例来说，此类系统通常需要用户通过说出大数目个话音学平衡句子而登记他/她的话音以便将用户在验证时可讲出的所有可能短语模型化。因此，针对文本无关说话人验证系统的训练过程可对于其用户为极其繁重的。

技术实现要素：

提供用于实施用于说话人验证的非介入性训练的技术。在一个实施例中，一种电子装置可接收在一或多个用户和所述电子装置的话音命令与控制特征互动时由所述一或多个用户说出的多个话音样本，且针对每一话音样本，将所述话音样本指派到多个话音类型类别中的一者。所述电子装置可进一步将被指派到每一话音类型类别的所述话音样本分组到一或多个用户集中，其中每一用户集包括可能已由独特用户说出的话音样本。所述电子装置可接着针对每一用户集：(1)产生话音模型，(2)将提供身份或姓名的请求发布到所述独特用户，及(3)用由所述独特用户提供的所述身份或姓名来标记所述话音模型。

可通过参考说明书的其余部分及附图而实现对本文中所揭示的实施例的性质及优点的进一步理解。

附图说明

图1描绘根据一个实施例的系统环境的框图。

图2描绘根据一个实施例的用于实施用于说话人验证的非介入性训练的工作流程。

图3描绘根据一个实施例的计算装置/系统的框图。

具体实施方式

在以下描述中，出于解释的目的，陈述了众多实例及细节以便提供对特定实施例的理解。然而，所属领域的技术人员将明白，特定实施例可在不具有这些细节中的一些细节的情况下实践或可以对这些细节的修改或等效形式来实践。

1.概述

本发明的实施例针对于允许以非介入性方式执行用于说话人验证的用户训练的技术。根据一组实施例，包括语音辨识系统及说话人验证系统的电子装置可接收在一或多个用户和所述装置的话音命令与控制特征互动时由所述一或多个用户说出的话音样本。电子装置可为(例如)智能电话、平板计算机、智能手表、智能扬声器、计算机系统、媒体/机顶盒、智能电视或经设计以实施话音命令与控制的任何其它装置。在一个实施例中，话音样本可对应于预定义词语或短语的说出，例如由话音命令与控制特征使用的话音触发。在其它实施例中，话音样本可对应于任意词语或短语，例如在话音触发之后说出的话音查询/命令。

在接收到每一话音样本后，电子装置可即刻执行涉及将话音样本指派到多个“话音类型”类别中的一者的第一分类步骤。举例来说，每一话音类型类别可对应于已在装置/系统上预训练的特定话音类型模型，且第一分类步骤可包括将话音样本指派到与所述样本的声音特性最紧密匹配的话音类型模型。

在稍后时间点处(例如，在电子装置已对相对大数目个所接收话音样本执行第一分类步骤之后)，装置可执行涉及将给定话音类型类别中的一或多个话音样本分组到被认为与特定独特用户相关联的“用户集”中的第二分类步骤。举例来说，针对话音类型类别a，此第二分类步骤可包括将话音样本s1、s2及s3分组到被认为由单个独特用户u1说出的用户集us1中。在确定此用户集后，电子装置可即刻针对相关联用户(此时其特定身份仍为未知的)自动产生话音模型。在其中话音样本包括预定义词语/短语的情形中，所产生话音模型可为文本相关话音模型。替代地，在其中话音样本包括任意词语/短语的情形中，所产生话音模型可为文本无关话音模型。

接着，在下次特定用户说出某内容(换句话说，在下次装置接收到与针对所述用户产生的话音模型匹配的话音样本)时，电子装置可询问用户(口头地或通过文本)他/她的身份/姓名。以此方式，装置可将所述身份/姓名作为标记附加到话音模型及用户集且借此将用户登记到装置的说话人验证系统中。

最后，电子装置可关于用户与装置之间的未来互动而使用所标记话音模型来验证用户的身份。举例来说，电子装置可为共享家庭装置，例如智能扬声器。在此及其它类似情景中，电子装置可提供允许管理员为每一所登记用户指派关于容许话音命令/查询的权限的用户接口，且装置可在从特定用户接收到话音触发的未来说出及后续话音查询时强制执行那些权限(即，经由用户的所登记话音模型验证他/她的身份且确定所识别用户是否具有足以提交所述话音查询的权限)。

利用上文所描述的一般方法，文本相关说话人验证及文本无关说话人验证两者均可在不对用户强加繁重明确训练过程的情况下实现。替代地，说话人验证系统可在用户和电子装置的话音命令与控制特征正常互动(通过提交话音触发及/或话音命令/查询)时自动地且非介入性地进行训练。在以下章节中进一步详细地描述本发明的这些及其它方面。

2.系统环境

图1描绘其中可实施本发明的实施例的实例性系统环境100。如所展示，系统环境100包含电子装置102，所述电子装置以通信方式耦合到音频输入/捕获装置104且任选地耦合到一或多个基于云的服务器106。音频输入/捕获装置104可为(例如)麦克风、话音记录器、耳机等等。在特定实施例中，音频输入/捕获装置104可并入到(即，整体地包含于)电子装置102中。在其它实施例中，音频输入/捕获装置104可与电子装置102分离且可经由外部连接机制(例如，点对点电缆或无线协议、局域或广域网络等)与装置102通信。

包含语音辨识系统108及说话人验证系统110的电子装置102可为能够接收且响应于话音命令/查询(即，实施“话音命令与控制”特征)的此项技术中已知的任何类型的装置。仅通过实例方式，电子装置102可为智能电话、平板计算机、智能手表、智能扬声器、计算机系统、媒体/机顶盒或智能电视。所属领域的技术人员将认识到装置102的性质的其它可能性。

在操作中，电子装置102可经由音频输入/捕获装置104从用户接收预定义话音触发，且在检测到话音触发后，可即刻使用语音辨识系统108来处理后续话音查询/命令。电子装置可接着存取一或多个数据存储区(例如，驻存于基于云的服务器106上)以便产生响应且将所述响应传回到用户。

另外，电子装置102可经由说话人验证系统110验证给定用户的身份以便授权特定用户行动。说话人验证系统110可为文本相关系统或文本无关系统。在前一情形中，系统110可通过以下操作而执行说话人验证：从用户接收预定义词语或短语的话音样本，将话音样本与一或多个所登记文本相关用户话音模型112进行比较，且接着确定是否找到样本与特定文本相关话音模型之间的匹配(指示所述用户是所登记用户)。在后一情形中，系统110可通过以下操作而执行说话人验证：从用户接收任意词语或短语的一般话音样本，将话音样本与一或多个所登记文本无关用户话音模型112进行比较，且接着确定是否找到样本与特定文本无关话音模型之间的匹配(指示所述用户是所登记用户)。

如背景技术章节中所述，针对文本相关及文本无关说话人验证两者登记/训练用户的过程(且借此针对所述用户产生适当话音模型)可为繁重且易于出错的过程。为解决此问题，图1的说话人验证系统110经提高以包含新颖非介入性训练模块114。如下文所描述，非介入性训练模块114可在用户和电子装置102的话音命令与控制特征正常互动时从所述用户非介入性地收集话音训练样本。非介入性训练模块114可接着基于所收集样本而自动产生用户特定文本相关话音模型或文本无关话音模型。以此方式，模块114可消除出于说话人验证的目的对用户强加繁重训练过程的需要。

应了解，系统环境100为说明性的且并不打算限制本发明的实施例。举例来说，虽然语音辨识系统108及说话人验证系统110展示为实施于电子装置102上，但在其它实施例中，归于这些系统的功能性中的一些或全部功能性可实施于远程装置/系统(例如基于云的服务器106)上。此外，电子装置102可包含其它组件(例如额外输入装置或生物计量传感器)或执行未明确描述的其它功能。所属领域的技术人员将认识到许多变化、修改及替代方案。

3.非介入性训练工作流程

图2描绘根据一实施例的可由图1的电子装置102执行以用于实施用于说话人验证的非介入性训练的工作流程200。工作流程200可用于针对文本相关及文本无关验证系统两者的非介入性训练。

以框202开始，作为所述一或多个用户和装置102的话音命令与控制特征的互动的部分，电子装置102可接收(经由音频输入/捕获装置104)由一或多个用户说出的多个话音样本。在其中非介入性训练期望用于文本相关说话人验证的情形中，在框202处接收的话音样本可对应于(例如)由装置(例如，“siri”或“alexa”)理解的预定义话音触发的用户说出。在其中非介入性训练期望用于文本无关说话人验证的情形中，在框202处接收的话音样本可对应于(例如)在话音触发的说出之后被提交到装置的话音查询及/或命令(例如，“今天天气如何？”或“播放阿黛尔(adele)的最新专辑”)。

在框204处，针对每一所接收话音样本，电子装置102的非介入性训练模块114可执行涉及将话音样本指派到多个话音类型类别中的一者的第一分类步骤。举例来说，在一个实施例中，说话人验证系统110可包含一组n个高斯混合模型(gmm)，其中每一gmm使用特定类型的话音来进行预训练。在此实施例中，非介入性训练模块114可从所接收话音样本提取特征(例如，时间同步梅尔频率倒谱系数(mel-frequencycepstralcoefficient))且将所提取特征应用于每一gmm以便计算样本对应于所述模型的话音类型的概率。模块114可接着将话音样本指派到对应于产生最高概率的gmm的话音类型类别。

在另一实施例中，非介入性训练模块114可使用神经网络分类器来执行框204的第一分类步骤，所述神经网络分类器已经预训练以在n个不同话音类型中的一者之间进行区分。在此情形中，所接收话音样本可作为输入被提供到神经网络分类器，且对应于最可能话音类型的神经网络输出可用于对样本进行分类。

在框206处，在充分大数目个话音样本已被接收且根据框204被初始分类之后，非介入性训练模块114可执行涉及将每一话音类型类别中的话音样本分组到单独用户集中的第二分类步骤，其中认为给定用户集中的所有样本已由单个独特用户说出。举例来说，针对话音类型类别a，此第二分类步骤可包括将话音样本s1、s2及s3分组到被认为由独特用户u1说出的用户集us1中，将用户查询s4、s5及s6分组到被认为由另一独特用户u2说出的另一用户集us2中，以此类推。可针对系统中的所有话音类型类别重复此过程。

此第二分类步骤的特定时序以及执行所述第二分类步骤的方式可在各种实施例中不同。举例来说，针对给定话音类型类别，非介入性训练模块114可通过分析指派到所述话音类型类别的样本的量及所述样本的话音特性的类似性而决定何时已收集足以相信一或多个独特用户的信息。可就(例如)音素、音节或以所捕获/记录的语音的秒数来测量此数据的量。可通过(例如)测量指派到话音类型类别的话音样本之间的声学距离(在gmm的情形中：概率，且在神经网络分类器的情形中：熵)而测量此数据的类似性。针对神经网络分类器，网络输出的熵可用作用于所指派话音类型类别的置信度度量。

在框206处完成第二分类步骤后，非介入性训练模块114可即刻基于每一独特用户的用户集而自动产生他/她的话音模型(框208)。此话音模型可为文本相关的(在其中话音样本全部对应于相同预定义话音触发的实施例中)或文本无关的(在其中话音样本对应于任意/自由形式语音的实施例中)。注意，此时独特用户的特定身份仍为未知的(模块114仅知晓可将特定话音样本归于特定独特用户)。

接着，在下次这些独特用户中的一者将话音样本提供到电子装置102(换句话说，在下次装置102接收到与针对所述用户产生的话音模型匹配的话音样本)时，非介入性训练模块114可询问用户(口头地或通过文本)他/她的身份/姓名(框210)。以此方式，模型114可将所述身份/姓名作为标记附加到在框208处产生的针对所述用户的话音模型及用户集，且借此将所述用户正式登记到说话人验证系统110中。

最后，在框212处，说话人验证系统110可关于与电子装置102的未来互动而使用所标记话音模型/用户集来验证所登记用户的身份。举例来说，如先前所提及，电子装置102可为可由共享家庭的若干个人使用的家用消费型电子装置(例如，智能扬声器、媒体流式传输装置、智能电视等)。在此情形中，电子装置102可提供允许管理员为每一人指派关于容许话音命令/查询的权限的用户接口，且装置可在从特定用户接收到未来话音触发及后续命令/查询且经由用户的所登记话音模型而验证他/她的身份时强制执行那些权限。

话音查询可为(例如)对信息的请求(例如，“现在几点了？”)或行动请求(例如，“设定12:30的闹钟”)或者仅娱乐(“播放迪亚戈(django)音乐”)。一些查询可对任何家庭用户可用，但其它查询可对未经授权用户拒绝。本发明的非介入性生物计量训练技术允许已知且识别不同用户。举例来说，系统110可允许任何人播放音乐，但观看成人视频、检查账户余额或下货物订单可被限制。

一般来说，可对特定用户进行限制的活动可包含：(1)由用户在装置内定义的活动，(2)与移动装置上或所述装置可连接到的云中的特定应用程序相关联的活动，及/或(3)基于个体的使用历史的活动。举例来说，项目(1)可为针对其中父母将限制孩子的电影观看的视频产品。项目(2)可使装置与银行应用程序及检查账户余额或从亚马逊(amazon)订购货物相关联。项目(3)可包含如装置基于个体的历史(例如电影推荐或购买推荐)而进行推荐等事情。

应了解，图2的工作流程200是说明性的且各种修改及提高是可能的。举例来说，在完成框206处的次级分类之后，可将随后所接收话音样本自动分类到已知所标记用户集中及/或替代地指派到空集(对应于未知话音标记)。针对已知用户，可基于此新接收的话音数据而自动更新且改进对应话音模型。此外，当接收到额外话音样本时，可使对应于未知用户的样本再次通过框204的第一分类步骤直到收集足以识别新的独特用户的数据为止。

作为另一实例，除动态地更新用于说话人验证的话音模型之外，在一些实施例中，电子装置102还可使用从已知用户随后接收的话音样本以便创建及/或更新特别适于那些用户的语音辨识模型。以此方式，电子装置102可改进对从每一用户接收到的话音查询或命令执行的语音辨识的准确性。

作为另一实例，虽然工作流程200将第一及第二分类步骤描述为基于所接收话音样本的声音特性而被执行，但在一些实施例中，还可使用从用户非介入性地收集的其它生物计量或数据(例如，气味、查询类型、词语使用、从第二因子(2ndfactor)装置的蓝牙连接等)来提高这些分类步骤。举例来说，在一个实施例中，电子装置102可并入面部辨识系统，所述面部辨识系统用于识别说出话音样本的个体、验证在产生样本音频的同时面部上的嘴唇正在移动，且接着使所述面部与话音相关联在一起以执行第一分类步骤。可使用类似分群方法(例如测量面部辨识系统的所存储模板之间的距离)来将面部分群成已知及未知用户的群组且稍后帮助指派标记以用于第二分类步骤。另外，还可使用其它视觉提示(可包含但不限于主体身高、发型及发色以及显著身体特性)来帮助执行这些分类。

作为又一实例，在一些实施例中，非介入性训练模块114可针对多个不同话音触发并行执行工作流程200的多个实例。举例来说，模块114可针对预定义话音触发“siri”收集话音样本并构建文本相关模型且同时针对预定义话音触发“alexa”收集话音样本并构建文本相关模型。以此方式，模块114可用于同时执行适用于数个不同类型的话音命令与控制系统的非介入性训练。所属领域的技术人员将认识到其它变化、修改及替代方案。

4.实例性计算装置/系统

图3描绘根据一实施例的实例性计算装置/系统300。计算装置/系统300可用于实施图1中所描绘且贯穿本发明所描述的“电子装置”。

如所展示，计算装置/系统300可包含经由总线子系统304与若干个外围装置通信的一或多个处理器302。这些外围装置可包含存储子系统306(包括存储器子系统308及文件存储子系统310)、用户接口输入装置312、用户接口输出装置314及网络接口子系统316。

总线子系统304可提供用于使计算装置/系统300的各种组件及子系统按照预期彼此通信的机制。虽然将总线子系统304示意性地展示为单个总线，但总线子系统的替代实施例可利用多个总线。

网络接口子系统316可用作用于在计算装置/系统300与其它计算装置或网络之间传递数据的接口。网络接口子系统316的实施例可包含有线(例如，同轴、双绞线或光纤以太网)及/或无线(例如，wi-fi、蜂窝式、蓝牙等)接口。

用户接口输入装置312可包含键盘、指向装置(例如，鼠标、轨迹球、触摸垫等)、扫描仪、条形码扫描仪、并入到显示器中的触摸屏、音频输入装置(例如，话音辨识系统、麦克风等)及其它类型的输入装置。一般来说，术语“输入装置”的使用打算包含用于将信息输入到计算装置/系统300中的所有可能类型的装置及机制。

用户接口输出装置314可包含显示子系统、打印机、传真机或非视觉显示器(例如音频输出装置等)。所述显示子系统可为阴极射线管(crt)、平板装置(例如液晶显示器(lcd))或投射装置。一般来说，术语“输出装置”的使用打算包含用于从计算装置/系统300输出信息的所有可能类型的装置及机制。

存储子系统306可包含存储器子系统308及文件/磁盘存储子系统310。子系统308及310表示可存储可提供本文中所描述的各种实施例的功能性的程序代码及/或数据的非暂时性计算机可读存储媒体。

存储器子系统308可包含若干个存储器，包含用于在程序执行期间存储指令及数据的主随机存取存储器(ram)318及其中存储固定指令的只读存储器(rom)320。文件存储子系统310可为程序及数据文件提供持久性(即，非易失性)存储且可包含磁性或固态硬盘驱动器、光学驱动器以及相关联可装卸式媒体(例如，cd-rom、dvd、蓝光(blu-ray)等)、可装卸式基于快闪存储器的驱动器或卡及/或此项技术中已知的其它类型的存储媒体。

应了解，计算装置/系统300是说明性的且具有比计算装置/系统300多或少组件的许多其它配置是可能的。

以上描述图解说明各种实施例以及可如何实施实施例的方面的实例。以上实例及实施例不应被认为是仅有的实施例，且其呈现是为了图解说明由所附权利要求书所界定的本发明的灵活性及优点。举例来说，虽然已关于特定工作流程及步骤描述了特定实施例，但所属领域的技术人员应明了，本发明的范围并不严格限于所描述的工作流程及步骤。被描述为顺序的步骤可并行执行，可改变步骤的次序，且可修改、组合、添加或省略步骤。作为另一实例，虽然已使用硬件与软件的特定组合描述了特定实施例，但应认识到，硬件与软件的其它组合是可能的，且被描述为以软件实施的特定操作也可以硬件来实施，且反之亦然。

因此，应将本说明书及图式视为具有说明性意义而非限制性意义。所属领域的技术人员将明白且可采用其它布置、实施例、实施方案及等效形式，此并不背离所附权利要求书中所陈述的本发明的精神及范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：托德·F·莫泽尔;布莱恩·佩洛姆
技术所有人：感官公司
我是此专利的发明人

上一篇：一种猫头型铁塔中相防鸟隔离栏的制作方法
上一篇：一种空气母线插口装置的制作方法