环境调节的讲话人标识的制作方法

文档序号：11289132阅读：190来源：国知局

背景技术：

计算系统和相关联的网络已经彻底改革了人们工作、游戏、和通信的方式。计算系统现在变得非常丰富，并且采取各种不同的形式，诸如台式计算机、笔记本电脑、智能电话、可穿戴装置等等。计算系统也可以被分布到全球。

计算系统中一个有益的进展在于，这样的系统更能够接收来自用户的话音命令。而且，系统现在能够基于用户的话音认证他或她。为了进行讲话人标识，常规上用户将通过对系统讲某些词组而训练系统。系统将评估那些讲的词组来确定话音的用户特定的唯一特性。这些唯一的用户特定的特性然后可被使用来评估来自相同用户的将来的话音输入，以使得系统可以标识该用户。

训练可能会耗费时间，并且典型地，用户必须训练基于话音输入进行标识的每个系统。而且，训练过程可以是对于每个系统不同的。因此，训练每个系统识别给定的用户可能会花费大量用户时间投资。

这里所要求保护的主题不限于解决任何缺点或仅仅在诸如以上描述的那样的环境中操作的实施例。而是，本背景技术仅仅被提供来举例说明可以实践这里描述的实施例的一个示例性技术。

技术实现要素：

这里描述的至少某些实施例涉及到计算系统的用户身份的计算机化估计。系统估计在计算系统处接收的接收到的用户声音的环境特定的更改。例如，系统可以预期由于放置计算系统的房间或环境造成的或由于用户与计算系统之间的预计的位置关系而造成的某种声音回声或滤波。

系统通过使用对应的依赖用户的音频模型而估计接收到的用户声音是否来自特定的用户。依赖用户的音频模型可被存储在可访问的多系统存储库中，以使得所述方法可以针对给定用户跨多系统的和在用户以前从没有训练识别该用户的系统上执行。这被完成而不论每个系统或许经历了在接收到的用户声音方面的不同的环境调节（例如，回声、滤波、吸收、反射、脉冲响应等等）。这减小或甚至于消除了用户训练系统来识别用户话音的需要，以及允许多系统利用以前的由用户执行的训练。

例如，在这里描述的一个方面，当对应的依赖用户的音频模型受到估计的环境特定的变更的影响时，系统促进制定用户声音的预期的音频模型。系统然后获得将接收到的用户声音与预期的音频模型的制定进行比较的比较结果。系统然后基于比较结果估计对应于依赖用户的音频模型的用户是否与发出用户声音的用户相同。

按照这里描述的另一个方面，系统使得所接收到的用户声音通过估计的环境特定的变更而至少部分被补偿。系统然后活动将操纵的接收到的用户声音与用户的对应的依赖用户的音频模型进行比较的比较结果。系统然后基于比较结果来估计对应于依赖用户的音频模型的用户是否与发出用户声音的用户相同。

本概要既不打算标识所要求保护的主题的关键特征或本质特征，也不打算被使用来帮助确定所要求保护的主题的范围。

附图说明

为了描述可以获得以上阐述的和其他的优点和特征的方式，通过参考附图，将渲染各种实施例的更具体的描述。要理解，这些附图仅仅描绘了样本实施例，并且因此不被认为限制本发明的范围，实施例将通过使用附图以附加特异性和细节进行描述和解释，在图中：

图1抽象地图示了在其中可以利用这里描述的某些实施例的计算系统；

图2图示了用户向计算系统发出用户声音的环境，所述计算系统使用依赖用户的音频模型库来估计用户身份；

图3图示了按照这里描述的第一实施例的用于估计计算系统的用户身份的方法的流程图，其中，依赖用户的音频模型被调节，以便计及环境特定的变更；以及

图4图示了按照这里描述的第二实施例的用于估计计算系统的用户身份的方法的流程图，其中，接收到的用户声音被调节，以便计及环境特定的变更。

具体实施方式

这里描述的至少某些实施例涉及到计算系统的用户身份的计算机化的估计。系统估计在计算系统处接收的接收到的用户声音的环境特定的更改。例如，系统可以预期由于放置计算系统的房间或环境造成的或由于用户与计算系统之间的预计的位置关系而造成的某种声音回声或滤波。

所述系统通过使用对应的依赖用户的音频模型来估计接收到的用户声音是否来自特定用户。依赖用户的音频模型可被存储在可访问的多系统存储库中，以使得所述方法可以针对给定的用户跨多系统和在用户以前从没有训练成识别该用户的系统上执行。这被完成而不论每个系统或许经历了在接收到的用户声音方面的不同的环境调节（例如，回声、滤波、吸收、反射、脉冲响应等等）。这减小或甚至消除了用户训练系统来识别用户话音的需要，并且允许多系统利用以前的由用户执行的训练。

例如，在这里描述的一个方面，当对应的依赖用户的音频模型受到估计的环境特定的变更的影响时，系统促进制定用户声音的预期的音频模型。系统然后获得将接收到的用户声音与预期的音频模型的制定进行比较的比较结果。系统然后基于比较结果来估计对应于依赖用户的音频模型的用户是否与发出用户声音的用户相同。

按照这里描述的另一个方面，系统使得所接收到的用户声音通过估计的环境特定的变更而至少部分被补偿。系统然后获得将所操纵的接收到的用户声音与用户的对应的依赖用户的音频模型进行比较的比较结果。系统然后基于比较结果来估计对应于依赖用户的音频模型的用户是否与发出用户声音的用户相同。

计算系统现在越来越多地采取各种各样的形式。计算系统例如可以是手持式设备、器具、膝上型计算机、台式计算机、大型计算机、分布式计算系统、数据中心、或甚至常规上不被认为是计算系统的装置，诸如可穿戴装置（例如，眼镜、手表、衣服、戒指、项链等等）。在本说明和在权利要求中，术语“计算系统”被广义地定义为包括如下的任何设备或系统（或它们的组合）：其包括至少一个物理的和有形的处理器，以及物理的和有形的能够在其上具有计算机可执行指令的存储器，所述计算机可执行指令可以由处理器执行。存储器可以采取任何形式，以及可以依赖于计算系统的本质和形式。计算系统可以被分布在网络环境内，以及可包括多个组成的计算系统。

如图1所示，计算系统100以其最基本配置典型地包括至少一个硬件处理单元102和存储器104。存储器104可以是物理系统存储器，其可以是易失性、非易失性、或这二者的组合。术语“存储器”在这里也可以用来指非易失性大型存储装置，诸如物理存储介质。如果计算系统是分布式的，则处理、存储器和/或存储能力也可以是分布式的。正如这里使用的，术语“可执行模块”或“可执行部件”可以是指可在计算系统上被执行的软件对象、例程、或方法。这里描述的不同的部件、模块、引擎、和服务可以作为在计算系统上执行的对象或进程（例如，作为分开的线程）被实施。

在下面的描述中，实施例是参照由一个或多个计算系统执行的动作被描述的。如果这样的动作是以软件被实施的，则（执行该动作的相关联的计算系统的）一个或者多个处理器响应于已执行了计算机可执行指令而引导计算系统的操作。例如，这样的计算机可执行指令可以在形成计算机程序产品的一个或多个计算机可读介质上被体现。这样的操作的示例包括对数据的操纵。计算机可执行指令（及操纵的数据）可被存储在计算系统100的存储器104中。计算系统100还可以包含通信信道108，它允许计算系统100通过例如网络110而与其他计算系统通信。

这里描述的实施例可包括或利用专用或通用计算系统，其包括计算机硬件，诸如例如一个或多个处理器和系统存储器，正如下面更详细地讨论的。另外，专用集成电路（asic）也可以用来执行这里描述的功能的某些或所有功能。这里描述的实施例还包括物理的和其他的计算机可读介质，以用于运送或存储计算机可执行指令和/或数据结构。这样的计算机可读介质可以是任何可提供的介质，其可以由通用或专用计算系统访问。存储计算机可执行指令的计算机可读介质是物理存储介质。运送计算机可执行指令的计算机可读介质是传输介质。因此，作为示例，而不是限制，本发明的实施例可包括至少两种不同的计算机可读介质：存储介质和传输介质。

计算机可读存储介质包括ram、rom、eeprom、cd-rom或其他光盘存储装置、磁盘存储或其他磁存储装置、或可被使用来存储以计算机可执行指令或数据结构的形式并且可以被通用或专用计算系统访问的所期望的程序代码器件的任何其他物理的和有形的存储介质。

“网络”被定义为能够在计算系统和/或模块和/或其他电子设备之间输送电子数据的一个或多个数据链路。当信息通过网络或另一通信连接（硬连线、无线、或硬连线或无线的组合）被传送或被提供到计算系统时，计算系统把所述连接适当地看作为传输介质。传输介质可包括网络和/或数据链路，其可用来以计算机可执行指令或数据结构的形式运送所期望的程序代码器件并且可以被通用或专用计算系统访问。以上的组合也应当被包括在计算机可读介质的范围内。

而且，在达到各种计算系统部件后，以计算机可执行指令或数据结构的形式的程序代码器件可以从传输介质自动传送到存储介质（或反之亦然）。例如，通过网络或数据链路被接收的计算机可执行指令或数据结构可被缓存在网络接口模块（“nic”）内的ram中，并且然后最终被传送到计算系统ram和/或计算系统处较不易失性存储介质。因此，应当理解，存储介质可被包括在也（或甚至主要）利用传输介质的计算系统部件中。

计算机可执行指令包括例如指令和数据，其在处理器处被执行时使得通用计算系统、专用计算系统、或专用处理设备执行某种功能或功能组。计算机可执行指令可以是例如二进制文件或甚至是在由处理器直接执行之前经受某种转换（诸如汇编）的指令，诸如中间格式指令，诸如汇编语言，或甚至源代码。虽然本主题是以对于结构特征和/或方法动作特定的语言描述的，但应当理解，在所附权利要求中定义的主题不一定限于是上述的所描述的特征或动作。而是，所描述的特征或动作作为实施权利要求的示例形式被公开。

本领域技术人员将会领会，本发明可以在具有许多类型的计算系统配置的网络计算环境中实践，所述计算系统配置包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持式设备、多处理器系统、基于微处理器的或可编程的消费者电子装置、网络pc、微型计算机、大型计算机、移动电话、pda、寻呼器、路由器、交换机、数据中心、可穿戴装置（诸如，眼镜）等等。本发明也可以在分布式系统环境中被实践，其中，通过网络（经由硬连线的数据链路、无线数据链路、或经由硬连线和无线数据链路的组合）被链接的本地和远端计算系统都执行任务。在分布式系统环境中，程序模块可以位于在本地或远端存储设备中。

图2图示了其中用户201把用户声音202发到计算系统210的环境200。计算系统210然后使用估计模块211来估计用户201是否为特定用户。作为示例，计算系统210可以如上对于图1的计算系统100所描述的那样被构建。在典型的示例中，用户声音可以是用户的话音。然而，用户声音可以替换地是拍手声音或口哨声音。声音或许可以借助于用户能够访问的唯一设备—诸如用户选择的口哨、乐器、或合成器—而被做出。用户可以具有使用设备来做出对于用户而言唯一的声音的唯一的能力。例如，用户可以拥有具有特定音调的萨克斯管，并且吹奏某个复杂的模进（sequence）来标识该用户。

估计模块211估计与计算系统被放置在其中的环境相关联的环境特定的变更221，并且其表示可以在源自用户的用户声音的时间与用户声音被计算系统接收的时间之间出现的变更。这可能依赖于在用户201与计算系统210之间的相对位置，以及或许依赖于由其中存在用户201和计算系统210的环境贡献的回声和滤波。

这些环境特定的变更221可能之前已基于关于不同的用户、或各种各样用户与计算系统的交互的历史数据而被估计过。替换地或另外，环境特定的变更221也可能是基于计算系统210关于其环境所学习的内容，以及在用户与得到用户声音的麦克风之间的估计的混响响应。例如，计算系统221可能能够测量计算系统被放置在其中的房间的尺寸，并且测量该房间中的各种表面的声学反射率。例如，计算系统210可以使用红外、3d视觉、或其他深度传感技术来学习其环境。替换地或另外，环境特定的变更也可能基于接收到用户声音的麦克风响应。替换地或另外，估计可以在使用计算系统时的估计的动态改变中作为因素考虑。例如，在环境特定的变更中可以存在某些预期的变化。例如，设备可以是电话，在这种情形下，接收到的话音信号可以是通过用户使得他的嘴靠近送话口的，或离几英尺（可能是处在扬声电话设置时的情形）。

为了估计用户201是否为特定用户，计算系统210也可以至少间接地使用候选用户的依赖用户的音频模型。例如，环境200包括音频模型库230，在其中放置了许多依赖用户的音频模型。例如，库230被图示为包括三个依赖用户的音频模型231、232和233。然而，椭圆234表示在库230内可以存在任何数目的依赖用户的音频模型，这甚至是数千、数百万、或者甚至数十亿的。依赖用户的音频模型可包括当用户在声音清晰的环境中重复某个词汇时预期的声音，在该环境中，环境本身不贡献混响、回声、或其他声音降级。

库230被保持在多系统存储库240中，它可以由计算系统210以及如由椭圆220表示的至少一个其他的（以及潜在地许多其他的）计算系统210访问。作为示例，多系统存储库240可以是存储域网络、服务器系统、多服务器系统、或甚至是云计算环境（诸如私有云、公共云、或混合云）。

在任何情形下，计算系统210通过使用估计的环境特定的变更221，以及还至少间接地使用被存储在多系统存储库240中的相关联的一个或多个依赖用户的音频模型而估计计算系统的用户身份。本描述将描述对于这可以如何被完成的两个主要的实施例—一个相对于图3描述，而一个相对于图4描述。这两个实施例在补偿环境特定的变更后执行接收到的用户声音与用户特定的音频模型的比较。然而，在图3的情形下，用户特定的音频模型在做出比较之前由环境特定的变更进行补偿。在图4的情形下，接收到的用户声音在做出比较之前由环境特定的变更进行补偿。当模型被存储时，可以应用环境特定的变更。例如，用户特定的音频模型可被下载到特定的计算系统环境。环境特定的变更然后可以被应用到和被保存到计算系统。这节省了在该特定的环境下计算系统为将来的比较所花费的运行时间。

为了在做出用户201是否为特定用户201时帮助估计模块211，还提供了制定模块241和比较模块242。制定模块241和比较模块242的操作将在下面进一步描述。制定模块241可以是计算系统210的一部分。替换地，制定模块241可以远离计算系统210，或以其他方式是在计算系统外部（例如，在云计算环境中）操作的。制定模块241还可以被分布在计算系统210与一个或多个外部计算系统之间。比较模块242也可以是计算系统210的一部分。替换地，比较模块242可以远离计算系统210，或以其他方式是在计算系统外部（例如，在云计算环境中）操作的。比较模块242还可以被分布在计算系统210与一个或多个外部计算系统之间。

图3图示了按照这里描述的第一实施例的用于估计计算系统的用户身份的方法300的流程图。图3的方法可以在图2的环境200中由估计模块211执行。因此，现在频繁参照图2的环境200描述图3的方法300。

与环境相关联的环境特定的变更被估计（动作301）。如前所述，这些环境特定的变更221可以是之前基于关于计算系统与不同的用户或各种各样的用户的互动的历史数据被估计的，或可以是基于计算系统210通过各种传感器关于其环境所学习到的，和/或可以是基于接收到用户声音的麦克风响应的。例如，这些环境特定的变更可以被表示为频率响应。

按照这里描述的第一方面，当对应的依赖用户的音频模型受到估计的环境特定的变更时，估计模块211然后促进制定用户声音的预期的音频模型（动作302）。例如，计算系统210可以本身访问来自库230的对应于候选用户的依赖用户的音频模型。计算系统210然后可以把依赖用户的音频模型与估计的环境特定的变更进行卷积（或把任何数学和/或逻辑运算应用到模型和变更项），以获得对于环境和对于候选用户特定的预期的音频模型。而且，单个计算系统可以可选地访问在这种情形下其可能选择应用的多个可能的环境特定的变更。例如，计算系统可以基于用户的位置、与其他用户的房间的拥挤度、湿度、检测的障碍物、或可能影响环境特定的变更的其他因素而选择不同的变更。

替换地，计算系统210可以向制定模块241委任这个预期的音频模型的制定。在这种情形下，计算系统210可以向制定模块241提供或标识估计的环境特定的变更221，以使得制定模块241然后可以执行卷积，以便制定对于在环境中的候选用户的预期的音频模型。

计算系统210的估计模块211然后获得将接收到的用户声音与预期的音频模型的制定相比较的比较结果（动作303）。例如，计算系统210本身可以执行接收到的用户声音与预期的音频模型的制定的比较。为了做到这一点，计算系统210将能够访问预期的音频模型的制定。如果预期的音频模型的制定由计算系统210执行，则这将不涉及大量数据传送。如果预期的音频模型的制定由制定模块241执行，则计算系统210将从制定模块241检索所制定的预期的音频模型。

另一方面，比较可以由比较模块242执行。在这种情形下，计算系统210可以把接收到的用户声音提供到比较模块242作为比较的一点。作为比较的第二点，比较模块242还获得预期的音频模型的制定（如果制定是由计算系统210执行的则来自计算系统210，或者如果制定是由制定模块241执行的则来自制定模块241）。估计模块211然后获得来自比较模块242的比较结果。例如，在一个实施例中，估计模块211可以仅接收比较排名。

估计模块211然后基于比较结果来估计对应于依赖用户的音频模型的用户是否与发出用户声音的用户相同（动作304）。作为一个示例，这可以仅确定比较排名是否在预定的阈值以上。在某些实施例中，预定的阈值可以向上或向下调节，以由此将比较的容忍度调节为更严格或更宽松的。例如，如果环境是安全的以使得用户的适当标识是必要的，则预定的阈值可以向上调节，因为误报的确定该环境下比起漏报的确定有害得多。另一方面，如果适当的标识更多是为了方便性，则预定的阈值可以向下调节，以由此允许某些误报。

方法300可以对于多个潜在的候选用户重复进行，直至找到可接受的或最好的匹配为止。而且，方法300可以由计算系统210对于不同的用户执行。

图4图示了按照这里描述的第二实施例的用于估计计算系统的用户身份的方法的流程图。再次地，方法400从估计在计算系统处接收的接收到的用户声音的环境特定的变更开始（动作401）。例如，动作401可以基本上如以上对于动作301描述的那样被完成。

估计模块211然后使得接收到的用户声音至少部分被估计的环境特定的变更补偿（动作402）。例如，估计模块211可以把接收到的用户声音与估计的环境特定的变更进行卷积，以由此获得接收到的用户声音像当从用户第一次发出时发声那样的估计。

估计模块241然后获得将操纵的接收到的用户声音与用户的依赖用户的音频模型进行比较的比较结果（动作403）。例如，在图2中，比较模块242（或计算系统210本身）可以从库230获得对应于候选用户的依赖用户的音频模块，并且把它与操纵的接收到的用户声音进行比较。再次地，结果可以是比较排名。

估计模块然后基于比较结果来估计对应于依赖用户的音频模型的用户是否与发出用户声音的用户是相同的（动作404）。再次地，这可以通过把比较排名与预定的阈值进行比较而被执行。再一次地，方法400可以对于单个接收到的用户声音对多个候选用户重复进行，或可以重复进行以由此标识计算系统的不同用户。

因此，这里描述的原理允许在用户训练系统识别他们的话音以执行讲话人标识方面的显著可移植性。在一个系统上执行的训练可被转移到另一个系统，而用户不必学习训练新系统的不同方式，以及不用投资时间训练。在某些环境下，用户特定的音频模型可以基于现有历史被描述，所述现有历史诸如电话会议，在其中用户与麦克风之间的相对位置是已知的。随着时间消逝，依赖用户的音频模型可以被细化为用户的附加样本话音在各种位置被接收和估计。而且，每一次如果用户的话音改变，则机器更可能得到慢的话音改变，并且随之调节依赖用户的音频模型。

本发明可以以其他具体形式被体现，而不背离本发明的精神或基本特性。所描述的实施例在所有方面被看作为仅仅是说明性的而并不是限制性的。因此，本发明的范围仅仅由所附权利要求指示，而不是由上述的描述指示。在权利要求的等价性的意义和范围内作出的所有的改变被认为是在其范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：A.W.罗维特
技术所有人：微软技术许可有限责任公司
我是此专利的发明人

上一篇：一种智能车载终端及其省电省流量的方法与流程
上一篇：音视频会议系统的混音方法、装置及系统与流程