基于神经网络的语音处理的制作方法

文档序号：11451702阅读：426来源：国知局

背景技术：

计算机系统当前广泛使用。一些这样的计算机系统接收音频输入信号并执行语音处理以生成语音处理结果。

通过示例的方式，一些语音处理系统包括语音识别系统，其接收音频信号，并且通常识别音频信号中的语音并将语音转录成文本。它们还可以包括接收音频信号并对信号的各种特性(诸如说话者者身份、主题、情绪等)编制索引的音频索引系统。语音系统还可以包括语音理解(或自然语言理解)系统，其接收音频信号、识别信号中的语音、以及识别该语音的内容的解释。语音系统还可以包括说话者识别系统。这样的系统接收音频输入流并标识在音频流中说话的各个说话者。经常被执行的另一功能是说话者分割和跟踪，也称为说话者分类(speakerdiarization)。说话者分类是根据说话者身份将输入音频流划分成同质分段的过程。它使用了说话者分割和说话者聚类的组合。说话者分割在音频流中找到说话者变化点，并且说话者聚集基于说话者特征将语音分段分组在一起。

通过示例的方式，为了各种目的，包含多个说话者的音频流通常被划分成仅包含单个说话者的分段，并且来自相同说话者的非连续分段被共同索引。说话者识别系统被用于将音频的说话者同质的部分与说话者模型匹配。音频索引系统实现通过说话者身份对会议记录(或其它多说话者记录)的部分的检索。语音识别系统可以使用该信息适应于特定说话者的特性。自动转录系统可以使用该信息以将该转录的某些部分归因于适当的说话者，并且语音理解系统可以用于基于说出话语的说话者的身份来解释该话语的含义。

在执行这些类型的语音处理任务中，语音系统必须在给定说话者的语音内适应相对高程度的可变性。此外，语音信号通常可能由外部因素而导致失真，外部因素诸如背景噪声和混响、以及室内声学等。这可能增加在对音频样本进行比较以用于评估说话者身份中的困难。

当前的说话者分类系统从音频流中提取固定的、人为设计的特征集(其通常可以是mel倒谱或mfcc特征等)，针对音频的分段来训练高斯混合模型，并且然后将根据分段的相关联的高斯分布的相似性来对它们进行聚类。因此，说话者相似性基于潜在的预定特征的相似性被间接地测量。

上面的讨论仅仅被提供用于一般背景信息，并且不旨在用作确定所要求保护的主题的范围中的辅助。

技术实现要素：

获得表示语音的特征向量对。一些对表示来自相同说话者的两个语音样本，并且其他对表示来自不同说话者的两个语音样本。神经网络利用彼此关联的两个向量的输入上的权重矩阵，将样本对中的每个特征向量馈送到单独的瓶颈层中。该神经网络使用特征向量被训练以执行指定的函数，并且在训练之后，来自关联的权重矩阵的权重被提取以供在针对语音系统生成特征中使用。

提供本发明内容以便以简化形式介绍将在以下详细描述中进一步描述的概念的选集。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用作在确定所要求保护的主题的范围中的辅助。所要求保护的主题不限于解决背景技术中提到的任何或所有缺点的实现。

附图说明

图1是语音处理架构的一个示例的框图。

图2是更详细地示出采样和特征提取系统(图1所示)的一个示例的框图。

图3是更详细地示出神经网络训练系统(图1所示)的一个示例的框图。

图4是示出训练系统(图1所示)的操作的一个示例的流程图。

图5是使用导出特征的语音处理系统的一个示例的框图。

图6是示出在执行语音处理中的图5所示的系统的操作的一个示例的流程图。

图7是云计算架构的一个示例的框图。

图8是计算环境的一个示例的框图。

具体实施方式

图1是语音处理架构100的一个示例的框图。架构100说明性地包括训练系统102和运行时特征生成系统104。训练系统102说明性地包括采样和特征提取系统106、处理器107和神经网络训练系统108。运行时特征生成系统说明性地包括采样特征提取系统110(其可以与系统106相同或不同)、处理器111(其可以与处理器107相同或不同)以及变换系统112。运行时特征生成系统还可以包括特征组合系统114和其他特征生成系统116。

在更详细地描述架构100的操作之前，将首先提供架构100中的项目中的一些项目的简要概述及它们的操作。采样和提取系统106说明性地接收训练音频流118并且对流118中的音频信息进行采样，并且提取针对样本中的每个样本的特征向量。其说明性地输出特征向量120，特征向量120可以说明性地是mel频率倒谱系数(mfcc)向量等。那些特征向量被说明性地提供给神经网络训练系统108，神经网络训练系统108训练神经网络(下面参考图3更详细地描述其中的一个示例)，并且从神经网络的输入和神经网络的第一瓶颈层之间的权重矩阵提取经训练的权重122。那些经训练的权重然后被提供给运行时特征生成系统104，其中它们可以被用于生成能够在运行时语音处理期间被使用的各种不同的特征集。

在运行时期间，运行时特征生成系统104说明性地接收未见数据124。采样和特征提取系统110说明性地从未见数据124采样和提取特征。特征由用于未见数据的特征向量126表示。在一个示例中，由神经网络训练系统108输出的经训练的权重122被提供给变换系统112。它们被用于变换未见数据126的特征向量以获得导出特征128。导出特征128可以由它们自己或与其他特征一起用于语音处理中。例如，除了特征向量126之外，它们可以被使用。它们还可以被提供给特征向量组合系统114，其中它们被用于生成特征130的加权组合，特征130表示导出特征128和特征向量126中的特征的加权组合。特征130还可以说明性地表示由导出特征128加权的特征向量126等。

运行时特征生成系统104还可以使用其它特征生成系统116生成其他特征132。下面更详细地描述其他特征中的一些特征。

图2是更详细地示出采样和特征提取系统106的一个示例的框图。图2所示的示例示出采样和特征提取系统106说明性地包括语音采样系统134和特征提取组件136。语音采样系统134说明性地采样训练音频流128中的语音的窗口，训练音频流128可以表示来自已知说话者的语音信号。系统134说明性地生成来自不同说话者的样本对136和来自相同说话者的样本对138。在一个示例中，样本136和138以近似相同的比例被输出。当然，这仅是一个例子。

特征提取组件136然后从样本对136和138提取特征(被表示在特征向量120中)。特征向量120说明性地包括特征向量142和特征向量144，特征向量142对应于来自不同说话者的样本对138，特征向量144对应于来自相同说话者的样本对140。特征向量142和144的对可以包括例如相邻语音帧的级联mfcc特征向量或其他特征向量。

应当理解，处理也可以以其他顺序发生。例如，特征向量可以在信号被彼此配对之前被提取。然后特征向量而非音频信号可以如所描述的那样被配对。该描述仅作为示例被提供。

图3是更详细地示出神经网络训练系统108的一个示例的框图。神经网络训练系统108说明性地包括神经网络150、训练组件152、权重提取组件154，并且其还可以包括其他项目156。经训练的神经网络150说明性地具有接收针对给定特征向量对的第一样本的输入特征向量160和针对给定特征向量对中的第二样本的输入特征向量162的架构。特征向量160和162说明性地构成来自不同说话者的特征向量142或来自相同说话者的特征向量144(图2所示)的对。每个样本特征向量160和162通过权重矩阵168分别提供给神经网络150中的单独的瓶颈层164和166。瓶颈层164和166操作为神经网络150中的降维层，并且各自包括节点b1-bn的集合。在输入160和162和瓶颈层164和166的节点之间的连接上的自适应权重说明性地彼此关联。因此，例如，在输入特征向量160和瓶颈层164中的节点b1之间的连接上的权重w1说明性地与在输入特征向量162和瓶颈层中的节点b1之间的连接上的权重w1关联。权重矩阵168中的权重w2-wn说明性地以相同的方式关联。

瓶颈层164和166的输出说明性地被提供给神经网络150中的一组附加隐藏层168。每个隐藏层168说明性地包括其自己的节点集(示为节点h1-hm)。隐藏层168最终馈入包括相同节点172和不同节点174的一组输出节点170。节点172和174对从其获得输入160和162的说话者是相同的说话者还是不同的说话者进行编码。

图4是示出在训练神经网络150以生成经训练的权重122中的训练系统102的操作的一个示例的流程图。现在结合彼此来描述图1-4。

训练系统102首先从已知说话者接收表示语音信号的训练音频流118(或其他训练数据流)。这由图4中的框180指示。然后语音采样系统134从接收到的信号生成采样窗口的对。这由框182指示。这些对说明性地包括来自相同说话者的对138和来自不同说话者的对140。如上所述，作为示例，这些可以以大致相等的比例被提供。

特征提取组件136然后为每个样本对生成相邻帧的特征向量。这由框184指示。特征向量可以是各种其它特征190中的mel倒谱特征186(mfcc)、线性预测倒谱系数(lpcc)187。

然后，神经网络训练系统108中的训练组件152基于对应于那些样本的已知说话者，通过迫使人工神经网络(ann)150将样本对分类为来自相同或不同的说话者，来训练人工神经网络(ann)150。这由框186指示。在一个示例中，训练组件152通过在彼此关联的两个向量160-162的输入上的权重矩阵168将样本对中的每个向量160-162馈送到单独的瓶颈层164和166中。这由图4中的框189指示。

神经网络150还说明性地将两个瓶颈层164和166的输出馈送到神经网络中的一组隐藏层168，其最终馈送到输出节点170中，输出节点170对从其获得输入向量的说话者相同还是不同进行编码。这由框191指示。

在图3所示的示例中，训练组件152通过将特征向量对(针对相同和不同的说话者)馈送到神经网络150中来说明性地继续训练，直到神经网络学习达到期望的阈值。这由框192指示。例如，训练组件152说明性地使用输出的目标函数并且训练神经网络中的权重来优化目标函数。组件152可以训练神经网络150，直到学习不再改善，或直到改善低于给定阈值。使用用于修改权重以优化目标函数的过程由框194指示。目标函数可以是各种目标函数中的任一目标函数。例如，它可以是二元或离散分类器的目标函数等。继续训练直到学习达到期望的阈值也可以以其它方式被完成，并且这由框196指示。

训练组件152最终确定训练完成。这由图2中的框198指示。当训练完成时，权重提取组件154从将输入160-162连接到瓶颈层164-166的关联的权重矩阵168提取权重w1-wn。提取权重由图4的流程图中的框200指示。这些权重说明性地包括经训练的权重122。它们被存储或以其它方式输出以供在各种不同的语音处理系统中生成特征中使用。这由框202指示。

图5是运行时架构220的一个示例的框图。运行时架构220说明性地从运行时特征生成系统104接收各种不同的特征向量222。它将它们提供给语音处理系统224，其由一个或多个用户225使用。语音处理系统224可以包括处理器或编码器227，并且它还可以是各种不同类型的语音处理系统，其执行各种不同类型的语音处理。例如，它可以是说话者识别系统、以及音频索引系统、语音识别系统、自动转录系统、语音理解系统等。

系统224接收从运行时数据提取或导出的运行时特征222，并且生成语音处理结果226。例如，当语音处理系统224是说话者识别系统时，语音处理结果226可以在接收到的运行时数据中标识与不同说话者匹配的、音频的不同相干部分。在它是音频索引系统的情况下，其根据说话者身份对语音编制索引，使得以后其能够被检索。在它是语音识别系统的情况下，其适应于从训练过程导出的语音的特定特性以识别语音。在它是自动转录系统的情况下，语音处理结果226将转录部分归因于适当的说话者。在它是语音理解系统的情况下，语音处理结果226基于谁说出话语来提供该话语的经解释的含义。这些当然仅是示例。

在任何情况下，由语音处理系统224接收到的向量222可以包括针对未见数据的相同类型的特征向量，如关于图1被描述为特征向量126。它们还可以包括也在上面描述的导出特征128。此外，它们可以包括特征138的加权组合，或者它们可以包括各种其他特征132。

其他特征132可以是指示信号被收集的房间的声学的特征。特征132可以是指示声音方向的特征。它们可以是从不同种类的背景噪声或背景噪声源获得的特征。它们也可以是多模态特征。例如，在语音检测系统包括相机的情况下，多模态特征可以是从指示给定说话者的嘴唇是否正在移动、给定说话者是否正面向麦克风等视觉信息导出的特征。

图6是示出架构220的操作的一个示例的流程图。架构220首先接收未见语音数据。这由图2中的框240指示。然后，其生成帧并提取与语音数据的帧相对应的特征。这由框242和244指示。再次，特征向量可以包括mel尺度倒谱特征(mfcc)246、lpcc特征248、或各种其它声学或非声学特征250。

系统224然后使用变换系统112(上文关于图1所描述的)以使用来自关联的权重矩阵的权重来变换所提取的特征126，以获得导出特征128。这由图2中的框252指示。如框252所示，导出特征128可以被输出到语音处理系统224。它们可以被用于执行说话者识别254、音频编制索引256、语音识别258、自动转录260、语音理解262或各种其它语音处理264。使用特征来执行上文所论述的语音处理由框266指示。

在这样做时，如框268所示，系统224可以单独使用导出特征128。它可以结合所提取的特征向量126来使用导出特征128。这由框270指示。它可以组合特征以获得特征126和128的加权组合。例如，通过形成来自两个特征流的高斯似然(如在聚类中使用的)的加权组合，特征向量126可以与新导出的特征128组合。加权组合由框130指示。如框272所示，其可以将特征与其他特征132组合。当然，其也可以以其它方式274使用特征。语音处理系统224最终输出语音处理结果226。这由框276指示。

在进行描述之前，应注意许多事情。首先要注意的是，本讨论已经进行了关于通过修改权重以优化输出的目标函数来训练神经网络150，以识别来自相同说话者或不同说话者的语音，并且然后从关联的权重矩阵168中提取输入权重来训练神经网络150以供在生成导出特征128中使用。然而，本系统也可以以各种其它方式被使用。例如，取代于训练神经网络150以识别输入向量对是来自相同说话者还是不同说话者，其还可以被训练以识别非声学输入特征对应于给定说话者的嘴唇移动还是不移动。它可以被训练以识别特征对对应于噪声还是语音。它可以被训练以分离不同种类的背景噪声。因此，从关联的权重矩阵168中提取的权重可以被用在各种不同类型的系统中，而不仅仅是用于识别语音来自相同说话者还是不同说话者的系统。这些仅是示例。

另外，应当注意，特征可以连续地适于更精确地标识给定说话者。例如，在其中可能存在相同人的会议的应用中，那些人可以被相对频繁地识别，并且导出特征可以从初始会议被生成，并且使用来自稍后会议的语音数据被适配，以提高说话者分类(或其他)系统的准确度。这些类型的适配提供显著提高的准确度。

因此可以看出，本说明书提供了各种技术优点。它提供了用于导出新特征的方式，该新特征被区别性地训练以便增强说话者区别和忽略与说话者身份无关的混杂因素(诸如语音内容、由于环境或编码信道等引起的噪声和失真等)两者。在一个示例中，这通过训练神经网络以对具有已知说话者身份的数据集执行相同/不同的说话者分类任务来被实现。网络采用使用特征作为输入而编码的语音样本，并且被迫通过瓶颈隐藏层来表示它们。从输入到瓶颈层的映射可以被应用于未见测试数据，以计算可以单独使用或与其他特征结合使用以执行聚类或分类过程的新特征向量。

这在网络中产生有用的特征表示，并且它可以与说话者分类聚类算法或各种其他系统结合使用。这些特征可以与其他聚类或建模系统结合使用，并且它们提高了那些系统的准确性。特别地，它们可以增强将说话者分类系统定制到代表给定应用的训练数据主体的能力。这只是一个例子。

本讨论已经提到了处理器和服务器。在一个实施例中，处理器和服务器包括具有相关联的存储器和定时电路的计算机处理器，存储器和定时电路未单独示出。它们是它们所属的并且由其激活的系统或设备的功能部分，并且促进那些系统中的其他组件或项目的功能。

此外，已经讨论了多个用户界面显示器或用户界面。它们可以采取各种不同形式，并且可以具有设置在其上的各种不同的用户可致动输入机构。例如，用户可致动输入机构可以是文本框、复选框、图标、链接、下拉菜单、搜索框等。它们还可以以各种不同方式被致动。例如，它们可以使用点击设备(诸如跟踪球或鼠标)被致动。它们可以使用硬件按钮、开关、操纵杆或键盘、拇指开关或拇指垫等被致动。它们也可以使用虚拟键盘或其他虚拟致动器被致动。此外，在它们被显示于其上的屏幕是触敏屏幕的情况下，它们可以使用触摸手势被致动。此外，在显示它们的设备具有语音识别组件的情况下，它们可以使用语音命令被致动。

还已经讨论了多个数据存储库。将注意到它们可以被分解成多个数据存储库。所有数据存储库可以在访问它们的系统的本地，所有数据存储库可以是远程的，或者一些数据存储库可以是本地的而其他数据存储库是远程的。本文中预期这些配置中的所有配置。

此外，附图示出了具有归属于每个框的功能的多个框。应当注意，可以使用更少的框，因此由更少的组件来执行功能。此外，更多的框可以与分布在更多组件之间的功能一起被使用。

图7是图1和图5所示的架构100和220的框图，除了这些元件被设置在云计算架构500中之外。云计算提供计算、软件、数据访问和存储服务，它们不需要终端用户知晓交付这些服务的系统的物理位置或配置。在各种实施例中，云计算使用适当的协议通过广域网(诸如因特网)交付服务。例如，云计算提供商通过广域网交付应用，并且它们可以通过web浏览器或任何其他计算组件被访问。架构100和220的软件或组件以及相应的数据可以被存储在远程位置处的服务器上。云计算环境中的计算资源可以在远程数据中心位置处被合并或者它们可以被分散。云计算基础设施可以通过共享数据中心交付服务，即使它们表现为针对用户的单一访问点。因此，可以使用云计算架构从远程位置处的服务提供商提供本文所描述的组件和功能。备选地，它们可以从常规服务器被提供，或者它们可以直接或以其他方式被安装在客户端设备上。

本说明书旨在包括公共云计算和私有云计算两者。云计算(公共和私有两者)提供了基本上无缝的资源池，以及用于管理和配置底层硬件基础设施的减少的需求。

公共云由供应商管理并且通常支持使用相同基础设施的多个消费者。此外，与私有云相反，公共云可以使终端用户免于管理硬件。私有云可以由组织本身管理，并且基础设施通常不与其他组织共享。组织仍然在一定程度上维护硬件，诸如安装和维修等。

在图7所示的示例中，一些项目类似于图1和图5中所示的项目，并且它们被类似地编号。图7具体地示出了一些项目可以位于云502中(其可以是公共的、私有的或其中部分是公共的而其他部分是私有的)。因此，用户225通过使用诸如用户界面显示器、麦克风等用户输入机构505来使用用户设备504，以通过云502来访问那些系统。

图7还描绘了云架构的另一示例。图7示出了还可以预期架构100和220中的一些元件可以被设置在云502中而其他元件不被设置在云502中。通过示例的方式，训练系统102(或其部分)可以被设置在云502的外部，并且通过云502被访问。在另一个示例中，语音处理系统224在云502的外部。无论它们位于何处，它们可以由设备504通过网络(广域网或局域网)直接访问，它们可以被服务托管在远程站点处，或者它们可以通过云被提供为服务或由驻留在云中的连接服务访问。本文中预期这些架构中的所有架构。

还将注意到，架构100或220或它们的部分可以被设置在各种不同设备上。这些设备中的一些设备包括服务器、台式计算机、膝上型计算机、平板计算机或其他移动设备，诸如掌上计算机、蜂窝电话、智能电话、多媒体播放器、个人数字助理等。

图8是其中可以部署架构100或220或它们的部分(例如)的计算环境的一个实施例。参考图8，用于实现一些实施例的示例系统包括计算机810形式的通用计算设备。计算机810的组件可以包括但不限于处理单元820(其可以包括处理器107或111)、系统存储器830和系统总线821，系统总线821将包括系统存储器的各种系统组件耦合到处理单元820。系统总线821可以是若干类型的总线结构中的任一种，总线结构包括存储器总线或存储器控制器、外围总线、以及使用各种总线架构中的任一种的局部总线。通过示例而非限制的方式，这样的架构包括工业标准架构(isa)总线、微通道架构(mca)总线、增强型isa(eisa)总线、视频电子标准协会(vesa)局部总线、以及外围部件互连pci)总线也称为夹层总线。关于图1-5描述的存储器和程序可以被部署在图8的相应部分中。

计算机810通常包括各种计算机可读介质。计算机可读介质可以是可由计算机810访问的任何可用介质，并且包括易失性和非易失性介质、可拆卸和不可拆卸介质。通过示例而非限制的方式，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质不同于并且不包括经调制的数据信号或载波。其包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的硬件存储介质，包括易失性和非易失性、可拆卸和不可拆卸介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁带盒、磁带、磁盘存储或其他磁性存储设备，或可用于存储所期望的信息并且可由计算机810访问的任何其它介质。通信介质通常在传输机制中体现计算机可读指令、数据结构、程序模块或其他数据，并且包括任何信息传递介质。术语“经调制的数据信号”意指使其特性中的一个或多个特性以在信号中编码信息的方式被设置或改变的信号。通过示例而非限制的方式，通信介质包括诸如有线网络或直接有线连接的有线介质，以及诸如声学、rf、红外和其他无线介质的无线介质。上述的任意组合也应包括在计算机可读介质的范围内。

系统存储器830包括易失性和/或非易失性存储器形式的计算机存储介质，诸如只读存储器(rom)831和随机存取存储器(ram)832。基本输入/输出系统833(bios)通常被存储在rom831中，其包含诸如在启动期间帮助在计算机810内的元件之间传送信息的基本例程。ram832通常包含可立即访问和/或当前正由处理单元820对其操作的数据和/或程序模块。通过示例而非限制的方式，图8示出了操作系统834、应用程序835、其他程序模块836和程序数据837。

计算机810还可以包括其他可拆卸/不可拆卸的易失性/非易失性计算机存储介质。仅通过示例的方式，图8示出从不可拆卸、非易失性磁介质读取或向其写入的硬盘驱动器841，以及从诸如cdrom或其他光学介质的可拆卸、非易失性光盘856读取或向其写入的光盘驱动器855。可以在说明性操作环境中使用的其他可拆卸/不可拆卸、易失性/非易失性计算机存储介质包括但不限于，磁带盒、闪存卡、数字多功能盘、数字视频带、固态ram、固态rom等。硬盘驱动器841通常通过诸如接口840的不可拆卸存储器接口连接到系统总线821，并且光盘驱动器855通常通过诸如接口850的可拆卸存储器接口连接到系统总线821。

备选地或附加地，本文所描述的功能可以至少部分地由一个或多个硬件逻辑组件执行。例如但不限于，可以使用的硬件逻辑组件的说明性类型包括现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑器件(cpld)等。

以上讨论并在图8中示出的驱动器及其相关联的计算机存储介质为计算机810提供计算机可读指令、数据结构、程序模块和其他数据的存储。在图8中，例如，硬盘驱动器841被示为存储操作系统844、应用程序845、其他程序模块846和程序数据847。注意，这些组件可以与操作系统834、应用程序835、其他程序模块836和程序数据837相同或不同。这里操作系统844、应用程序845、其他程序模块846和程序数据847被给予不同的数字以说明最少它们是不同的副本。

用户可以通过诸如键盘862、麦克风863和定点设备861(诸如鼠标、轨迹球或触摸板)的输入设备将命令和信息输入到计算机810中。其他输入设备(未示出)可以包括操纵杆、游戏板、卫星天线、扫描仪等。这些和其他输入设备通常通过耦合到系统总线的用户输入接口860被连接到处理单元820，但是可以通过其他接口和总线结构被连接，诸如并行端口、游戏端口或通用串行总线(usb)。视觉显示器891或其它类型的显示设备也经由诸如视频接口890的接口被连接到系统总线821。除了监视器之外，计算机还可以包括其它外围输出设备，诸如扬声器897和打印机896，其可以通过输出外围接口895被连接。

计算机810使用到一个或多个远程计算机(诸如远程计算机880)的逻辑连接在联网环境中被操作。远程计算机880可以是个人计算机、手持设备、服务器、路由器、网络pc、对等设备或其他公共网络节点，并且通常包括相对于计算机810的上面所描述的许多或所有元件。图8中描绘的说明性计算系统包括局域网(lan)871和广域网(wan)873，但是也可以包括其他网络。这样的联网环境在办公室、企业范围的计算机网络、内联网和因特网中是常见的。

当在lan联网环境中被使用时，计算机810通过网络接口或适配器870被连接到lan871。当在wan联网环境中被使用时，计算机810通常包括调制解调器872或用于在wan873上建立通信的其他装置，诸如因特网。可以是内部或外部的调制解调器872可以经由用户输入接口860或其他适当的机制被连接到系统总线821。在联网环境中，相对于计算机810所描绘的程序模块或其部分可以被存储在远程存储器存储设备中。通过示例而非限制的方式，图8示出了驻留在远程计算机880上的远程应用程序885。应当理解，所示的网络连接是示例性的，并且在计算机之间建立通信链路的其他装置可以被使用。

还应当注意，本文描述的不同实施例可以以不同的方式被组合。也就是说，一个或多个实施例的部分可以与一个或多个其他实施例的部分组合。例如，在以下段落中讨论的示例可以被组合在示例的任何组合中。所有这些都在本文中被预期。

示例1是一种计算系统，包括：

特征提取系统，被配置为从语音训练数据提取(或装置用于提取)训练特征集并且生成来自相同音频源的特征向量对和来自不同特征源的特征向量对；以及

神经网络训练系统，被配置为接收(或装置用于接收)特征向量对并且通过经由权重矩阵将所述特征向量对应用于神经网络的输入节点层来训练神经网络，基于指示特征向量对来自相同音频源还是不同音频源的网络输出的目标函数来修改权重矩阵，以及从权重矩阵中提取权重并且向音频处理系统提供权重。

示例2是任何或所有先前示例的计算系统，其中特征提取系统被配置为从已知说话者的语音提取特征向量对作为特征向量。

示例3是任何或所有先前示例的计算系统，其中特征提取系统被配置为生成特征向量对作为来自相同说话者的特征向量对和来自不同说话者的特征向量对。

示例4是任何或所有先前示例的计算系统，其中神经网络的输入节点层包括：

具有一组节点的第一瓶颈层(装置)；以及

具有一组节点的第二瓶颈层(装置)。

示例5是任何或所有先前示例的计算系统，其中权重矩阵将输入上的权重与第一瓶颈层和第二瓶颈层的对应节点关联在一起。

示例6是任何或所有先前示例的计算系统，其中神经网络训练系统包括：

训练组件，其通过将特征向量对中的每一对的第一特征向量经由权重矩阵馈送到第一瓶颈层的节点中，并且将特征向量对中的每一对的第二特征向量经由权重矩阵馈送到第二瓶颈层的节点中，来将特征向量对馈送(或装置用于馈送)到神经网络中。

示例7是任何或所有先前示例的计算系统，其中训练组件被配置为基于目标函数，通过迫使神经网络的输出层指示特征向量对从相同说话者还是不同说话者的语音中被获得，来训练神经网络。

示例8是任何或所有先前示例的计算系统，还包括：

特征生成系统，被配置为将所提取的权重应用(或装置用于应用)于从未见语音数据中提取的特征集，以获得导出特征集。

示例9是任何或所有先前示例的计算系统，还包括：

语音处理系统，被配置为在生成对应于未见语音数据的语音处理结果中使用(或装置用于使用)导出特征集。

示例10是一种语音系统，包括：

特征提取器，被配置为接收(或装置用于接收)指示语音信号的语音信号数据并且从语音信号提取特征集；

特征应用系统，被配置为将从神经网络的输入和神经网络的瓶颈层之间的权重矩阵提取的权重集应用(或装置用于应用)于特征集，以将特征集变换成导出特征集；以及

编码器，被配置为基于导出特征集来生成(或装置用于生成)指示语音信号的特性的语音处理结果。

示例11是任何或所有先前示例的语音系统，其中特征应用系统包括：

变换系统，被配置为将权重集应用(或装置用于应用)于特征集，以将特征集变换成导出特征集。

示例12是任何或所有先前示例的语音系统，其中特征应用系统包括：

特征组合系统，被配置为组合(或装置用于组合)导出特征集与特征集以获得特征的加权组合，并且其中编码器被配置为基于特征的加权组合来生成语音处理结果。

示例13是任何或所有先前示例的语音系统，其中语音数据是表示来自多个不同说话者的语音的未见语音数据，并且其中编码器通过基于导出特征集将未见语音数据的部分聚类成簇来生成语音处理结果。

示例14是任何或所有先前示例的语音系统，其中编码器通过基于导出特征集将语音数据归因于不同的说话者来生成语音处理结果。

示例15是任何或所有先前示例的语音系统，其中编码器基于语音数据归因于不同说话者中的哪个说话者来对语音数据编制索引。

示例16是任何或所有先前示例的语音系统，其中编码器基于语音数据归因于多个不同说话者中的哪个说话者来导出语音数据的解释。

示例17是任何或所有先前示例的语音系统，其中编码器基于导出特征集来识别语音数据中的语音。

示例18是一种存储计算机可执行指令的计算机可读存储系统，计算机可执行指令在由计算机执行时使得计算机执行方法，该方法包括：

从表示来自多个不同的已知说话者的语音的语音训练数据中提取(或装置用于提取)训练特征向量集；

生成(或装置用于生成)来自相同说话者的特征向量对和来自不同说话者的特征向量对；

通过经由权重矩阵将训练特征集应用于神经网络的输入节点层，并且基于网络输出的目标函数来修改权重矩阵中的网络权重，来训练(或装置用于训练)神经网络；

从经训练的神经网络的权重矩阵中提取(或装置用于提取)网络权重；以及

向语音处理系统提供(或装置用于提供)权重。

示例19是任何或所有先前示例的计算机可读存储介质，其中训练包括：

通过将特征向量对中的每一对的第一特征向量经由权重矩阵馈送到神经网络中的第一瓶颈层的节点中，并且将特征向量对中的每一对的第二特征向量经由权重矩阵馈送到神经网络中的第二瓶颈层的节点中，来将特征向量对馈送(或装置用于馈送)到神经网络中。

示例20是任何或所有先前示例的计算机可读存储介质，，其中训练包括：

基于目标函数，迫使(或装置用于迫使)神经网络的输出层指示特征向量对从相同说话者还是不同说话者的语音中获得。

尽管已经以特定于结构特征和/或方法动作的语言描述了主题，但是应当理解所附权利要求中限定的主题不一定限于上面描述的具体特征或动作。更确切地，上面描述的具体特征和动作被公开为实现权利要求的示例形式。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：A·施特尔克;M·斯拉尼;S·H·耶拉
技术所有人：微软技术许可有限责任公司
我是此专利的发明人

上一篇：一种高中化学实验用试管刷的制造方法与工艺
上一篇：一种排污管内壁涂装装置的制造方法