多视增强建模及关键词检测的应用的制作方法

文档序号：32489780发布日期：2022-12-10 02:21阅读：39来源：国知局

多视增强建模及关键词检测的应用
相关申请的交叉引用
1.本技术要求于2020年7月6日递交的申请号为16/921,161的美国申请的优先权，该申请的公开内容通过引用整体并入。
技术领域
2.本公开总体上涉及数据处理领域，更具体地，涉及语音识别。

背景技术：

3.随着智能家居、移动设备和汽车设备的激增，基于语音的人机交互变得更加普遍。为了实现解放双手的语音识别体验，系统不断地侦听特定唤醒词(这一过程通常被称为关键词检测(kws，keyword spotting))以启动语音识别。出于隐私考虑，kws的唤醒通常完全发生在具有低占用空间和低功耗要求的设备上。kws系统通常在清晰的语音条件下表现良好。

技术实现要素：

4.实施例涉及一种用于基于关键词检测(kws)来激活语音识别的方法、系统和计算机可读介质。根据一方面，提供了一种用于激活语音识别的方法。方法包括接收对应于一个或多个说话者的波形数据。从接收的波形数据中提取一个或多个方向特征。基于提取的一个或多个特征从所述接收的波形数据中确定一个或多个关键词。基于检测到所确定的关键词来激活语音识别。
5.根据另一方面，提供了一种用于激活语音识别的计算机系统。计算机系统包括一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读有形存储设备、以及存储在所述一个或多个存储设备中的至少一个存储设备上的用于通过所述一个或多个存储器中的至少一个存储器由所述一个或多个处理器中的至少一个处理器执行的程序指令，由此所述计算机系统能够执行方法。方法可以包括接收对应于一个或多个说话者的波形数据。从接收的波形数据中提取一个或多个方向特征。基于提取的一个或多个特征从所述接收的波形数据中确定一个或多个关键词。基于检测到所确定的关键词来激活语音识别。
6.根据另一方面，提供了一种用于激活语音识别的计算机可读介质。计算机可读介质包括一个或多个计算机可读存储设备和存储在一个或多个有形存储设备中的至少一个有形存储设备上的程序指令，程序指令可由处理器执行。程序指令可由处理器执行，用于执行方法，该方法相应地可以包括接收对应于一个或多个说话者的波形数据。从接收的波形数据中提取一个或多个方向特征。基于提取的一个或多个特征从所述接收的波形数据中确定一个或多个关键词。基于检测到所确定的关键词来激活语音识别。
附图说明
7.从下面结合附图阅读的说明性实施例的详细描述中，这些和其他目的、特征和优点将变得显而易见。由于图示是为了便于本领域技术人员结合详细描述进行清楚地理解，因此附图的各特征不是按比例的。在附图中：图1示出了根据至少一个实施例的联网的计算机环境；图2是根据至少一个实施例的用于基于关键词检测来激活语音识别的系统的框图；图3是示出了根据至少一个实施例的由基于关键词检测来激活语音识别的程序执行的步骤的操作流程图；图4是根据至少一个实施例的图1中所描绘的计算机和服务器的内部组件和外部组件的框图；图5是根据至少一个实施例的包括图1中所描绘的计算机系统的说明性云计算环境的框图；以及图6是根据至少一个实施例的图5的说明性云计算环境的功能层的框图。
具体实施方式
8.本文公开了所要求保护的结构和方法的详细实施例。然而，可以理解的是，所公开的实施例仅仅是示出可以以各种形式实施的所要求保护的结构和方法。然而，这些结构和方法可以以许多不同的形式来实施，而不应被理解为仅限于本文所示的示例性实施例。相反，提供这些实施例以使得本公开透彻和完整，且充分地将本发明的范围传达给本领域技术人员。在描述中，众所周知的特征和技术的细节可能被省略以避免不必要地模糊所展示的实施例。
9.实施例总体上涉及数据处理领域，更具体地，涉及语音识别。以下描述的示例性实施例提供了一种系统、方法和计算机程序，以除其他事项外，基于关键词检测来激活语音识别。因此，通过使用来自多个方向的声音样本来训练的模型，允许基于单个kws模型的多视kws建模，一些实施例具有改进计算领域的能力。
10.如前所述，随着智能家居、移动设备和汽车设备的激增，基于语音的人机交互变得更加普遍。为了实现解放双手的语音识别体验，系统不断地侦听特定唤醒词(这一过程通常被称为关键词检测)以启动语音识别。出于隐私考虑，kws的唤醒通常完全发生在具有低占用空间和低功耗要求的设备上。kws系统通常在清晰的语音条件下表现良好。
11.然而，在嘈杂条件下，特别是在多说话人环境中，kws系统的性能可能会显著下降。麦克风阵列可以提供多个记录，该记录包含指示声源的空间来源的信息，可以用于定位声源，然后从目标方向提取声源。然而，由于在实际应用中可能无法获得真实目标说话者的方向的信息，因此在多说话人环境中很难准确估计目标说话者的到达方向(doa，direction of arrival)。因此，增强来自多个采样视向(look direction)的信号，并使能与kws模型进行联合训练，以基于单个kws模型形成完全端到端的多视kws建模，这可能是有利的。
12.参考根据各实施例的方法、装置(系统)和计算机可读介质的流程图图示和/或方框图，本文描述了各方面。可以理解的是，流程图图示和/或方框图的每个方块以及流程图图示和/或方框图中的方块的组合可以通过计算机可读程序指令来实现。
13.以下描述的示例性实施例提供了一种可以使用多视增强网络(mlenet，multi-look enhancement network)以同时增强来自多个视向的声源的系统、方法和计算机程序。方向特征可用于多个视向作为输入特征，以确定说话者并使能mlenet的监督训练。神经网络中的多视增强公式能够允许端到端的训练。
14.现参考图1，联网的计算机环境的功能框图示出了用于检测关键词以激活语音识别的关键词检测系统100(以下称为“系统”)。可以理解的是，图1仅提供了一种实现方式的图示，并不意味着对可以实现不同实施例的环境的任何限制。可以基于设计和实现需求对所描绘的环境进行许多修改。
15.系统100可以包括计算机102和服务器计算机114。计算机102可以通过通信网络110(以下称为“网络”)与服务器计算机114通信。计算机102可以包括处理器104和软件程序108，软件程序108存储在数据存储设备106上，并且能够与用户连接并与服务器计算机114通信。如下文将参考图4的讨论，计算机102可分别包括内部组件800a和外部组件900a，以及服务器计算机114可分别包括内部组件800b和外部组件900b。计算机102可以是例如移动设备、电话、个人数字助理、上网本、膝上型计算机、平板计算机、台式计算机或能够运行程序、访问网络和访问数据库的任何类型的计算设备。
16.如下文关于图6和图7的讨论，服务器计算机114还可以在云计算服务模型(例如，软件即服务(saas)、平台即服务(paas)或基础设施即服务(iaas))中进行操作。服务器计算机114还可以位于云计算部署模型中，例如，私有云、社区云、公有云或混合云。
17.可用于检测关键词以激活语音识别的服务器计算机114被启用以运行可与数据库112交互的关键词检测程序116(以下称为“程序”)。下面根据图3更详细地解释关键词检测程序方法。在一个实施例中，计算机102可以作为包括用户界面的输入设备来进行操作，而程序116可以主要在服务器计算机114上运行。在可选地实施例中，程序116可主要在一个或多个计算机102上运行，而服务器计算机114可用于处理和存储由程序116使用的数据。需要注意的是，程序116可以是独立程序，或者可以集成到较大的关键词检测程序中。
18.然而，需要注意的是，在某些情况下，对程序116的处理可以在计算机102和服务器计算机114之间以任何比例分担。在另一实施例中，程序116可以在多个计算机、服务器计算机或计算机和服务器计算机的组合(例如，通过网络110与单个服务器计算机114通信的多个计算机102)上运行。在另一实施例中，例如，程序116可在与多个客户机计算机跨网络110通信的多个服务器计算机114上运行。或者，程序可以在与服务器以及多个客户机计算机跨网络通信的网络服务器上运行。
19.网络110可以包括有线连接、无线连接、光纤连接或其一些组合。通常，网络110可以是支持计算机102和服务器计算机114之间的通信的连接和协议的任意组合。网络110可以包括各种类型的网络，例如，局域网(lan)，广域网(wan)(例如，因特网)、电信网络(例如，公共交换电话网络(pstn))、无线网络、公共交换网络、卫星网络、蜂窝网络(例如，第五代(5g)网络、长期演进(lte)网络、第三代(3g)网络、码分多址(cdma)网络等)、公共陆地移动网络(plmn)、城域网(man)、专用网络、ad hoc网络、内联网、基于光纤的网络等，和/或这些或其他类型网络的组合。
20.提供图1所示的设备和网络的数量和设置作为示例。实际上，可以存在额外的设备和/或网络、更少的设备和/或网络、不同的设备和/或网络、或与图1中所示的设备和/或网
络不同设置的设备和/或网络。此外，图1中所示的两个或多个设备可以在单个设备内实现，或者图1中所示的单个设备可以实现为多个分布式设备。另外或可选地，系统100的一组设备(例如，一个或多个设备)可以执行描述为由系统100的另一组设备执行的一个或多个功能。
21.现参照图2，描绘了mlenet系统200的框图。除其他事项外，mlenet系统200可以包括编码器202和kws模块204。编码器202可以接收多通道波形数据206和视向数据208作为输入。编码器202可以通过短时傅立叶变换(stft，short-time fourier transform)一维卷积层将多通道波形数据206映射到复数频谱图。基于复数频谱图，可以提取单通道频谱特征、对数功率谱(lps，logarithm power spectrum)和一个或多个多通道空间特征。
22.参考通道(例如，第一通道复数频谱图y1)可用于计算lps，即：lps＝log(|y1|2)∈r
t
×f，其中，t和f可以分别是复数频谱图的总帧数和总频带数。可以通过复数频谱图的通道之间的相位差来计算空间特征ipd中的一个ipd：ipd
(m)
(t,f)＝∠ym1(t,f)-∠ym2(t,f)，其中，m1和m2可以是所选择的m个麦克风对中的第m个麦克风对中的两个麦克风。可以针对来自视向数据208中的每个视向来合并方向特征(df，directional feature)。可以对水平面中的一组k个方向进行采样。视向的方位角θ1，2，...k可以产生k个方向特征向量d(θk)，k＝1，2，......，k。
23.编码器202可以计算在所有选择的麦克风对上的视向导向向量和ipd之间的平均余弦距离，即：其中，可以是相对于第m个麦克风对在频率f处的针对视向θ的导向向量的相位，δ
(m)
可以是第m个麦克风对之间的距离，c可以是声速，以及vector e
(
·
)
:＝[cos(
·
),sin(
·
)]
t
。
[0024]
编码器202可以包含一个或多个增强块，该增强块可以将特征进行串联，并且可以包括具有指数增长的膨胀因子的堆叠的膨胀卷积层。每个视向的预测掩模可以乘以参考通道y1的复数频谱图。逆stft(istft)的一维卷积层可以将与每个视向相关联的增强的说话者复数频谱图转换为波形。
[0025]
多个方向特征向量可以驱动网络以增强混合中的特定源。如果t-f bin(t，f)是由来自θ的源控制，那么d
θ
(t,f)可接近于1；否则，d
θ
可接近于0。对于那些由最接近视向θk的源所控制的t-f bin，dθk可比针对其他t-f bin的dθk大。这样的方向特征可以使得网络能够预测k个输出通道x^k，k＝1，2，...，k，分别对应于最接近每个视向的源。监督分配可以表示为：其中其中，θj可以是混合波形中的源xj的doa，且j＝1，2，......，n。基于以6个麦克风的均匀圆形阵列为例，四个视向可以针对0
°
、90
°
、180
°
、270
°
以覆盖360
°
的整个水平面。
[0026]
由于固定波束形成器的能力，可能不能很好地在任何视向上对干扰说话者进行衰减。由于所采样的视向的空间分辨率不一定足以覆盖目标方向，目标说话者方向和视向之间的不匹配可能导致输出中的语音失真或者甚至导致输出通道中的“偏离目标”。在这样的场景中，kws模块204可以引起来自一个参考麦克风的额外通道被利用以保持目标语音质量。软性自我注意力可用于将k+1个通道的fbank(filter bank)特征向量投影到一个通道，使得kws模块204仍可与基线单通道模型类似地采取一个通道输入向量。对于每个时间步长，可以为输入fbank特征向量计算(k+1)维注意力权重向量α，即：其中，z＝[z1，z2，...，zk，zk+1]，ei＝v
t
tanh(wzi+b)，以及具有相同w、b和v的共享参数非线性注意力可以用于所有k+1通道的每个通道i。多通道输入的加权和可以计算为：基于加权和，kws模块204可以输出关键词数据210。
[0027]
现参照图3，描绘了操作流程图300，操作流程图300示出了由基于关键词检测激活语音识别的程序来执行的步骤。图3可以借助于图1和图2来描述。如前所述，关键词检测程序116(图1)可以快速并有效地增强来自多个采样视向的信号，并且能够与kws模型进行联合训练，以基于单个kws模型形成完全端到端的多视kws建模。
[0028]
在302中，接收对应于一个或多个说话者的波形数据。波形数据可以是声音数据，声音数据可以由一个或多个具有从中心点开始的给定方向的麦克风捕获，并可以包含用于激活设备中的语音识别的一个或多个关键词。在操作中，在服务器计算机114(图1)上的关键词检测程序116(图1)可以通过通信网络110(图1)从计算机102(图1)处接收多通道波形数据206、或者可以从数据库112(图1)检索多通道波形数据206。
[0029]
在304中，从所接收的波形数据中提取一个或多个方向特征。方向特征可以对应于用于捕获波形数据的麦克风的朝向。在操作中，编码器202(图2)可以从多通道波形数据206(图2)来确定方向特征和视向数据208(图2)。编码器202可以生成多个特征，这些特征可以组合成单个模型以用于由kws模块204(图2)进行的处理。
[0030]
在306中，基于一个或多个提取的特征从所接收的波形数据中确定一个或多个关键词。关键词可以对应于用户所说的、可以或不一定对应于语音识别唤醒词的词。在操作中，kws模块204(图2)可以从对应于方向特征的编码器202(图2)处接收组合模型。kws模块204可以从模型确定一个或多个关键词，并可以输出关键词数据210(图2)。
[0031]
在308中，基于检测到确定的关键词，激活语音识别。关键词可以对应于预设的或用户定义的唤醒词，以用信号表示用户在设备上使用语音识别的意图。在操作中，关键词检测程序116(图1)可以从数据库112(图1)中检索一个或多个关键词以激活语音识别。关键词检测程序116可以将一个或多个所确定的关键词与一个或多个所检索的关键词进行比较，并且可以激活语音识别。
[0032]
可以理解的是，图3仅提供了一种实现方式的图示，并不意味着对如何实现不同实施例的任何限制。可以基于设计和实现需求对所描绘的环境进行许多修改。
[0033]
图4是根据示意性实施例的图1中描绘的计算机的内部和外部组件的框图400。可以理解的是，图4仅提供了一个实现方式的图示，并不意味着对可实现不同实施例的环境的任何限制。可以基于设计和实现需求对所描绘的环境进行许多修改。
[0034]
计算机102(图1)和服务器计算机114(图1)可以包括图4中示出的相应的内部组件组800a、800b和外部组件组900a、900b。每组内部组件800包括一个或多个处理器820、一个或多个总线826上的一个或多个计算机可读ram 822和一个或多个计算机可读rom 824、一个或多个操作系统828、以及一个或多个计算机可读有形存储设备830。
[0035]
处理器820以硬件、固件或硬件和软件的组合来实现。处理器820是中央处理单元(cpu，central processing unit)、图形处理单元(gpu，graphics processing unit)、加速处理单元(apu，accelerated processing unit)、微处理器、微控制器、数字信号处理器(dsp，digital signal processor)、现场可编程门阵列(fpga，field-programmable gate array)、专用集成电路(asic
，
application-specific integrated circuit)或另一类型的处理组件。在一些实现方式中，处理器820包括能够被编程以执行功能的一个或多个处理器。总线826包括允许内部组件800a、800b之间进行通信的组件。
[0036]
服务器计算机114(图1)上的一个或多个操作系统828、软件程序108(图1)以及关键词检测程序116(图1)存储在一个或多个相应计算机可读有形存储设备830中的计算机可读有形存储设备830上，用于由一个或多个相应处理器820通过一个或多个相应ram 822(通常包括高速缓冲存储器)来执行。在图4所示的实施例中，每个计算机可读有形存储设备830是内部硬盘驱动器的磁盘存储设备。或者，每个计算机可读有形存储设备830是半导体存储设备，例如，rom 824、eprom、闪存、光盘、磁光盘、固态盘、光碟(cd)、数字通用盘(dvd)、软盘、盒式磁带、磁带和/或可存储计算机程序和数字信息的另一类型的非瞬态计算机可读有形存储设备。
[0037]
每组内部组件800a、800b还包括r/w驱动器或接口832以从一个或多个便携式计算机可读有形存储设备936(例如，cd-rom、dvd、记忆棒、磁带、磁盘、光盘或半导体存储设备)读取或写入。软件程序，例如软件程序108(图1)以及关键词检测程序116(图1)，可以存储在一个或多个相应的便携式计算机可读有形存储设备936上，通过相应的r/w驱动器或接口832读取以及加载到相应的硬盘驱动器830中。
[0038]
每组内部组件800a、800b还包括网络适配器或接口836，例如，tcp/ip适配器卡、无线wi-fi接口卡、或3g、4g、或5g无线接口卡或其他有线或无线通信链路。在服务器计算机114(图1)上的软件程序108(图1)以及关键词检测程序116(图1)可以通过网络(例如，因特网、局域网或其他广域网)和相应的网络适配器或接口836从外部计算机下载到计算机102(图1)和服务器计算机114中。从网络适配器或接口836将服务器计算机114上的软件程序108和关键词检测程序116加载到相应的硬盘驱动器830中。网络可以包括：铜线、光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。
[0039]
每组外部组件900a、900b可包括计算机显示器920、键盘930和计算机鼠标934。外部组件900a、900b还可以包括触摸屏、虚拟键盘、触摸板、指示设备和其他人机接口设备。每组内部组件800a、800b还包括与计算机显示器920、键盘930和计算机鼠标934连接的设备驱动器840。设备驱动器840、r/w驱动或接口832、以及网络适配器或接口836包括硬件和(存储在存储设备830和/或rom 824中的)软件。
[0040]
事先应理解的是，尽管本公开包括关于云计算的详细描述，但本文所述的教导的实现方式不限于云计算环境。相反，一些实施例能够结合现在已知或以后开发的任何其他类型的计算环境来实现。
[0041]
云计算是一种服务交付模型，用于实现对可配置计算资源的共享池(例如，网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务)的便捷、按需的网络访问，这些可配置资源可以以最小的管理工作或与服务提供商的交互来迅速提供和释放。该云模型可包括至少五个特征、至少三种服务模型和至少四种部署模型。
[0042]
特征为如下：按需自助服务：云消费者可以根据需要自动单方面提供计算能力，例如，服务器时间和网络存储，而不需要与服务提供商进行人工交互。广泛的网络访问：通过网络提供能力，并通过可以促进异构的瘦或厚客户端平台(例如，移动电话、膝上型计算机和pda)的使用的标准机制来访问能力。资源池：提供商的计算资源被池化，以使用多租户模型、根据需求动态分配和重新分配的不同物理和虚拟资源，来为多个消费者服务。有一种位置独立的感觉，即消费者通常无法控制或了解所提供的资源的确切位置，但可以在更高的抽象级别(例如，国家、州或数据中心)指定位置。快速弹性：可以快速及弹性地、在某些情况下是自动地提供能力，以快速扩展并快速释放以快速收缩。对于消费者来说，可用于供应的能力通常看起来是无限的，并可以在任何时间以任何数量购买。度量服务：云系统通过利用与服务类型(例如，存储、处理、带宽和活动用户帐户)相适应的某种抽象级别上的计量能力来自动控制和优化资源使用。可以看管、控制和报告资源使用情况，为所使用的服务的提供商和消费者提供透明度。
[0043]
服务模型为如下：软件即服务(saas，software as a service)：提供给消费者的能力是使用在云基础设施上运行的供应商的应用程序。通过诸如web浏览器(例如，基于web的电子邮件)的瘦客户端接口，可以从各种客户端设备访问这些应用程序。消费者不管理或控制底层云基础设施，底层云基础设施包括：网络、服务器、操作系统、存储，甚至单个应用程序能力，可能的例外是有限的用户特定的应用程序配置设置。平台即服务(paas，platform as a service)：提供给消费者的能力是将使用提供商支持的编程语言和工具创建的、消费者创建或获取的应用程序部署到云基础设施上，该应用程序是。消费者不管理或控制底层云基础设施，底层云基础设施包括：网络、服务器、操作系统或存储，但具有对已部署的应用程序以及应用程序托管环境配置的控制。基础设施即服务(iaas，infrastructure as a service)：提供给消费者的能力是提供处理、存储、网络和其他基本计算资源，其中，消费者可以在这些资源中部署和运行任意软件，这些软件可以包括操作系统和应用程序。消费者不管理或控制底层云基础设施，但具有对操作系统、存储、部署的应用程序的控制，并可能具有对选择的网络组件(例如，主机防火墙)有限地控制。
[0044]
部署模型为如下：私有云：云基础设施只为组织运作。私有云可以由组织或第三方管理，可以是在场
内或场外。社区云：云基础设施由多个组织共享，并支持具有共同关注点(例如，任务、安全需求、策略和合规考虑)的特定社区。它可以由组织或第三方管理，可以是在场内或场外。公有云：云基础设施向普通公众或大型行业集团提供，并由销售云服务的组织拥有。混合云：云基础设施包括两个或多个云(私有云、社区云或公有云)，该两个或多个云仍然是特有的实体，但通过支持数据和应用程序的可移植性(例如，用于云间负载平衡的云突发)的标准化或专有技术绑定在一起。
[0045]
云计算环境是面向服务的，重点是无状态、低耦合、模块化和语义互操作性。云计算的核心是包括互连节点的网络的基础设施。
[0046]
参考图5，描绘了示意性云计算环境500。如图所示，云计算环境500包括一个或多个云计算节点10，云消费者使用的本地计算设备(例如，个人数字助理(pda，personal digital assistant)或蜂窝电话54a、台式计算机54b、膝上型计算机54c和/或汽车计算机系统54n)可以与该一个或多个云计算节点10进行通信。云计算节点10之间可以相互通信。可以在一个或多个网络中(例如，如上所述的私有云、社区云、公有云或混合云，或其组合)物理地或虚拟地对这些云计算节点进行分组(未示出)。这使得云计算环境500能够提供基础设施、平台和/或软件作为云消费者不需要在本地计算设备上维护资源的服务。可以理解的是，图5所示的计算设备54a-n的类型仅用于示意性，并且云计算节点10和云计算环境500可以通过任何类型的网络和/或网络可寻址连接(例如，使用web浏览器)与任何类型的计算机化设备进行通信。
[0047]
参考图6，示出了云计算环境500(图5)提供的功能抽象层组600。应当预先理解的是，图6中所示的组件、层和功能仅用于示意性，且实施例不限于此。如图所示，提供了以下层和相应的功能。
[0048]
硬件和软件层60包括硬件和软件组件。硬件组件的示例包括：大型机61：基于精简指令集计算机(risc，reduced instruction set computer)架构的服务器62、服务器63、刀片式服务器64、存储设备65、以及网络和网络组件66。在一些实施例中，软件组件包括网络应用服务器软件67和数据库软件68。
[0049]
虚拟化层70提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器71、虚拟存储器72、包括虚拟私人网络的虚拟网络73、虚拟应用程序和操作系统74、以及虚拟客户端75。
[0050]
在一个示例中，管理层80可以提供以下描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其他资源的动态采购。当在云计算环境中使用资源时，计量和定价82提供成本跟踪，并为这些资源的消耗开具账单或发票。在一个示例中，这些资源可以包括应用软件许可证。安全为云消费者和任务提供身份验证，以及提供对数据和其他资源的保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务级别管理84提供云计算资源分配和管理，使得满足所需的服务级别。服务水平协议(sla，service level agreement)规划和实现85提供对根据sla预期未来的需求的云计算资源的预先安排和采购。
[0051]
工作负载层90提供可使用云计算环境的功能的示例。可以从工作负载层提供的工
作负载和功能的示例包括：映射和导航91、软件开发和生命周期管理92、虚拟课堂教育交付93、数据分析处理94、事务处理95、和关键词检测96。关键词检测96可以基于关键词检测来激活语音识别。
[0052]
一些实施例可以涉及以任何可能的技术细节级别整合的系统、方法和/或计算机可读介质。计算机可读介质可以包括在其上具有用于使处理器执行操作的计算机可读程序指令的计算机可读非瞬态存储介质。
[0053]
计算机可读存储介质可以是可保持和存储指令以供指令执行设备使用的有形设备。计算机可读存储介质可以是，例如，但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述设备的任何适当组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下内容：便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式光盘只读存储器(cd-rom)、数字通用盘(dvd)、存储棒、软盘、机械编码设备(例如，穿孔卡或其上记录有指令的凹槽中的凸起结构)，以及上述的任何适当组合。这里使用的计算机可读存储介质不应被解释为瞬时信号本身，例如：无线电波或其他自由传播的电磁波，通过波导或其他传输介质传播的电磁波(例如，通过光纤电缆的光脉冲)，或通过电线传播的电信号。
[0054]
本文描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者经由网络(例如，因特网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括：铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
[0055]
用于执行操作的计算机可读程序代码/指令可以是汇编程序指令、指令集体系结构(isa，instruction-set-architecture)指令、机器指令、机器相关指令、微码、固件指令、状态设置数据、集成电路的配置数据，或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括诸如smalltalk、c++等面向对象编程语言以及诸如“c”编程语言或类似编程语言的过程编程语言。计算机可读程序指令可以完全在用户计算机上执行、部分在用户计算机上执行、作为独立的软件包，部分在用户计算机上执行部分在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络(包括局域网(lan，local area network)或广域网(wan，wide area network))连接到用户计算机，或者可以(例如，通过使用因特网服务供应商的因特网)与外部计算机进行连接。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla，programmable logic array)的电子电路可以通过使用计算机可读程序指令的状态信息来执行计算机可读程序指令以个性化电子电路，从而执行各方面或操作。
[0056]
这些计算机可读程序指令可被提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器以产生机器，使得通过计算机的处理器或其它可编程数据处理装置执行的指令创建用于实现流程图和/或框图块中指定的功能/动作的器件。这些计算机可读程序指令还可以存储在计算机可读存储介质中，计算机可读存储介质可以指导计算机、可编程
数据处理装置和/或其他设备以特定方式工作，使得存储有指令的计算机可读存储介质包括实现流程图和/或框图块或方块中指定的功能/动作的各方面的指令的制造品。
[0057]
计算机可读程序指令也可以加载到计算机、其他可编程数据处理装置或其他设备上，以使得要在计算机、其他可编程装置或其他设备上执行的一系列操作步骤产生计算机实现的处理，使得在计算机、其他可编程装置、或其他设备上执行的指令实现流程图和/或方框图块或方块中指定的功能/动作。
[0058]
图中的流程图和方框图示出了根据各种实施例的系统、方法和计算机可读介质的可能实现方式的架构、功能和操作。在这方面，流程图或方框图中的每个块可以表示指令的模块、段或部分，指令包括用于实现一个(或多个)指定逻辑功能的一个或多个可执行指令。方法、计算机系统和计算机可读介质可包括额外的方块、更少的方块、不同的方块或与图中所示的方块不同排列的方块。在一些可选的实现方式中，方块中指出的功能可以不按图中指出的顺序出现。例如，事实上，取决于所涉及的功能，连续示出的两个方块可以并发地或基本上并发地执行，或者有时这些方块可以以相反的顺序执行。还需要注意的是，方框图和/或流程图图示中的每个方块以及方框图和/或流程图图示中的方块的组合可以由执行指定功能或动作或执行特殊用途硬件和计算机指令组合的基于特殊用途硬件的系统来实现。
[0059]
显然，本文描述的系统和/或方法可以以不同形式的硬件、固件或硬件和软件的组合来实现。用于实现这些系统和/或方法的实际专用控制硬件或软件代码并不是对实现方式的限制。因此，本文描述了系统和/或方法的操作和行为，而不参考特定的软件代码—可以理解的是，软件和硬件可以设计成基于本文的描述来实现系统和/或方法。
[0060]
本文使用的任何元素、行为或指令都不应被解释为关键或必要的，除非明确描述为关键或必要的。此外，本文使用的冠词“一(a)”和“一个(an)”意在包括一个或多个项目，并且可以与“一个或多个”互换使用。此外，如本文使用的术语“组”旨在包括一个或多个项目(例如，相关项目、不相关项目、相关和不相关项目的组合等)，并且可以与“一个或多个”互换使用。如果只打算表示一个项目，则使用术语“一个”或类似的语言。此外，本文使用的术语“具有”、“含有”、“包括”等是旨在成为开放式术语。此外，除非另有明确说明，词语“基于”意在表示“至少部分基于”。
[0061]
对各个方面和实施例的描述的呈现是为了说明的目的，而并不意图详尽无遗或限于所公开的实施例。即使在权利要求中公开了和/或在说明书中公开了特征的组合，但这些组合并不旨在对本技术的可能的实现方式进行限制。事实上，这些特征中的许多特征可以以权利要求书中未具体叙述和/或说明书中未公开的方式进行组合。尽管列出的每个从属权利要求可能直接引用仅一个权利要求，但对可能实现方式的披露包括每个从属权利要求与权利要求集中的每一其他权利要求组合。对于本领域的普通技术人员来说，在不脱离所描述的实施例的范围的情况下，许多修改和变化将是显而易见的。选择本文使用的术语是为了最好地解释实施例的原理、对市场上发现的技术上的实际应用或技术改进，或者使本领域的其他普通技术人员能够理解本文公开的实施例。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：于蒙俞栋
技术所有人：腾讯美国有限责任公司
我是此专利的发明人

上一篇：一种轴类零件感应淬火用支撑工装的制作方法
上一篇：电池膨胀测试仪和电池测试系统的制作方法