用于语音分离和增强的全深度学习最小方差无失真响应波束形成器的制作方法

文档序号：32680411发布日期：2022-12-24 04:55阅读：62来源：国知局

用于语音分离和增强的全深度学习最小方差无失真响应波束形成器
1.相关申请的交叉引用
2.本技术要求申请号为17/038,498(申请日为2020年9月30日)的美国专利申请的优先权，该美国专利申请的全部内容通过引用并入本文中。
技术领域
3.本发明涉及数据处理领域，并且尤其涉及语音识别。

背景技术：

4.基于深度学习的语音增强和语音分离方法受到了广泛的研究关注。基于掩码的最小方差无失真响应(mvdr)波束形成器可以用来降低语音失真，有利于自动语音识别。基于复值掩码的多抽头mvdr可以进一步提高基于掩码的波束形成架构中的自动语音识别性能。

技术实现要素：

5.实施例涉及用于语音识别的方法、系统和计算机可读介质。根据一个方面，提供了一种用于语音识别的方法。该方法可以包括接收对应于一个或多个说话者的音频数据。基于门控循环单元的网络来估计与所接收到的音频数据相关联的目标语音和噪声的协方差矩阵；基于所估计的协方差矩阵，通过最小方差无失真响应函数来生成与所述一个或多个说话者中的目标说话者相对应的预测目标波形。
6.根据另外一个方面，提供了一种用于语音识别的计算机系统。所述计算机系统可以包括一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读有形存储设备、以及程序指令。所述程序指令存储在所述一个或多个存储设备中的至少一个存储设备上由所述一个或多个处理器中的至少一个处理器经由所述一个或多个存储器中的至少一个存储器来执。由此所述计算机系统能够执行一种方法。该方法可以包括接收对应于一个或多个说话者的音频数据。基于门控循环单元的网络来估计与所接收到的音频数据相关联的目标语音和噪声的协方差矩阵。基于所估计的协方差矩阵，通过最小方差无失真响应函数来生成与所述一个或多个说话者中的目标说话者相对应的预测目标波形。
7.根据另一个方面，提供了一种用于语音识别的计算机可读介质。所述计算机可读介质可以包括一个或多个计算机可读存储设备和存储在所述一个或多个有形存储设备中的至少一个存储设备上的程序指令。所述程序指令可由处理器执行。程序指令可由处理器执行以实现方法，该方法相应地包括接收对应于一个或多个说话者的音频数据。基于门控循环单元的网络来估计与所接收到的音频数据相关联的目标语音和噪声的协方差矩阵。基于所估计的协方差矩阵，通过最小方差无失真响应函数来生成与所述一个或多个说话者中的目标说话者相对应的预测目标波形。
附图说明
8.从下面结合附图阅读的说明性实施例的详细描述中，这些和其他目的、特征和优点将变得显而易见。附图的各种特征不是按比例的，因为图示是为了便于本领域技术人员结合详细描述进行清晰的理解。在附图中：
9.图1示出了根据至少一个实施例的联网计算机环境；
10.图2是根据至少一个实施例的示例性语音识别系统；
11.图3是根据至少一个实施例的由分离目标说话者的语音的程序所执行的步骤的操作流程图；
12.图4是根据至少一个实施例的图1所示出的计算机和服务器的内部和外部组件的框图；
13.图5是根据至少一个实施例的包括图1所示的计算机系统的说明性云计算环境的框图；以及
14.图6是根据至少一个实施例的图5的说明性云计算环境的功能层的框图。
具体实施方式
15.本文公开了所要求保护的结构和方法的详细实施例。然而，可以理解，所公开的实施例仅仅是说明可以以各种形式实施的所要求保护的结构和方法。然而，这些结构和方法可以以许多不同的形式体现，并且不应被解释为限于本文所述的示例性实施例。相反，提供这些示例性实施例使得本公开将是彻底和完整的，并将向本领域技术人员充分传达范围。在描述中，可以省略众所周知的特征和技术的细节，以避免不必要地模糊所呈现的实施例。
16.实施例一般涉及数据处理领域，并且更具体地涉及语音识别。此外，以下描述的示例性实施例提供了一种系统、方法和计算机程序，用于使用全神经网络方法分离目标说话者的语音。因此，一些实施例具有通过允许由计算机进行改进的语音增强、语音分离和去混响任务来改进计算领域的能力。此外，所公开的方法、系统和计算机可读介质可用于改进诸如助听器和通信等领域中的自动语音识别的性能。
17.如前所述，基于深度学习的语音增强和语音分离方法受到了广泛的研究关注。基于掩码的最小方差无失真响应(mvdr)波束形成器可以用来降低语音失真，有利于自动语音识别。基于复值掩码的多抽头mvdr可以进一步提高基于掩码的波束形成架构中的自动语音识别性能。然而，残余噪声水平仍然很高，尤其是在低信噪比或重叠语音情况下。此外，联合训练的mvdr和神经网络所涉及的噪声协方差矩阵的逆矩阵和目标语音协方差矩阵的主成分分析(pca)不稳定，导致最优结果较少。此外，环境噪声和有害的室内声会极大地影响语音信号的质量，从而降低许多语音通信系统(例如，数字助听器和自动语音识别(asr)系统)的有效性。
18.为了缓解这一问题，提出了语音增强和语音分离算法。随着神经网络的复兴，使用深度学习方法可以获得更好的客观性能。然而，分离后的目标语音上往往会产生较大的非线性失真，从而损害asr系统的性能。最小方差无失真响应(mvdr)滤波器旨在保持目标语音不失真的情况下降低噪声。近年来，基于神经网络(nn)的时频(t-f)掩码预测器的mvdr系统可以在较小的失真量下大大降低asr系统的词错误率(wer)，但由于块级或话语级波束形成权重不是降噪的最佳值，因此仍然存在残余噪声问题。目前已经提出了一些帧级mvdr权重
估计方法，作者以递归方式估计协方差矩阵。然而，当与nn联合训练时，计算出的逐帧权重并不稳定。已有的研究表明，递归神经网络(rnn)能够有效地学习矩阵求逆，并且在rrn与nn联合训练时，rrn可以更好地稳定矩阵求逆和主成分分析(pca)的过程。
19.因此，对于基于掩码的mvdr波束形成架构，使用rnn而不是传统的数学方式来预测噪声协方差的矩阵求逆和目标语音协方差矩阵的导向矢量pca可能是有利的。这可以使整个架构在一个全部联合训练的深度学习模块中。与其中只能计算块级或话语级的权重的传统的基于掩码的波束形成算法不同，所提出的adl-mvdr可以自适应地获得逐帧的权重，这有利于降低残余噪声。由于rnn是一个递归模型，因此可以以递归的方式自动更新噪声和目标语音的协方差矩阵，而不需要人工设定参数。另外，可以使用复值滤波器而不是通常使用的每t-f点掩码来计算噪声和目标语音的协方差矩阵。这可能使得更精确地估计协方差矩阵，并稳定基于rnn的矩阵求逆和pca的训练。联合优化的复值滤波器和adl-mvdr可以以端到端的方式使用。
20.本文参考根据各种实施例的方法、装置(系统)和计算机可读介质的流程图和/或框图来描述各方面。可以理解的是，流程图和/或框图的每个框以及流程图与/或框图中的框的组合可以通过计算机可读程序指令来实现。
21.现在参考图1，网络化计算机环境的功能框图示出了用于使用全神经网络方法分离目标说话者的语音的语音识别系统100(以下称为“系统”)。应该理解的是，图1仅提供了一种实施方式的说明，并不意味着对可以实施不同实施方式的环境的任何限制。可以基于设计和实现要求对所描绘的环境进行许多修改。
22.系统100可以包括计算机102和服务器计算机114。计算机102可以经由通信网络110(以下称为“网络”)与服务器计算机114通信。计算机102可以包括处理器104和软件程序108，软件程序108存储在数据存储设备106上，并且能够与用户接口并与服务器计算机114通信。如下文将参考图4所述的，计算机102可以分别包括内部组件800a和外部组件900a，并且服务器计算机114可以分别包括内部组件800b和外部组件900b。计算机102可以是例如移动设备、电话、个人数字助理、上网本、笔记本电脑、平板电脑、台式电脑或能够运行程序、访问网络和访问数据库的任何类型的计算设备。
23.服务器计算机114还可以在云计算服务模型中操作，例如软件即服务(saas)、平台即服务(paas)或基础设施即服务(laas)，如下文相对于图5和图6所述。服务器计算机114还可以位于云计算部署模型中，例如私有云、社区云、公共云或混合云。
24.可用于语音识别的服务器计算机114被允许运行可与数据库112交互的语音识别程序116(以下称为“程序”)。下面相对于图3来更详细地说明语音识别程序方法。在一个实施例中，计算机102可以作为包括用户界面的输入设备来操作，而程序116可以主要在服务器计算机114上运行。在替代实施例中，程序116可主要在一个或多个计算机102上运行，而服务器计算机114可用于处理和存储程序116使用的数据。应当注意，程序116可以是独立程序，或者可以集成到较大的语音识别程序中。
25.然而，应当注意，在某些情况下，用于程序116的处理可以在计算机102和服务器计算机114之间以任何比例共享。在另一实施例中，程序116可以在多于一台计算机、服务器计算机或计算机和服务器计算机的某些组合上操作，例如，多台计算机102通过网络110与单个服务器计算机114通信。在另一个实施例中，例如，程序116可以在多个服务器计算机114
上操作，这些服务器计算机114通过网络110与多个客户端计算机通信。或者，该程序可以在网络服务器上运行，该网络服务器通过网络与服务器和多个客户端计算机通信。
26.网络110可以包括有线连接、无线连接、光纤连接或其一些组合。通常，网络110可以是将支持计算机102和服务器计算机114之间的通信的连接和协议的任何组合。网络110可以包括各种类型的网络，例如，一个局域网(lan)、诸如因特网的广域网(wan)、、诸如公共交换电话网络(pstn)、的电信网络、无线网络、公共交换网络、卫星网络、蜂窝网络(例如，第五代(5g)、网络、长期演进(lte)、网络、第三代(3g)、网络、码分多址(cdma)、网络等)、公共陆地移动网络(plmn)、、城域网(man)、、专用网络、ad hoc网络、内联网、基于光纤的网络等，和/或这些或其他类型网络的组合。
27.以图1中所示的设备和网络的数量和排列为示例。实际上，可以存在其它的设备和/或网络、更少的设备和/或网络、不同的设备和/或网络、或与图1中所示的设备和/或网络不同布置的设备和/或网络。此外，图1中所示的两个或多个设备可以在单个设备内实现，或者图1中示出的单个设备可以实现为多个分布式设备。另外地或可选地，系统100的一组设备(例如，一个或多个设备)可以执行描述为由系统100的另一组设备执行的一个或多个功能。
28.现在参考图2，描绘了根据一个或多个实施例的示例性语音识别系统200。其中，语音识别系统200可包括音频输入202、摄像机204、复数比滤波器206、基于门控循环单元(gru)的网络(gru-nets)208a和208b、线性层210a和210b、帧级权重模块212和语音分离模块214。
29.目标说话者的到达方向(doa)可用于通知空洞卷积神经网络(cnn)从多谈话者混音中提取出目标语音。音频输入202可以接收与说话者无关的特征(例如，对数功率谱(lps)和耳间相位差(ipd))和与说话者相关的特征(例如，方向特征d(θ))。例如，音频输入202可以是可与摄像机204(可以是广角180度摄像机)在同一位置的15元素的非均匀线性麦克风阵列。目标说话者的面部在摄像机204的整个视图中的位置可以提供对目标说话者的粗略doa估计。位置引导方向特征(df)d(θ)可用于从特定doa中提取目标语音。可以计算目标转向矢量v(θ)与ipds之间的余弦相似度。估计的掩码或滤波器将有助于计算协方差矩阵φ。
30.考虑用一个m大小的麦克风阵列记录的噪声语音混合y＝[y1，y2，...，ym]
t
。s可以代表一个清晰的语音，n可以表示具有m个信道的干扰噪音。y(t,f)＝s(t,f)+n(t,f)，其中(t,f)可以指示t-f域中的声音信号的时间和频率索引，并且y，s，n可以表示t-f域中的相应变量。分离语音s
mvdr
(t，f)可以通过如下获得：
[0031][0032]
其中，可以表示频率索引f处的mvdr权重，h代表厄米算符。mvdr波束形成器的目标可能是最小化噪声的功率，同时保持目标语音不失真，这可以表示为：
[0033][0034]
其中，φ
nn
代表噪声功率密度谱(psd)的协方差矩阵，并且表示目标语音的方向向量。可以使用不同的解决方法来导出mvdr波束形成权重。一种解决方案可以基于方向向量，并且可以通过对语音协方差矩阵应用主成分分析(pca)来导出。另一种解决方案可以基于参考信道选择导出：
[0035][0036][0037]
其中φ
ss
表示语音psd的协方差矩阵，是选择参考麦克风通道的独热向量。注意，矩阵求逆和pca可能不稳定，尤其是当与神经网络联合训练时。
[0038]
复数比滤波器206可以使用复数比掩码(表示为crm)以较少的相位失真量准确地估计目标语音，这有利于人类听众。在这种情况下，估计语音和语音协方差矩阵φ
ss
可以通过如下计算：
[0039][0040][0041]
其中，*表示复数乘法器，crms表示语音目标的估计crm。噪声协方差矩阵φ
nn
可以以类似的方式获得。然而，这里导出的协方差矩阵φ是在话语水平上的，这对于每个帧都不是最优的，从而导致高水平的残留噪声。
[0042]
gru网络208a、208b可用于代替用于帧级波束形成权重估计的矩阵求逆和pca。使用rnn可以利用来自所有先前帧的加权信息，并且可以不需要递归方法中所需的连续帧之间的任何启发式更新因子。
[0043]
更好地利用附近的t-f信息并稳定所估计的统计变量(记作φ
ss
和φ
nn
)，复数比滤波器(crf)206可用于估计语音和噪声分量。对于每个t-f窗口，crf206可以应用于其k
×
l个附近窗口，其中k和l表示附近时间和频率窗口的数量。
[0044][0045][0046]
其中表示使用复数比滤波器的估计语音。crf206相当于k
×
l个crm，每个crm应用于噪声频谱图的相应移位版本(即，沿时间和频率轴)。然后利用用于归一化的crf的中心掩码(即，crms(t，f))来计算帧级语音协方差矩阵。可以理解，为了保持帧级时间信息，在φ
ss
(t，f)的时间维度上可能不存在和。帧级噪声协方差矩阵φ
nn
(t，f)可以以类似的方式获得。
[0047]
可以使用两个gru网络208a、208b来估计方向向量和噪声协方差矩阵的逆。对于h
v2
解，语音协方差矩阵也使用另一个gru网络重新加权。与基于启发式更新因子的传统逐帧方法相比，gru网络208a、208b可以更好地利用来自先前帧的时间信息进行统计项估计。此外，用gru网络208a、208b代替矩阵求逆可以解决在与nns联合训练期间的不稳定性问题。mvdr系数可通过gru网络获得，如下所示：
[0048][0049]
[0050][0051]
其中，复数协方差矩阵φ的实部和虚部被连接在一起作为gru网络208a、208b的输入。可以假设，显式计算的语音和噪声协方差矩阵对于rnn学习空间滤波可能很重要，这可能不同于直接nn学习的波束形成权重。利用rnn的时间结构，该模型递归地累积和更新每个帧的协方差矩阵。gru网络208a、208b中的每一个的输出可以被注入到线性层210a、210b中，以获得复值协方差矩阵或方向向量的最终实部和虚部。帧级adl-mvdr权重可以由帧级权重模块212计算为：
[0052][0053][0054]
其中h(t,f)是逐帧的，并且不同于传统的基于掩码的mvdr的话语级别权重。最后，由语音分离模块214获得增强语音，如下所示：
[0055][0056]
现在参考图3，描绘了示出用于语音识别的方法300的步骤的操作流程图。在一些实施方式中，图3的一个或多个处理框可以由计算机102(图1)和服务器计算机114(图1)执行。在一些实施方式中，图3的一个或多个处理块可以由与计算机102和服务器计算机114分离或包括计算机102和服务计算机114的另一设备或一组设备执行。
[0057]
在操作302，方法300可以包括接收对应于一个或多个说话者的音频数据。
[0058]
在操作304，方法300包括基于门控循环单元的网络来估计与所接收音频数据相关联的目标语音和噪声的协方差矩阵。
[0059]
在操作306，方法300包括基于估计到的所述协方差矩阵，通过最小方差无失真响应函数来生成与所述一个或多个说话者中的目标说话者相对应的预测目标波形。
[0060]
应该理解的是，图3仅提供了一种实施方式的说明，并不意味着关于如何实现不同实施例的任何限制。可以基于设计和实现要求对所描绘的环境进行许多修改。
[0061]
图4是根据说明性实施例的图1所示出的计算机的内部和外部组件的框图400。应该理解的是，图4仅提供了一种实施方式的说明，并不意味着对可以实施不同实施方式的环境的任何限制。可以基于设计和实现要求对所描绘的环境进行许多修改。
[0062]
计算机102(图1)和服务器计算机114(图1)可以包括图4所示的内部组件800a、800b和外部组件900a、900b的相应集合。每组内部组件800包括一个或多个总线826上的一个或多个处理器820、一个或多个计算机可读ram 822和一个或多个计算机可读rom 824、以及一个或多个操作系统828、以及一个或多个计算机可读有形存储设备830。
[0063]
处理器820以硬件、固件或硬件和软件的组合来实现。处理器820是中央处理单元(cpu)、图形处理单元(gpu)、加速处理单元(apu)、微处理器、微控制器、数字信号处理器(dsp)、现场可编程门阵列(fpga)、专用集成电路(asic)或另一类型的处理组件。在一些实施方式中，处理器820包括能够被编程以执行功能的一个或多个处理器。总线826包括允许内部组件800a、800b之间通信的组件。
[0064]
服务器计算机114(图1)上的一个或多个操作系统828、软件程序108(图1)、以及语音识别程序116(图1)被存储在一个或多个相应的计算机可读有形存储设备830上，以供一个或多个相应的处理器820经由一个或多个相应的ram 822(通常包括高速缓冲存储器)执行。在图4所示的实施例中，每个计算机可读有形存储设备830是内部硬盘驱动器的磁盘存储设备。或者，每个计算机可读有形存储设备830是半导体存储设备，例如rom 824、eprom、闪存、光盘、磁光盘、固态盘、光盘(cd)、数字通用盘(dvd)、软盘、盒式磁带、磁带和/或可存储计算机程序和数字信息的另一类型的非易失性计算机可读有形存储设备。
[0065]
每组内部组件800a、800b还包括从一个或多个便携式计算机可读有形存储设备936(例如cd-rom、dvd、记忆棒、磁带、磁盘、光盘或半导体存储设备)进行读或写的r/w驱动器或接口832。软件程序，例如软件程序108(图1)和语音识别程序116(图1)，可以存储在相应的便携式计算机可读有形存储设备936中的一个或多个上，经由相应的r/w驱动器或接口832读取并加载到相应的硬盘驱动器830中。
[0066]
每组内部组件800a、800b还包括网络适配器或接口836，例如tcp/ip适配器卡；无线wi-fi接口卡；或3g、4g、5g无线接口卡或其他有线或无线通信链路。服务器计算机114(图1)上的软件程序108(图1)、语音识别程序116(图1)可以经由网络(例如因特网、局域网或其他广域网)和相应的网络适配器或接口836从外部计算机下载到计算机102(图1)和服务器计算机114。从网络适配器或接口836，服务器计算机114上的软件程序108和语音识别程序116被加载到相应的硬盘驱动器830中。该网络可以包括铜线、光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。
[0067]
每组外部组件900a、900b可包括计算机显示监测器920、键盘930和计算机鼠标934。外部组件900a、b还可以包括触摸屏、虚拟键盘、触摸板、指点设备和其他人机接口设备。每组内部组件组800a、800b还包括与计算机显示监测器920、键盘930和计算机鼠标934接口的设备驱动器840。设备驱动器840、r/w驱动器或接口832和网络适配器或接口836包括硬件和软件(存储在存储设备830和/或rom 824中)。
[0068]
预先理解，尽管本公开包括关于云计算的详细描述，但本文所述教导的实现不限于云计算环境。相反，一些实施例能够结合现在已知或以后开发的任何其他类型的计算环境来实现。
[0069]
云计算是一种服务交付模型，用于实现对共享的可配置计算资源池(例如，网络、网络带宽、服务器、处理、内存、存储、应用程序、虚拟机和服务)的便捷、按需的网络访问，这些资源可以以最小的管理精力或与服务提供商的交互来快速供应和发布。这个云模型可能包括至少五个特征、至少三个服务模型和至少四个部署模型。
[0070]
特点如下：
[0071]
按需自助服务：云用户可以单方面提供运算能力，例如服务器时间和网络存储，这可以根据需要自动完成而无需人为与服务提供商进行交互。
[0072]
宽泛的网络接入：能力可通过网络获得，并通过标准机制来访问，以促进各种各样的瘦或胖客户端平台(例如，移动电话、笔记本电脑和pda)的使用。
[0073]
资源池化：对供应商计算资源进行池化，以根据需求动态分配或预分配不同的物理和虚拟资源从而使用多租户的模式服务多位用户。感觉上是与位置无关的，因为客户通常无法控制或知道所提供的资源的精确的位置，但可以以高度抽象来指定位置(例如，国
家、洲或数据中心)。
[0074]
快速伸缩性：在某些情况下能力能够快速、有弹性地供应，以快速向外扩展并快速释放以快速向内扩展。对于用户，可用于供应的能力似乎是无限的，可适当的在任何时间购买任意数量的能力。
[0075]
可度量服务：云系统通过利用改变适用于服务类型的某些抽象层级的度量能力(例如，存储、处理器、带宽以及活动的用户帐户)来自动控制、优化资源使用。可以监测、控制并上报资源使用以对所利用的服务的供应商和用户两者提供透明度。
[0076]
服务模式如下：
[0077]
软件即服务(saas)：提供给用户的能力是使用在云基础设施上运行的供应商的应用程序。通过诸如web浏览器(例如，基于web的电子邮件)的瘦客户端接口，可以从各种客户段设备访问这些应用程序。用户并不管理或控制底层的云计算基础架构(包括网络、服务器、操作系统、存储、或甚至应用程序本身)，除了有限的用户特定的应用程序设置。
[0078]
平台即服务(paas)：提供给用户的能力是将用户创建或获取的应用程序部署到云基础设施上，这些应用程序使用供应商支持的编程语言和工具创建。用户不再管理或控制底层的云基础设施，包括网络，服务器，操作系统，存储，但是可以控制部署的应用程序以及可能的应用程序托管的环境配置。
[0079]
基础设施即服务(laas)：为用户提供的能力是供应处理、存储、网络和其它的基础计算资源，在该基础计算资源中，用户可以部署并且运行包括操作系统和应用程序的任意软件。用户不再管理和控制底层的云基础设施，但可以管理操作系统，存储和部署的应用程序，还能有限的控制被选择的网络组件(例如，主机防火墙)
[0080]
部署模式如下：
[0081]
私有云：云基础设施只为单一组织运行。它可能由本组织或第三方管理，可以是内部部署或者外部部署。
[0082]
社区云：云基础设施由多个组织共享，并支持具有共同关注(例如，任务、安全需求、策略和遵从性考虑)的特定社区。它可能由本组织或第三方管理，可以是内部部署或者外部部署。
[0083]
公共云：云基础设施提供给普通公众或大型行业团体，并由销售云服务的组织拥有。
[0084]
混合云：云基础设施是由两个或多个云(私有、社区或公共)组成的，这些云仍然是唯一的实体，但通过标准化或专有技术绑定在一起，这些技术支持数据和应用程序的可移植性(例如，用于云间负载平衡的云突发)。
[0085]
云计算环境是面向服务的，关注无状态、低耦合、模块化和语义互操作性。云计算的核心是由互连节点的网络组成的基础设施。
[0086]
参考图5，描述了说明性云计算环境500。如图所示，云计算环境500包括一个或多个云计算节点10。云用户使用的本地计算设备，例如个人数字助理(pda)或蜂窝电话54a、台式电脑54b、笔记本电脑54c和/或汽车计算机系统54n可以与云计算节点通信。云计算节点10可以彼此通信。它们可以在一个或多个网络(例如，如上所述的私有、社区、公共或混合云，或其组合)中物理地或虚拟地被分组(未示出)。这使得云计算环境500提供基础设施、平台和/或软件作为云用户不需要维护本地计算设备上的资源的服务。应当理解，图5中所示
的计算设备54a-n的类型仅旨在说明，云计算节点10和云计算环境500可以通过任何类型的网络和/或网络可寻址连接(例如，使用网络浏览器)来与任何类型的计算机化设备通信。
[0087]
参考图6，示出了由云计算环境500(图5)提供的一组功能抽象层600。应事先理解，图6中所示的组件、层和功能仅旨在说明，并且实施例不限于此。如图所示，提供了以下层和相应的功能。
[0088]
硬件和软件层60包括硬件和软件组件。硬件组件的示例包括：大型电脑61；基于精简指令集计算机(risc)架构的服务器62；服务器63；刀片服务器64；存储设备65；以及网络和网络组件66。在一些实施例中，软件组件包括网络应用服务器软件67和数据库软件68。
[0089]
虚拟化层70提供抽象层，从该抽象层可以提供以下虚拟实体的示例：虚拟服务器71；虚拟存储器72；虚拟网络73，包括虚拟专用网络；虚拟应用程序和操作系统74；和虚拟客户端75。
[0090]
在一个示例中，管理层80可以提供以下描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其他资源的动态采购。当资源在云计算环境中被利用时，计量和定价82提供成本追踪，并为这些资源的消耗开账单或发票。在一个示例中，这些资源可以包括应用软件许可证。安全为云用户和任务提供身份验证，以及对数据和其他资源的保护。用户门户83为用户和系统管理员提供对云计算环境的访问。服务级别管理84提供云计算资源分配和管理，使得满足所需的服务级别。服务水平协议(sla)规划和实现85提供了根据sla预期未来需求的云计算资源的预先安排和采购。
[0091]
工作负载层90提供可利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括：映射和导航91；软件开发和生命周期管理92；虚拟课堂教育交付93；数据分析处理94；事务处理95；和语音识别96。语音识别96可以使用全神经网络方法分离目标说话者的语音。
[0092]
一些实施例可以涉及在集成的任何可能的技术细节级别上的系统、方法和/或计算机可读介质。计算机可读介质可以包括在其上具有用于使处理器执行操作的计算机可读程序指令的计算机可读非易失性存储介质(或媒体)。
[0093]
计算机可读存储介质可以是可保持和存储指令以供指令执行设备使用的有形设备。计算机可读存储介质可以是例如但不限于：电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何适当组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下内容：便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式光盘只读存储器(cd-rom)、数字通用盘(dvd)、存储棒、软盘、诸如穿孔卡或其上记录有指令的凹槽中的凸起结构的机械编码设备，以及上述的任何适当组合。此处使用的计算机可读存储介质本身不应被解释为瞬时信号，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤电缆的光脉冲)、或通过电线传输的电信号。
[0094]
本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者经由网络，例如因特网、局域网、广域网和/或无线网络下载到外部计算机或外部存储设备。该网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内
的计算机可读存储介质中。
[0095]
用于执行操作的计算机可读程序代码/指令可以是汇编程序指令、指令集体系结构(isa)指令、机器指令、机器相关指令、微码、固件指令、状态设置数据、集成电路的配置数据，或者以一种或多种编程语言的任何组合编写的源代码或目标代码，所述编程语言包括诸如smalltalk、c++等面向对象编程语言和诸如“c”编程语言或类似编程语言的进程编程语言。计算机可读程序指令可以完全在用户的计算机上执行、作为独立的软件包部分在用户的计算机上执行、部分在用户计算机上执行并且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络(包括局域网(lan)或广域网(wan))连接到用户的计算机，或者可以与外部计算机进行连接(例如，通过使用因特网服务供应商的因特网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令，以定制电子电路，便于执行方面或操作。
[0096]
这些计算机可读程序指令可被提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以产生机器，使得经由计算机的处理器或其它可编程数据处理设备执行的指令创建用于实现流程图和/或框图的框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中，该计算机可读存储介质可以指导计算机、可编程数据处理设备和/或其他设备以特定方式工作，使得具有存储在其中的指令的计算机可读存储介质包括制造品，该制造品包括实现流程图和/或框图的框中指定的功能/动作的各个方面的指令。
[0097]
计算机可读程序指令可以加入到计算器、其它可编程数据处理装置或其它设备，以使得在计算机、其它可编程装置或其它设备上执行一系列的操作步骤，从而产生计算机可实现的处理，使得在计算机、其它可编程装置或其它设备上执行的指令实现在流程图和/或框图的框中指定的功能或动作。
[0098]
图中的流程图和框图示出了根据各种实施例的系统、方法和计算机可读介质的可能实现的体系结构、功能和操作。就这一点而言，流程图或框图中的每个框可以表示指令的模块、段或部分，其包括用于实现指定逻辑功能的一个或多个可执行指令。该方法、计算机系统和计算机可读介质可包括比图示的框更多的框、更少的框、不同的框或与不同布置的框。在一些可选的实现中，框中记录的功能可能跳出图中记录的顺序而出现。例如，事实上，连续示出的两个框可以同时或基本上同时执行，或者这些框有时可以以相反的顺序执行，这取决于所涉及的功能。还应当注意到，方框图和/或流程图图示中的每个框以及方框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的基于专用硬件的系统来实现。
[0099]
很明显，这里描述的系统和/或方法可以以不同形式的硬件、固件或硬件和软件的组合来实现。用于实现这些系统和/或方法的实际专用控制硬件或软件代码并不限制这些实施方式。因此，在这里描述了系统和/或方法的操作和行为，而不参考特定的软件代码，可以理解，软件和硬件可以设计成基于这里的描述来实现系统和/或方法。
[0100]
本文中使用的任何元素、行为或指令都不应被解释为关键或必要的，除非明确描述为关键或必要的。此外，如本文所用，冠词“一个”意在包括一个或多个项目，并且可以与“一个或多个”互换使用。此外，如本文所使用的，术语“集合”旨在包括一个或多个项(例如，
相关项、不相关项、相关和不相关项的组合等)，并且可以与“一个或多个”互换使用。如果只打算一个项目，则使用术语“一个”或类似的语言。此外，如在此所使用的，术语“具有”、“有”等旨在表示开放式术语。此外，除非另有明确说明，属于“基于”意在表示“至少部分基于”。
[0101]
为了说明的目的，已经呈现了对各个方面和实施例的描述，但并未穷尽或限于所公开的实施例。即使在权利要求中列举了特征的组合和/或在说明书中公开了特征的组合，但这些组合并不旨在限制公开可能的实施方式。事实上，这些特征中的许多可以以权利要求书中未具体叙述和/或说明书中未公开的方式组合。尽管下面列出的每个从属权利要求可以直接依赖于仅一个权利要求，但可能实现的公开包括每个从属权利要求与权利要求集中的每一其他权利要求组合。在不脱离所描述的实施例的范围的情况下，许多修改和变化对于本领域的普通技术人员将是显而易见的。选择这里使用的术语是为了最好地解释实施例的原理、对市场上发现的技术的实际应用或技术改进，或者使本领域的其他普通技术人员能够理解这里公开的实施例。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐勇于蒙张世雄俞栋
技术所有人：腾讯美国有限责任公司
我是此专利的发明人

上一篇：一种用于糖果包装冷却装置的制作方法
上一篇：一种双振动水平冲洗筛的制作方法