语音合成的可学习速度控制的制作方法

文档序号：31833606发布日期：2022-10-18 20:01阅读：51来源：国知局

语音合成的可学习速度控制
相关申请的交叉引用
1.本技术要求于2020年3月3日提交的美国申请16/807,801的优先权，该申请的全部内容通过引用明确地并入本技术中。
技术领域
2.本技术总体上涉及计算领域，具体涉及数据处理。

背景技术：

3.语音合成方法依赖音位持续时间预测模型来控制语音生成期间每个音位的持续时间。在这样的系统中，生成的语音的速度通常通过将预测的持续时间与控制因子相乘来控制，以使其更快或更慢。

技术实现要素：

4.各实施例涉及用于合成具有一种或多种速度的语音的方法、系统和计算机可读介质。根据一个方面，提供了一种用于合成具有一种或多种速度的语音的方法。该方法可以包括由计算机对与一个或多个音位相关联的、与说话语音相对应的上下文进行编码。可以基于已编码的上下文将所述一个或多个音位与一个或多个目标声学帧对准。可以利用经过对准的音位和所述目标声学帧递归地生成一个或多个梅尔语谱图特征，并且可以使用生成的梅尔语谱图特征合成与所述说话语音相对应的给定速度的语音样本。
5.根据另一方面，提供了一种用于合成具有一种或多种速度的语音的计算机系统。计算机系统可以包括一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读有形存储设备，以及存储在一个或多个存储设备中的至少一个上存储设备的程序指令，程序指令用于通过一个或多个存储器中的至少一个存储器由一个或多个处理器中的至少一个处理器来执行，由此计算机系统能够执行方法。该方法可以包括由计算机对与一个或多个音位相关联的、与说话语音相对应的上下文进行编码。可以基于已编码的上下文将所述一个或多个音位与一个或多个目标声学帧对准。可以利用经过对准的音位和所述目标声学帧递归地生成一个或多个梅尔语谱图特征，并且可以使用生成的梅尔语谱图特征合成与所述说话语音相对应的给定速度的语音样本。
6.根据又一方面，提供了一种用于合成具有一种或多种速度的语音的计算机可读介质。计算机可读介质可以包括一个或多个计算机可读存储设备和存储在一个或多个有形存储设备中的至少一个有形存储设备上的程序指令，程序指令可由处理器执行。程序指令可由处理器执行以用于执行方法，该方法可以相应地包括由计算机对与一个或多个音位相关联的、与说话语音相对应的上下文进行编码。可以基于已编码的上下文将所述一个或多个音位与一个或多个目标声学帧对准。可以利用经过对准的音位和所述目标声学帧递归地生成一个或多个梅尔语谱图特征，并且可以使用生成的梅尔语谱图特征合成与所述说话语音相对应的给定速度的语音样本。
附图说明
7.从下面结合附图阅读的示意性实施例的详细描述中，以下和其它目的、特征和优点将变得显而易见。附图的各种特征不是按比例绘制的，而是为了清楚起见，为了这些图示结合详细描述能有助于本领域技术人员的理解。在附图中：图1示出了至少一个实施例的联网计算机环境；图2是至少一个实施例的合成具有一种或多种速度的语音的程序的示意框图；图3是至少一个实施例的合成具有一种或多种速度的语音的程序执行的步骤的示意操作流程图；图4是至少一个实施例中图1所描绘的计算机和服务器的内部部件和外部部件的框图；图5是至少一个实施例中包括图1所描绘的计算机系统的说明性云计算环境的框图；及图6是至少一个实施例中图5的示意性云计算环境的各功能层的框图。
具体实施方式
8.本文公开了所要求保护的结构和方法的详细实施例；然而，可以理解，所公开的实施例仅仅是可以以各种形式体现的所要求保护的结构和方法的示意性说明。这些结构和方法可以以许多不同的形式来体现，并且不应当被解释为限于本文中所阐述的示例性实施例。相反，提供这些示例性实施例是为了使本公开全面和完整，并且向本领域技术人员充分传达保护范围。在描述中，可能会省略公知特征和公知技术的细节，以避免不必要地模糊所呈现的实施例。
9.各实施例总体上涉及计算领域，并且更具体地涉及数据处理。以下描述的示例性实施例提供了一种系统、方法和程序产品，其中，使用说话速率作为条件输入来合成具有一种或多种速度的语音。因此，一些实施例具有通过允许使用深度神经网络来在没有并行数据的情况下以不同速度合成语音来改进数据处理领域的能力。
10.如先前所描述的，语音合成方法依赖于音位持续时间预测模型来控制语音生成期间每个音位的持续时间。在这样的系统中，通常通过将预测的持续时间与控制因子相乘来控制生成的语音的速度，以使其更快或更慢。然而，由于不考虑音位标识和上下文，每个音位都由相同的因子控制，所以生成的语音可能变得不太自然。此外，在没有明确的持续时间控制的情况下，不能在当前的端到端模型中控制合成的语音的速度。现有的用于语音合成的速度控制方法由于可能缺乏对人类如何控制其语音速度的理解，可能无法生成自然的语音。因此，在可学习的速度控制方法中使用机器学习和神经网络用于语音合成可能具有优势，能生成更自然的语音。本文中描述的用于控制生成的语音的速度的方法完全从数据中学习得到，并且学习人类语音如何随着语音速度的改变而改变。即使训练数据包含由于额外的速度归一化而具有变化的速度水平的语音，利用所描述的方法、系统和计算机程序生成的语音也可以更鲁棒。
11.本文中参考根据各个实施例的方法、装置(系统)和计算机可读介质的流程图和/或框图来描述各方面。应当理解，流程图示意和/或框图中的每个框以及框的各种组合可以由计算机可读程序指令实现。
12.以下描述的示例性实施例提供了合成具有一种或多种速度的语音的系统、方法和程序产品。根据本实施例，这种无监督语音合成机制，不需要任何并行数据，可以通过接收说话速率作为条件输入来实现。因此，系统能够将总音位的数量除以语音帧的总长度，以便以不同的速度合成语音。
13.现在参考图1，示出的是联网计算机环境的功能框图，其中示出了语音合成系统100(以下称为“系统”)，用于以执行改进的合成具有一种或多种速度的语音的方法。应当理解，图1仅提供了一种实现方式的示意图，并不意味着对可以实现不同实施例的环境施加任何限制。可以基于设计和实现方式的要求对所描绘的环境进行各种修改。
14.系统100可以包括计算机102和服务器计算机114。计算机102可以与通过通信网络110(下文称为“网络”)与服务器计算机114通信。计算机102可以包括处理器104和软件程序108，软件程序108存储在数据存储设备106上并且能够与用户联系并与服务器计算机114通信。如下面将参考图4讨论的，计算机102可以包括内部部件800a和外部部件900a，并且服务器计算机114可以包括内部部件800b和外部部件900b。计算机102可以是，例如，移动设备、电话、个人数字助理、上网本、笔记本电脑、平板电脑、台式计算机或任何类型的能够运行程序、访问网络和访问数据库的计算设备。
15.服务器计算机114还可以在云计算服务模型中运行。云计算服务模型可以是，例如，以下图5和图6所讨论的软件即服务(software as a service，saas)、平台即服务(platform as a service，paas)或基础设施即服务(infrastructure as a service，iaas)。服务器计算机114还可以位于，例如，私有云、社区云、公共云或混合云等云计算部署模型中。
16.服务器计算机114可以用于合成具有一种或多种速度的语音。服务器计算机114能够运行可以与数据库112交互的语音合成程序116(以下称为“程序”)。语音合成程序的方法将在下面参考图3更详细地解释。一个实施例中，计算机102可以作为包括用户界面的输入设备而运行，而程序116可以主要在服务器计算机114上运行。另一实施例中，程序116可以主要在一个或多个计算机102上运行，而服务器计算机114可以用于处理和存储由程序116使用的数据。应当注意，程序116可以是独立的程序，或者可以集成到更大的语音合成程序中。
17.然而，应当注意，在一些情况下，程序116的处理可以以任何比例在计算机102和服务器计算机114之间分担。在另一实施例中，程序116可以运行在多于一个计算机、服务器计算机或计算机和服务器计算机的某种组合(例如，通过网络110与单个服务器计算机114通信的多个计算机102)中。在另一实施例中，例如，程序116可以运行在通过网络110与多个客户端计算机通信的多个服务器计算机114上。或者，该程序可以运行在通过网络与服务器和多个客户端计算机通信的网络服务器上。
18.网络110可以包括有线连接、无线连接、光纤连接或其某种组合。通常，网络110可以是支持计算机102与服务器计算机114之间通信的各种连接和各种协议的任何组合。网络110可以包括各种类型的网络，例如，局域网(lan)、广域网(wan)(例如因特网)、电信网络(例如公共交换电话网络(pstn))、无线网络、公共交换网络、卫星网络、蜂窝网络(例如，第五代(5g)网络、长期演进(lte)网络、第三代(3g)网络、码分多址(cdma)网络等)、公共陆地移动网络(plmn)、城域网(man)、专用网络、自组织网络、内联网、基于光纤的网络等，和/或
这些或其它类型网络的组合。
19.图1中所示的设备和网络的数量和布局用于示例。实际上，可以存在与图1中所示的设备和/或网络相比，更多的设备和/或网络、更少的设备和/或网络、不同的设备和/或网络，或以不同方式部署的设备和/或网络。此外，图1中所示的两个或更多个设备可以在单个设备内实现，或者图1中所示的单个设备可以实现为多个分布式设备。额外地或可替代地，系统100的一组设备(例如，一个或多个设备)可以执行被描述为由系统100的另一组设备执行的一个或多个功能。
20.参考图2，其中描绘了图1的语音合成程序116的框图200。可以借助于图1中描绘的示例性实施例来描述图2。相应地，除其它模块以外，语音合成程序116可以包括编码器202、对准模块204和解码器206。根据一个实施例，语音合成程序116可以位于(图1的)计算机102中。根据另一实施例，语音合成程序116可以位于服务器(图1的)计算机114中。
21.相应地，编码器202可以包括嵌入(embedding)模块208、全连接层210和cbhg(1-d卷积组(convolution bank)+高速网络(highway network)+双向门控递归(bidirectional gated recurrent)单元)模块212。嵌入模块208可以通过数据链路224接收用于语音合成的音位序列输入。编码器202可以输出隐藏状态的序列，该隐藏状态序列包含输入音位对应的按顺序排列的表示(representation)。
22.对准模块204可以包括全连接层214和状态扩展模块216。状态扩展模块216可以接收通过数据链路226输入的音位速率和通过数据链路228输入的均方根误差(root mean square error，rmse)。对准模块204可以通过数据链路232耦合到编码器202。对准模块可以生成一个或多个帧对准隐藏状态(frame-aligned hidden states)，这些帧对准隐藏状态可以用作自回归生成的输入。来自编码器202的输出隐藏序列可以与已嵌入的说话者信息进行串接。全连接层214可以用于降维。降维之后的输出隐藏状态可以根据通过数据链路226接收到的每个音位的说话速率数据进行扩展。状态扩展可以是，例如，对根据接收到的音位速率的隐藏状态的拷贝。每个音位的说话速率可以通过对输入音位和声学特征执行强制对准而获得。然后，帧对准隐藏状态与帧级别、rmse和每个音位内的每帧的相对位置相串接。因此，输入可以包括音位序列、音位速率、rmse和说话者的标识。
23.解码器206可以包括全连接层218、递归神经网络220和梅尔语谱图(mel-spectrogram)生成模块222。全连接层218可以接收通过数据链路230输入的帧。解码器206可以通过数据链路234耦合到对准模块204。递归神经网络220可以由两个自回归rnn层构成。注意力值可以通过可与各目标帧对准的少量已编码的隐藏状态来计算，这样可以减少端到端系统中可能观察到的伪影。根据一个实施例，每个时间步长可以解码两个帧。然而，可以理解，每个时间步长内可以基于可用的计算能力来解码的任何数量的帧。递归神经网络220的每次递归的输出可以通过梅尔语谱图生成模块222传递。除其它功能外，梅尔语谱图生成模块可以执行后cbhg(post-cbhg)技术以提高预测的梅尔语谱图的质量。可以训练解码器以重建梅尔语谱图。在训练阶段，与一个或多个说话者的语音样本对应的嵌入数据可以被联合优化。可以训练解码器206以最小化后cbhg步骤之前和之后的梅尔语谱图所关联的预测损失值。模型被训练之后，可以用于基于原始说话者的语音速率以不同的速度合成语音。转换之后的模型生成的梅尔语谱图可以用作合成语音的波形生成的模型。
24.现在参考图3，其中描绘了能合成具有一种或多种速度的语音的程序所执行的各
步骤的操作流程图400。图3可以借助图1和图2进行描述。如前所述，(图1的)语音合成程序116可以使用说话速率作为输入，以一种或多种速度快速且有效地合成语音。
25.在302处，由计算机对与一个或多个音位相关联并且与说话语音相对应的上下文进行编码。编码器的输出可以是隐藏状态的序列，该序列包含输入音位的按顺序排列的表示。运行时，(图2的)编码器202可以通过(图2的)数据链路224接收音位序列数据，并且可以通过(图2的)嵌入模块208、(图2的)全连接层210和(图2的)cbhg模块212传输该数据。
26.在304处，基于已编码的上下文将一个或多个音位与一个或多个目标声学帧对准。对准模块可以生成帧对准的隐藏状态，这些帧对准的隐藏状态将用作自回归生成的输入。除其它方面之外，这样还可以确保源音位可以与其预期的目标音位相匹配。运行时，(图2的)对准模块204可以通过(图2的)数据链路232从(图2的)编码器202接收音位数据。(图2的)全连接层214可以降低音位数据的维度数。(图2的)状态扩展模块216可以分别通过(图2的)数据链路226和228接收音位速率数据和rmse数据，并且可以创建用于处理音位数据的多个隐藏状态。
27.在306处，利用对准的音位和目标声学帧递归地生成一个或多个梅尔语谱图特征。梅尔语谱图特征的生成可以包括从与一个或多个目标声学帧对准的一个或多个已编码的隐藏状态计算注意力上下文，并对所计算的注意力上下文应用cbhg技术。运行时，(图2的)解码器206可以通过(图2的)数据链路234从(图2的)对准模块204接收音位。该数据可以被传递到(图2的)递归神经网络220。帧输入数据可以由(图2的)全连接层218通过(图2的)数据链路230接收。帧输入数据和音位数据可以由递归神经网络220和全连接层218递归地处理。每次递归的结果可以被传递到(图2的)梅尔语谱图生成模块222，该梅尔语谱图生成模块222可以聚集每次递归的结果并执行cbhg操作以生成梅尔语谱图。
28.在308处，由计算机使用生成的梅尔语谱图特征来合成与说话语音相对应的语音样本。语音合成方法可以不需要用于训练的并行数据，并且可以包括自回归生成模块，该自回归生成模块可以生成鲁棒且听起来自然的说话语音。运行时，(图1的)语音合成程序116会使用生成的梅尔语谱图来基于说话语音的音位速率以给定速度合成说话语音。可选地，语音合成程序116可以通过(图1的)通信网络110将合成的语音发送到(图1的)计算机102。
29.可以理解，图3仅提供了一种实现方式的图示，并不暗示关于可以如何实现不同实施例的任何限制。可以基于设计和实现方式的要求对所描绘的环境进行各种修改。
30.图4是示意性实施例中的图1所描绘的计算机的内部部件和外部部件的框图400。应当理解，图4仅提供了一种实现方式的示意，并不意味着对可以实施不同实施例的环境的任何限制。可以基于设计和实现方式的要求对描绘的环境进行各种修改。
31.(图1的)计算机102和(图1的)服务器计算机114可以包括图4所示的相应的各组内部部件800a、800b和外部部件900a、900b。各组内部部件800中的每一组包括在一个或多个总线826上的一个或多个处理器820、一个或多个计算机可读ram 822和一个或多个计算机可读rom 824、一个或多个操作系统828以及一个或多个计算机可读有形存储设备830。
32.处理器820以硬件、固件或硬件和软件的组合来实现。处理器820是中央处理单元(cpu)、图形处理单元(gpu)、加速处理单元(apu)、微处理器、微控制器、数字信号处理器(dsp)、现场可编程门阵列(fpga)、专用集成电路(asic)或另一类型的处理部件。在一些实现方式中，处理器820包括能够被编程以执行功能的一个或多个处理器。总线826包括允许
内部部件800a、800b之间进行通信的部件。
33.(图1的)服务器计算机114中的一个或多个操作系统828、(图1的)软件程序108和(图1的)语音合成程序116存储在一个或多个相应的计算机可读有形存储设备830上，用于由一个或多个相应的处理器820通过一个或多个相应的ram822(其通常包括高速缓冲存储器)来执行。在图4所示的实施例中，每一个计算机可读有形存储设备830是内部硬盘驱动器的磁盘存储设备。另一些实施例中，每一个计算机可读有形存储设备830是半导体存储设备，例如rom 824、eprom、闪存、光盘、磁光盘、固态盘、压缩盘(cd)、数字多功能盘(dvd)、软盘、盒式磁带、磁带和/或可以存储计算机程序和数字信息的另一种类型的非易失性计算机可读有形存储设备。
34.每组内部部件800a、800b还包括r/w驱动器或接口832，以对一个或多个便携式计算机可读有形存储设备936(例如cd-rom、dvd、记忆棒、磁带、磁盘、光盘或半导体存储设备)进行读写。软件程序，例如(图1的)软件程序108和(图1的)语音合成程序116，可以存储在各个便携式计算机可读有形存储设备936中的一个或多个存储设备中，通过相应的r/w驱动器或接口832读取并且加载到相应的硬盘驱动器830中。
35.每组内部部件800a、800b还包括网络适配器或接口836，例如tcp/ip适配器卡；无线wi-fi接口卡；或3g、4g或5g无线接口卡或其它有线或无线通信链路。(图1的)服务器计算机114中的(图1的)软件程序108和(图1的)语音合成程序116可以通过网络(例如，因特网、局域网或其它网络、广域网)和相应的网络适配器或接口836从外部计算机下载到计算机102(图1)和服务器计算机114。从网络适配器或接口836，服务器计算机114中的软件程序108和语音合成程序116被加载到相应的硬盘驱动器830中。网络可以包括铜线、光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。
36.各组外部部件900a、900b中的每一组可以包括计算机显示器920、键盘930和计算机鼠标934。外部部件900a、900b还可以包括触摸屏、虚拟键盘、触摸板、定点设备和其它人机接口设备。各组内部部件800a、800b中的每一组还包括设备驱动器840，以与计算机显示器920、键盘930和计算机鼠标934相连。设备驱动器840、r/w驱动器或接口832以及网络适配器或接口836包括硬件和(存储在存储设备830和/或rom 824中的)软件。
37.应预先理解，虽然本技术包括关于云计算的详细描述，但是本文中记载的教导的实现方式不限于云计算环境。更确切地说，一些实施例能够与现在已知或以后开发的任何其它类型的计算环境相结合来实现。
38.云计算是用于实现对可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的方便的按需网络访问的服务递送模型，该可配置计算资源可用最少的管理工作或与服务提供者的交互来快速地供应和释放。该云模型可包括至少五个特性、至少三个服务模型和至少四个部署模型。
39.特点如下：按需自助服务：云消费者可根据需要自动地单方面安排诸如服务器时间和网络存储等计算能力，而无需与服务的提供者进行人工交互。广泛的网络接入：能力在网络上可用并且通过标准机制获取，该标准机制促进了在异构的精简客户端平台或厚客户端平台(例如，移动电话、笔记本电脑和pda)中的使用。资源池化：提供者的计算资源被归入资源池以通过多租户模型服务多个消费者，
其中按需将不同的物理资源和虚拟资源动态地分配和重分配。一般情况下，消费者不能控制或并不知晓所提供的资源的确切位置，但能够在较高抽象级别(例如，国家、州或数据中心)上指定位置，因此具有位置无关性。快速弹性：可快速且弹性地安排各种能力，在一些情况下，可以快速水平扩展以及快速垂直扩展。对于消费者来说，可用于供应的能力通常看起来是无限的，并且可在任何时间购买任何数量。可度量的服务：云系统通过充分利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的可计量的能力，自动地控制和优化资源的使用。可对资源的使用进行管理、控制和报告，从而为已利用的服务的提供者和消费者双方提供透明度。
40.服务模型如下：软件即服务(saas)：提供给消费者的能力是能够使用提供者在云基础架构上运行的应用。这些应用可由各种客户端设备通过精简客户端接口，例如web浏览器(如基于web的电子邮件)进行访问。可能除了有限的用户专用的应用配置设置外，消费者既不管理也不控制底层云基础架构，包括网络、服务器、操作系统、存储、或甚至单个应用的能力。平台即服务(paas)：提供给消费者的能力是能够将消费者创建的或获取的应用部署到云基础设施上，这些应用是使用提供者支持的编程语言和工具创建的。消费者既不管理也不控制底层云基础架构，包括网络、服务器、操作系统或存储，但对已部署应用具有控制权，并且对应用托管环境配置可能也具有控制权。基础架构即服务(iaas)：提供给消费者的能力是供应处理、存储、网络和其它基础计算资源，消费者能够在其中部署并运行包括操作系统和应用的任意软件。消费者既不管理也不控制底层云基础架构，但是对操作系统、存储、已部署应用具有控制权，并且对选择网络组件(例如，主机防火墙)可能具有有限的控制权。
41.部署模型如下：私有云：云基础架构单独为某个组织运行。它可由该组织或第三方管理，并且可基于自有部署或外部部署。。社区云：云基础架构被若干组织共享并且支持有共同关注点(例如，任务使命、安全要求、政策和合规考虑)的特定社区。它可由该组织或第三方管理，并且可基于自有部署或外部部署。公有云：云基础架构可供公众或大型产业群体使用并由出售云服务的组织所拥有。混合云：云基础设施是两个或更多个云(私有、社区或公共)的组合，该两个或更多个云仍为独立实体，但是通过标准化技术或专有技术被绑定在一起，该标准化技术或专有技术实现数据和应用可移植性(例如，用于云之间的负载平衡的云爆发)。
42.云计算环境是面向服务的，其焦点在于无状态、低耦合、模块化和语义互操作性。云计算的核心是其基础架构包括互连节点构成的网络。
43.参考图5，描绘了示意性云计算环境500。如图所示，云计算环境500包括至少一个云计算节点10，通过这些云计算节点10，云消费者使用的本地计算设备，例如个人数字助理(pda)或蜂窝电话54a、台式计算机54b、膝上型计算机54c和/或汽车计算机系统54n，可实现相互通信。云计算节点10可相互通信。这些云计算节点10可被物理地或虚拟地分组(未示
出)到至少一个网络中，例如如上所述的私有云、社区云、公共云或混合云或其组合。这样，云计算环境500可以提供基础架构即服务、平台即服务和/或软件即服务，云消费者不需要为该服务维护本地计算设备上的资源。可理解，图5所示的计算设备54a至54n的类型仅出于说明的目的，且云计算节点10和云计算环境500可在任何类型的网络和/或网络可寻址连接(例如，使用web浏览器)中与任何类型的计算机化设备通信。。
44.参考图6，示出了由云计算环境500(图5)提供的一组功能抽象层600。应预先理解，图6所示的组件、层和功能仅出于说明的目的，并且实施例不限于此。如图所示，提供了以下层和相应功能：
45.硬件和软件层60包括硬件组件和软件组件。硬件组件的示例包括：大型机61、基于risc(reduced instruction set computer、精简指令集计算机)体系结构的服务器62、服务器63、刀片服务器64、存储设备65、以及网络和联网组件66。在一些实施例中，软件组件包括网络应用服务器软件67和数据库软件68。
46.虚拟化层70提供抽象层，从该抽象层可提供以下虚拟实体的示例：虚拟服务器71、虚拟存储72、虚拟网络73(包括虚拟专用网络)、虚拟应用和操作系统74、以及虚拟客户机75。
47.在一个示例中，管理层80可提供在下面描述的功能。资源供应81提供计算资源和用于在云计算环境中执行任务的其它资源的动态获取。计量和定价82在云计算环境内对资源的使用进行成本确定(cost tracking)，并且为这些资源的消耗提供帐单和发票。在一个示例中，这些资源可包括应用软件许可证。安全性为云消费者和任务提供身份验证，并保护数据和其它资源。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务水平管理84提供云计算资源分配和管理，使得满足所需的服务水平。服务水平协议(service level agreement，sla)规划和履行85提供对云计算资源的预安排和采购，其中根据sla预测未来需求。
48.工作负载层90提供可利用云计算环境的功能的示例。可从该层提供的工作负载和功能的示例包括：地图绘制及导航91、软件开发及生命周期管理92、虚拟教室教学提供93、数据分析处理94、交易处理95、以及dnn模型压缩96。dnn模型压缩96可在变差丢弃框架中使用平滑正则化对深度神经网络模型进行压缩。
49.一些实施例可涉及在任何可能的集成技术的技术细节水平上的系统、方法和/或计算机可读介质。计算机可读介质可包括非暂时性计算机可读存储介质，其中存储有用于使处理器执行操作的计算机可读程序指令。
50.计算机可读存储介质可以是有形设备，有形设备可保存和存储用于由指令执行设备使用的指令。计算机可读存储介质可以是，例如但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适设备的组合。计算机可读存储介质的更具体的非穷举的示例列表包括以下项：便携式计算机磁盘、硬盘驱动器、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式光盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码装置(诸如穿孔卡片或凹槽中的其上记录有指令的凸起结构)，以及前述的任何合适的组合。本文使用的计算机可读存储介质不应被解释为是瞬时信号本身，诸如无线电波或其它自由传播的电磁波、通过波导或其它传输介质传播的电磁波(例如，通过光缆的光脉冲)，
或通过导线传输的电信号。
51.本文描述的计算机可读程序指令可从计算机可读存储介质被下载到相应的计算/处理设备，或者经由网络(例如，因特网、局域网、广域网和/或无线网络)被下载到外部计算机或外部存储设备。网络可包括铜传输缆线、光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令，并且转发计算机可读程序指令以用于存储在相应计算/处理设备内的计算机可读存储介质中。
52.用于执行操作的计算机可读程序代码/指令可以是汇编指令、指令集体系结构(instruction-set-architecture，isa)指令、机器指令、机器依赖指令、微代码、固件指令、状态设置数据、用于集成电路的配置数据，或者以一种或多种编程语言的任何组合编写的源代码或目标代码，这些编程语言包括面向对象的编程语言(诸如smalltalk、c++等)以及面向过程的编程语言(诸如“c”编程语言或类似编程语言)。计算机可读程序指令可完全在用户的计算机上执行、部分地在用户的计算机上执行、作为独立软件包、部分地在用户的计算机上并且部分地在远程计算机上或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可通过任何类型的网络(包括局域网(lan)或广域网(wan))连接到用户的计算机，或者可连接到外部计算机(例如，通过使用因特网服务提供商的因特网)。在一些实施例中，电子电路，包括，例如，可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla)，可通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化，从而执行本公开的各方面或操作。
53.这些计算机可读程序指令可被提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器以产生机器，使得指令经由计算机或其它可编程数据处理装置的处理器执行后创建用于实现上述流程图和/或框图的框或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可被存储在计算机可读存储介质中，该计算机可读存储介质可指导计算机、可编程数据处理装置和/或其它设备以特定方式运行，使得其中存储有指令的计算机可读存储介质包括这样的制造物，该制造物包括用于实现流程图和/或框图的框或多个框中指定的功能/动作的各方面的指令。
54.还可将计算机可读程序指令加载到计算机、其它可编程数据处理装置或其它设备上，使得将在计算机、其它可编程装置或其它设备上执行一系列操作步骤，以产生计算机实现的处理，使得在计算机、其它可编程装置或其它设备上执行的指令实现在流程图和/或框图的框或多个框中指定的功能/动作。
55.附图中的流程图和框图说明了各实施例的系统、方法和计算机可读介质的可能实施例的体系结构、功能和操作。在这点上，流程图或框图中的每个框可表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的至少一个可执行指令。方法、计算机系统和计算机可读介质可包括额外的框、更少的框、不同的框，或者与附图中所描绘的顺序不同的框。在一些可替代的实现方式中，在框中指出的功能可不按照附图中指定的顺序发生。例如，连续示出的两个框实际上可同时或基本同时被执行，或者这些框有时可以以相反的顺序被执行，这取决于所涉及的功能。还应注意，框图和/或流程图图示中的每个框以及框图和/或流程图图示中的框的组合可由基于专用硬件的系统来实现，该系统执行指定功能或动作或执行专用硬件和计算机指令的组合。
56.显然，本文描述的系统和/或方法可以以不同形式的硬件、固件或硬件和软件的组合来实现。用于实现这些系统和/或方法的实际专用控制硬件或软件代码不限于这些实现方式。因此，在不参考特定软件代码的情况下本文描述了系统和/或方法的操作和行为——应当理解，可基于在本文的描述来设计软件和硬件以实现上述系统和/或方法
57.除非明确说明，本文中使用的元件、动作或指令都不应被解释为关键的或必要的。此外，如本文所用，冠词“一”和“一个”旨在包括至少一个项目，并且可与“至少一个”互换使用。此外，如本文所用，术语“集合”旨在包括至少一个项目(例如，相关项目、不相关项目、相关项目和不相关项目的组合等)，并且可与“至少一个”互换使用。当仅意指一个项目时，使用术语“一个”或类似语言。此外，如本文所用，术语“具有”、“有”、“带有”等是开放式术语。进一步地，除非另外说明，短语“基于”旨在表示“至少部分地基于”。
58.上面以说明的目的描述了对各方面和实施例，但该描述并非穷举或局限在所公开的实施例。虽然特征的组合在权利要求中陈述和/或在说明书中公开，但是这些组合并不旨在对可能的实现方式的公开内容进行限制。事实上，这些特征中的许多特征可以以权利要求中未具体列举和/或说明书中未公开的方式组合。虽然下面列出的每个从属权利要求可直接从属于仅一个权利要求，但是公开的可能的实现方式包括与权利要求组中的每个其它权利要求的组合的每个从属权利要求。在不脱离所描述的实施例的范围的情况下，许多修改和变化对于本领域普通技术人员是显而易见的。本文使用的术语是经过选择以能够最佳地解释实施例的原理、实际应用或相对于市场中已有技术的技术改进，或者使得本领域普通技术人员能够理解本文公开的实施例。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：俞承柱俞栋
技术所有人：腾讯美国有限责任公司
我是此专利的发明人