语音识别系统、方法、音箱、显示设备和交互平台与流程

文档序号：24154743发布日期：2021-03-05 10:44阅读：107来源：国知局

[0001]
本发明涉及互联网技术领域，具体而言，涉及一种语音识别系统、方法、音箱、显示设备和交互平台。

背景技术：

[0002]
目前主流的语音识别系统，采用混合深度神经网络和隐马尔可夫模型的框架：单独训练一个声学模型，语言模型，然后结合发音词典进行联合建模。这整个流程比较繁琐。
[0003]
针对上述由于现有的语音识别系统由于操作繁琐，导致的语音识别系统运行性能低的问题。目前虽然有一些研究提出构建端到端的语音识别系统来简化系统,但是性能上相比于传统的混合系统并没有优势。

技术实现要素：

[0004]
本发明实施例提供了一种语音识别系统、方法和音箱，以至少解决由于现有的语音识别系统由于操作繁琐，导致的语音识别系统运行性能低的技术问题。
[0005]
根据本发明实施例的一个方面，提供了一种语音识别系统，包括：声学模型和翻译器，其中，声学模型，用于依据获取到的声学特征与建模单元序列进行映射，得到声学特征的建模单元序列；翻译器，用于对建模单元序列进行翻译，得到翻译结果。
[0006]
可选的，该系统还包括：文本词典，其中，通过文本词典结合建模单元序列的上下文信息进行校正，并通过翻译器结合文本词典对建模单元序列进行翻译，得到翻译结果。
[0007]
可选的，在训练阶段分别对声学模型和翻译器进行训练。
[0008]
可选的，声学模型包括：由深度学习模型和连接时间分类(connectionist temporal classification)模型构成。
[0009]
可选的，建模单元序列包括：音节和字符。
[0010]
可选的，翻译器为transformer模型。
[0011]
可选的，该系统应用于端到端架构的系统。
[0012]
根据本发明实施例的另一个方面，提供了一种语音识别方法，包括：通过声学模型获取声学特征；通过声学模型依据声学特征与建模单元序列进行映射，得到声学特征的建模单元序列；通过翻译器对建模单元序列进行翻译，得到翻译结果。
[0013]
可选的，该方法还包括：在获取声学特征之前，在训练阶段，分别对声学模型和翻译器进行训练。
[0014]
可选的，通过翻译器对建模单元序列进行翻译，得到翻译结果包括：通过文本词典结合建模单元序列的上下文信息进行校正，并通过翻译器结合文本词典对建模单元序列进行翻译，得到翻译结果。
[0015]
可选的，声学模型包括：由深度学习模型和连接时间分类(connectionist temporal classification)模型构成。
[0016]
可选的，建模单元序列包括：音节和字符。
[0017]
根据本发明实施例的又一个方面，提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述语音识别方法。
[0018]
根据本发明实施例的再一个方面，提供了一种音箱，包括语音识别系统，其中，该语音识别系统为上述系统。
[0019]
根据本发明另一实施例的一个方面，提供了一种显示设备，包括：具备图像、视频交互功能的设备，其中，设备包括：语音识别系统，其中，语音识别系统包括权利要求1的系统。
[0020]
根据本发明另一实施例的一个方面，提供了一种交互平台，包括：接收用户在线输入的语音数据；依据语音数据返回识别数据，其中，识别数据通过语音识别系统进行翻译得到；其中，语音识别系统包括权利要求1的系统。
[0021]
可选的，该交互平台的系统架构包括：端到端架构。
[0022]
在本发明实施例中，通过声学模型，用于依据获取到的声学特征与建模单元序列进行映射，得到声学特征的建模单元序列；翻译器，用于对建模单元序列进行翻译，得到翻译结果，达到了提升语音识别系统性能的目的，从而实现了提升语音识别系统识别精度的技术效果，进而解决了由于现有的语音识别系统由于操作繁琐，导致的语音识别系统运行性能低的技术问题。
附图说明
[0023]
此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
[0024]
图1是本发明实施例一的一种语音识别系统的示意框图；
[0025]
图2是本发明实施例一的另一种语音识别系统的示意框图；
[0026]
图3是本发明实施例二的一种语音识别方法的计算机终端的硬件结构框图；
[0027]
图4是根据本发明实施例二的语音识别方法的流程图。
具体实施方式
[0028]
为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
[0029]
需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0030]
本申请涉及的技术名词
[0031]
acoustic feature：声学特征；
[0032]
连接时间分类：connectionist temporal classification，简称ctc；
[0033]
syllable：音节；
[0034]
character：字符；
[0035]
character sequence：字符建模单元序列；
[0036]
text lexicon：文本词典；
[0037]
dfsmn：deep-feedforward sequential memory networks，深度前馈序列记忆神经网络；
[0038]
dnn-hmm：deep neural networks-hidden markov model，深度神经网络和隐马尔科夫声学模型。
[0039]
实施例1
[0040]
图1是本发明实施例一的一种语音识别系统的示意框图。如图1所示，根据本发明实施例的一个方面，提供了一种语音识别系统，包括：
[0041]
声学模型12和翻译器14，其中，声学模型12，用于依据获取到的声学特征与建模单元序列进行映射，得到声学特征的建模单元序列；翻译器14，用于对建模单元序列进行翻译，得到翻译结果；
[0042]
其中，本申请实施例提供的语音识别系统还包括：文本词典16，其中，通过文本词典16结合建模单元序列的上下文信息进行校正，并通过翻译器14结合文本词典16对建模单元序列进行翻译，得到翻译结果。
[0043]
具体的，如图2所示，图2是本发明实施例一的另一种语音识别系统的示意框图。本申请实施例提供的语音识别系统可以为端到端的语音识别系统，其中，该端到端的语音识别系统如图2所示主要包含两大部分，声学模型listener和翻译器translator，其中，listener是一个基于ctc训练准则优化的声学模型，实现从声学特征acoustic feature到字符建模单元序列character sequence(以中文为例，中文音节，字符等)的映射。translator是一个翻译器,实现将listener识别得到的建模单元序列进一步翻译成需要的最终输出的翻译结果，同时自动的纠正一些listener的识别错误。
[0044]
在本发明实施例中，通过声学模型，用于依据获取到的声学特征与建模单元序列进行映射，得到声学特征的建模单元序列；翻译器，用于初步识别得到的将建模单元序列翻译得到最终的识别结果，同时自动纠正一些识别错误，达到了提升语音识别系统性能的目的，从而实现了提升语音识别系统识别精度的技术效果，进而解决了由于现有的语音识别系统由于操作繁琐，导致的语音识别系统运行性能低的技术问题。
[0045]
可选的，在训练阶段分别对声学模型12和翻译器14进行训练。
[0046]
可选的，声学模型12包括：由深度学习模型和连接时间分类(connectionist temporal classification)模型构成。
[0047]
其中，声学模型(am)包括(例如)：rnn+ctc，dfsmn+ctc,fsmn+ctc等。
[0048]
这里本申请实施例提供的端到端架构的第一部分(listener)部分由“深度学习模型(例如cnn,rnn,fsmn,dfsmn)”+“ctc”构成，其中的深度学习模型在speech领域称为声学模型(am)其中深度学习模型可以由上述模型中选择；ctc是一种损失函数loss function。
[0049]
可选的，建模单元序列包括：音节和字符。
[0050]
综上，本申请实施例提供的语音识别系统属于端到端的语音识别系统，其中，在训练阶段，listener和translator是分开训练的，使用阶段两者可以联合成一个模型，从而实现端到端的语音识别系统。
[0051]
其中，本申请实施例中端到端的语音识别系统能够从原始输入的语音信号，直接进行识别得到最终输出的文本，基于上述，本申请实施例中不包含单独的语言模型即可实现对用户输入语音的识别和翻译。
[0052]
本申请实施例提供的语音识别系统结合语音识别领域以及机器翻译领域的模型，关于listener可以采用基于dfsmn-ctc的声学模型，关于translator可以采用机器翻译领域里的transformer模型。同时训练translator的时候可以额外利用海量的文本，这样就可以克服现有的端到端语音识别系统没法利用额外的文本的缺点。
[0053]
需要说明的是，本申请实施例提供的模型仅以dfsmn-ctc声学模型和transformer模型为例进行说明，以实现本申请实施例提供的语音识别系统为准具体不做限定。
[0054]
其中，本申请实施例提供的语音识别系统只是利用ctc-am得到一个粗的建模单元系列，序列里可以有错误，通过后端的translator可以利用上下文信息去纠正很多错误，从而可以获得效果上的显著提升。并且，由于相关技术中attention based encoder-decoder没有有效利用额外的文本，但是本申请实施例提出的方案训练translator时候可以使用额外的文本，从而提升系统性能。
[0055]
实施例2
[0056]
根据本发明实施例，还提供了一种语音识别方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
[0057]
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图3是本发明实施例二的一种语音识别方法的计算机终端的硬件结构框图。如图3所示，计算机终端30可以包括一个或多个(图中仅示出一个)处理器302(处理器302可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器304、以及用于通信功能的传输模块306。本领域普通技术人员可以理解，图3所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端30还可包括比图3中所示更多或者更少的组件，或者具有与图3所示不同的配置。
[0058]
存储器304可用于存储应用软件的软件程序以及模块，如本发明实施例中的语音识别方法对应的程序指令/模块，处理器302通过运行存储在存储器304内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的语音识别方法。存储器304可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器304可进一步包括相对于处理器302远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端30。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0059]
传输模块306用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端30的通信供应商提供的无线网络。在一个实例中，传输模块306包括一个网络适配器(network interface controller，nic)，其可通过基站与其他网络设备相连从而可与
互联网进行通讯。在一个实例中，传输模块306可以为射频(radio frequency，rf)模块，其用于通过无线方式与互联网进行通讯。
[0060]
在上述运行环境下，本申请提供了如图4所示的语音识别方法。图4是根据本发明实施例二的语音识别方法的流程图。
[0061]
步骤s402，通过声学模型获取声学特征；
[0062]
步骤s404，通过声学模型依据声学特征与建模单元序列进行映射，得到声学特征的建模单元序列；
[0063]
步骤s406，通过翻译器对建模单元序列进行翻译，得到翻译结果。
[0064]
具体的，本申请实施例提供的语音识别方法可以应用于实施例1中的语音识别系统，即，端到端的语音识别系统，其中，该端到端的语音识别系统如图2所示主要包含两大部分，声学模型listener和翻译器translator，其中，listener是一个基于ctc训练准则优化的声学模型，实现从声学特征到建模单元序列(以中文为例，中文音节，字符等)的映射。translator是一个翻译器,实现将listener识别得到的建模单元序列进一步翻译成需要的最终输出的翻译结果，同时自动的纠正一些listener的识别错误。
[0065]
在本发明实施例中，通过声学模型获取声学特征；通过声学模型依据声学特征与建模单元序列进行映射，得到声学特征的建模单元序列；通过翻译器对建模单元序列进行翻译，得到翻译结果，达到了提升语音识别系统性能的目的，从而实现了提升语音识别系统识别精度的技术效果，进而解决了由于现有的语音识别系统由于操作繁琐，导致的语音识别系统运行性能低的技术问题。
[0066]
可选的，本申请实施例提供的语音识别方法还包括：在获取声学特征之前，在训练阶段，分别对声学模型和翻译器进行训练。
[0067]
可选的，通过翻译器对建模单元序列进行翻译，得到翻译结果包括：通过文本词典结合建模单元序列的上下文信息进行校正，并通过翻译器结合文本词典对建模单元序列进行翻译，得到翻译结果。
[0068]
可选的，声学模型包括：由深度学习模型和连接时间分类connectionist temporal classification模型构成。
[0069]
可选的，建模单元序列包括：音节和字符。
[0070]
需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。
[0071]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的语音识别方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。
[0072]
实施例3
[0073]
根据本发明实施例的又一个方面，提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述语音识别方法。
[0074]
实施例4
[0075]
根据本发明实施例的再一个方面，提供了一种音箱，包括语音识别系统，其中，该语音识别系统为实施例1中的系统。
[0076]
实施例5
[0077]
根据本发明实施例的再一个方面，提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述语音识别方法。
[0078]
实施例6
[0079]
根据本发明另一实施例的一个方面，提供了一种显示设备，包括：具备图像、视频交互功能的设备，其中，设备包括：语音识别系统，其中，语音识别系统包括实施例1中的系统。
[0080]
其中，本申请实施例中的显示设备可以包括具备语音交互功能的设备，可以为车载显示设备、智能机器人、物联网终端(例如自动售卖机)等设备，以实现本申请实施例提供的显示设备为准，具体不做限定。
[0081]
实施例7
[0082]
根据本发明另一实施例的一个方面，提供了一种交互平台，包括：接收用户在线输入的语音数据；依据语音数据返回识别数据，其中，识别数据通过语音识别系统进行翻译得到；其中，语音识别系统包括实施例1中的系统。
[0083]
可选的，该交互平台的系统架构包括：端到端架构。
[0084]
具体的，基于端到端架构，本申请实施例提供一种在线交互平台，通过获取用户在线输入的语音数据，基于语音识别系统对该语音数据进行翻译，得到识别数据，并向用户返回该识别数据，从而实现智能在线交互。该在线交互平台可以应用于咨询网站，电商交易网站或语言翻译终端(例如：翻译软件app，在线翻译网站)。
[0085]
实施例8
[0086]
本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的语音识别方法所执行的程序代码。
[0087]
可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。
[0088]
可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过声学模型获取声学特征；通过声学模型依据声学特征与建模单元序列进行映射，得到声学特征的建模单元序列；通过翻译器对建模单元序列进行翻译，得到翻译结果。
[0089]
可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在获取声学特征之前，在训练阶段，分别对声学模型和翻译器进行训练。
[0090]
可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过翻译器对建模单元序列进行翻译，得到翻译结果包括：通过文本词典结合建模单元序列的上下文信息进行校正，并通过翻译器结合文本词典对建模单元序列进行翻译，得到翻译结果。
[0091]
可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：声
学模型包括：由深度学习模型和连接时间分类(connectionist temporal classification)模型构成。
[0092]
可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：建模单元序列包括：音节和字符。
[0093]
上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
[0094]
在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
[0095]
在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
[0096]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0097]
另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0098]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0099]
以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张仕良;雷鸣
技术所有人：阿里巴巴集团控股有限公司
我是此专利的发明人