语音识别结果处理方法、装置、电子设备及介质与流程

文档序号：19747594发布日期：2020-01-21 18:47阅读：193来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本申请涉及语音识别技术领域，具体涉及一种语音识别结果处理方法及装置、一种电子设备以及一种计算机可读介质。

背景技术：

语音识别技术随着计算机和相关软硬件技术的发展，已越来越多的应用在各个领域，其识别率也在不断的提高。在环境安静、发音标准等特定条件下，目前应用在语音识别输入文字系统的识别率已经达到95％以上。常规语音识别技术已比较成熟。

但是对于一些专业词汇，若用户本身说话带有口音或者使用了方言、发音不标准的情况下，其识别率将大打折扣，影响精确操控，效果不够理想。若能采用其它方法来辅助判断以提高其语音识别的准确率，那么语音识别的实用性将显著提高。

技术实现要素：

本申请的目的是提供一种语音识别结果处理方法及装置、一种电子设备以及一种计算机可读介质。

本申请第一方面提供一种语音识别结果处理方法，包括：

获取目标用户输入的针对参照词序列文本的待识别语音信息，并对所述待识别语音信息进行语音识别，得到所述待识别语音信息对应的待标记词序列文本；

将所述待标记词序列文本和所述参照词序列文本进行比对，得到比对结果，并基于所述比对结果确定所述语音识别的字错率；

将所述待标记词序列文本进行拼音转换后，得到待标记词序列文本对应的标注拼音序列；

基于所述比对结果、所述参照词序列文本对应的参照拼音序列、所述标注拼音序列对所述待标记词序列文本进行标记，并将标记结果输出。

在一些可能的实现方式中，所述将所述待标记词序列文本和所述参照词序列文本进行比对得到比对结果，并基于所述比对结果确定所述语音识别的字错率，包括：

对所述待标记词序列文本进行分词，得到多个待识别词单元；

将所述多个待识别词单元与所述参照词序列文本中的参照词单元进行比对，确定将所述待标记词序列文本转换为所述参照词序列文本需要更新的待识别词单元；将所述需要更新的待识别词单元记为所述比对结果；

基于所述需要更新的待识别词单元的个数以及所述参照词序列文本中的参照词单元的个数，确定所述语音识别的字错率。

在一些可能的实现方式中，所述基于所述比对结果、所述参照词序列文本对应的参照拼音序列、所述标注拼音序列对所述待标记词序列文本进行标记，包括：

基于所述需要更新的待识别词单元和所述标注拼音序列确定所述需要更新的待识别词单元中每个待识别词单元对应的标注拼音；

基于所述需要更新的待识别词单元在所述参照词序列文本中对应的参照词单元以及所述参照词序列文本对应的参照拼音序列，确定所述需要更新的待识别词单元对应的参照词单元中每个参照词单元对应的参照拼音；

根据所述需要更新的待识别词单元中每个待识别词单元对应的标注拼音，以及所述需要更新的待识别词单元对应的参照词单元中每个参照词单元对应的参照拼音，确定所述需要更新的待识别词单元的错误类型；

基于所述错误类型以及所述错误类型对应的标记方式，对所述待标记词序列文本进行标记。

在一些可能的实现方式中，上述方法还包括：

在对所述待标记词序列文本进行标记后，将所述标记结果中的待识别词单元以及该待识别词单元对应的参照拼音和标注拼音进行对应存储。

本申请第二方面提供一种语音识别结果处理装置，包括：

识别模块，用于获取目标用户输入的针对参照词序列文本的待识别语音信息，并对所述待识别语音信息进行语音识别，得到所述待识别语音信息对应的待标记词序列文本；

比对模块，用于将所述待标记词序列文本和所述参照词序列文本进行比对，得到比对结果，并基于所述比对结果确定所述语音识别的字错率；

转换模块，用于将所述待标记词序列文本进行拼音转换后，得到待标记词序列文本对应的标注拼音序列；

标记模块，用于基于所述比对结果、所述参照词序列文本对应的参照拼音序列、所述标注拼音序列对所述待标记词序列文本进行标记，并将标记结果输出。

在一些可能的实现方式中，所述比对模块，具体用于：

对所述待标记词序列文本进行分词，得到多个待识别词单元；

基于所述需要更新的待识别词单元的个数以及所述参照词序列文本中的参照词单元的个数，确定所述语音识别的字错率。

在一些可能的实现方式中，所述标记模块，具体用于：

基于所述需要更新的待识别词单元和所述标注拼音序列确定所述需要更新的待识别词单元中每个待识别词单元对应的标注拼音；

基于所述错误类型以及所述错误类型对应的标记方式，对所述待标记词序列文本进行标记。

在一些可能的实现方式中，所述装置还包括存储模块，用于：

在对所述待标记词序列文本进行标记后，将所述标记结果中的待识别词单元以及该待识别词单元对应的参照拼音和标注拼音进行对应存储。

本申请第三方面提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行以实现本申请第一方面所述的方法。

本申请第四方面提供一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现本申请第一方面所述的方法。

相较于现有技术，本申请第一方面提供的语音识别结果处理方法，通过获取目标用户输入的针对参照词序列文本的待识别语音信息，并对所述待识别语音信息进行语音识别，得到所述待识别语音信息对应的待标记词序列文本，将所述待标记词序列文本和所述参照词序列文本进行比对，得到比对结果，并基于所述比对结果确定所述语音识别的字错率，将所述待标记词序列文本进行拼音转换后，得到待标记词序列文本对应的标注拼音序列，基于所述比对结果、所述参照词序列文本对应的参照拼音序列、所述标注拼音序列对所述待标记词序列文本进行标记，并将标记结果输出。由于是基于参照词序列文本进行语音识别结果的标记，使得可以准确对语音识别结果中识别错误的部分进行标记定位，因此，相较于现有技术，能够在一定程度上提升对于专业词汇的语音识别率，提升用户体验。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请的一些实施方式所提供的一种语音识别结果处理方法的流程图；

图2示出了本申请的一些实施方式所提供的一种语音识别结果处理装置的示意图；

图3示出了本申请的一些实施方式所提供的一种电子设备的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。

另外，术语“第一”和“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例提供一种语音识别结果处理方法及装置、一种电子设备以及计算机可读介质，下面结合附图进行说明。

请参考图1，其示出了本申请的一些实施方式所提供的一种语音识别结果处理方法的流程图，如图所示，所述语音识别结果处理方法，可以包括以下步骤：

步骤s101：获取目标用户输入的针对参照词序列文本的待识别语音信息，并对所述待识别语音信息进行语音识别，得到所述待识别语音信息对应的待标记词序列文本。

其中，所述参照词序列文本为预先设置的标准文本，例如一些专业词汇文本。用户阅读参照词序列文本产生待识别语音信息。然后对待识别语音信息进行语音识别，识别出的文本为所述待标记词序列文本。

步骤s102：将所述待标记词序列文本和所述参照词序列文本进行比对，得到比对结果，并基于所述比对结果确定所述语音识别的字错率。

本申请实施例，得到参照词序列文本对应的待标记词序列文本之后，首先计算语音识别字错率。

具体的，在本申请的一些实施方式中，上述步骤s102可以实现为：

对所述待标记词序列文本进行分词，得到多个待识别词单元；将所述多个待识别词单元与所述参照词序列文本中的参照词单元进行比对，确定将所述待标记词序列文本转换为所述参照词序列文本需要更新的待识别词单元；将所述需要更新的待识别词单元记为所述比对结果；基于所述需要更新的待识别词单元的个数以及所述参照词序列文本中的参照词单元的个数，确定所述语音识别的字错率，通过计算语音识别字错率可以对应出哪段文本识别正确，哪些识别错误。

具体的，字错率(worderrorrate，wer)计算方式为：为了使识别出来的词序列和标准的词序列之间保持一致，需要进行替换，删除，或者插入某些词，这些插入，替换，删除的词的总个数，除以标准的词序列中词的个数的百分比，即为wer，其计算公式为：

其中，insertion：为插入字；substitution：为替换字；deletion：删除字；totalwords：总字数。

例如，增加词3个，替换的词6个，删除的词1个，那么wer为：

步骤s103：将所述待标记词序列文本进行拼音转换后，得到待标记词序列文本对应的标注拼音序列。

本申请实施例，统计字错率之后，将待标记词序列文本进行拼音转换。具体的，可以利用汉字unicode编码对识别汉字进行拼音转换。

步骤s104：基于所述比对结果、所述参照词序列文本对应的参照拼音序列、所述标注拼音序列对所述待标记词序列文本进行标记，并将标记结果输出。

具体的，在本申请的一些实施方式中，步骤s104可以实现为：

基于所述需要更新的待识别词单元和所述标注拼音序列确定所述需要更新的待识别词单元中每个待识别词单元对应的标注拼音；

基于所述错误类型以及所述错误类型对应的标记方式，对所述待标记词序列文本进行标记。

本实施方式中，标记方式可用深颜色字体、加粗、下划线等方式对识别错误汉字进行标记。标记之后可以对用户进行提示，提示方式可以为将统计错误次数在终端输出窗口进行提示。通过对语音识别文本的汉字拼音标注，可以找出是哪类错误类型，同音字识别错误，近音字识别错误等，同时还能对每段错误的文字进行定位，提示用户是否发音不规范。

上述语音识别结果处理方法可用于客户端，本申请实施例中，所述客户端可以包括硬件，也可以包括软件。当客户端包括硬件时，其可以是具有显示屏并且支持信息交互的各种电子设备，例如，可以包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当客户端包括软件时，可以安装在上述电子设备中，其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

相较于现有技术，本申请实施例提供的上述语音识别结果处理方法，通过获取目标用户输入的针对参照词序列文本的待识别语音信息，并对所述待识别语音信息进行语音识别，得到所述待识别语音信息对应的待标记词序列文本，将所述待标记词序列文本和所述参照词序列文本进行比对，得到比对结果，并基于所述比对结果确定所述语音识别的字错率，将所述待标记词序列文本进行拼音转换后，得到待标记词序列文本对应的标注拼音序列，基于所述比对结果、所述参照词序列文本对应的参照拼音序列、所述标注拼音序列对所述待标记词序列文本进行标记，并将标记结果输出。由于是基于参照词序列文本进行语音识别结果的标记，使得可以准确对语音识别结果中识别错误的部分进行标记定位，因此，相较于现有技术，能够在一定程度上提升对于专业词汇的语音识别率，提升用户体验。

在上述实施例的基础上，在本申请的另一些实施例中，上述方法中还可以包括步骤：在对所述待标记词序列文本进行标记后，将所述标记结果中的待识别词单元以及该待识别词单元对应的参照拼音和标注拼音进行对应存储。

本实施方式，在对待标记词序列文本进行语音标记后，可以将参照拼音和标注拼音进行对应记录存储，形成纠错文本，如同音字，近音字等，用以日后进一步提高语音识别率。

在上述的实施例中，提供了一种语音识别结果处理方法，与之相对应的，本申请还提供一种语音识别结果处理装置。本申请实施例提供的语音识别结果处理装置可以实施上述语音识别结果处理方法，该语音识别结果处理装置可以通过软件、硬件或软硬结合的方式来实现。例如，该语音识别结果处理装置可以包括集成的或分开的功能模块或单元来执行上述各方法中的对应步骤。请参考图2，其示出了本申请的一些实施方式所提供的一种语音识别结果处理装置的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

如图2所示，所述语音识别装置10可以包括：

识别模块101，用于获取目标用户输入的针对参照词序列文本的待识别语音信息，并对所述待识别语音信息进行语音识别，得到所述待识别语音信息对应的待标记词序列文本；

比对模块102，用于将所述待标记词序列文本和所述参照词序列文本进行比对，得到比对结果，并基于所述比对结果确定所述语音识别的字错率；

转换模块103，用于将所述待标记词序列文本进行拼音转换后，得到待标记词序列文本对应的标注拼音序列；

标记模块104，用于基于所述比对结果、所述参照词序列文本对应的参照拼音序列、所述标注拼音序列对所述待标记词序列文本进行标记，并将标记结果输出。

在本申请实施例的一些实施方式中，所述比对模块102，具体用于：

对所述待标记词序列文本进行分词，得到多个待识别词单元；

基于所述需要更新的待识别词单元的个数以及所述参照词序列文本中的参照词单元的个数，确定所述语音识别的字错率。

在本申请实施例的一些实施方式中，所述标记模块104，具体用于：

基于所述需要更新的待识别词单元和所述标注拼音序列确定所述需要更新的待识别词单元中每个待识别词单元对应的标注拼音；

基于所述错误类型以及所述错误类型对应的标记方式，对所述待标记词序列文本进行标记。

在本申请实施例的一些实施方式中，所述语音识别结果处理装置10还可以包括存储模块，用于：

在对所述待标记词序列文本进行标记后，将所述标记结果中的待识别词单元以及该待识别词单元对应的参照拼音和标注拼音进行对应存储。

本申请实施例提供的语音识别结果处理装置10，与本申请前述实施例提供的语音识别结果处理方法出于相同的发明构思，具有相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的语音识别结果处理方法对应的电子设备，所述电子设备可以是用于客户端的电子设备，例如手机、笔记本电脑、平板电脑、台式机电脑等，以执行上述语音识别结果处理方法。

请参考图3，其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图3所示，所述电子设备20包括：处理器200，存储器201，总线202和通信接口203，所述处理器200、通信接口203和存储器201通过总线202连接；所述存储器201中存储有可在所述处理器200上运行的计算机程序，所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的语音识别结果处理方法。

其中，存储器201可能包含高速随机存取存储器(ram：randomaccessmemory)，也可能还包括非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线202可以是isa总线、pci总线或eisa总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中，存储器201用于存储程序，所述处理器200在接收到执行指令后，执行所述程序，前述本申请实施例任一实施方式揭示的所述语音识别结果处理方法可以应用于处理器200中，或者由处理器200实现。

处理器200可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器，包括中央处理器(centralprocessingunit，简称cpu)、网络处理器(networkprocessor，简称np)等；还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201，处理器200读取存储器201中的信息，结合其硬件完成上述方法的步骤。

本申请实施例提供的电子设备与本申请实施例提供的语音识别结果处理方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的语音识别结果处理方法对应的计算机可读介质，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会执行前述任意实施方式所提供的语音识别结果处理方法。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的语音识别结果处理方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围，其均应涵盖在本申请的权利要求和说明书的范围当中。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈剑超;肖龙源;李稀敏;蔡振华;刘晓葳;王静
技术所有人：厦门快商通科技股份有限公司
我是此专利的发明人

上一篇：一种十三吗啉的合成工艺的制作方法
上一篇：一种4-烷基-5-烷氧基噁唑类化合物的制备方法与流程