一种语音识别的校正方法及装置与流程

文档序号：12724104阅读：484来源：国知局

本发明涉及语音处理技术，尤其涉及一种语音识别的校正方法及装置。

背景技术：

随着科技的发展，人类已进入人工智能时代，人工智能用于延展人类的智慧和能力，模拟人类的思维过程和智能行为，使机器能够胜任通常需要人类智能才能完成的复杂工作。人工智能的其中一个重要分支包括语音识别、文字翻译以及语音合成，语音识别技术是机器通过识别和理解过程把输入的语音信号转变成相应的文本，实现人与机器的交流；文字翻译技术是将语音识别到的词语按照正确的语法翻译为语句；语音合成技术(Text to Speech，简称TTS)是将机器产生或外部输入的文字信息转变为类似人类表达方式的语音并输出。

目前，科大讯飞、微软、谷歌等公司研制出的语音识别技术是基于具有庞大的云数据处理能力的大数据平台计算而来，数据量具有大而广的特点，可以基本实现人机语言交互，但是，针对特定应用场景下的特定应用语句的识别和翻译往往是不够准确的。

现有技术的校正方法中，通常采用统计学或机器学习的方法，逐步过滤获取校正集合。但是这种方法由于缺乏针对性，对每个用户的输入进行校正的过程基本是相同的，因此校正的准确性不高。例如，接收到不同用户的语音“lihua”，通过初始识别获取的对应文本为“李华”，可能通通校正为“梨花”、“理化”或者“礼花”，即没有根据不同的应用场景更具有针对性的获取校正结果。

技术实现要素：

本发明实施例提供一种语音识别的校正方法及装置，以解决现有技术中对语音识别结果校正不准确的问题。

第一方面，本发明实施例提供了一种语音识别的校正方法，包括：

根据设定检测设备的检测数据确定用户所处的当前应用场景；

在所述当前应用场景下对检测到的声音进行语音识别；

基于所述当前应用场景对应的深度学习模型对语音识别得到的语料进行深度学习，获取学习结果；

根据所述学习结果对语音识别的结果进行校正。

进一步地，所述根据设定检测设备的检测数据确定用户所处的当前应用场景，包括以下的至少一种：

对检测到的声音进行语音识别，判断语音识别得到语料所属的语料集对应的应用场景；

通过定位模块检测移动终端所在的位置，获取用户所处的当前应用场景；

通过蓝牙数字信号处理设备检测应用场景的特征，根据所述特征确定当前应用场景。

进一步地，所述根据设定检测设备的检测数据确定用户所处的当前应用场景之前，还包括：

使用聚类算法对各个应用场景下的语料库进行分组，根据所述分组的结果提取语料特征；

对所述语料特征进行训练，创建对应各个应用场景的深度学习模型。

进一步地，所述根据所述学习结果对语音识别的结果进行校正，包括：

如果所述学习结果为所述语音识别的结果与当前应用场景不匹配，将所述语音识别的结果校正为当前应用场景下对应的结果。

进一步地，所述语料库包括：已存储的用户输入的语料、经过筛选的语料和/或校正语音识别的结果得到的语料。

第二方面，本发明实施例还提供了一种语音识别的校正装置，包括：

场景确定模块，用于根据设定检测设备的检测数据确定用户所处的当前应用场景；

语音识别模块，用于在所述当前应用场景下对检测到的声音进行语音识别；

深度学习模块，用于基于所述当前应用场景对应的深度学习模型对语音识别得到的语料进行深度学习，获取学习结果；

校正模块，用于根据所述学习结果对语音识别的结果进行校正。

进一步地，所述场景确定模块包括：

第一确定单元，用于对检测到的声音进行语音识别，判断语音识别得到语料所属的语料集对应的应用场景；

第二确定单元，用于通过定位模块检测移动终端所在的位置，获取用户所处的当前应用场景；

第三确定单元，用于通过蓝牙数字信号处理设备检测应用场景的特征，根据所述特征确定当前应用场景。

进一步地，所述装置还包括：

特征提取单元，用于使用聚类算法对各个应用场景下的语料库进行分组，根据所述分组的结果提取语料特征；

模型创建单元，用于对所述语料特征进行训练，创建对应各个应用场景的深度学习模型。

进一步地，所述校正模块包括：

校正单元，用于如果所述学习结果为所述语音识别的结果与当前应用场景不匹配，将所述语音识别的结果校正为当前应用场景下对应的结果。

进一步地，所述语料库包括：

已存储的用户输入的语料、经过筛选的语料和/或校正语音识别的结果得到的语料。

本发明实施例提供了一种语音识别的校正方法及装置，通过获取检测数据来确定当前应用场景，将语音识别得到的语料在当前应用场景对应的深度学习模型中进行深度学习，对与当前应用场景不匹配的语音识别的结果进行校正，替换为正确的文字翻译结果，能够满足特定应用场景语音识别的要求，具有针对性的对各个应用场景进行语音识别，大大提升了语音识别的准确性，进而促进了人机交互，使人与机器能够有效的沟通交流，提升了用户体验感，可应用范围广泛。

附图说明

图1是本发明实施例一中的一种语音识别的校正方法的流程图；

图2是本发明实施例二中的一种语音识别的校正方法的流程图；

图3a是本发明实施例三中的一种语音识别的校正方法的流程图；

图3b是本发明实施例三中的一种语音识别的校正方法的示意图；

图4是本发明实施例四中的一种语音识别的校正方法的流程图；

图5是本发明实施例五中的一种语音识别的校正装置的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种语音识别的校正方法的流程图，本实施例可适用于根据当前应用场景来进行校正语音识别的结果的情况，该方法可以由一种语音识别的校正装置来执行，该装置可以采用软件和/或硬件的方式实现，一般集成于具有语音识别功能的设备中。

本发明实施例一的方法具体包括：

S101、根据设定检测设备的检测数据确定用户所处的当前应用场景。

中国的语言博大精深，对汉语进行语音识别是具有一定难度的，哪怕仅仅是一个语音音调的不同，甚至说即使是语音的音调完全相同，所要表达的意义就是截然不同的，所以，需要检测用户所处于的当前应用场景，根据不同的应用场景来对用户使用的特定应用场景下的语料进行识别和判断，使语音识别的最终结果更加准确。使用设定检测设备能够检测出当前的应用环境，从而确定用户所处于的当前应用场景。

S102、在所述当前应用场景下对检测到的声音进行语音识别。

具体的，在确定了用户所处于的当前应用场景之后，对检测到的声音进行语音识别，获取语音识别的结果，即获取通过语音识别得到的语料。

S103、基于所述当前应用场景对应的深度学习模型对语音识别得到的语料进行深度学习，获取学习结果。

具体的，首先创建对应各个应用场景的深度学习模型，建立模拟人脑进行分析学习的神经网络，对语音识别得到的语料进行深度的学习和分析，包括语义、语音、语调、语境以及语法等，判断语音识别的初步结果和当前的应用场景是否是匹配的，判断语音识别得到的语料是否是准确的。

S104、根据所述学习结果对语音识别的结果进行校正。

具体的，经过深度学习后，如果语音识别得到的语料是不准确的，则对语音识别的结果进行校正，将语音识别结果翻译为正确的文字，替换之前的语音识别结果。

本实施例中，首先确定用户所处于的当前应用场景，结合当前应用场景，对语音识别得到的语料进行深度学习，如果语音识别得到的语料是不准确的，则根据深度学习的结果，依据当前应用场景，对语音识别的结果进行校正。例如：用户输入的语料为“程序员在电脑前写代码”，可能由于用户发出的口音不标准、语速过快等原因，大数据语音引擎的识别结果为“程序员在电脑前写大妈”，根据“程序员”、“电脑”等词汇可以确定当前的应用场景为程序员的工作场景，通过在深度学习模型中对大数据语音引擎的识别结果进行深度学习，将“写大妈”校正为“写代码”，获取正确的语音识别结果。

本发明实施例一提供的一种语音识别的校正方法，能够满足特定应用场景语音识别的要求，具有针对性的对各个应用场景进行语音识别，大大提升了语音识别的准确性，进而促进了人机交互，使人与机器能够有效的沟通交流，提升了用户体验感，可应用范围广泛。

实施例二

图2为本发明实施例二提供的一种语音识别的校正方法的流程图，本发明实施例二以实施例一为基础进行了优化，具体是对根据设定检测设备的检测数据确定用户所处的当前应用场景的操作进一步优化，如图2所示，本发明实施例二的具体包括：

S201、对检测到的声音进行语音识别，判断语音识别得到语料所属的语料集对应的应用场景。

具体的，收集并存储与各个应用场景具有映射关系的语料集，语料集即所有收集到的语料的集合，根据用户输入的语料，对检测到的声音进行语音识别，并与语料集的内容进行比对，查找并判断出语音识别得到语料所属于的语料集对应的当前应用场景。可以通过收集特定应用场景的关键词，建立该关键词与其应用场景的映射关系。例如，收集餐厅场景的所有常用语、菜谱名等语料，建立该语料与餐厅应用场景的映射关系。

S202、通过定位模块检测移动终端所在的位置，获取用户所处的当前应用场景。

具体的，可以通过用户使用的移动终端中带有定位功能的模块检测用户所在的位置，根据检测结果确定用户所处于的当前应用场景。带有定位功能的模块可以采用全球定位系统(Global Positioning System，简称GPS)、蓝牙定位技术以及连接移动数据流量或无线局域网通过地图软件定位等定位方法进行当前应用场景的定位。

S203、通过蓝牙数字信号处理设备检测应用场景的特征，根据所述特征确定当前应用场景。

具体的，使用蓝牙数字信号处理设备中的传感器进行当前应用场景信号的采集，根据采集信号检测应用场景的特征，例如，可以通过温度传感器检测环境的温度来判断是室内环境或者室外环境，以此来确定用户处于的当前应用场景。

本实施例中，可以采用全球定位系统定位用户所处于的位置，例如：定位到用户位于某一个餐厅，那么可以判定当前应用场景为餐厅，则语音识别的结果应该与餐厅场景有关。

值得说明的是，上述三个方法用于确定当前应用场景，可以根据实际应用情况，选择其中的任意一种或任意两种或全部的方法来进行当前应用场景的确定。

S204、在所述当前应用场景下对检测到的声音进行语音识别。

S205、基于所述当前应用场景对应的深度学习模型对语音识别得到的语料进行深度学习，获取学习结果。

S206、根据所述学习结果对语音识别的结果进行校正。

本发明实施例二提供的一种语音识别的校正方法，能够准确的获取用户所处于的当前应用场景，根据当前应用场景针对性的进行语音识别，提升了语音识别的准确性，提升了用户与产品的实际交互体验。

实施例三

图3a为本发明实施例三提供的一种语音识别的校正方法的流程图，本发明实施例三以上述各实施例为基础进行了优化改进，对根据设定检测设备的检测数据确定用户所处的当前应用场景之前的操作进行了进一步说明，如图3a所示，本发明实施例三的方法具体包括：

S301、使用聚类算法对各个应用场景下的语料库进行分组，根据所述分组的结果提取语料特征。

优选的，所述语料库包括：已存储的用户输入的语料、经过筛选的语料和/或校正语音识别的结果得到的语料。

具体的，语料库作为深度学习模型中的基础数据，可以为已经存储的用户输入的语料，和/或专业的语音技术商根据通过各类话题筛选出来的语料，和/或对语音识别结果进行语音合成，分析和校正语音合成结果得到的语料。使用划分法或层次法等聚类算法对语料库进行分组，提取每组语料的特征。

S302、对所述语料特征进行训练，创建对应各个应用场景的深度学习模型。

具体的，在模型中输入语料库，通过神经网络对语料的特征进行训练，模拟人脑的思维方式，创建针对各个应用场景的深度学习模型。对于每一个语料，结合其应用场景，判断其语音识别的结果的准确性。

S303、根据设定检测设备的检测数据确定用户所处的当前应用场景。

S304、在所述当前应用场景下对检测到的声音进行语音识别。

S305、基于所述当前应用场景对应的深度学习模型对语音识别得到的语料进行深度学习，获取学习结果。

S306、根据所述学习结果对语音识别的结果进行校正。

本实施例中，图3b为本发明实施例三提供的一种语音识别的校正方法的示意图，参考图3b，可以通过用户使用的移动终端的定位功能、蓝牙数字信号处理设备以及查找输入语料的匹配应用场景共同获取用户的当前地理位置，确定用户所处于的当前应用场景。将已存储的用户语料、语音技术商提供的分类语料以及对语音合成结果进行校正后的语料输入至模型进行训练，创建对应各个应用场景的深度学习模型。将大数据语音引擎的语音识别的结果输入至深度学习模型，根据当前应用场景，对语音识别的结果进行纠错，并且对易错点进行预测，对错误的语音识别的结果进行校正，用正确的翻译结果替换原有错误的翻译结果。

本发明实施例三提供的一种语音识别的校正方法，通过创建深度学习模型使当前应用场景识别更加准确，从而对语音识别的结果进行准确性的判断，校正不准确的语音识别结果，提升了语音识别的准确性。

实施例四

图4为本发明实施例四提供的一种语音识别的校正方法的流程图，本发明实施例四以上述各实施例为基础进行了优化改进，对根据所述学习结果对语音识别的结果进行校正的操作进行了进一步说明，如图4所示，本发明实施例四的方法具体包括：

S401、根据设定检测设备的检测数据确定用户所处的当前应用场景。

S402、在所述当前应用场景下对检测到的声音进行语音识别。

S403、基于所述当前应用场景对应的深度学习模型对语音识别得到的语料进行深度学习，获取学习结果。

S404、如果所述学习结果为所述语音识别的结果与当前应用场景不匹配，将所述语音识别的结果校正为当前应用场景下对应的结果。

具体的，验证大数据语音引擎输出的语音识别的结果与当前的应用场景是否匹配，如果不匹配，对语音识别的结果进行校正，校正为与当前应用场景相匹配的结果，并翻译为正确的文字，替换原有错误的结果。

本发明实施例四提供的一种语音识别的校正方法，对与应用场景不匹配的语音识别结果进行校正，提高了特定应用场景下语音识别和翻译的准确性，优化了系统逻辑。

实施例五

图5是本发明实施例五中的一种语音识别的校正装置的结构示意图，该装置应用于校正与应用场景不匹配的语音识别结果。如图5所示，装置包括：场景确定模块501、语音识别模块502、深度学习模块503以及校正模块504。

场景确定模块501，用于根据设定检测设备的检测数据确定用户所处的当前应用场景；

语音识别模块502，用于在所述当前应用场景下对检测到的声音进行语音识别；

深度学习模块503，用于基于所述当前应用场景对应的深度学习模型对语音识别得到的语料进行深度学习，获取学习结果；

校正模块504，用于根据所述学习结果对语音识别的结果进行校正。

本发明实施例五通过获取检测数据来确定当前应用场景，将语音识别得到的语料在当前应用场景对应的深度学习模型中进行深度学习，对与当前应用场景不匹配的语音识别的结果进行校正，替换为正确的文字翻译结果，能够满足特定应用场景语音识别的要求，具有针对性的对各个应用场景进行语音识别，大大提升了语音识别的准确性，进而促进了人机交互，使人与机器能够有效的沟通交流，提升了用户体验感，可应用范围广泛。

在上述各实施例的基础上，所述场景确定模块501可以包括：

第一确定单元，用于对检测到的声音进行语音识别，判断语音识别得到语料所属的语料集对应的应用场景；

第二确定单元，用于通过定位模块检测移动终端所在的位置，获取用户所处的当前应用场景；

第三确定单元，用于通过蓝牙数字信号处理设备检测应用场景的特征，根据所述特征确定当前应用场景。

在上述各实施例的基础上，所述装置还可以包括：

特征提取单元，用于使用聚类算法对各个应用场景下的语料库进行分组，根据所述分组的结果提取语料特征；

模型创建单元，用于对所述语料特征进行训练，创建对应各个应用场景的深度学习模型。

在上述各实施例的基础上，所述校正模块504可以包括：

校正单元，用于如果所述学习结果为所述语音识别的结果与当前应用场景不匹配，将所述语音识别的结果校正为当前应用场景下对应的结果。

在上述各实施例的基础上，所述语料库可以包括：

已存储的用户输入的语料、经过筛选的语料和/或校正语音识别的结果得到的语料。

本实施例中，通过第一确定单元查找与输入语料匹配的应用场景、第二确定单元定位用户的地理位置以及第三确定单元检测应用场景特征的方法在场景确定模块中确定用户处于的当前应用场景，在语音识别模块中，对当前应用场景下检测到的声音进行识别，得到识别结果。将已经存储的用户输入的语料，和/或专业的语音技术商根据通过各类话题筛选出来的语料，和/或对语音识别结果进行语音合成，分析和校正语音合成结果得到的语料作为语料库的基础数据输入至模型进行训练，创建各个应用场景对应的深度学习模型，在深度学习模块中，基于当前应用场景对应的深度学习模型对语音识别得到的语料进行深度学习，如果学习结果为语音识别的结果与当前应用场景不匹配，则在校正模块的校正单元对语音识别的结果进行校正，并翻译为正确的文字，替换原有的翻译结果。

本发明实施例五提供的一种语音识别的校正装置，提升了语音识别的准确性，促进了人机交互的有效沟通，同时，提升了语音识别系统的逻辑，可应用范围广泛。

本发明实施例提供的语音识别的校正装置可执行本发明任意实施例提供语音识别的校正的方法，具备执行方法相应的功能模块和有益效果。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：石日俭;贺磊;刘旭;吕晓霞
技术所有人：深圳市大乘科技股份有限公司
我是此专利的发明人

上一篇：一种静息心率测量方法与装置及包括该装置的可穿戴设备与流程
上一篇：盘驱动器以及位置修正方法与流程