一种针对停顿的语音识别方法和装置的制造方法

文档序号：9668722阅读：624来源：国知局

一种针对停顿的语音识别方法和装置的制造方法
【技术领域】
[0001] 本发明涉及语音识别的技术领域，特别是涉及一种针对停顿的语音识别方法和一种针对停顿的语音识别装置。
【背景技术】
[0002] 目前，移动互联网的快速发展带动了如手机、平板电脑等移动设备的广泛普及，而作为移动设备上人机交互最方便自然的方式之一，语音输入正逐渐被广大用户所接受。
[0003] 基于用户行为习惯，用户在说话时，经常会出现停顿。
[0004] 现有的大规模非特定人连续语音识别大多使用WFST(WeightedFinite-state Transducer，加权有限状态转换器）构建的网络进行解码，对于包含长停顿的输入语音，基于WFST的解码器往往表现不佳，相比于不包含长停顿的语音输入来讲，识别准确率会有较大幅度的下降。

【发明内容】

[0005] 鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种针对停顿的语音识别方法和相应的一种针对停顿的语音识别装置。
[0006] 依据本发明的一个方面，提供了一种针对停顿的语音识别方法，包括：
[0007] 接收一帧或多帧语音信号；
[0008] 识别所述一帧或多帧语音信号中的静音信号；
[0009] 当识别成功时，去除所述静音信号；
[0010] 对去除静音信号的一帧或多帧语音信号进行语音识别，获得识别结果。
[0011] 可选地，所述识别所述一帧或多帧语音信号中的静音信号的步骤包括：
[0012] 查找预先基于静音信号生成的声学模型；
[0013] 判断所述语音信号与所述声学模型是否匹配；若是，则确定所述语音信号为静音信号。
[0014] 可选地，所述声学模型表征为多个状态；
[0015] 所述判断所述语音信号与声学模型是否匹配的步骤包括：
[0016] 提取所述语音信号的语音特征；
[0017] 计算所述语音特征属于所述状态的后验概率；
[0018] 当所述后验概率大于预设的概率阈值时，确认所述语音信号与所述声学模型匹配。
[0019] 可选地，所述声学模型为隐马尔可夫模型，所述隐马尔可夫模型具有5个状态；
[0020] 所述计算所述语音特征属于所述状态的后验概率的步骤包括：
[0021] 计算所述语音特征属于第2个状态、第3个状态和第4个状态中的至少一个状态的后验概率。
[0022] 可选地，所述语音特征为滤波器组特征；
[0023] 所述计算所述语音特征属于第2个状态、第3个状态和第4个状态中的至少一个状态的后验概率的步骤包括：
[0024] 将所述滤波器组特征输入预设的深度神经网络模型，计算所述滤波器组特征属于第2个状态、第3个状态和第4个状态中的至少一个状态的后验概率。
[0025] 根据本发明的另一方面，提供了一种针对停顿的语音识别装置，包括：
[0026] 语音信号接收模块，适于接收一帧或多帧语音信号；
[0027] 静音信号识别模块，适于识别所述一帧或多帧语音信号中的静音信号；
[0028] 静首?目号去除模块，适于在识别成功时，去除所述静首?目号；
[0029] 语音识别模块，适于对去除静音信号的一帧或多帧语音信号进行语音识别，获得识别结果。
[0030] 可选地，所述静音信号识别模块还适于：
[0031] 查找预先基于静音信号生成的声学模型；
[0032] 判断所述语音信号与所述声学模型是否匹配；若是，则确定所述语音信号为静音信号。
[0033] 可选地，所述声学模型表征为多个状态；
[0034] 所述静音信号识别模块还适于：
[0035] 提取所述语音信号的语音特征；
[0036] 计算所述语音特征属于所述状态的后验概率；
[0037] 当所述后验概率大于预设的概率阈值时，确认所述语音信号与所述声学模型匹配。
[0038] 可选地，所述声学模型为隐马尔可夫模型，所述隐马尔可夫模型具有5个状态；
[0039] 所述静音信号识别模块还适于：
[0040] 计算所述语音特征属于第2个状态、第3个状态和第4个状态中的至少一个状态的后验概率。
[0041] 可选地，所述语音特征为滤波器组特征；
[0042] 所述静音信号识别模块还适于：
[0043] 将所述滤波器组特征输入预设的深度神经网络模型，计算所述滤波器组特征属于第2个状态、第3个状态和第4个状态中的至少一个状态的后验概率。
[0044] 本发明实施例去除语音信号之中的静音信号，再进行语音识别，从而减弱了静音对于语音识别的影响，增加了语音识别解码器的健壮性，提高了语音识别的准确率。
[0045] 上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的【具体实施方式】。
【附图说明】
[0046] 通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
[0047]图1示出了根据本发明一个实施例的一种针对停顿的语音识别方法实施例的步骤流程图；
[0048] 图2示出了根据本发明一个实施例的一种HMM状态的示例图；
[0049] 图3示出了根据本发明一个实施例的一种语音识别的流程示例图；以及
[0050] 图4示出了根据本发明一个实施例的一种针对停顿的语音识别装置实施例的结构框图。
【具体实施方式】
[0051] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。
[0052] 参照图1，示出了根据本发明一个实施例的一种针对停顿的语音识别方法实施例的步骤流程图，具体可以包括如下步骤：
[0053] 步骤101，接收一帧或多帧语音信号；
[0054] 在具体实现中，用户可以通过配置有麦克风等声卡设备的电子设备输入语言信号。
[0055] 其中，该电子设备可以为移动设备，如手机、平板电脑、个人数字助理、穿戴设备 (如眼镜、手表等）等等，也可以为固定设备，如个人电脑、智能电视、智能家居/家电（如空调、电饭煲）等等，本发明实施例对此不加以限制。
[0056] 基于用户行为习惯，用户在说话时，经常会出现停顿（silience)，产生静音信号，因此，所输入的语言信号通常为包含静音信号的语音信号。
[0057]当电子设备接收到声卡设备转换的语言信号时，可以在本地去除其中的静音信号，也可以发送至服务器去除其中的静音信号，本发明实施例对此不加以限制。
[0058] 步骤102,识别所述一帧或多帧语音信号中的静音信号；
[0059] 在具体实现中，由停顿（silience)所产生静音信号，是无效的信号，因此，可以识别静音信号，从而提高语音识别的准确率。
[006

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曹松军;
技术所有人：北京奇虎科技有限公司;奇智软件（北京）有限公司;
我是此专利的发明人

上一篇：一种硬磁/软磁巨磁阻抗效应复合丝及其制备方法
上一篇：一种基于深度学习的会话情感自动分析方法