语音识别处理方法及装置的制造方法

文档序号：9912681阅读：460来源：国知局

语音识别处理方法及装置的制造方法
【技术领域】
[0001]本申请涉及语音识别处理技术领域，尤其涉及一种语音识别处理方法及装置。
【背景技术】
[0002]随着语音识别技术的发展，连续无限语音识别的应用领域越来越广，例如:会议记录，录音备份等场合，往往一个会议或者访谈需要持续半个小时甚至更长时间，而且中间可能会有持续I分钟或者以上的静默时间。
[0003]在上述应用场景下，需要使用连续无限语音识别功能，在用户开启语音识别之后持续工作。然而，目前的语音识别功能仅限于短暂的语音识别场景，比如:语音搜搜系统、智能家居系统等。
[0004]在目前的语音识别的过程中，根据端点检测语音处理库的资源限制，只能识别比较短的句子(例如60秒)，无法对长时间连续输入的语音进行识别。

【发明内容】

[0005]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0006]为此，本申请的第一个目的在于提出一种语音识别处理方法，该方法实现了利用现有的语音处理库对长时间的连续语音进行识别处理，提高了语音识别的稳健性。
[0007]本申请的第二个目的在于提出一种语音识别处理装置。
[0008]为达上述目的，本申请第一方面实施例提出了一种语音识别处理方法，包括:在语音连续输入过程中，从语音处理库的语音数据中获取待识别的数据块，标记与所述数据块对应的识别标签，其中，所述识别标签包括:根据语音检测的端点时刻为所述数据块归属的语音分句分配的分句标识，以及所述数据块在所述语音分句中的块标识；向语音识别服务器发送携带所述识别标签的数据块识别请求，并接收所述语音服务器返回的携带所述识别标签的数据块识别结果;根据所有数据块识别结果中的识别标签，将属于同一语音分句中的多个数据块进行整合，以及将所有的语音分句进行整合。
[0009]本申请实施例的语音识别处理方法，在语音连续输入过程中，从语音处理库的语音数据中获取待识别的数据块，标记与所述数据块对应的识别标签，其中，所述识别标签包括:根据语音检测的端点时刻为所述数据块归属的语音分句分配的分句标识，以及所述数据块在所述语音分句中的块标识；向语音识别服务器发送携带所述识别标签的数据块识别请求，并接收所述语音服务器返回的携带所述识别标签的数据块识别结果;根据所有数据块识别结果中的识别标签，将属于同一语音分句中的多个数据块进行整合，以及将所有的语音分句进行整合。由此，实现了利用现有的语音处理库对长时间的连续语音进行识别处理，提高了语音识别的稳健性。
[0010]为达上述目的，本申请第二方面实施例提出了一种语音识别处理装置，包括:处理模块，用于在语音连续输入过程中，从语音处理库的语音数据中获取待识别的数据块，标记与所述数据块对应的识别标签，其中，所述识别标签包括:根据语音检测的端点时刻为所述数据块归属的语音分句分配的分句标识，以及所述数据块在所述语音分句中的块标识;识别模块，用于向语音识别服务器发送携带所述识别标签的数据块识别请求，并接收所述语音服务器返回的携带所述识别标签的数据块识别结果;整合模块，用于根据所有数据块识别结果中的识别标签，将属于同一语音分句中的多个数据块进行整合，以及将所有的语音分句进行整合。
[0011]本申请实施例的语音识别处理装置，在语音连续输入过程中，从语音处理库的语音数据中获取待识别的数据块，标记与所述数据块对应的识别标签，其中，所述识别标签包括:根据语音检测的端点时刻为所述数据块归属的语音分句分配的分句标识，以及所述数据块在所述语音分句中的块标识；向语音识别服务器发送携带所述识别标签的数据块识别请求，并接收所述语音服务器返回的携带所述识别标签的数据块识别结果;根据所有数据块识别结果中的识别标签，将属于同一语音分句中的多个数据块进行整合，以及将所有的语音分句进行整合。由此，实现了利用现有的语音处理库对长时间的连续语音进行识别处理，提高了语音识别的稳健性。
【附图说明】
[0012]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中:
[0013]图1是本申请一个实施例的语音识别处理方法的流程图；
[0014]图2是本申请另一个实施例的语音识别处理方法的流程图；
[0015]图3是本申请另一个实施例的语音识别处理方法的流程图；
[0016]图4是本申请一个实施例的语音识别处理装置的结构示意图；
[0017]图5是本申请一个实施例的语音识别处理装置的结构示意图；
[0018]图6是本申请另一个实施例的语音识别处理装置的结构示意图。
【具体实施方式】
[0019]下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。
[0020]下面参考附图描述本申请实施例的语音识别处理方法及装置。
[0021]图1是本申请一个实施例的语音识别处理方法的流程图。
[0022]如图1所示，该语音识别处理方法包括:
[0023]步骤101，在语音连续输入过程中，从语音处理库的语音数据中获取待识别的数据块，标记与所述数据块对应的识别标签，其中，所述识别标签包括:根据语音检测的端点时刻为所述数据块归属的语音分句分配的分句标识，以及所述数据块在所述语音分句中的块标识O
[0024]具体地，在语音连续输入过程中，用户输入的语音数据会存储在客户端的语音处理库中。客户端根据预先设置的数据帧的长度，从存储在语音处理库的语音数据中获取待识别的数据块，并且标记与待识别的数据块对应的识别标签，其中，所述识别标签包括:根据语音检测的端点时刻为所述数据块归属的语音分句分配的分句标识，以及所述数据块在所述语音分句中的块标识。
[0025]需要说明的是，在用户向应用客户端输入语音的过程中，客户端会对连续语音信号进行语音活动检测。其中，语音活动检测是通过预设的检测手段确定被检测的音频数据的性质。例如:以能量检测方式为例，当音频段的能量大于预设的阈值时，则确定该音频段为语音;当音频段的能量小于等于预设的阈值时，则确定音频段为噪音。
[0026]根据检测的端点时刻将连续语音信号分割为多个语音分句，并为每个语音分句分配分句标识。例如:
[0027]当通过语音检测获知在时刻A到时刻B之间有语音信号，在时刻B到时刻C之间没有语音信号，在时刻C到时刻D之间有语音信号，贝鐵知时刻昭IJ时刻C为语音检测的端点时刻，即意味着从时刻A到时刻B之间的语音信号为第一分句，从时刻C到时刻D之间的语音信号为第二分句。
[0028]由于每个语音分句的长度大于预设的数据帧的长度，因此每个语音分句中包括多个与预设的数据帧长度匹配的数据块。因此，当客户端从语音处理库的语音数据中获取待识别的数据块时，可以获取预先为所述数据块归属的语音分句分配的分句标识，以及根据语音输入的先后顺序获取该数据块在所属的语音分句中的块标识。
[0029]步骤102，向语音识别服务器发送携带所述识别标签的数据块识别请求，并接收所述语音服务器返回的携带所述

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：白晶亮;穆向禹;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人