一种语音信息处理方法及系统与流程

文档序号：11178898阅读：273来源：国知局

本发明涉及语音识别技术领域，尤指一种语音信息处理方法及系统。

背景技术：

随着通信技术的蓬勃发展，语音识别的应用越来越广泛，各种网络通信工具如微信、腾讯qq等通信工具逐步成为大众交流沟通的主要工具之一。其中，语音消息的操作简易性、便捷性广受用户喜爱。在目前的手机、电脑等智能终端中，可以通过通信工具提供语音输入、输出功能。

现有技术中，目前的语音识别的识别方案对于识别开始时间长短没有做出考虑，识别较短时用户的等待时间将较长，较长时用户的语音识别不仅等待时间更加漫长而且识别不完整，严重影响用户的使用需求。而且现有技术是语音录制结束后，然后将录音结果发送至语音识别模块进行语音识别，录音时间加上识别时间，造成了不必要的等待时间，浪费时间，影响用户的使用体验。

技术实现要素：

本发明的目的是提供一种语音信息处理方法及系统，实现语音录制过程中进行语音识别，减少用户等待语音录制完成后。

本发明提供的技术方案如下：

一种语音信息处理方法，包括步骤：s100在用户录音过程中周期性采集并识别用户的语音信息，得到语音识别片段；s200处理所述语音识别片段，得到语音识别结果。

本发明实现语音录制过程中进行语音识别，减少用户需要在语音录制完成后，才能够进行语音识别并输出语音结果的等待时间，在不影响正常识别结果的同时缩短录音时延，提高用户使用体验。

进一步的，所述步骤s100包括步骤：s110在用户录音过程中，根据所预设采集规则采集用户的语音信息，获得当前语音片段；s120根据语音识别库识别所述当前语音片段，得到语音识别片段；s130获取下一语音片段并执行步骤s110-130，直至用户结束录音；其中，所述预设采集规则为根据时间间隔相等的采集方式。

进一步的，s110还包括步骤：s111判断所述当前语音片段是否为空白语音片段；若是，执行步骤s112；否则，执行步骤s120；s112删除所述当前语音片段，并执行步骤s130。

进一步的，所述步骤s200包括步骤：s210按照采集的时间顺序，将所述语音识别片段进行排序整合，得到所述语音识别结果。

进一步的，所述步骤s200还包括步骤：s220根据采集的时间顺序，输出所述语音识别片段，得到所述语音识别结果。

本发明还提供一种语音信息处理系统，包括：控制模块和处理模块；所述处理模块与所述控制模块通信连接；所述控制模块，在用户录音过程中周期性采集并识别用户的语音信息，得到语音识别片段；所述处理模块，处理所述控制模块识别得到的所述语音识别片段，得到语音识别结果。

进一步的，所述控制模块包括：采集子模块和识别子模块；所述采集子模块与所述识别子模块通信连接；所述采集子模块，在用户录音过程中，根据预设采集规则采集用户的语音信息，获得当前语音片段，发送所述当前语音片段至所述识别子模块；所述识别子模块，接收所述采集子模块发送的所述当前语音片段，根据语音识别库识别所述当前语音片段，得到语音识别片段；所述采集子模块还获取并发送下一语音片段至所述识别子模块，直至用户结束录音；所述识别子模块还接收所述采集子模块发送的所述下一语音片段，根据语音识别库识别所述下一语音片段，得到语音识别片段，直至用户结束录音；其中，所述预设采集规则为根据时间间隔相等的采集方式。

进一步的，所述控制模块还包括：判断子模块和删除子模块，所述判断子模块分别与所述采集子模块、所述删除子模块和所述识别子模块通信连接；所述判断子模块，判断所述当前语音片段是否为空白语音片段；若是，发送判断所述当前语音片段为空白语音片段的结果至所述删除子模块；否则，发送判断所述当前语音片段不为空白语音片段的结果至所述识别子模块；所述删除子模块，接收所述判断子模块发送的判断结果，删除所述当前语音片段。

进一步的，所述处理模块包括：排序子模块；所述排序子模块与所述控制模块通信连接；所述排序子模块，按照采集的时间顺序，将所述语音识别片段进行排序整合，得到所述语音识别结果。

进一步的，所述处理模块还包括：输出子模块，所述输出子模块与所述控制模块通信连接；所述输出子模块，根据采集的时间顺序，输出所述语音识别片段，得到所述语音识别结果

通过本发明提供的一种语音信息处理方法及系统，能够带来以下至少一种有益效果：

1、本发明在录音的过程中，采集录音获得的语音片段进行语音识别，相比传统语音识别方式，处理语音识别结果更快，减少用户等待语音录入和语音识别的时间。

2、本发明根据fifo队列(fifo是firstinputfirstoutput的缩写，先入先出队列，这是一种传统的按序执行方法，先进入的指令先完成并引退，跟着才执行第二条指令。是一种先进先出的数据缓存器)进行获取语音信息，并通过fifo队列进行语音识别，对于较长时间的录音过程不仅可以有效地减少语音录音和语音识别的等待时间，也可以做出完整的语音识别。

3、本发明实现语音录制过程中进行语音识别，解决用户需要在语音录制完成后，才能够进行语音识别的问题。

4、本发明在不影响正常识别结果的同时缩短录音时延，提高用户使用体验。

5、本发明能够删除无效语音片段，帮助用户更加快速地进行语音识别。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对一种语音信息处理方法及系统的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明一种语音信息处理方法的一个实施例的流程图；

图2是本发明一种语音信息处理方法的另一个实施例的流程图；

图3是本发明一种语音信息处理方法的另一个实施例的流程图；

图4是本发明一种语音信息处理方法的另一个实施例的流程图；

图5是本发明一种语音信息处理系统的一个实施例的结构示意图；

图6是本发明一种语音信息处理系统的另一个实施例的结构示意图；

图7是本发明一种语音信息处理系统的另一个实施例的结构示意图；

图8是本发明一种语音信息处理系统的另一个实施例的结构示意图；

图9是本发明一种语音信息处理方法的一个实例的流程图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

参考图1所示，本发明提供一种语音信息处理方法的一个实施例，包括：

s110在用户录音过程中周期性采集并识别用户的语音信息，得到语音识别片段；

s120处理所述语音识别片段，得到语音识别结果。

本发明实施例中，实现语音录制过程中进行语音识别，减少用户需要在语音录制完成后，才能够进行语音识别并输出语音结果的等待时间，在不影响正常识别结果的同时缩短录音时延，提高用户使用体验。

参考图2所示，本发明提供一种语音信息处理方法的另一个实施例，包括：

s210在用户录音过程中，根据所预设采集规则采集用户的语音信息，获得当前语音片段；

s220根据语音识别库识别所述当前语音片段，得到语音识别片段；

s230获取下一语音片段并执行步骤s210-230，直至用户结束录音；

s240按照采集的时间顺序，将所述语音识别片段进行排序整合，得到所述语音识别结果。

其中，所述预设采集规则为根据时间间隔相等的采集方式。

本发明实施例中，具体的语音识别库的建立，现有技术有很多，在此不细细说明。在录音的过程中，采集录音获得的语音片段进行语音识别，相比传统语音识别方式，处理语音识别结果更快，减少用户等待语音录入和语音识别的时间。根据fifo队列进行获取语音信息，并通过fifo队列进行语音识别，对于较短的录音，语音识别模块不需要等到达到语音识别时间开始后才能进行语音识别，避免增加不必要的等待时间，对于较长时间的录音过程不仅可以有效地减少语音录音和语音识别的等待时间，也可以做出完整的语音识别。用户可以根据自己的喜好、需求来设置预设采集规则。避免造成了不必要的等待时间，节约时间提升用户的使用体验。根据fifo队列进行获取语音信息，并通过fifo队列进行语音识别，对于较长时间的录音过程不仅可以有效地减少语音录音和语音识别的等待时间，也可以做出完整的语音识别。例如，用户甲设置采集规则为在录音过程中每1s进行截取语音信息，那么用户开始录音后，根据用户甲设置的采集规则采集得到第一个1s的语音片段y1，第二个1s的语音片段y2，……第n个1s的语音片段yn，那么在采集得到该语音片段y1后，通过语音识别模块进行语音识别，得到语音识别片段s1，得到该语音片段y2后，通过语音识别模块进行语音识别，得到语音识别片段s2，依次类推，在录音的过程中，一旦采集获得相应的语音片段后就能立即进行语音识别得到与之对应的语音识别片段，将语音识别片段保存起来，按照获取的时间先后顺序进行先后顺序排列，然后在录音结束后几乎是立刻得到完整的语音识别结果，提升语音识别的效率。

本发明实施例中的技术能够应用在包括室内设备控制，语音对话机器人等方面，通过语音录制过程中边录音边进行语音识别的功能，解决用户需要在语音录制完成后，才能够进行语音识别的问题，而且在不影响正常识别结果的同时缩短录音时延，并且用户的语音命令迅速地转化为语音识别命令输入至智能家居设备、智能机器人，从而更加方便快捷地根据识别得到的语音识别命令控制智能家居设备、智能机器人，而不需要用户用手来操作，语音操作相比手动操作更加迅速，提高用户使用体验。这样就避免了例如淘宝等购物平台，由于语音识别的效率低下而导致用户偏好于转接人工服务，提高语音识别的使用率，减少语音服务的资源浪费，减少人工客户的工作量，减少劳动成本。本发明实施例还能应用于语音检索系统，例如百度语音搜索是一种全新的搜索模式，用户可以使用语音说出搜索的意图，例如说出“明天天气如何”、“宫保鸡丁的做法”等，用户在说话的过程中，就能边获取用户说话信息便进行语音识别，本发明实施例能立刻得到想要的结果，输出文字版本的“明天天气如何”、“宫保鸡丁的做法”等语音搜索让用户免去打字的繁琐，使搜索的整个过程更流畅、更便捷。

参考图3所示，本发明提供一种语音信息处理方法的另一个实施例，包括：

s310在用户录音过程中，根据所预设采集规则采集用户的语音信息，获得当前语音片段；

s320根据语音识别库识别所述当前语音片段，得到语音识别片段；

s330根据采集的时间顺序，输出所述语音识别片段，得到所述语音识别结果；

s340获取下一语音片段并执行步骤s310-330，直至用户结束录音。

其中，所述预设采集规则为根据时间间隔相等的采集方式。

本发明实施例，在录音的过程中，采集录音获得的语音片段进行语音识别，处理语音识别快，减少用户等待时间。根据fifo队列进行获取语音信息，并通过fifo队列进行语音识别，对于较长时间的录音过程不仅可以有效地减少语音录音和语音识别的等待时间，也可以做出完整的语音识别。例如一般的语音识别有效时间是30s，假如用户乙一口气说话录音录制了60s，由于录制时间过长，不仅导致录音等待时间过长，而且由于语音信息过长，导致语音识别模块不能完整地识别出用户乙的录音内容。

本发明实施例还能够应用与语音拨号、语音导航、听写数据录入等领域。例如，听写数据录入过程中，用户边说话语音识别模块就立刻在录入栏中输出用户说话的内容，具体的开始录音后，根据用户乙设置的采集规则采集得到第一个0.5s的语音片段x1，第二个0.5s的语音片段x2，……第n个0.5s的语音片段xn，那么在采集得到该语音片段x1后，通过语音识别模块进行语音识别，得到语音识别片段b1，依次类推。在录音的过程中，一旦采集获得相应的语音片段后就能立即进行语音识别得到与之对应的语音识别片段，根据采集的时间顺序，输出所述语音识别片段，得到所述语音识别结果。如果用户乙发现录入栏的文字部分有哪些与自己说话的内容不同的，还可以根据时间顺序找出该错误识别的部分，进行重新识别。

参考图4所示，本发明提供一种语音信息处理方法的另一个实施例，包括：

s410在用户录音过程中，根据所预设采集规则采集用户的语音信息，获得当前语音片段；

s420判断所述当前语音片段是否为空白语音片段；若是，执行步骤s430；否则，执行步骤s440；

s430删除所述当前语音片段，并执行步骤s450；

s440根据语音识别库识别所述当前语音片段，得到语音识别片段；

s450获取下一语音片段并执行步骤s410-s450，直至用户结束录音；

其中，所述预设采集规则为根据时间间隔相等的采集方式。

本发明实施例中，能够删除无效语音片段，帮助用户更加快速地进行语音识别。在语音识别之前的预处理过程中，根据用户的说话过程中声波变化频率和声波变化波动等技术可以识别出用户语音信息哪些部分为有效语音部分，哪些是无效语音部分，标记用户空白语音的时间点，并去掉无效语音部分信息即空白语音片段。例如假设用户丙根据2s的采集规则进行截取用户语音信息，还假设用户丙说话开始的时间点为14：30，用户在14:33-14:36时间段没有说话，即检测到出现3s的静音。那么根据本发明实施例采集规则，14:33-14:35这个截取的语音片段是空白的语音片段，将这个语音片段进行标记，此时，可以认为该初始语音信息无效，语音识别模块可以不对其进行语音识别

本实施例通过将语音识别技术可以减少按键输入，增强与用户的交互性；通过采用先进先出队列，实现了多路话筒共用一个语音识别引擎，提高引擎利用率。

参考图5所示，本发明提供一种语音信息处理系统1000的一个实施例，包括：控制模块和处理模块；所述处理模块与所述控制模块通信连接；

所述控制模块，在用户录音过程中周期性采集并识别用户的语音信息，得到语音识别片段；

所述处理模块，处理所述控制模块识别得到的所述语音识别片段，得到语音识别结果。

参考图6所示，与上一个实施例相同的部分在此不再赘述。本发明提供一种语音信息处理系统1000的另一个实施例，包括：所述控制模块包括：采集子模块和识别子模块；所述采集子模块与所述识别子模块通信连接；所述处理模块包括：排序子模块；所述排序子模块与所述控制模块通信连接；

所述采集子模块，在用户录音过程中，根据预设采集规则采集用户的语音信息，获得当前语音片段，发送所述当前语音片段至所述识别子模块；

所述识别子模块，接收所述采集子模块发送的所述当前语音片段，根据语音识别库识别所述当前语音片段，得到语音识别片段；

所述采集子模块还获取并发送下一语音片段至所述识别子模块，直至用户结束录音；

所述识别子模块还接收所述采集子模块发送的所述下一语音片段，根据语音识别库识别所述下一语音片段，得到语音识别片段，直至用户结束录音；

所述排序子模块，按照采集的时间顺序，将所述语音识别片段进行排序整合，得到所述语音识别结果；

其中，所述预设采集规则为根据时间间隔相等的采集方式。

本发明实施例中，具体的语音识别库的建立，现有技术有很多，在此不细细说明。在录音的过程中，采集录音获得的语音片段进行语音识别，相比传统语音识别方式，处理语音识别结果更快，减少用户等待语音录入和语音识别的时间。根据fifo队列进行获取语音信息，并通过fifo队列进行语音识别，对于较长时间的录音过程不仅可以有效地减少语音录音和语音识别的等待时间，也可以做出完整的语音识别。用户可以根据自己的喜好、需求来设置预设采集规则。避免造成了不必要的等待时间，节约时间提升用户的使用体验。根据fifo队列进行获取语音信息，并通过fifo队列进行语音识别，对于较长时间的录音过程不仅可以有效地减少语音录音和语音识别的等待时间，也可以做出完整的语音识别。本发明实施例中的技术能够应用在包括室内设备控制，语音对话机器人等方面，通过语音录制过程中边录音边进行语音识别的功能，解决用户需要在语音录制完成后，才能够进行语音识别的问题，而且在不影响正常识别结果的同时缩短录音时延，并且用户的语音命令迅速地转化为语音识别命令输入至智能家居设备、智能机器人，从而更加方便快捷地根据识别得到的语音识别命令控制智能家居设备、智能机器人，而不需要用户用手来操作，语音操作相比手动操作更加迅速，提高用户使用体验。具体例子见对应方法实施例。实现语音录制过程中进行语音识别，减少用户需要在语音录制完成后，才能够进行语音识别并输出语音结果的等待时间，在不影响正常识别结果的同时缩短录音时延，提高用户使用体验。

参考图7所示，与上一个实施例相同的部分在此不再赘述。本发明提供一种语音信息处理系统1000的另一个实施例，包括：所述处理模块还包括：输出子模块，所述输出子模块与所述控制模块通信连接；

所述输出子模块，根据采集的时间顺序，输出所述语音识别片段，得到所述语音识别结果。

具体的，本实施例在录音的过程中，一旦采集获得相应的语音片段后就能立即进行语音识别得到与之对应的语音识别片段，根据采集的时间顺序，输出所述语音识别片段，得到所述语音识别结果。如果用户乙发现录入栏的文字部分有哪些与自己说话的内容不同的，由于采集时间是有规律的，可以根据采集的时间顺序找到该语音片段重新进行识别，大大提升用户使用体验。实现语音录制过程中进行语音识别，减少用户需要在语音录制完成后，才能够进行语音识别并输出语音结果的等待时间，在不影响正常识别结果的同时缩短录音时延，提高用户使用体验。

参考图8所示，本发明提供一种语音信息处理系统1000的另一个实施例，包括：所述控制模块包括：采集子模块、识别子模块、判断子模块和删除子模块；所述判断子模块分别与所述采集子模块、所述删除子模块和所述识别子模块通信连接；

所述采集子模块，在用户录音过程中，根据预设采集规则采集用户的语音信息，获得当前语音片段，发送所述当前语音片段至所述判断子模块；

所述判断子模块，判断所述当前语音片段是否为空白语音片段；若是，发送判断所述当前语音片段为空白语音片段的结果至所述删除子模块；否则，发送判断所述当前语音片段不为空白语音片段的结果至所述识别子模块；

所述删除子模块，接收所述判断子模块发送的判断结果，删除所述当前语音片段；

所述识别子模块，接收所述采集子模块发送的所述当前语音片段，根据语音识别库识别所述当前语音片段，得到语音识别片段；

所述采集子模块还获取并发送下一语音片段至所述判断子模块，直至用户结束录音；

所述识别子模块还接收所述采集子模块发送的所述下一语音片段，根据语音识别库识别所述下一语音片段，得到语音识别片段，直至用户结束录音。

本发明实施例中，能够删除无效语音片段，帮助用户更加快速地进行语音识别。在语音识别之前的预处理过程中，根据用户的说话过程中声波变化频率和声波变化波动等技术可以识别出用户语音信息哪些部分为有效语音部分，哪些是无效语音部分，并去掉无效语音部分信息即空白语音片段。实现语音录制过程中进行语音识别，减少用户需要在语音录制完成后，才能够进行语音识别并输出语音结果的等待时间，在不影响正常识别结果的同时缩短录音时延，提高用户使用体验。

参考图9所示，本发明提供一种语音信息处理方法的一个实例，包括：

1、录音开始。

2、录音模块保持录音过程中，2s/次进行依次截取。

3、截取文件。

4、将录音结果发送至语音识别模块进行语音听写。

5、将语音听写结果放入fifo队列中。

6、语义识别模块不断对队列中的语句进行语义识别，语义分析，理解语句。

7、根据语义识别结果，发送相应指令或回答结果，从而完成整套语音识别。

本发明实施例中，2s/次进行截取并不是特例，可以根据用户的喜好和需求进行设置截取的时间频率。实现语音录制过程中进行语音识别，减少用户需要在语音录制完成后，才能够进行语音识别并输出语音结果的等待时间，在不影响正常识别结果的同时缩短录音时延，提高用户使用体验。通过采用fifo先进先出队列，实现了多路话筒共用一个语音识别引擎，提高引擎利用率。减少对于较短的录音，语音识别模块不需要等到达到语音识别时间开始后才能进行语音识别，减少语音识别的等待时间，对于较长时间的录音过程不仅可以有效地减少语音录音和语音识别的等待时间，也可以做出完整的语音识别。本方案在录音时间采用两秒时间，每两秒进行一次录音，然后将录音结果发送到语音识别模块进行识别，识别结果后放入fifo队列中，这样连续录音结果都在队列中，然后在语义识别模块对拼接语句进行识别，从而达到快速语音识别的效果。实现语音录制过程中进行语音识别，减少用户需要在语音录制完成后，才能够进行语音识别并输出语音结果的等待时间，在不影响正常识别结果的同时缩短录音时延，提高用户使用体验。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王泓喆
技术所有人：上海斐讯数据通信技术有限公司
我是此专利的发明人