智能语音识别方法和芯片、云设备以及云服务器的制作方法

文档序号：2833025阅读：556来源：国知局

专利名称：智能语音识别方法和芯片、云设备以及云服务器的制作方法
技术领域：
本发明涉及基于云解析的语音识别技术领域，特别涉及智能语音识别方法和芯片、云设备以及云服务器。
背景技术：
随着电子产品向智能化方向发展，语音识别需要从小词汇量、孤立词识别、特定人识别等简单任务发展到大词汇量、连续语音、非特定人识别任务。目前的语音识别芯片或模块主要分为两类特定说话者的语音识别和与说话者无关的语音识别。针对特定说话者的语音识别，需要说话者对每个识别词语进行训练，词汇量有一定限制；与说话者无关的语音识别，不限定说话人，但命令的识别数量由系统的存储空间的容量决定，非常有限。可见，现有的语音识别的智能化程度不高。发明内容
为解决上述问题，本发明提供一种智能语音识别芯片，方法以及云解析系统、云设备、云服务器。
在第一方面，本发明提供一种智能语音识别芯片，其特征在于，所述芯片包括采集转换模块，用于采集环境中的语音信号，经过A/D转换得到数字语音信号；处理模块，用于接收数字语音信号，并对该数字语音信号进行检测，当检测到引导词时从该数字语音信号提取语音特征数据，当检测到端点时停止提取语音特征数据；存储模块，用于存储处理模块提取的语音特征数据；输入输出模块，用于输出存储模块存储的语音特征数据。
在第二方面，本发明提供一种云设备，所述云设备包括所述的智能语音识别芯片，以及CPU，其中CPU，用于接收智能语音识别芯片传送的语音特征数据，并将其转交给云服务器。
在第三方面，本发明提供一种云服务器，所述云服务器包括数据接收模块，用于接收云设备转交的语音特征数据；数据解析模块，用于解析接收的语音特征数据，得到一条或多条命令；命令返回模块，用于将得到的一条或多条命令返回给云设备。
在第四方面，本发明提供一种云解析系统，其特征在于，所述系统包括如第二方面所述的云设备，以及如第三方面所述的云服务器。
在第五方面，本发明提供一种智能语音识别方法，所述方法包括采集环境中的语音信号，经过A/D转换得到数字语音信号；对该数字语音信号检测引导词或端点；检测到引导词时，开始提取语音特征数据，检测端点时，停止提取语音特征数据；解析提取的语音特征数据，得到对应的语音命令。
本发明将云解析应用于语音识别，提高了语音识别的成功率，简化了语音识别芯片的结构。

下面将参照附图对本发明的具体实施方案进行更详细的说明，在附图中
图1是本发明实施例的云解析系统示意图2是本发明实施例的智能语音芯片示意图3是本发明实施例的智能语音芯片工作流程示意图4是本发明实施例的云设备工作流程示意图5是本发明实施例的云服务器工作流程示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的描述。
图1是本发明实施例的云解析系统示意图。如图1所示，所述云解析系统包括云服务器、云设备。所述的云设备包括智能语音识别芯片以及中央处理器CPU。智能语音识别芯片用于记录环境中的语音信号，将其转换为数字语音信号，并将数字语音信号中的语音特征数据提取出来通过总线发送给云设备的CPU。中央处理器CPU将所述的语音特征数据上传至云服务器。云服务器用于解析所述的语音特征数据后得到一条或多条命令，将所述命令返回给云设备。所述的云设备还进一步用于执行所述的命令。
所述的云设备优选是电视，也可能是其它设备，比如机顶盒，个人电脑，手机等，在此不做限定。
所述的云服务器优选地是语音云服务器，也可能是其它类型的云服务器，例如语音和视频综合云服务器，在此不做限定。
图2是本发明实施例的智能语音芯片示意图。如图2所示，智能语音芯片包括采集模块、处理模块、输入输出模块和存储模块。采集模块用以对环境中的语音进行实时采样，经过A/D转换将模拟语音信号变成数字语音信号。处理模块用来对数字语音信号进行预处理，包括引导词检测、端点检测、提取特征数据、压缩编码、数据打包等操作。存储模块用于存储处理模块提取的特征数据。输入输出模块用来请求云设备的CPU接收数据，并将打包后的数据输出给CPU以便上传给云服务器，接收CPU指令等。
要说明的是，上述存储模块存储处理模块提取的特征数据。可以是处理模块一边提取特征数据，一边暂且交予一缓存器存储，待从引导词到端点之间数字语音信号的所有特征数据提取完毕，再将所提取的全部特征数据交予存储模块进行存储。也可以是处理模块一边提取特征数据，一边暂且交予一缓存器存储，然后分批将积累的部分特征数据交予存储模块进行存储。在此不做限定。
图3是本发明实施例的智能语音芯片工作流程示意图。如图3所示，在步骤300，智能语音芯片的采集模块实时进行语音采样，将环境中的模拟语音信号转换为数字语音信号提交给处理模块。
在步骤302，处理模块检测语音信号中是否有引导词。具体地说，处理模块接收到采集模块生成的数字语音信号后，对数字语音信号进行检测。当检测到引导词的特征信号时认定说话者开始对云设备发出语音指令，进入步骤304，处理模块开始提取数字语音信号中的语音特征数据。上述的引导词的特征信号例如是“电视音量大点”中的“电视”; 语音特征数据是由数字语音信号依据一定算法经过运算得到的一组数据，例如是通过计算 LPCC (Linear Predictive Cepstral Coding，线性预测倒普参数)得到的语音特征数据，亦或是通过计算MFCC (Mel-scaled cepstrum coefficients，Mel尺度倒普参数)得到的语音特征数据等。
在步骤306，处理模块检测语音信号中是否有端点。具体地说，在处理模块开始提取语音特征数据之后，处理模块会检测数字语音信号中是否有端点。当检测到端点时认定说话者已停止发出语音指令，此时进入步骤308，处理模块停止提取语音特征数据。所述的端点是指说话者发出语音指令的结束点，检测端点便于芯片只存储和处理有效的数字语音信号。所述的检测端点是依据一定算法计算数字语音信号的某个参数，例如是短时能量，短时过零率等，作为判断是否是端点的标准。
在步骤310，处理模块通过输入输出模块将提取的语音特征数据输出至云设备的 CPU。在一个例子中，在所述将提取的语音特征数据输出至云设备的CPU之前，处理模块对其进行压缩编码，以减小对存储空间的占用，再进行打包处理，以保证在云网络中数据传输的安全性和稳定性。最后处理模块将打包后的语音特征数据经输入输出模块输出至云设备的 CPU。
在一个例子中，在传输所述的打包后的语音特征数据前，输入输出模块向CPU发出数据发送请求，CPU准备好接收数据时返回应答消息。输入输出模块接收到CPU返回的应答消息后向CPU发送打包数据。
要说明的是，上述智能语音识别芯片的处理模块所负责的压缩编码、打包过程也可以直接交给云设备的CPU来完成。也即，在步骤310中，将步骤306和步骤308中所提取的语音特征数据直接传送给云设备的CPU，由该云设备的CPU进行压缩编码、打包之后再提交给云服务器。而且，更进一步地，在整个云设备中也可以不对步骤306和步骤308中所提取的语音特征数据进行压缩编码以及打包。即在步骤310中，将所提取的语音特征数据直接传送给云设备的CPU，再经云设备的CPU直接提交给云服务器。
图4是本发明实施例的云设备工作流程示意图。如图4所示，在步骤400中，云设备的CPU接收到来自智能语音识别芯片的语音特征数据；在步骤402中，将该语音特征数据上传给云网络中的云服务器供其进行解析。
待云服务器解析完毕后，在步骤404中，云设备的CPU接收云服务器返回的命令组，例如“音量”、“大点”，然后在步骤406中，根据命令组中的命令执行操作，例如将音量设置调大一级，得以实现说话者对云设备的语音控制。
图5是本发明实施例的云服务器工作流程示意图。如图5所述，在步骤500中，云服务器接收到云设备的CPU上传的语音特征数据，进入步骤502，对所述的语音特征数据进行解析。在一个例子中，如果所述的语音特征数据是经过压缩编码以及打包处理的，则需要对所述语音特征数据进行组包解包，然后将组包解包后的数据进行解码、解压缩得到中间数据，再对该中间数据进行语音特征解析，识别出所含的语音命令信息并转化为可供云设备操作的命令组，最后将命令组回传给云设备。所述的语音命令信息可以是“音量大点”，所述的命令组可以是“设置音量”，以及“增大一级”。云设备接收到命令组后即可执行相应操作，例如将音量增大一级。
在一个例子中，云服务器在执行上述语音特征解析时需要借助于一个配置数据库，在该配置数据库中预先设置了一些命令模板，比如对应“音量调大一些”的语音特征可以匹配命令组“设置音量”，以及“增大一级”。所述的配置数据库需要在执行语音识别之前提前设置于所述的云服务器中。
本发明实施例的语音识别基于云服务器的云解析，而一般的云服务器具有很大的存储容量以及很强的处理能力，因此本发明实施例能够满足语音识别的高智能化、海量处理、及时响应、操作简便等需求。
最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。
权利要求
1.一种智能语音识别芯片，其特征在于，所述芯片包括采集转换模块，用于采集环境中的语音信号，经过A/D转换得到数字语音信号；处理模块，用于接收数字语音信号，并对该数字语音信号进行检测，当检测到引导词时从该数字语音信号提取语音特征数据，当检测到端点时停止提取语音特征数据；存储模块，用于存储处理模块提取的语音特征数据；输入输出模块，用于输出存储模块存储的语音特征数据。
2.—种云设备，其特征在于，所述云设备包括如权利要求1所述的智能语音识别芯片，以及CPU，其中CPU，用于接收智能语音识别芯片传送的语音特征数据，并将其转交给云服务器。
3.—种云服务器，其特征在于，所述云服务器包括数据接收模块，用于接收云设备转交的语音特征数据；数据解析模块，用于解析接收的语音特征数据，得到一条或多条命令；命令返回模块，用于将得到的一条或多条命令返回给云设备。
4.一种云解析系统，其特征在于，所述系统包括如权利要求2所述的云设备，以及如权利要求3的云服务器。
5.一种智能语音识别方法，其特征在于，所述方法包括采集环境中的语音信号，经过A/D转换得到数字语音信号；对该数字语音信号检测引导词或端点；检测到引导词时，开始提取语音特征数据，检测到端点时，停止提取语音特征数据；解析提取的语音特征数据，得到对应的语音命令。
6.如权利要求5的方法，其特征在于，所述解析提取的语音特征数据包括将提取的语音特征数据交给云服务器进行解析。
全文摘要
本发明实施例公开了一种智能语音识别芯片、方法以及云解析系统、云设备、云服务器。其中智能语音识别芯片包括采集转换模块，用于采集环境中的语音信号，经过A/D转换得到数字语音信号，将所述数字语音信号发送给处理模块；处理模块，用于接收数字语音信号，并对该数字语音信号进行检测，当检测到引导词时从该数字语音信号提取语音特征数据，当检测到端点时停止提取语音特征数据；存储模块，用于存储处理模块提取的语音特征数据；输入输出模块，用于输出存储模块存储的语音特征数据。本发明提高了语音识别的成功率、简化了芯片结构。
文档编号G10L15/26GK102543083SQ20121007072
公开日2012年7月4日申请日期2012年3月16日优先权日2012年3月16日
发明者刘巍申请人:北京海尔集成电路设计有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘巍
技术所有人：北京海尔集成电路设计有限公司
我是此专利的发明人

上一篇：定位拾音冲量调整装置及方法
上一篇：便于装弦和调音的古琴雁足的制作方法