一种语音识别方法、装置及语音控制系统的制作方法

文档序号：9616940阅读：586来源：国知局

一种语音识别方法、装置及语音控制系统的制作方法
【技术领域】
[0001] 本发明属于语音识别技术领域，具体地说，是涉及一种语音识别方法、语音识别装置以及语音控制系统。
【背景技术】
[0002] 语音识别技术是一种重要的人机交互手段，可以应用在智能家电控制、工业现场控制等多种场合。
[0003] 但现有的语音识别技术识别率较低，严重制约了语音识别技术的应用。

【发明内容】

[0004] 本发明提供了一种语音识别方法，解决了现有技术中语音识别率低的问题。
[0005] 为解决上述技术问题，本发明采用下述技术方案予以实现：一种语音识别方法，包括下述步骤：分别通过逻辑回归模型、深信度网络模型、隐马尔可夫模型中的任意两个模型对语音信号进行识别，获得两个识别结果；比较所述两个识别结果是否相同；若否，则通过第三个模型对所述语音信号进行识别，获得第三个识别结果；并比较第三个识别结果与前两个识别结果中的一个是否相同；若是，则验证相同的识别结果是否为正确识别结果；若是，则输出该识别结果。
[0006] 进一步的，当验证出相同的识别结果不是正确识别结果时，所述方法还包括：判断是否存储该识别结果对应的语音信号；若是，则存储该识别结果对应的语音信号。
[0007] 又进一步的，所述判断是否存储相同的识别结果对应的语音信号包括：判断相同的识别结果对应的语音信号连续收到次数是否大于等于设定次数。
[0008] 更进一步的，所述存储该识别结果对应的语音信号包括：对语音信号的特征参数分别进行逻辑回归建模、深信度网络建模、隐马尔可夫建模，获得语音信号的逻辑回归模型、深信度网络模型、隐马尔可夫模型；将语音信号的逻辑回归模型、深信度网络模型、隐马尔可夫模型进行存储。
[0009] 优选的，采用支持向量机模型验证所述相同的识别结果是否为正确识别结果。 [0010] 一种语音识别装置，所述装置包括：识别模块，用于分别通过逻辑回归模型、深信度网络模型、隐马尔可夫模型对语音信号进行识别，获得识别结果；比较模块，用于比较前两个识别结果是否相同；以及在前两个识别结果不同时，比较第三个识别结果是否与前两个识别结果中的一个相同；验证模块，用于验证相同的识别结果是否为正确识别结果；输出模块，用于输出该识别结果。
[0011] 进一步的，所述装置还包括：判断模块，用于判断是否存储相同的识别结果对应的语音信号；存储模块，用于存储相同的识别结果对应的语音信号。
[0012] 又进一步的，所述判断模块具体用于判断相同的识别结果对应的语音信号连续收到次数是否大于等于设定次数；所述验证模块，具体用于采用支持向量机模型验证相同的识别结果是否为正确识别结果。
[0013] 再进一步的，所述存储模块包括建模单元和存储单元，其中，所述建模单元，用于对语音信号的特征参数分别进行逻辑回归建模、深信度网络建模、隐马尔可夫建模，获得语音信号的逻辑回归模型、深信度网络模型、隐马尔可夫模型；所述存储单元，用于将语音信号的逻辑回归模型、深信度网络模型、隐马尔可夫模型进行存储。
[0014] 基于上述语音识别装置的设计，本发明还提出了一种语音控制系统，包括控制终端、云端服务器、被控终端，所述云端服务器包括所述的语音识别装置和主控装置；所述语音识别装置包括：识别模块，用于分别通过逻辑回归模型、深信度网络模型、隐马尔可夫模型对语音信号进行识别，获得识别结果；比较模块，用于比较前两个识别结果是否相同；以及在前两个识别结果不同时，比较第三个识别结果是否与前两个识别结果中的一个相同；验证模块，用于验证相同的识别结果是否为正确识别结果；输出模块，用于输出该识别结果；所述控制终端发送的语音信号传输至所述语音识别装置，所述语音识别装置对接收的信号进行处理后输出识别结果至主控装置，所述主控装置根据接收到的识别结果生成控制信号，并发送至被控终端。
[0015]与现有技术相比，本发明的优点和积极效果是：本发明的语音识别方法和装置通过采用逻辑回归模型、深信度网络模型、隐马尔可夫模型相结合的方法对语音信号进行识另IJ，克服了单独使用一种模型时识别准确率低的问题，识别准确率可提升至95%以上；采用支持向量机模型验证识别结果是否正确，在验证出识别结果为错误识别结果时，可判断是否存储该识别结果对应的语音信号，使装置具有交互式学习的功能，提高了用户使用满意度。本发明的语音控制系统，实现了对被控终端的远程控制，减轻了被控终端的负载压力，用户体验好。
[0016] 结合附图阅读本发明的【具体实施方式】后，本发明的其他特点和优点将变得更加清楚。
【附图说明】
[0017] 图1是本发明提出的语音识别方法的一个实施例的流程图；图2是图1中部分步骤的流程图；图3是本发明提出的语音识别装置的一个实施例的结构图；图4是图3中存储模块的结构图；图5是本发明提出的语音控制系统的一个实施例的结构图。
【具体实施方式】
[0018]为了使本发明的目的、技术方案及优点更加清楚明白，以下将结合附图和实施例，对本发明作进一步详细说明。
[0019] 参见图1所示，本实施例的语音识别方法的具体包括下述步骤：步骤S10:语音信号输入。
[0020] 步骤S11 :分别通过逻辑回归模型、深信度网络模型、隐马尔可夫模型中的任意两个模型对语音信号进行识别，获得两个识别结果。
[0021] 识别过程具体包括下述步骤，参见图2所示：步骤S11-1:对语音信号进行预处理。
[0022] 对语音信号进行预处理主要包括依次对语音信号进行采样、去噪音、端点检测、预加重、加窗分帧等操作。
[0023]采样，就是将模拟信号转化为语音信号。由于原始语音信号是模拟信号，通过采样处理，将模拟的语音信号转化为数字化的语音信号。
[0024]去噪音，就是去除声音中的一些无用信息，保证信号的质量与速度。
[0025]端点检测，就是找到语音信号的首尾两个端点，一般采用两级判断法。
[0026]预加重，主要是为了加重语音信号的高频部分，降低口唇对语音的影响。通常通过一阶高通数字滤波器来实现，传递函数为其中α为预加重系数，取值范围为 0.9-1. 0。
[0027]加窗分帧，用于将数字信号有限化。对语音信号进行加窗分帧，将语音信号分成若干个分析帧。本实施例采用汉明窗函数进行加窗分帧。
[0028] 步骤S11-2 :提取语音信号的特征参数。
[0029]语音信号的特征参数非常多，为了提高识别率，本实施例分别从频域、时域、对数谱空间、倒谱空间去修正相应参数。
[0030]步骤S11-3:匹配。
[0031] 将语音信号的特征参数分别与预先存储的语音信号的逻辑回归模型、深信度网络模型、隐马尔可夫模型中的任意两个模型进行匹配，获得两个识别结果。
[0032]在本实施例中，将语音信号的特征参数分别与预先存储的语音信号的逻辑回归模型、深信度网络模型这两个模型进行匹配，获得两个识别结果。
[0033]语音信号的逻辑回归模型、深信度网络模型、隐马尔可夫模型预先存储在模板库中。在模板库中，事先存储有多个语音信号的逻辑回归模型、深信度网络模型、隐马尔可夫模型。存储过程为：对语音信号的特征参数分别进行逻辑回归建模、深信度网络建模、隐马尔可夫建模，获得语音信号的逻辑回归模型、深信度网络模型、隐马尔可夫模型，并存储在模板库中。
[0034]逻辑回归模型、深信度网络模型、隐马尔可夫模型的建模过程，以及语音信号分别与逻辑回归模型、深信度网络模型、隐马尔可夫模型的匹配过程为现有技术，具体可参见现有技术，此处不再赘述。
[0035] 步骤S12 :比较两个识别结果是否相同。
[0036]若否，说明两个识别结果不相同，进入步骤S13; 若是，说明两个识别结果相同，进入步骤S15。
[0037] 步骤S13 :通过第三个模型对语音信号进行识别，获得第三个识别结果。
[0038] 在本实施例中，前两个模型采用的是逻辑回归模型、深信度网络模型，第三个模型采用的隐马尔可夫模型。
[0039] 步骤S14 :比较第三个识别结果与前两个识别结果中的一个是否相同。
[0040] 也就是说，判断这三个识别结果中是否有两个是相同的。
[0041] 若否，说明这三个识别结果各不相同，返回步骤S10。
[0042] 若是，说明第三个识别结果与前两个识别结果中的一个是相同的，即三个识别结果中有两个是相同的，进入步骤s15。
[0043] 步骤S15 :验证相同的识别结果是否为正确识别结果。
[0044] 在本实施例中，采用支持向量机模型验证相同的识别结果是否为正确识别结果。
[0045] 由于采用支持向量机验证识别结果为现有技术，此处不再赘述。
[0046] 若否，说明识别结果是错误的，进入步骤S16。
[0047] 若是，说明识别结果是正确的，进入步骤S18。
[0048] 步骤S16 :判断是否存储该识别结果对应的语音信号。
[0049] 若否，则不存储，返回步骤S10 ; 若是，则存储，进入步骤S17。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘振宇;陈贵;潘洋;赵艳滨;宋思萌;邵景银;周小璇;
技术所有人：青岛海尔智能技术研发有限公司;
我是此专利的发明人