音频识别方法及装置的制造方法

文档序号：9598797阅读：476来源：国知局

音频识别方法及装置的制造方法
【技术领域】
[0001]本公开涉及语音识别技术领域，尤其涉及音频识别方法及装置。
【背景技术】
[0002]语音识别技术在现阶段得到了广泛应用，语音识别技术也被称为自动语音识别(Automatic Speech Recognit1n，ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
[0003]语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用。

【发明内容】

[0004]本公开实施例提供音频识别方法及装置。所述技术方案如下:
[0005]第一方面，提供了一种音频识别方法，包括:
[0006]采集校准语音；
[0007]获取所述校准语音的语音特征信息；
[0008]采集待识别语音；
[0009]在采集的待识别语音中检测与所述语音特征信息匹配的指令语音；
[0010]响应于检测到所述指令语音，执行所述指令语音对应的操作。
[0011 ] 在一个实施例中，所述方法还可包括:
[0012]获取校准语音的标识，所述校准语音的标识包括:生物特征信息、或标识位；
[0013]关联存储所述标识与所述语音特征信息。
[0014]在一个实施例中，所述在采集的待识别语音中检测与所述语音特征信息匹配的指令语音，可包括:
[0015]获取所述待识别语音的标识，所述待识别语音的标识包括:生物特征信息、或标识位；
[0016]在所述校准语音的标识中查找与所述待识别语音的标识相同的目标标识；
[0017]获取与所述目标标识对应的目标语音特征信息；
[0018]在采集的待识别语音中检测与所述目标语音特征信息匹配的指令语音。
[0019]在一个实施例中，所述生物特征信息，可包括下述一项或多项:声纹信息、虹膜信息和指纹信息。
[0020]在一个实施例中，所述在采集的待识别语音中检测与所述语音特征信息匹配的指令语音，可包括:
[0021]提取待识别语音的语音特征信息；
[0022]在提取的待识别语音的语音特征信息中检测所述校准语音的语音特征信息；
[0023]所述响应于检测到所述指令语音，执行所述指令语音对应的操作，包括:
[0024]响应于检测到目标校准语音的语音特征信息，将所述目标校准语音确定为所述指令语音；
[0025]执行所述指令语音对应的操作。
[0026]在一个实施例中，所述采集校准语音，可包括:
[0027]采集预设次数的输入语音，相邻采集的时间间隔小于或等于预设时间；
[0028]计算相邻时间采集的两个输入语音的语音特征信息的特征值；
[0029]响应于确定所述两个输入语音的特征值之间的差值小于预设误差值，将所述两个输入语音确定为校准语音。
[0030]在一个实施例中，所述语音特征信息可包括下述一项或多项:语音的音色、音高、首长和首强。
[0031]第二方面，提供了一种音频识别装置，包括:
[0032]第一采集模块，用于采集校准语音；
[0033]第一获取模块，用于获取第一采集模块采集的所述校准语音的语音特征信息；
[0034]第二采集模块，用于在第一获取模块获取所述校准语音的语音特征信息之后，采集待识别语首；
[0035]检测模块，用于在第二采集模块采集待识别语音之后，在采集的待识别语音中检测与所述语音特征信息匹配的指令语音；
[0036]执行模块，用于响应于检测到所述指令语音，执行所述指令语音对应的操作。
[0037]在一个实施例中，所述装置还可包括:
[0038]第二获取模块，用于获取校准语音的标识，所述校准语音的标识包括:生物特征信息、或标识位；
[0039]存储模块，用于在第二获取模块获取校准语音的标识之后，关联存储所述标识与所述语音特征信息。
[0040]在一个实施例中，所述检测模块，可包括:
[0041]第一获取子模块，用于获取所述待识别语音的标识，所述待识别语音的标识包括:生物特征信息、或标识位；
[0042]查找子模块，用于在第一获取子模块获取所述待识别语音的标识之后，在所述校准语音的标识中查找与所述待识别语音的标识相同的目标标识；
[0043]第二获取子模块，用于获取与所述目标标识对应的目标语音特征信息；
[0044]第一检测子模块，用于在第二获取子模块获取与所述目标标识对应的目标语音特征信息之后，在采集的待识别语音中检测与所述目标语音特征信息匹配的指令语音。
[0045]在一个实施例中，所述生物特征信息，可包括下述一项或多项:声纹信息、虹膜信息和指纹信息。
[0046]在一个实施例中，所述检测模块，可包括:
[0047]提取子模块，用于提取待识别语音的语音特征信息；
[0048]第二检测子模块，用于在提取子模块提取的待识别语音的语音特征信息中检测所述校准语音的语音特征信息；
[0049]所述执行模块，包括:
[0050]确定子模块，用于响应于第二检测子模块检测到目标校准语音的语音特征信息，将所述目标校准语音确定为所述指令语音；
[0051]执行子模块，用于执行所述指令语音对应的操作。
[0052]在一个实施例中，所述第一米集模块，可包括:
[0053]采集子模块，用于采集预设次数的输入语音，相邻采集的时间间隔小于或等于预设时间；
[0054]计算子模块，用于计算相邻时间采集的两个输入语音的语音特征信息的特征值；
[0055]确定子模块，用于响应于确定所述两个输入语音的特征值之间的差值小于预设误差值，将所述两个输入语音确定为校准语音。
[0056]在一个实施例中，所述语音特征信息可包括下述一项或多项:语音的音色、音高、首长和首强。
[0057]第三方面，提供了一种音频识别装置，包括:
[0058]处理器；
[0059]用于存储处理器可执行指令的存储器；
[0060]其中，所述处理器被配置为:
[0061]采集校准语音；
[0062]获取所述校准语音的语音特征信息；
[0063]采集待识别语音；
[0064]在采集的待识别语音中检测与所述语音特征信息匹配的指令语音；
[0065]响应于检测所述指令语音，执行所述指令语音对应的操作。
[0066]本公开的实施例提供的技术方案可以包括以下有益效果:
[0067]上述技术方案，通过将采集的语音作为校准语音，并从待识别的语音中检测与校准语音匹配的指令语音，如果检测到指令语音，则执行指令语音对应的操作，因此，用户可以预先采集自己的语音作为校准语音，这样即使用户输入的语音并非标准的普通话，也能很容易的进行识别，给用户带来了便利，提升了用户的使用体验。
[0068]应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
【附图说明】
[0069]此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。
[0070]图1是根据一示例性实施例示出的音频识别方法的流程图。
[0071]图2是根据一示例性实施例示出的另一种音频识别方法的流程图。
[0072]图3是根据一示例性实施例示出的一种音频识别方法中步骤S104的流程图。
[0073]图4是根据一示例性实施例示出的在采集的待识别语音中检测与语音特征信息匹配的指令语音的方法的流程图。
[0074]图5是根据一示例性实施例示出的一种音频识别方法中步骤S101的流程图。
[0075]图6是根据一示例性实施例一示出的音频识别方法的流程图。
[0076]图7是根据一示例性实施例示出的音频识别装置的框图。

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：傅强;王阳;侯恩星;
技术所有人：小米科技有限责任公司;
我是此专利的发明人

上一篇：智能眼镜应用于汽车维保领域的语音指令识别方法
上一篇：语音合成方法和装置的制造方法