一种可过滤扬声器噪音的语音识别方法及其系统的制作方法

文档序号：10727071阅读：634来源：国知局

一种可过滤扬声器噪音的语音识别方法及其系统的制作方法
【专利摘要】本发明提供了一种可过滤扬声器噪音的语音识别方法及其系统，方法包括：当检测到通过麦克风录入用户语音、且检测到扬声器在播放智能终端中存储语音文件时，则获取用户语音和扬声器声音的合成音；根据智能终端中采样的扬声器声音的第一频率、及第一振幅，及合成音的合成音频率、及合成音振幅，计算得到用户语音的第二频率、及第二振幅；过滤合成音中扬声器声音的音色，并与用户语音的第二频率、及第二振幅复原得到用户语音；根据语音数据库，将用户语音转化为文本。本发明实现了用户在使用语音识别软件并且扬声器在播放外音时，终端内处理器根据声音组成进行分析，过滤掉扬声器声音，使得后台接收的用户语音中减少环境噪音，实现语音的高效识别。
【专利说明】
一种可过滤扬声器噪音的语音识别方法及其系统
技术领域
[0001]本发明涉及语音识别技术领域，尤其涉及一种可过滤扬声器噪音的语音识别方法及其系统。
【背景技术】
[0002]语音识别技术正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作。移动互联网的兴起正成为语音识别最重要的应用环境，如苹果公司的Siri，国内的讯飞软件等，能够高效的识别用户的语音。目前智能终端上都可以安装类似软件，能够将用户语音转换成文字，并将语音与后台数据库进行匹配，生成文字显示，甚至直接进行控制。为了能够高效识别语音，需要用户输入语音时尽量避免环境噪音。
[0003]但是，当智能终端在播放音乐时，用户对着麦克风说话，会带入扬声器的音乐声，导致识别效率大幅下降。
[0004]因此，现有技术还有待改进和发展。

【发明内容】

[0005]鉴于上述现有技术的不足之处，本发明的目的在于提供一种可过滤扬声器噪音的语音识别方法及其系统，旨在解决现有技术中智能终端在播放音乐时，用户对着麦克风说话，会带入扬声器的音乐声，导致识别效率大幅下降的问题。
[0006]为了达到上述目的，本发明采取了以下技术方案:
一种可过滤扬声器噪音的语音识别方法，其中，所述方法包括以下步骤:
A、当检测到通过麦克风录入用户语音、且检测到扬声器在播放智能终端中存储语音文件时，则获取用户语音和扬声器声音的合成音；
B、根据智能终端中采样的扬声器声音的第一频率、及第一振幅，及所述合成音的合成音频率、及合成音振幅，计算得到用户语音的第二频率、及第二振幅；
C、过滤所述合成音中扬声器声音的音色，并与用户语音的第二频率、及第二振幅复原得到用户语音；
D、根据语音数据库，将用户语音转化为文本。
[0007]所述可过滤扬声器噪音的语音识别方法，其中，所述步骤B具体包括:
B1、根据合成音频率为第一频率及第二频率的最小公倍数，由合成音频率和第一频率计算得到第二频率；
B2、根据合成音振幅与第一振幅之差，计算得到第二振幅。
[0008]所述可过滤扬声器噪音的语音识别方法，其中，所述步骤C具体包括:
Cl、将合成音通过音频编码器模/数转换后，将具有合成音频率、合成音振幅及合成音音色的合成音编码送至处理器；
C2、处理器过滤掉所述合成音中扬声器声音的音色，保留用户语音的音色； C3、音频解码器将用户语音的第二频率、及第二振幅转化成部分语音，所述部分语音与用户语音的音色复原得到用户语音。
[0009]所述可过滤扬声器噪音的语音识别方法，其中，所述步骤D具体包括:
Dl、将用户语音上传至云端的语音数据库；
D2、将用户语音在语音数据库中进行匹配，得到文本；
D3、将所述文本发送至智能终端，并显示。
[0010]所述可过滤扬声器噪音的语音识别方法，其中，所述步骤A中还包括处理器获取音频编码器中扬声器声音每一帧的扬声器声音编码。
[0011]—种可过滤扬声器噪音的语音识别系统，其中，包括:
检测及获取模块，用于当检测到通过麦克风录入用户语音、且检测到扬声器在播放智能终端中存储语音文件时，则获取用户语音和扬声器声音的合成音；
计算模块，用于根据智能终端中采样的扬声器声音的第一频率、及第一振幅，及所述合成音的合成音频率、及合成音振幅，计算得到用户语音的第二频率、及第二振幅；
过滤及复原模块，用于过滤所述合成音中扬声器声音的音色，并与用户语音的第二频率、及第二振幅复原得到用户语音；
转化模块，用于根据语音数据库，将用户语音转化为文本。
[0012]所述可过滤扬声器噪音的语音识别系统，其中，所述计算模块具体包括:
频率计算单元，用于根据合成音频率为第一频率及第二频率的最小公倍数，由合成音频率和第一频率，计算得到第二频率；
振幅计算单元，根据合成音振幅与第一振幅之差，计算得到第二振幅。
[0013]所述可过滤扬声器噪音的语音识别系统，其中，所述过滤及复原模块具体包括: 编码发送单元，用于将合成音通过音频编码器模/数转换后，将具有合成音频率、合成音振幅及合成音音色的合成音编码送至处理器；
过滤单元，处理器过滤掉所述合成音中扬声器声音的音色，保留用户语音的音色；
复原单元，音频解码器将用户语音的第二频率、及第二振幅转化成部分语音，所述部分语音与用户语音的音色复原得到用户语音。
[0014]所述可过滤扬声器噪音的语音识别系统，其中，所述转化模块具体包括:
上传单元，用于将用户语音上传至云端的语音数据库；
匹配单元，用于将用户语音在语音数据库中进行匹配，得到文本；
发送显示单元，用于将所述文本发送至智能终端，并显示。
[0015]所述可过滤扬声器噪音的语音识别系统，其中，所述检测及获取模块中还用于处理器获取音频编码器中扬声器声音每一帧的扬声器声音编码。
[0016]本发明所述的可过滤扬声器噪音的语音识别方法及其系统，方法包括:当检测到通过麦克风录入用户语音、且检测到扬声器在播放智能终端中存储语音文件时，则获取用户语音和扬声器声音的合成音;根据智能终端中采样的扬声器声音的第一频率、及第一振幅，及合成音的合成音频率、及合成音振幅，计算得到用户语音的第二频率、及第二振幅;过滤合成音中扬声器声音的音色，并与用户语音的第二频率、及第二振幅复原得到用户语音；根据语音数据库，将用户语音转化为文本。本发明实现了用户在使用语音识别软件并且扬声器在播放外音时，终端内的处理器根据声音的组成进行分析，过滤掉扬声器声音，使得后台接收的用户语音中减少环境噪音，实现语音的高效识别。
【附图说明】
[0017]图1为本发明所述可过滤扬声器噪音的语音识别方法较佳实施例的流程图。
[0018]图2为本发明所述可过滤扬声器噪音的语音识别方法较佳实施例中获取用户语音的第二频率和第二振幅的具体流程图。
[0019]图3为本发明所述可过滤扬声器噪音的语音识别方法较佳实施例中复原得到用户语音的具体流程图。
[0020]图4为本发明所述可过滤扬声器噪音的语音识别方法较佳实施例中转化文本的具体流程图。
[0021 ]图5为本发明所述可过滤扬声器噪音的语音识别系统较佳实施例的结构框图。
【具体实施方式】
[0022]本发明提供一种可过滤扬声器噪音的语音识别方法及其系统，为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。
[0023]请参考图1，其为本发明所述可过滤扬声器噪音的语音识别方法较佳实施例的流程图。如图1所示，所述可过滤扬声器噪音的语音识别方法，包括以下步骤:
步骤S100、当检测到通过麦克风录入用户语音、且检测到扬声器在播放智能终端中存储语音文件时，则获取用户语音和扬声器声音的合成音。
[0024]本实施例中，当用户打开智能终端中的播放器时，也可同步打开后台的语音识别进程，这样智能终端在播放音乐时可实时检测用户是否录入语音。一旦检测到在智能终端上通过播放器播放语音文件，且有用户声音录入时，则获取用户语音和扬声器声音的合成音。此时，未经任何处理时，用户语音和扬声器声音还无法区分开，这就需要后续步骤的处理。
[0025]步骤S200、根据智能终端中采样的扬声器声音的第一频率、及第一振幅，及所述合成音的合成音频率、及合成音振幅，计算得到用户语音的第二频率、及第二振幅。
[0026]本实施例中，由于扬声器材料和结构是固定的，因此扬声器音色对于智能终端内的处理器是已知的。同样的，播放器在播放语音文件的过程中，处理器获取音频编码器中扬声器声音每一帧的扬声器声音编码，即可通过播放器获取扬声器声音中声音数据每一帧的第一频率和第一振幅。
[0027]由于已经知道了扬声器声音的第一频率、及第一振幅，及所述合成音的合成音频率、及合成音振幅，故可以根据合成音频率为第一频率和第二频率的最小公倍数而求得第二频率，并可以根据合成音振幅为第一振幅与第二振幅之和求得第二振幅。这样，通过处理器简单的计算处理，即可得到用户语音的第二频率、及第二振幅。
[0028]步骤S300、过滤所述合成音中扬声器声音的音色，并与用户语音的第二频率、及第二振幅复原得到用户语音。
[0029]当获取了用户语音的第二频率、及第二振幅后，由于可选择性的过滤掉扬声器的音色(由于扬声器的材料和结构是固定的，因此扬声器音色对于智能终端内的处理器是已知的)，仅保留用户语音的音色，这样通过用户语音的音色、第二频率及第二振幅可复原得到用户语音。这样，过滤掉了合成音中扬声器声音部分，只保留了用户语音的部分，实现了过滤扬声器噪音的语音识别效果。
[0030]步骤S400、根据语音数据库，将用户语音转化为文本。
[0031]当用户语音通过语音数据库匹配后，则转为为对应的文本，根据文本所对应的指令对智能终端进行对应的操作。例如，当用户打开播放器播放音乐的过程中，后台的语音识别进程检测到用户录入语音“快进10秒”，则通过步骤S100-S400的处理后，转化为文本“快进10秒”。此时，播放器根据该文本对应的控制指令快进将当前播放语音文件快进10秒。这样实现了在有背景音的情况下，对用户语音的精准识别。
[0032]进一步的，如图2所示，在所述可过滤扬声器噪音的语音识别方法中，所述步骤S200具体包括:
步骤S201、根据合成音频率为第一频率及第二频率的最小公倍数，由合成音频率和第一频率计算得到第二频率。
[0033]由于当扬声器声音和用户语音形成合成音后，处理器是可采样合成音的合成音频率和合成音振幅的。而且，还已知合成音频率为第一频率及第二频率的最小公倍数，即I/合成音频率=N*(1/第一频率)* (I/第二频率)，其中N为任意正整数。根据上式，可求解得到第二频率。
[0034]步骤S202、根据合成音振幅与第一振幅之差，计算得到第二振幅。
[0035]进一步的，如图3所示，在所述可过滤扬声器噪音的语音识别方法中，所述步骤S300具体包括:
步骤S301、将合成音通过音频编码器模/数转换后，将具有合成音频率、合成音振幅及合成音音色的合成音编码送至处理器；
步骤S302、处理器过滤掉所述合成音中扬声器声音的音色，保留用户语音的音色；
步骤S303、音频解码器将用户语音的第二频率、及第二振幅转化成部分语音，所述部分语音与用户语音的音色复原得到用户语音。
[0036]进一步的，如图4所示，在所述可过滤扬声器噪音的语音识别方法中，所述步骤S400具体包括:
步骤S401、将用户语音上传至云端的语音数据库；
步骤S402、将用户语音在语音数据库中进行匹配，得到文本；
步骤S403、将所述文本发送至智能终端，并显示。
[0037]可见，本发明实现了用户在使用语音识别软件并且扬声器在播放外音时，终端内的处理器根据声音的组成进行分析，过滤掉扬声器声音，使得后台接收的用户语音中减少环境噪音，实现语音的高效识别。
[0038]基于上述方法实施例，本发明还提供了一种可过滤扬声器噪音的语音识别系统。如图5所示，所述可过滤扬声器噪音的语音识别系统，包括:
检测及获取模块100，用于当检测到通过麦克风录入用户语音、且检测到扬声器在播放智能终端中存储语音文件时，则获取用户语音和扬声器声音的合成音；
计算模块200，用于根据智能终端中采样的扬声器声音的第一频率、及第一振幅，及所述合成音的合成音频率、及合成音振幅，计算得到用户语音的第二频率、及第二振幅；过滤及复原模块300，用于过滤所述合成音中扬声器声音的音色，并与用户语音的第二频率、及第二振幅复原得到用户语音；
转化模块400，用于根据语音数据库，将用户语音转化为文本。
[0039]进一步的，在所述可过滤扬声器噪音的语音识别系统中，所述计算模块200具体包括:
频率计算单元，用于根据合成音频率为第一频率及第二频率的最小公倍数，由合成音频率和第一频率计算得到第二频率；
振幅计算单元，根据合成音振幅与第一振幅之差，计算得到第二振幅。
[0040]进一步的，在所述可过滤扬声器噪音的语音识别系统中，所述过滤及复原模块300具体包括:
编码发送单元，用于将合成音通过音频编码器模/数转换后，将具有合成音频率、合成音振幅及合成音音色的合成音编码送至处理器；
过滤单元，处理器过滤掉所述合成音中扬声器声音的音色，保留用户语音的音色；
复原单元，音频解码器将用户语音的第二频率、及第二振幅转化成部分语音，所述部分语音与用户语音的音色复原得到用户语音。
[0041]进一步的，在所述可过滤扬声器噪音的语音识别系统中，所述转化模块400具体包括:
上传单元，用于将用户语音上传至云端的语音数据库；
匹配单元，用于将用户语音在语音数据库中进行匹配，得到文本；
发送显示单元，用于将所述文本发送至智能终端，并显示。
[0042]进一步的，在所述可过滤扬声器噪音的语音识别系统中，所述检测及获取模块100还用于处理器获取音频编码器中扬声器声音每一帧的扬声器声音编码。
[0043]综上所述，本发明所述的可过滤扬声器噪音的语音识别方法及其系统，方法包括:当检测到通过麦克风录入用户语音、且检测到扬声器在播放智能终端中存储语音文件时，则获取用户语音和扬声器声音的合成音;根据智能终端中采样的扬声器声音的第一频率、及第一振幅，及合成音的合成音频率、及合成音振幅，计算得到用户语音的第二频率、及第二振幅;过滤合成音中扬声器声音的音色，并与用户语音的第二频率、及第二振幅复原得到用户语音;根据语音数据库，将用户语音转化为文本。本发明实现了用户在使用语音识别软件并且扬声器在播放外音时，终端内的处理器根据声音的组成进行分析，过滤掉扬声器声音，使得后台接收的用户语音中减少环境噪音，实现语音的高效识别。
[0044]可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及本发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。
【主权项】
1.一种可过滤扬声器噪音的语音识别方法，其特征在于，所述方法包括以下步骤: A、当检测到通过麦克风录入用户语音、且检测到扬声器在播放智能终端中存储语音文件时，则获取用户语音和扬声器声音的合成音； B、根据智能终端中采样的扬声器声音的第一频率、及第一振幅，及所述合成音的合成音频率、及合成音振幅，计算得到用户语音的第二频率、及第二振幅； C、过滤所述合成音中扬声器声音的音色，并与用户语音的第二频率、及第二振幅复原得到用户语音； D、根据语音数据库，将用户语音转化为文本。2.根据权利要求1所述可过滤扬声器噪音的语音识别方法，其特征在于，所述步骤B具体包括: B1、根据合成音频率为第一频率及第二频率的最小公倍数，由合成音频率和第一频率计算得到第二频率； B2、根据合成音振幅与第一振幅之差，计算得到第二振幅。3.根据权利要求1所述可过滤扬声器噪音的语音识别方法，其特征在于，所述步骤C具体包括: Cl、将合成音通过音频编码器模/数转换后，将具有合成音频率、合成音振幅及合成音音色的合成音编码送至处理器； C2、处理器过滤掉所述合成音中扬声器声音的音色，保留用户语音的音色； C3、音频解码器将用户语音的第二频率、及第二振幅转化成部分语音，所述部分语音与用户语音的音色复原得到用户语音。4.根据权利要求1所述可过滤扬声器噪音的语音识别方法，其特征在于，所述步骤D具体包括: D1、将用户语音上传至云端的语音数据库； D2、将用户语音在语音数据库中进行匹配，得到文本； D3、将所述文本发送至智能终端，并显示。5.根据权利要求1所述可过滤扬声器噪音的语音识别方法，其特征在于，所述步骤A中还包括处理器获取音频编码器中扬声器声音每一帧的扬声器声音编码。6.一种可过滤扬声器噪音的语音识别系统，其特征在于，包括: 检测及获取模块，用于当检测到通过麦克风录入用户语音、且检测到扬声器在播放智能终端中存储语音文件时，则获取用户语音和扬声器声音的合成音；计算模块，用于根据智能终端中采样的扬声器声音的第一频率、及第一振幅，及所述合成音的合成音频率、及合成音振幅，计算得到用户语音的第二频率、及第二振幅；过滤及复原模块，用于过滤所述合成音中扬声器声音的音色，并与用户语音的第二频率、及第二振幅复原得到用户语音；转化模块，用于根据语音数据库，将用户语音转化为文本。7.根据权利要求6所述可过滤扬声器噪音的语音识别系统，其特征在于，所述计算模块具体包括: 频率计算单元，用于根据合成音频率为第一频率及第二频率的最小公倍数，由合成音频率和第一频率计算得到第二频率；振幅计算单元，根据合成音振幅与第一振幅之差，计算得到第二振幅。8.根据权利要求6所述可过滤扬声器噪音的语音识别系统，其特征在于，所述过滤及复原模块具体包括: 编码发送单元，用于将合成音通过音频编码器模/数转换后，将具有合成音频率、合成音振幅及合成音音色的合成音编码送至处理器；过滤单元，处理器过滤掉所述合成音中扬声器声音的音色，保留用户语音的音色；复原单元，音频解码器将用户语音的第二频率、及第二振幅转化成部分语音，所述部分语音与用户语音的音色复原得到用户语音。9.根据权利要求6所述可过滤扬声器噪音的语音识别系统，其特征在于，所述转化模块具体包括: 上传单元，用于将用户语音上传至云端的语音数据库；匹配单元，用于将用户语音在语音数据库中进行匹配，得到文本；发送显示单元，用于将所述文本发送至智能终端，并显示。10.根据权利要求6所述可过滤扬声器噪音的语音识别系统，其特征在于，所述检测及获取模块中还用于处理器获取音频编码器中扬声器声音每一帧的扬声器声音编码。
【文档编号】G10L21/0316GK106098078SQ201610413367
【公开日】2016年11月9日
【申请日】2016年6月14日公开号201610413367.5, CN 106098078 A, CN 106098078A, CN 201610413367, CN-A-106098078, CN106098078 A, CN106098078A, CN201610413367, CN201610413367.5
【发明人】齐东京, 方国宽
【申请人】惠州Tcl移动通信有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：齐东京;方国宽;
技术所有人：惠州TCL移动通信有限公司;
我是此专利的发明人

上一篇：音频信号的信号提取方法与装置的制造方法
上一篇：一种带降噪的人工耳蜗言语处理系统及方法