语音识别方法、装置、终端设备以及计算机可读存储介质与流程

文档序号：24061609发布日期：2021-02-26 16:33阅读：112来源：国知局

[0001]
本发明涉及语音识别技术领域，尤其涉及一种语音识别方法、装置、终端设备以及计算机可读存储介质。

背景技术：

[0002]
语音识别是让机器通过识别和理解把语音信号转变为文本或命令。语音识别广泛用于家电、工业以及医疗等领域。在智能家电领域，用户通过智能遥控器与电视进行语音交互。在交互的过程中，用户拿起遥控器，按下语音按键语音录入后进行语音识别，然而在语音录入的过程中用户松开语音按键过早或者过晚，出现语音录入不完整或者过长情况，导致语音识别较慢甚至失败，给用户带来较差的体验感。

技术实现要素：

[0003]
本发明的主要目的在于提供一种语音识别方法、装置、终端设备以及计算机可读存储介质，旨在解决语音录入不完整或者过长的问题。
[0004]
为实现上述目的，本发明提供了一种语音识别方法，应用于终端设备，方法包括：
[0005]
在检测到终端设备中的音频采集控件被触发时，获取终端设备的麦克风采集到的音频信号；
[0006]
确定音频信号的类型；
[0007]
在音频信号的类型为语音信号时，对音频信号进行识别；
[0008]
在检测到音频采集控件松开时，在松开音频采集控件后的预设时间间隔内，继续执行获取终端设备的麦克风采集到的音频信号的操作。
[0009]
为实现上述目的，本发明提供了一种语音识别装置，应用于终端设备，装置包括：
[0010]
获取单元，用于在检测到终端设备中的音频采集控件被触发时，获取终端设备的麦克风采集到的音频信号；
[0011]
确定单元，用于确定音频信号的类型；
[0012]
识别单元，用于在音频信号的类型为语音信号时，对音频信号进行识别；
[0013]
执行单元，用于在检测到音频采集控件松开时，在松开音频采集控件后的预设时间间隔内，继续执行获取终端设备的麦克风采集到的音频信号的操作。
[0014]
为实现上述目的，本发明提供了一种终端设备，终端设备包括存储器、处理器以及存储在存储器并可在处理器上执行的语音识别程序，处理器执行语音识别程序时实现如上的语音识别方法的各个步骤。
[0015]
为实现上述目的，本发明提供了一种计算机可读存储介质，计算机可读存储介质存储有语音识别程序，语音识别程序被处理器执行时实现如上的语音识别方法的各个步骤。
[0016]
本发明提供的一种语音识别方法、装置、终端设备以及计算机可读存储介质，在检测到音频采集控件松开时，在松开音频采集控件后的预设时间间隔内继续获取终端设备的
麦克风采集到的音频信号，保证了音频信号的完整性。
附图说明
[0017]
图1为本发明实施例涉及的终端设备的硬件结构示意图；
[0018]
图2为本发明语音识别方法的第一实施例的流程示意图；
[0019]
图3为本发明语音识别方法的第二实施例的步骤s20的细化流程示意图；
[0020]
图4为本发明语音识别方法的第三实施例的步骤s30的细化流程示意图；
[0021]
图5为本发明实施例涉及的语音识别装置的功能模块示意图。
[0022]
本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
[0023]
应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0024]
本发明实施例的主要解决方案是：在检测到终端设备中的音频采集控件被触发时，获取终端设备的麦克风采集到的音频信号；确定音频信号的类型；在音频信号的类型为语音信号时，对音频信号进行识别；在检测到音频采集控件松开时，在松开音频采集控件后的预设时间间隔内，继续执行获取终端设备的麦克风采集到的音频信号的操作。
[0025]
通过确定采集的音频信号的类型，对预设类型的音频信号进行识别，提高了音频识别的效率。并且在检测到音频采集控件松开之后的预设时间间隔内，继续对音频信号进行采集，保证了音频信号的完整性。
[0026]
作为一种实现方案，终端设备可以如图1所示。
[0027]
本发明实施例方案涉及的是终端设备，终端设备包括：处理器101，例如cpu，存储器102，通信总线103。其中，通信总线103用于实现这些组件之间的连接通信。
[0028]
存储器102可以是高速ram存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。如图1所示，作为一种计算机可读存储介质的存储器102中可以包括语音识别程序；而处理器101可以用于调用存储器102中存储的语音识别程序，并执行以下操作：
[0029]
在检测到终端设备中的音频采集控件被触发时，获取终端设备的麦克风采集到的音频信号；
[0030]
确定音频信号的类型；
[0031]
在音频信号的类型为语音信号时，对音频信号进行识别；
[0032]
在检测到音频采集控件松开时，在松开音频采集控件后的预设时间间隔内，继续执行获取终端设备的麦克风采集到的音频信号的操作。
[0033]
在一实施例中，处理器101可以用于调用存储器102中存储的语音识别程序，并执行以下操作：
[0034]
确定音频信号中人声出现的次数；
[0035]
若人声出现的次数大于预设次数，则判定音频信号的类型为语音信号。
[0036]
在一实施例中，处理器101可以用于调用存储器102中存储的语音识别程序，并执行以下操作：
[0037]
统计音频信号中预设频段的出现次数，预设频段为人声频段；
[0038]
将预设频段的出现次数作为音频信号中人声出现的次数。
[0039]
在一实施例中，处理器101可以用于调用存储器102中存储的语音识别程序，并执行以下操作：
[0040]
持续开启终端设备的麦克风预设时长；
[0041]
获取通过麦克风在预设时长内采集到的音频信号。
[0042]
在一实施例中，处理器101可以用于调用存储器102中存储的语音识别程序，并执行以下操作：
[0043]
关闭麦克风。
[0044]
在一实施例中，处理器101可以用于调用存储器102中存储的语音识别程序，并执行以下操作：
[0045]
在预设的词库中查找与音频信号对应的文字信息，与音频信号对应的文字信息为识别结果；或者，
[0046]
将音频信号发送至云端，接收云端反馈的与音频信号对应的文字信息，与音频信号对应的文字信息为识别结果。
[0047]
在一实施例中，处理器101可以用于调用存储器102中存储的语音识别程序，并执行以下操作：
[0048]
显示识别结果。
[0049]
基于上述终端设备的硬件构架，提出本发明语音识别方法的实施例。
[0050]
参照图2，图2为本发明语音识别方法的第一实施例，语音识别方法包括以下步骤：
[0051]
步骤s10，在检测到终端设备中的音频采集控件被触发时，终端设备获取终端设备的麦克风采集到的音频信号。
[0052]
具体的，终端设备可以是与智能电视匹配的带有音频采集功能的智能设备，终端设备可以是智能遥控器，也可以是手机或者平板电脑等智能设备。在终端设备中的音频采集控件被触发时，智能电视获取终端设备的麦克风采集到的音频信号。在检测到终端设备中的音频采集控件被触发后，在预设时长内持续开启终端设备的麦克风，并且获取麦克风在预设时长内采集到的音频信号。
[0053]
步骤s20，终端设备确定音频信号的类型。
[0054]
具体的，采集到的音频信号可以是人说话的语音信号，也可以是除语音信号之外的音频信号，例如雷电声等。可以根据音频信号的频率的大小确定音频信号的类型，示例性的，普通人说话时的频率范围为：100<f(x)<300；女高音说话时的频率范围为246.9<f(x)<987.8；女低音说话时的频率范围为164.8<f(x)<659.2；男高音说话时的频率范围为110<f(x)<440；男低音说话时的频率范围为73.4<f(x)<293.7，若采集到的音频信号的频率为260，则可以确定该音频信号为语音信号，若采集到的音频信号的频率为1000，则可以确定该音频信号为非语音信号。
[0055]
步骤s30，在音频信号的类型为语音信号时，终端设备对音频信号进行识别；
[0056]
具体的，智能电视的终端设备主要是获取人说话的语音信号，根据语音信号智能电视实现某些操作，例如打开或者关闭视频应用，实现人与智能电视的交互功能，因此在对音频信号进行识别之前，需要先确定音频信号的类型，若音频信号为人说话的语音信号，则对音频信号进行识别，若音频信号不是语音信号，则丢弃该音频信号。
[0057]
步骤s40，在检测到音频采集控件松开时，在松开音频采集控件后的预设时间间隔内，终端设备继续执行获取终端设备的麦克风采集到的音频信号的操作。
[0058]
具体的，若输入的音频信号为语音信号，在检测到音频采集控件松开之后，在预设时间间隔内麦克风继续对音频信号进行采集，智能电视获取终端设备的麦克风采集到的音频信号，防止用户在未说完话之前就松开音频采集控件，导致获取的音频信号不完整的情况。在松开音频采集控件后的预设时间间隔后，关闭麦克风，停止对音频信号进行采集。
[0059]
在本实施例的技术方案中，通过确定采集的音频信号的类型，对预设类型的音频信号进行识别，提高了音频识别的效率。并且在检测到音频采集控件松开之后的预设时间间隔内，继续对音频信号进行采集，保证了音频信号的完整性。
[0060]
参照图3，图3为本发明语音识别方法的第二实施例，基于第一实施例，步骤s20还包括：
[0061]
步骤s21，终端设备确定音频信号中人声出现的次数；
[0062]
步骤s22，若人声出现的次数大于预设次数，则终端设备判定音频信号的类型为语音信号。
[0063]
步骤s21还包括：终端设备统计音频信号中预设频段的出现次数，预设频段为人声频段；终端设备将预设频段的出现次数作为音频信号中人声出现的次数。
[0064]
具体的，终端设备确定音频信号中人声出现的次数，在人声出现次数大于预设次数时，判断音频信号类型。示例性的，终端设备获取第一个音频信号的频率为x1＝260，第二个音频信号的频率为x2＝10，第三个音频信号的频率为x3＝250，......，第十个音频信号的频率为x10＝240。10次对音频信号进行人声判断，其中10次中为人声的次数是9次，预设次数可以为5次，这时，人声出现的次数大于预设次数，可以判定音频信号为语音信号。若10次中为人声的次数为3次，预设次数为5次，则人声出现的次数小于预设次数，可以判定音频信号不是语音信号。
[0065]
预设频段可以是不同人声的频率范围，例如普通人说话时的频率范围为：100<f(x)<300；女高音说话时的频率范围为246.9<f(x)<987.8；女低音说话时的频率范围为164.8<f(x)<659.2；男高音说话时的频率范围为110<f(x)<440；男低音说话时的频率范围为73.4<f(x)<293.7，若音频信号在预设频段出现的次数大于预设次数，确定音频信号为该预设频段对应的类型。
[0066]
在本实施例的技术方案中，通过音频信号中人声出现的次数对音频信号的类型进行判断，避免了人声出现的次数小于预设次数时，也就是人声次数出现偏少的情况下，将音频信号判断为语音信号，使得判断结果更加准确。
[0067]
参照图4，图4为本发明语音识别方法的第三实施例，基于第一至第二中任一实施例，步骤s30包括：
[0068]
步骤s31，终端设备在预设的词库中查找与音频信号对应的文字信息，与音频信号对应的文字信息为识别结果；或者，
[0069]
步骤s32，终端设备将音频信号发送至云端，接收云端反馈的与音频信号对应的文字信息，与音频信号对应的文字信息为识别结果。
[0070]
具体的，终端设备确定了音频信号为语音信号之后，还需要对语音信号进行识别，将语音信号转化为文字信息，输出文字信息可以是在智能电视屏幕或者终端设备屏幕上展
示出文字信息。识别音频信号首先在预设的词库进行查找，输出音频信号对应的文字信息。若未在预设词库中查找到音频信号对应的文字信息，则将语音信号发送至云端，云端对音频信号进行识别，得到音频信号对应的文字信息。在对音频信号进行识别之后，显示音频信号的识别结果，这里的识别结果可以是在智能电视屏幕上显示文字信息。
[0071]
在本实施例的技术方案中，通过预设词库或者云端对语音信号进行识别，得到语音信号对应的文字信息并输出，保证语音识别的完整性。并且使得用户确认语音信号生成的内容，若出现错误可以及时重新录入音频信号，增强了用户体验。
[0072]
参照图5，本发明还提供了一种语音识别装置，应用于终端设备，装置包括：
[0073]
获取单元100，用于在检测到终端设备中的音频采集控件被触发时，获取终端设备的麦克风采集到的音频信号；
[0074]
确定单元200，用于确定音频信号的类型；
[0075]
识别单元300，用于在音频信号的类型为语音信号时，对音频信号进行识别；
[0076]
执行单元400，用于在检测到音频采集控件松开时，在松开音频采集控件后的预设时间间隔内，继续执行获取终端设备的麦克风采集到的音频信号的操作。
[0077]
在一实施例中，在确定音频信号的类型方面，上述确定单元200具体用于：
[0078]
确定音频信号中人声出现的次数；
[0079]
若人声出现的次数大于预设次数，则判定音频信号的类型为语音信号。
[0080]
在一实施例中，在根据确定音频信号中人声出现的次数方面，上述确定单元200具体用于：
[0081]
统计音频信号中预设频段的出现次数，预设频段为人声频段；
[0082]
将预设频段的出现次数作为音频信号中人声出现的次数。
[0083]
在一实施例中，在获取终端设备的麦克风采集到的音频信号方面，上述获取单元100具体用于：
[0084]
持续开启终端设备的麦克风预设时长；
[0085]
获取通过麦克风在预设时长内采集到的音频信号。
[0086]
在一实施例中，上述语音识别装置还包括关闭单元500，其中：
[0087]
关闭单元500，用于关闭麦克风。
[0088]
在一实施例中，在对音频信号进行识别方面，上述识别单元300具体用于：
[0089]
在预设的词库中查找与音频信号对应的文字信息，与音频信号对应的文字信息为识别结果；或者，
[0090]
将音频信号发送至云端，接收云端反馈的与音频信号对应的文字信息，与音频信号对应的文字信息为识别结果。
[0091]
在一实施例中，上述语音识别装置还包括显示单元600，其中：
[0092]
显示单元600，用于显示识别结果。
[0093]
本发明还提供了一种终端设备，终端设备包括存储器、处理器以及存储在存储器并可在处理器上执行的语音识别程序，处理器执行语音识别程序时实现如上述的语音识别方法的各个步骤。
[0094]
本发明还提供了一种计算机可读存储介质，计算机可读存储介质存储有语音识别程序，语音识别程序被处理器执行时实现如上述的语音识别方法的各个步骤。
[0095]
上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
[0096]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0097]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上的一个计算机可读存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例的方法。
[0098]
以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王俊方
技术所有人：深圳TCL新技术有限公司
我是此专利的发明人