基于K歌系统的语音识别方法、介质及系统与流程

文档序号:16521571发布日期:2019-01-05 10:00阅读:376来源:国知局
基于K歌系统的语音识别方法、介质及系统与流程

本发明涉及语音识别技术领域,特别涉及一种基于k歌系统的语音识别方法、介质及系统。



背景技术:

语音识别,在现有的智能设备中已得到广泛的应用,例如,手机、智能音箱和智能电视。在现有的智能设备中,用户需要使用智能设备中的语音识别功能时,必须先喊出预先设定的唤醒词以对语音识别功能进行唤醒,以便语音识别功能对后续用户发出的语音进行识别;

然而,这种方式至少存在以下缺点:

1、在喊出唤醒词之后,系统需要对语音识别功能进行启动之后,用户方可使用相应功能,存在一定延迟;

2、用户需要选择合适的唤醒词(不能太常用,也不宜太过简短),并且,在每次使用之前需要喊出设定的唤醒词,这种方式给用户带来很大的不便,且极大地影响用户的智能体验。



技术实现要素:

本申请是基于发明人对以下问题的认识和研究而做出的:

相关技术中,不惜牺牲用户体验,而采用唤醒词进行语音识别功能唤醒的原因在于:若语音识别的过程中无“唤醒词”,则语音识别系统需要对用户输入的所有语音数据进行识别;即言,语音识别系统为了识别所有语音数据中2%的有效语音数据,需要对100%的语音数据进行存储和识别;这种方式虽解决了用户体验和系统延迟的问题,却造成了存储资源和运算资源的极大浪费。

本发明旨在至少在一定程度上解决上述技术中的技术问题之一。为此,本发明的一个目的在于提出一种基于k歌系统的语音识别方法,能够实现在没有唤醒词的条件下对用户的语音进行实时识别,达成对用户的交互语音进行精准识别的同时,节约服务器的存储资源和运算资源。

本发明的第二个目的在于提出一种计算机可读存储介质。

本发明的第三个目的在于提出一种k歌系统。

为达到上述目的,本发明第一方面实施例提出了一种基于k歌系统的语音识别方法,包括以下步骤:获取用户的语音信息;采用断句算法对所述语音信息进行处理以识别所述用户的当前状态,其中,所述用户的当前状态包括语音交互状态和唱歌状态;当所述用户的当前状态为所述唱歌状态时,对所述语音信息进行截留;当所述用户的当前状态为所述语音交互状态时,将所述语音信息发送至云端服务器,以便所述云端服务器识别所述语音信息对应的语音指令。

根据本发明实施例的基于k歌系统的语音识别方法,首先,获取用户的语音信息;接着,采用断句算法对语音信息进行处理以识别用户的当前状态,其中,用户的当前状态包括语音交互状态和唱歌状态;然后,当用户的当前状态为唱歌状态时,对语音信息进行截留;接着,当用户的当前状态为语音交互状态时,将语音信息发送至云端服务器,以便云端服务器识别语音信息对应的语音指令;从而实现在没有唤醒词的条件下对用户的语音进行实时识别,达成对用户的交互语音进行精准识别的同时,节约服务器的存储资源和运算资源。

另外,根据本发明上述实施例提出的基于k歌系统的语音识别方法还可以具有如下附加的技术特征:

可选地,通过所述k歌系统中的麦克风获取所述用户的语音信息。

可选地,获取所述用户的语音信息,包括:实时采集语音信号;当连续第一预设时间的语音信号未处于预设静音阈值区间内时,开始语音录音,直至连续第二预设时间的语音信号处于所述预设静音阈值区间内时,停止语音录音,以将录制的第一语音片段作为所述用户的第一语音信息。

可选地,采用断句算法对所述语音信息进行处理以识别所述用户的当前状态,包括:对所述第一语音片段的语音长度进行判断;如果所述语音长度大于第一时间阈值且小于第二时间阈值,则判断所述用户的当前状态为所述语音交互状态;如果所述语音长度大于等于第二时间阈值,则判断所述用户的当前状态为所述唱歌状态。

可选地,在开始语音录音后,还当连续第三预设时间的语音信号处于所述预设静音阈值区间内时,停止语音录音,以将录制的第二语音片段作为所述用户的第二语音信息,其中,所述第三预设时间小于所述第二预设时间。

可选地,同时,还对所述第二语音片段的语音长度进行判断,其中,如果所述语音长度大于第三时间阈值且小于等于第一时间阈值,则判断所述用户的当前状态为所述语音交互状态;如果所述语音长度大于第一时间阈值,则判断所述用户的当前状态为所述唱歌状态。

可选地,所述第一预设时间为100毫秒,所述第二预设时间为1000毫秒,所述第三预设时间为100毫秒。

可选地,所述第一时间阈值为1.5秒,所述第二时间阈值为8秒,所述第三时间阈值为0.2秒。

为达到上述目的,本发明第二方面实施例提出了一种计算机可读存储介质,其上存储有基于k歌系统的语音识别程序,该基于k歌系统的语音识别程序被处理器执行时实现上述的基于k歌系统的语音识别方法。

为达到上述目的,本发明第三方面实施例提出了一种k歌系统,包括语音输入装置和客户端,所述客户端包括存储器、处理器及存储在存储器上并可在处理器上运行的基于k歌系统的语音识别程序,所述处理器执行所述语音识别程序时实现上述的基于k歌系统的语音识别方法。

附图说明

图1为根据本发明实施例的基于k歌系统的语音识别方法的流程示意图;

图2为根据本发明另一实施例的基于k歌系统的语音识别方法的流程示意图;

图3为根据本发明又一实施例的基于k歌系统的语音识别方法的流程示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

在现有的语音识别方法中,多通过设置唤醒词的方式对语音识别功能进行唤醒,以避免现有的无唤醒模式的语音识别方法中,存储资源和运算资源被大量浪费,成本高昂难以实现的弊端;本发明实施例提出的基于k歌系统的语音识别方法,首先,获取用户的语音信息;接着,采用断句算法对语音信息进行处理以识别用户的当前状态,其中,用户的当前状态包括语音交互状态和唱歌状态;然后,当用户的当前状态为唱歌状态时,对语音信息进行截留;接着,当用户的当前状态为语音交互状态时,将语音信息发送至云端服务器,以便云端服务器识别语音信息对应的语音指令;从而实现在没有唤醒词的条件下对用户的语音进行实时识别,达成对用户的交互语音进行精准识别的同时,节约服务器的存储资源和运算资源。

为了更好的理解上述技术方案,下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。

为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

图1为根据本发明实施例提出的基于k歌系统的语音识别方法的流程示意图,如图1所示,该基于k歌系统的语音识别方法包括以下步骤:

s101,获取用户的语音信息。

需要说明的是,k歌系统的设置方式有多种,例如,在ktv中设置服务器、云端服务器、点歌服务端、麦克风以及显示屏以形成k歌系统;或者,通过设置云端服务器,并建立云端服务器与下载了相应程序的用户终端的连接,以形成k歌系统,其中,用户终端可以是手机、电脑、平板电脑或其他智能终端。

相应地,获取用户的语音信息的途经可以有多种,例如,在k歌系统用户通过其手机下载相应程序之后,通过该已下载相应程序的手机获取用户的语音信息。

作为一种示例,通过k歌系统中的麦克风获取用户的语音信息。

其中,获取用户的语音信息的方式可以有多种,例如,对用户的语音信号进行实时采集,并将采集到的用户的语音信号实时传输给云端服务器,以便后续云端服务器对接收到的用户的语音信号进行语音识别。

s102,采用断句算法对语音信息进行处理以识别用户的当前状态,其中,用户的当前状态包括语音交互状态和唱歌状态。

也就是说,k歌系统在获取到用户的语音信息之后,采用断句算法对该用户的语音信息进行处理,以判断用户的当前状态,其中,用户的当前状态包括语音交互状态和唱歌状态。

s103,当用户的当前状态为唱歌状态时,对语音信息进行截留。

也就是说,当判断当前用户的状态为唱歌状态时,对语音信息进行截留,而不上传至服务器,以减轻服务器对语音信息进行存储的存储压力以及对语音信息进行识别的运算压力。

s104,当用户的当前状态为语音交互状态时,将语音信息发送至云端服务器,以便云端服务器识别语音信息对应的语音指令。

也就是说,当判断用户的当前状态为语音交互状态时,将语音信息发送至云端服务器,以便云端服务器对该语音信息进行识别,获取该语音信息对应的语音指令,并在后续根据该语音指令执行相应的操作。

综上所述,根据本发明实施例的基于k歌系统的语音识别方法,首先,获取用户的语音信息;接着,采用断句算法对语音信息进行处理以识别用户的当前状态,其中,用户的当前状态包括语音交互状态和唱歌状态;然后,当用户的当前状态为唱歌状态时,对语音信息进行截留;接着,当用户的当前状态为语音交互状态时,将语音信息发送至云端服务器,以便云端服务器识别语音信息对应的语音指令;从而实现在没有唤醒词的条件下对用户的语音进行实时识别,达成对用户的交互语音进行精准识别的同时,节约服务器的存储资源和运算资源。

图2为根据本发明另一实施例的基于k歌系统的语音识别方法的流程示意图,如图2所示,该基于k歌系统的语音识别方法包括以下步骤:

s201,实时采集语音信号。

s202,当连续第一预设时间的语音信号未处于预设静音阈值区间内时,开始语音录音。

也就是说,k歌系统对语音信号进行实时采集之后,对采集到的语音信号进行处理,判断该采集到的语音信号中是否存在连续的第一预设时间的未处于预设静音阈值区间内的语音信号,并在判断结果为是时开始语音录音。

其中,静音阈值区间的设置方式有多种,例如,预设静音语音所对应的分贝区间,以便根据预设的分贝区间判断实时采集的语音信号中的语音是否为静音。

作为一种示例,k歌系统对语音信号进行实时采集,并实时判断采集到的语音信号的分贝是否大于30分贝,以及在判断采集到的语音信号的分贝大于30分贝时,确定当前语音信号未处于静音阈值区间内,并在语音信号未处于静音阈值区间内的连续时间达到100毫秒时,开始语音录音。

作为另一种示例,k歌系统在对语音信号进行录音的过程中,还实时监控语音录音的时长,并在该语音录音时长超过预设的时长阈值时,强制中断该语音录音过程。

s203,直至连续第二预设时间的语音信号处于预设静音阈值区间内时,停止语音录音,并将录制的第一语音片段作为用户的第一语音信息。

也就是说,k歌系统在开始录音之后,对语音信号是否处于预设静音阈值区间内进行判断,并在该语音信号处于预设静音阈值区间内的联系时间达到第二预设时间时,停止语音录音,以及将录制的第一语音片段作为用户的第一语音信息。

作为一种示例,k歌系统在开始录音之后,对采集到的用户的语音信息是否小于等于30分贝,并在判断采集到的语音信号的分贝小于等于30分贝时,确定当前语音信号处于静音阈值区间内,以及在语音信号处于静音阈值区间内的连续时间达到1000毫秒时,停止语音录音,并将录制的第一语音片段作为用户的第一语音信息。

s204,对第一语音片段的语音长度进行判断。

s205,如果语音长度大于第一时间阈值且小于第二时间阈值,则判断用户的当前状态为语音交互状态。

s206,如果语音长度大于等于第二时间阈值,则判断用户的当前状态为唱歌状态。

也就是说,k歌系统在获取到第一语音片段之后,获取第一语音片段的语音长度,并对该语音长度进行判断,如果该语音长度大于第一时间阈值且小于第二时间阈值,则判断用户的当前状态为语音交互状态;如果该语音长度大于等于第二时间阈值,则判断用户的当前状态为唱歌状态。

作为一种示例,k歌系统在获取到第一语音片段之后,获取第一语音片段的语音长度,并判断该语音长度是否大于8秒;若是,则判断该语音信息对应的用户的当前状态为唱歌状态;若否,则进一步判断该语音长度是否大于1.5秒,若是,则判断该语音信息对应的用户的当前状态为语音交互状态;其中,8秒为第二时间阈值的优选值;1.5秒为第一时间阈值的优选值。

s207,当用户的当前状态为唱歌状态时,对语音信息进行截留。

s208,当用户的当前状态为语音交互状态时,将语音信息发送至云端服务器,以便云端服务器识别语音信息对应的语音指令。

也就是说,如果判断用户的当前状态为唱歌状态时,对该唱歌状态对应的语音信息进行截留(将数据直接丢弃、进行本地缓存或本地存储),以减轻云端服务器的存储压力和运算压力;如果判断用户的当前状态为语音交互状态时,将该语音交互状态对应的语音信息发送至云端服务器,以便云端服务器识别语音信息对应的语音指令。

综上所述,根据本发明实施例的基于k歌系统的语音识别方法,首先,实时采集语音信号;接着,当连续第一预设时间的语音信号未处于预设静音阈值区间内时,开始语音录音;然后,直至连续第二预设时间的语音信号处于预设静音阈值区间内时,停止语音录音,并将录制的第一语音片段作为用户的第一语音信息;接着,对第一语音片段的语音长度进行判断,如果语音长度大于第一时间阈值且小于第二时间阈值,则判断用户的当前状态为语音交互状态,如果语音长度大于等于第二时间阈值,则判断用户的当前状态为唱歌状态;然后,当用户的当前状态为唱歌状态时,对语音信息进行截留,当用户的当前状态为语音交互状态时,将语音信息发送至云端服务器,以便云端服务器识别语音信息对应的语音指令;从而实现在没有唤醒词的条件下对用户的语音进行实时识别,达成对用户的交互语音进行精准识别的同时,节约服务器的存储资源和运算资源。

图3为根据本发明又一实施例的基于k歌系统的语音识别方法的流程示意图,如图3所示,该基于k歌系统的语音识别方法的流程示意图包括以下步骤:

s301,实时采集语音信号。

s302,当连续第一预设时间的语音信号未处于预设静音阈值区间内时,开始语音录音。

s303,直至连续第二预设时间的语音信号处于预设静音阈值区间内时,停止语音录音,并将录制的第一语音片段作为用户的第一语音信息。

s304,在开始语音录音后,还当连续第三预设时间的语音信号处于预设静音阈值区间内时,停止语音录音,以将录制的第二语音片段作为用户的第二语音信息,其中,第三预设时间小于第二预设时间。

也就是说,在开始语音录音之后,还对语音信号处于预设静音阈值区间内的联系时间是否达到第三预设时间进行判断,并在判断结果为是时停止语音录音,以将录制的第二语音片段作为用户的第二语音信息,其中,第三预设时间小于第二预设时间。

作为一种示例,在语音信号未处于预设静音阈值区间内的时间的连续时间达到100毫秒时,开启语音录音,并同时开启两路断句算法,其中,两路断句算法分别为:1、开始录音之后,当判断语音信号处于预设静音阈值区间内的连续时长达到1000毫秒时,停止语音录音,并将录制的该第一语音片段作为用户的第一语音信息;2、开始录音之后,当判断语音信号处于预设静音阈值区间内的连续时长达到100毫秒时,停止语音录音,并将录制的该第二语音片段作为用户的第二语音信息;其中,两路断句算法是独立互不干涉的;即言,当第2路断句算法在判断完成并停止录音之后,不影响第1路断句算法的继续录音;并且,第2路断句算法在停止录音之后,即重新开始监控语音信号未处于预设静音阈值的连续时长是否大于100毫秒;而第1路断句算法仅在语音信号中处于预设静音阈值的连续时长达到1000毫秒时停止录音。

s305,对第一语音片段的语音长度进行判断;同时,还对第二语音片段的语音长度进行判断。

也就是说,k歌系统对两路语音的同时判断,以确定用户的当前状态。

需要说明的是,通过对两路语音进行同时判断,可进一步地提高k歌系统对于用户语音识别的准确性,防止用户语音交互语音的漏识别。例如,当k歌系统用户在唱歌过程中,突然停止歌唱,并发出“切歌”的语音控制时,其停止歌唱到发出语音控制之间处于预设静音阈值的连续时长小于1000毫秒,如此,仅通过一路断句算法进行1000毫秒静音持续时长的监控就会将用户的该部分有效语音控制信息忽略;而如果将一路断句算法中的时长阈值更改为100毫秒,则会导致需要进行语音识别的数据量大大增加;因此,通过两路语音进行同时判断,以确定用户的当前状态的方式,既可进一步地避免用户的有效控制语音被漏识别的同时,控制云端服务器所需识别的用户语音信息的数据量。

s306,如果第一语音片段的语音长度大于第一时间阈值且小于第二时间阈值,则判断用户的当前状态为语音交互状态;如果第一语音片段的语音长度大于等于第二时间阈值,则判断用户的当前状态为唱歌状态。

s307,如果第二语音片段的语音长度大于第三时间阈值且小于等于第一时间阈值,则判断用户的当前状态为语音交互状态;如果第二语音片段的语音长度大于第一时间阈值,则判断用户的当前状态为唱歌状态。

作为一种示例,当第二语音片段的语音长度大于0.2秒且小于等于1.5秒时,判断用户的当前状态为语音交互状态;当第二语音片段的语音长大大于1.5秒时,判断用户的当前状态为唱歌状态。

s308,当用户的当前状态为唱歌状态时,对语音信息进行截留。

s309,当用户的当前状态为语音交互状态时,将语音信息发送至云端服务器,以便云端服务器识别语音信息对应的语音指令。

综上所述,根据本发明实施例的基于k歌系统的语音识别方法,首先,实时采集语音信号,接着,当连续第一预设时间的语音信号未处于预设静音阈值区间内时,开始语音录音;然后,直至连续第二预设时间的语音信号处于预设静音阈值区间内时,停止语音录音,并将录制的第一语音片段作为用户的第一语音信息;接着,在开始语音录音后,还当连续第三预设时间的语音信号处于预设静音阈值区间内时,停止语音录音,以将录制的第二语音片段作为用户的第二语音信息,其中,第三预设时间小于第二预设时间;然后,对第一语音片段的语音长度进行判断;同时,还对第二语音片段的语音长度进行判断;接着,如果第一语音片段的语音长度大于第一时间阈值且小于第二时间阈值,则判断用户的当前状态为语音交互状态;如果第一语音片段的语音长度大于等于第二时间阈值,则判断用户的当前状态为唱歌状态,如果第二语音片段的语音长度大于第三时间阈值且小于等于第一时间阈值,则判断用户的当前状态为语音交互状态;如果第二语音片段的语音长度大于第一时间阈值,则判断用户的当前状态为唱歌状态;然后,当用户的当前状态为唱歌状态时,对语音信息进行截留,当用户的当前状态为语音交互状态时,将语音信息发送至云端服务器,以便云端服务器识别语音信息对应的语音指令;从而实现在没有唤醒词的条件下对用户的语音进行实时识别,达成对用户的交互语音进行精准识别的同时,节约服务器的存储资源和运算资源。

为了实现上述实施例,本发明实施例还提出了一种计算机可读存储介质,其上存储有基于k歌系统的语音识别程序,该基于k歌系统的语音识别程序被处理器执行时实现上述的基于k歌系统的语音识别方法。

为了实现上述实施例,本发明实施例还提出了一种k歌系统,包括语音输入装置和客户端,客户端包括存储器、处理器及存储在存储器上并可在处理器上运行的基于k歌系统的语音识别程序,处理器执行语音识别程序时实现上述的基于k歌系统的语音识别方法。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不应理解为必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1