语音数据处理方法、装置、设备及存储介质与流程

文档序号:13949461阅读:220来源:国知局
语音数据处理方法、装置、设备及存储介质与流程

【技术领域】

本发明涉及计算机应用技术,特别涉及语音数据处理方法、装置、设备及存储介质。



背景技术:

现有支持人机语音交互的智能设备,通常需要先进行唤醒操作,即用户先说唤醒词,将智能设备唤醒,之后用户再说真正的识别内容,从而进行语音识别操作。

具体地,可利用语音唤醒引擎来进行唤醒识别,语音唤醒引擎库中集成了一个打分库,如果打分库给用户输入的某个唤醒词的识别结果打分比较高,如大于90分,那么则可认为是确认唤醒,相应地,唤醒智能设备。唤醒之后,可利用语音识别引擎来对识别内容进行语音识别。

但有些时候,用户可能会将唤醒词和识别内容连在一起说出来,即出现oneshot情况。

而现有方式中,语音唤醒引擎和语音识别引擎的数据是完全隔离的,也就是说,发送给语音唤醒引擎的语音数据就不会再发送给语音识别引擎。

这样,就可能导致识别内容被部分截断的情况。比如:唤醒词为“小度小度”,识别内容为“明天天气怎么样”,如果是oneshot情况,语音识别引擎识别到的结果可能是“天气怎么样”,从而和用户真正想要表达的内容不符。

这是因为,当出现oneshot情况时,识别内容中的部分内容可能被发送到语音唤醒引擎中作唤醒识别了,而没有被发送到语音识别引擎中。

在实际应用中,用户发出的语音数据通常会以块(包)的形式进行发送,比如,语音数据为“小度小度明天天气怎么样”,“小度”、“小度”、“明天”、“天气”等可分别对应一个数据块,语音唤醒引擎在对“小度”、“小度”进行唤醒识别时,由于唤醒识别需要一定的时间,那么在这段时间内“明天”也可能会被发送过来,这样,当唤醒识别完成,确定唤醒识别结果为确认唤醒时,则会将后续的“天气”等数据块发送给语音识别引擎,从而使得本属于识别内容的“明天”被错误地发送给语音唤醒引擎,进而导致语音识别引擎中的语音识别结果发生错误,即降低了语音识别结果的准确性。



技术实现要素:

有鉴于此,本发明提供了语音数据处理方法、装置、设备及存储介质,能够提高语音识别结果的准确性等。

具体技术方案如下:

一种语音数据处理方法,包括:

客户端获取语音数据,利用语音唤醒引擎对获取到的语音数据进行唤醒识别,并将获取到的语音数据保存到循环缓存队列中;

所述客户端获取所述语音唤醒引擎在完成唤醒识别后返回的唤醒识别结果,若所述唤醒识别结果为确认唤醒,且确定当前处于oneshot情况,所述oneshot情况为唤醒词与识别内容连说的情况,则确定出截取起始位置,并获取所述循环缓存队列中从所述截取起始位置开始到队列尾端的缓存数据,所述缓存数据中至少包括所述识别内容;

所述客户端将所述缓存数据发送给语音识别引擎,以便所述语音识别引擎对所述缓存数据中的识别内容进行语音识别。

根据本发明一优选实施例,该方法进一步包括:

所述客户端获取所述语音唤醒引擎在完成唤醒识别后返回的唤醒词在语音数据中的结束位置以及唤醒词的长度信息;

所述确定出截取起始位置包括:

根据所述唤醒词在语音数据中的结束位置以及所述唤醒词的长度确定出所述唤醒词在语音数据中的起始位置,将所述唤醒词在语音数据中的起始位置作为所述截取起始位置。

根据本发明一优选实施例,该方法进一步包括:

所述客户端获取所述语音唤醒引擎在完成唤醒识别后返回的唤醒词;

所述客户端将所述缓存数据发送给所述语音识别引擎之外,将所述唤醒词发送给所述语音识别引擎,以便所述语音识别引擎根据所述唤醒词从所述缓存数据中过滤出所述识别内容。

根据本发明一优选实施例,该方法进一步包括:

若所述唤醒识别结果为疑似唤醒,且确定当前处于非oneshot情况,则所述客户端将所述循环缓存队列中从所述截取起始位置开始到队列尾端的缓存数据发送给所述语音识别引擎,以便所述语音识别引擎根据所述缓存数据进行二次唤醒识别,并返回二次唤醒识别结果,若所述二次唤醒识别结果为确认唤醒,则确定最终的唤醒识别结果为确认唤醒。

根据本发明一优选实施例,该方法进一步包括:

若所述唤醒识别结果为疑似唤醒,且确定当前处于oneshot情况,则所述客户端将所述循环缓存队列中从所述截取起始位置开始到队列尾端的缓存数据发送给所述语音识别引擎,以便所述语音识别引擎根据所述缓存数据进行二次唤醒识别,并返回二次唤醒识别结果,若所述二次唤醒识别结果为确认唤醒,则确定最终的唤醒识别结果为确认唤醒,并由所述语音识别引擎对所述缓存数据中的识别内容进行语音识别。

一种语音数据处理方法,包括:

语音识别引擎获取来自客户端的缓存数据,所述缓存数据中至少包括识别内容,所述缓存数据为所述客户端获取到语音唤醒引擎在完成唤醒识别后返回的唤醒识别结果后,若所述唤醒识别结果为确认唤醒,且确定当前处于oneshot情况时,获取到的循环缓存队列中从确定出的截取起始位置开始到队列尾端的缓存数据,其中,所述oneshot情况为唤醒词与识别内容连说的情况,所述客户端获取语音数据,利用语音唤醒引擎对获取到的语音数据进行唤醒识别,并将获取到的语音数据保存到循环缓存队列中;

所述语音识别引擎对所述缓存数据中的识别内容进行语音识别。

根据本发明一优选实施例,所述截取起始位置包括:所述唤醒词在语音数据中的起始位置。

根据本发明一优选实施例,该方法进一步包括:

若所述唤醒识别结果为疑似唤醒,且当前处于非oneshot情况,则所述语音识别引擎根据来自所述客户端的所述循环缓存队列中从所述截取起始位置开始到队列尾端的缓存数据进行二次唤醒识别,并向所述客户端返回二次唤醒识别结果,若所述二次唤醒识别结果为确认唤醒,则确定最终的唤醒识别结果为确认唤醒。

根据本发明一优选实施例,该方法进一步包括:

若所述唤醒识别结果为疑似唤醒,且当前处于oneshot情况,则所述语音识别引擎根据来自所述客户端的所述循环缓存队列中从所述截取起始位置开始到队列尾端的缓存数据进行二次唤醒识别,并向所述客户端返回二次唤醒识别结果,若所述二次唤醒识别结果为确认唤醒,则确定最终的唤醒识别结果为确认唤醒,并且,所述语音识别引擎对所述缓存数据中的识别内容进行语音识别。

一种语音数据处理装置,包括:第一处理单元以及第二处理单元;

所述第一处理单元,用于获取语音数据,利用语音唤醒引擎对获取到的语音数据进行唤醒识别,并将获取到的语音数据保存到循环缓存队列中;

所述第二处理单元,用于获取所述语音唤醒引擎在完成唤醒识别后返回的唤醒识别结果,若所述唤醒识别结果为确认唤醒,且确定当前处于oneshot情况,所述oneshot情况为唤醒词与识别内容连说的情况,则确定出截取起始位置,并获取所述循环缓存队列中从所述截取起始位置开始到队列尾端的缓存数据,所述缓存数据中至少包括所述识别内容,将所述缓存数据发送给语音识别引擎,以便所述语音识别引擎对所述缓存数据中的识别内容进行语音识别。

根据本发明一优选实施例,所述第二处理单元进一步用于,

获取所述语音唤醒引擎在完成唤醒识别后返回的唤醒词在语音数据中的结束位置以及唤醒词的长度信息;

根据所述唤醒词在语音数据中的结束位置以及所述唤醒词的长度确定出所述唤醒词在语音数据中的起始位置,将所述唤醒词在语音数据中的起始位置作为所述截取起始位置。

根据本发明一优选实施例,所述第二处理单元进一步用于,

获取所述语音唤醒引擎在完成唤醒识别后返回的唤醒词;

将所述唤醒词发送给所述语音识别引擎,以便所述语音识别引擎根据所述唤醒词从所述缓存数据中过滤出所述识别内容。

根据本发明一优选实施例,所述第二处理单元进一步用于,

若所述唤醒识别结果为疑似唤醒,且确定当前处于非oneshot情况,则将所述循环缓存队列中从所述截取起始位置开始到队列尾端的缓存数据发送给所述语音识别引擎,以便所述语音识别引擎根据所述缓存数据进行二次唤醒识别,并返回二次唤醒识别结果,若所述二次唤醒识别结果为确认唤醒,则确定最终的唤醒识别结果为确认唤醒。

根据本发明一优选实施例,所述第二处理单元进一步用于,

若所述唤醒识别结果为疑似唤醒,且确定当前处于oneshot情况,则将所述循环缓存队列中从所述截取起始位置开始到队列尾端的缓存数据发送给所述语音识别引擎,以便所述语音识别引擎根据所述缓存数据进行二次唤醒识别,并返回二次唤醒识别结果,若所述二次唤醒识别结果为确认唤醒,则确定最终的唤醒识别结果为确认唤醒,并由所述语音识别引擎对所述缓存数据中的识别内容进行语音识别。

一种语音数据处理装置,包括:第三处理单元以及第四处理单元;

所述第三处理单元,用于获取来自客户端的缓存数据,所述缓存数据中至少包括识别内容,所述缓存数据为所述客户端获取到语音唤醒引擎在完成唤醒识别后返回的唤醒识别结果后,若所述唤醒识别结果为确认唤醒,且确定当前处于oneshot情况时,获取到的循环缓存队列中从确定出的截取起始位置开始到队列尾端的缓存数据,其中,所述oneshot情况为唤醒词与识别内容连说的情况,所述客户端获取语音数据,利用语音唤醒引擎对获取到的语音数据进行唤醒识别,并将获取到的语音数据保存到循环缓存队列中;

所述第四处理单元,用于对所述缓存数据中的识别内容进行语音识别。

根据本发明一优选实施例,所述截取起始位置包括:所述唤醒词在语音数据中的起始位置。

根据本发明一优选实施例,

所述第三处理单元进一步用于,

获取当所述唤醒识别结果为疑似唤醒,且当前处于非oneshot情况时,来自所述客户端的所述循环缓存队列中从所述截取起始位置开始到队列尾端的缓存数据;

所述第四处理单元进一步用于,

根据所述缓存数据进行二次唤醒识别,并向所述客户端返回二次唤醒识别结果,若所述二次唤醒识别结果为确认唤醒,则确定最终的唤醒识别结果为确认唤醒。

根据本发明一优选实施例,

所述第三处理单元进一步用于,

获取当所述唤醒识别结果为疑似唤醒,且当前处于oneshot情况时,来自所述客户端的所述循环缓存队列中从所述截取起始位置开始到队列尾端的缓存数据;

所述第四处理单元进一步用于,

根据所述缓存数据进行二次唤醒识别,并向所述客户端返回二次唤醒识别结果,若所述二次唤醒识别结果为确认唤醒,则确定最终的唤醒识别结果为确认唤醒,并且,对所述缓存数据中的识别内容进行语音识别。

一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。

一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。

基于上述介绍可以看出,采用本发明所述方案,客户端获取语音数据,可利用语音唤醒引擎对获取到的语音数据进行唤醒识别,并可将获取到的语音数据保存到循环缓存队列中,之后,客户端可获取语音唤醒引擎在完成唤醒识别后返回的唤醒识别结果,若唤醒识别结果为确认唤醒,且确定当前处于oneshot情况,那么可进一步确定出截取起始位置,并获取循环缓存队列中从截取起始位置开始到队列尾端的缓存数据,进而可将缓存数据发送给语音识别引擎,以便语音识别引擎对缓存数据中的识别内容进行语音识别,相比于现有技术,本发明所述方案中避免了识别内容被部分截断的情况,从而提高了语音识别结果的准确性等。

【附图说明】

图1为本发明所述语音数据处理方法第一实施例的流程图。

图2为本发明所述缓存数据的示意图。

图3为本发明所述语音数据处理方法第二实施例的流程图。

图4为本发明所述语音数据处理装置第一实施例的组成结构示意图。

图5为本发明所述语音数据处理装置第二实施例的组成结构示意图。

图6示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。

【具体实施方式】

为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案进行进一步说明。

显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

图1为本发明所述语音数据处理方法第一实施例的流程图。如图1所示,包括以下具体实现方式。

在101中,客户端获取语音数据,利用语音唤醒引擎对获取到的语音数据进行唤醒识别,并将获取到的语音数据保存到循环缓存队列中。

在102中,客户端获取语音唤醒引擎在完成唤醒识别后返回的唤醒识别结果,若唤醒识别结果为确认唤醒,且确定当前处于oneshot情况,oneshot情况为唤醒词与识别内容连说的情况,则确定出截取起始位置,并获取循环缓存队列中从截取起始位置开始到队列尾端的缓存数据,缓存数据中至少包括识别内容。

在103中,客户端将缓存数据发送给语音识别引擎,以便语音识别引擎对缓存数据中的识别内容进行语音识别。

客户端获取来自用户的语音数据,会按照现有处理方式,将语音数据以数据块的形式发送给语音唤醒引擎进行唤醒识别,不同于现有技术之处在于,还需要将语音数据保存到循环缓存队列中。

循环缓存队列可缓存预定时长的语音数据,所述预定时长的具体取值可根据实际需要而定,比如6s或8s等。

每一个数据块的大小也可根据实际需要而定,比如可为320字节(byte),并且,可分别为每一个数据块设置一个序号(index),从0开始,依次加1。

语音唤醒引擎在完成唤醒识别后,会返回唤醒识别结果,包括确认唤醒等。

如前所述,可利用语音唤醒引擎来进行唤醒识别,语音唤醒引擎库中集成了一个打分库,如果打分库给用户输入的某个唤醒词的识别结果打分比较高,比如大于90分,那么则可认为是确认唤醒。

本实施例中,为了降低错误唤醒发生的概率,即为了提高语音唤醒的准确率,可提高判定门槛,如打分大于95分,才认为是确认唤醒,低于或等于95分,则认为不是确认唤醒。

语音唤醒引擎除了返回唤醒识别结果之外,还可返回唤醒词在语音数据中的结束位置(pos)以及唤醒词的长度(length)信息,这样,客户端即可根据pos以及length信息确定出唤醒词在语音数据中的起始位置(start),进而将start作为截取起始位置。

pos可以是指唤醒词(如“小度小度”)所在的最后一个数据块的序号,length可表示唤醒词的字节stream长度,pos和length均可为int类型。

客户端可获取循环缓存队列中从截取起始位置开始到队列尾端的缓存数据,并将缓存数据发送给语音识别引擎,以便语音识别引擎对缓存数据中的识别内容进行语音识别。其中,客户端可将缓存数据以数据块的方式发送给语音识别引擎。

图2为本发明所述缓存数据的示意图。如图2所示,根据pos和length可确定出start,进而可将从start开始到队列尾端的语音数据作为所需的缓存数据,数据大小等于图2中所示的bufferlength。

语音识别引擎完成唤醒识别后,除了可返回唤醒识别结果、pos以及length信息之外,还可返回唤醒词。这样,客户端在将缓存数据发送给语音识别引擎之外,还可将唤醒词发送给语音识别引擎,以便语音识别引擎根据唤醒词从缓存数据中过滤出识别内容,进而对识别内容进行语音识别。

上述实施例中,是以唤醒识别结果为确认唤醒且当前处于oneshot情况为例进行说明,在实际应用中,唤醒识别结果中除了包括确认唤醒之外,还可包括疑似唤醒等,比如,当打分大于95分时,可认为是确认唤醒,而当打分大于60分且小于或等于95分时,可认为是疑似唤醒,按照现有处理方式,对于疑似唤醒的情况,会认为不是真正的语音唤醒,从而不会唤醒智能设备,但实际上,疑似唤醒也可能是真正的语音唤醒,从而降低了语音唤醒的成功率。

为此,本发明中提出,对于疑似唤醒的情况,客户端可将语音数据发送给语音识别引擎进行二次唤醒识别,语音识别引擎进行二次唤醒识别后,如果唤醒识别结果为确认唤醒,则可认为最终的唤醒识别结果为确认唤醒,相应地,唤醒智能设备,否则,不唤醒。

这样,针对语音唤醒引擎的唤醒识别结果为确认唤醒还是疑似唤醒,以及当前处于oneshot情况还是非oneshot情况,可组合得到四种场景,分别为:唤醒识别结果为确认唤醒且当前处于oneshot情况、唤醒识别结果为确认唤醒且当前处于非oneshot情况、唤醒识别结果为疑似唤醒且当前处于oneshot情况、唤醒识别结果为疑似唤醒且当前处于非oneshot情况。

对于唤醒识别结果为确认唤醒且当前处于oneshot情况这一场景,图1所示实施例中已经对相应的处理方式进行了说明,以下分别对其他三种场景下的处理方式进行说明。

一)唤醒识别结果为确认唤醒且当前处于非oneshot情况

该场景下的处理方式和现有技术中相同,用户说出唤醒词,语音唤醒引擎返回确认唤醒的唤醒识别结果后,唤醒智能设备,后续等待用户说出识别内容,对识别内容进行语音识别。

二)唤醒识别结果为疑似唤醒且当前处于非oneshot情况

该场景下,客户端获取到语音唤醒引擎返回的疑似唤醒的唤醒识别结果,且确定当前处于非oneshot情况后,可将缓存数据发送给语音识别引擎,以便语音识别引擎根据缓存数据进行二次唤醒识别,并返回唤醒识别结果,若唤醒识别结果为确认唤醒,则确定最终的唤醒识别结果为确认唤醒。

如前所述,可将循环缓存队列中从start开始到队列尾端的语音数据作为所需的缓存数据,如果是非oneshot情况,那么缓存数据中将不包括识别内容,语音识别引擎在获取到缓存数据后,可进行二次唤醒识别,并返回二次唤醒识别结果,若二次唤醒识别结果为确认唤醒,则确定最终的唤醒识别结果为确认唤醒。

三)唤醒识别结果为疑似唤醒且当前处于oneshot情况

该场景下,客户端获取到语音唤醒引擎返回的疑似唤醒的唤醒识别结果,且确定当前处于oneshot情况后,可将缓存数据发送给语音识别引擎,以便语音识别引擎根据缓存数据进行二次唤醒识别,并返回二次唤醒识别结果,若二次唤醒识别结果为确认唤醒,则确定最终的唤醒识别结果为确认唤醒,并由语音识别引擎对缓存数据中的识别内容进行语音识别。

相比于二)中的场景,该场景中,在确定出最终的唤醒识别结果为确认唤醒之后,语音识别引擎还需要对缓存数据中的识别内容进行语音识别。

二)和三)所述场景中,客户端除了将缓存数据发送给语音识别引擎之外,还可将语音唤醒引擎返回的唤醒词发送给语音识别引擎,语音识别引擎可结合获取到的唤醒词来进一步确定出最终的唤醒识别结果,如比较识别出的唤醒词与获取到的唤醒词是否一致等。

以上主要是从客户端一侧来对本发明所述方案进行说明,以下从语音识别引擎一侧来对本发明所述方案进行进一步说明。

图3为本发明所述语音数据处理方法第二实施例的流程图。如图3所示,包括以下具体实现方式。

在301中,语音识别引擎获取来自客户端的缓存数据,缓存数据中至少包括识别内容,缓存数据为客户端获取到语音唤醒引擎在完成唤醒识别后返回的唤醒识别结果后,若唤醒识别结果为确认唤醒,且确定当前处于oneshot情况时,获取到的循环缓存队列中从确定出的截取起始位置开始到队列尾端的缓存数据,其中,oneshot情况为唤醒词与识别内容连说的情况,客户端获取语音数据,利用语音唤醒引擎对获取到的语音数据进行唤醒识别,并将获取到的语音数据保存到循环缓存队列中。

客户端获取来自用户的语音数据,会将语音数据以数据块的形式发送给语音唤醒引擎进行唤醒识别,此外,还需要将语音数据保存到循环缓存队列中。

语音唤醒引擎在完成唤醒识别后,会返回唤醒识别结果,如确认唤醒或疑似唤醒。

语音唤醒引擎在返回唤醒识别结果的同时,还可返回唤醒词在语音数据中的结束位置(pos)、唤醒词的长度(length)信息以及唤醒词等。

客户端可根据pos以及length信息确定出唤醒词在语音数据中的起始位置(start),进而将start作为截取起始位置。之后,客户端可获取循环缓存队列中从截取起始位置开始到队列尾端的缓存数据,并将缓存数据发送给语音识别引擎。

其中,客户端可将缓存数据以数据块的方式发送给语音识别引擎。另外,客户端还可将唤醒词发送给语音识别引擎。

在302中,语音识别引擎对缓存数据中的识别内容进行语音识别。

语音识别引擎获取到缓存数据和唤醒词之后,可根据唤醒词从缓存数据中过滤出识别内容,进而对识别内容进行语音识别,后续针对语音识别结果的处理方式与现有技术中相同。

上述实施例中,是以唤醒识别结果为确认唤醒且当前处于oneshot情况为例进行说明,对于其他场景,如唤醒识别结果为确认唤醒且当前处于非oneshot情况、唤醒识别结果为疑似唤醒且当前处于oneshot情况,以及唤醒识别结果为疑似唤醒且当前处于非oneshot情况等,具体处理方式分别介绍如下。

对于唤醒识别结果为确认唤醒且当前处于非oneshot情况的场景,由于语音数据中不包括识别内容,而且也不需要进行二次唤醒识别,因此语音识别引擎无需针对获取到的语音数据进行任何处理,后续等待获取到识别内容后,再对识别内容进行语音识别即可。

对于唤醒识别结果为疑似唤醒且当前处于非oneshot情况的场景,语音识别引擎可根据缓存数据进行二次唤醒识别,并可向客户端返回二次唤醒识别结果,若二次唤醒识别结果为确认唤醒,则可确定最终的唤醒识别结果为确认唤醒。

可将循环缓存队列中从start开始到队列尾端的语音数据作为所需的缓存数据,客户端可将缓存数据以数据块的方式发送给语音识别引擎,如果是非oneshot情况,那么缓存数据中将不包括识别内容,语音识别引擎在获取到缓存数据后,可进行二次唤醒识别,并返回二次唤醒识别结果,若二次唤醒识别结果为确认唤醒,则可确定最终的唤醒识别结果为确认唤醒。其中,语音识别引擎可按照与语音唤醒引擎类似的方式来进行唤醒识别。

对于唤醒识别结果为疑似唤醒且当前处于oneshot情况的场景,语音识别引擎可根据缓存数据进行二次唤醒识别,并可向客户端返回二次唤醒识别结果,若二次唤醒识别结果为确认唤醒,则可确定最终的唤醒识别结果为确认唤醒,并且,语音识别引擎可进一步对缓存数据中的识别内容进行语音识别。

相比于唤醒识别结果为疑似唤醒且当前处于非oneshot情况的场景,唤醒识别结果为疑似唤醒且当前处于oneshot情况的场景中,在确定出最终的唤醒识别结果为确认唤醒之后,语音识别引擎还需要对缓存数据中的识别内容进行语音识别。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。

总之,采用上述各方法实施例所述方案,可通过设置循环缓存队列,来将包括完整的识别内容的缓存数据发送给语音识别引擎,从而避免了现有技术中识别内容被部分截断的情况,进而提高了语音识别结果的准确性。

而且,采用上述各方法实施例所述方案,针对疑似唤醒的情况,可通过进行二次唤醒识别操作,尽可能地避免了漏掉真正的语音唤醒,从而提高了语音唤醒的成功率和准确率。

以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。

图4为本发明所述语音数据处理装置第一实施例的组成结构示意图。如图4所示,包括:第一处理单元401以及第二处理单元402。

第一处理单元401,用于获取语音数据,利用语音唤醒引擎对获取到的语音数据进行唤醒识别,并将获取到的语音数据保存到循环缓存队列中。

第二处理单元402,用于获取语音唤醒引擎在完成唤醒识别后返回的唤醒识别结果,若唤醒识别结果为确认唤醒,且确定当前处于oneshot情况,oneshot情况为唤醒词与识别内容连说的情况,则确定出截取起始位置,并获取循环缓存队列中从截取起始位置开始到队列尾端的缓存数据,缓存数据中至少包括识别内容,将缓存数据发送给语音识别引擎,以便语音识别引擎对缓存数据中的识别内容进行语音识别。

第一处理单元401获取来自用户的语音数据,将语音数据以数据块的形式发送给语音唤醒引擎进行唤醒识别,另外还需要将语音数据保存到循环缓存队列中。

语音唤醒引擎在完成唤醒识别后,会返回唤醒识别结果,包括确认唤醒等,此外,还可返回唤醒词在语音数据中的结束位置(pos)、唤醒词的长度(length)信息,以及唤醒词等。

第二处理单元402在获取到pos和length信息后,可根据pos和length确定出唤醒词在语音数据中的起始位置(start),进而将start作为截取起始位置。之后,第二处理单元402可获取循环缓存队列中从截取起始位置开始到队列尾端的缓存数据,并将缓存数据发送给语音识别引擎,以便语音识别引擎对缓存数据中的识别内容进行语音识别。其中,可将缓存数据以数据块的方式发送给语音识别引擎。

另外,第二处理单元402还可将语音唤醒引擎在完成唤醒识别后返回的唤醒词发送给语音识别引擎,以便语音识别引擎根据唤醒词从缓存数据中过滤出识别内容,进而对识别内容进行语音识别。

若唤醒识别结果为疑似唤醒,且确定当前处于非oneshot情况,第二处理单元402可将循环缓存队列中从截取起始位置开始到队列尾端的缓存数据发送给语音识别引擎,以便语音识别引擎根据缓存数据进行二次唤醒识别,并返回二次唤醒识别结果,若二次唤醒识别结果为确认唤醒,则确定最终的唤醒识别结果为确认唤醒。

若唤醒识别结果为疑似唤醒,且确定当前处于oneshot情况,第二处理单元402可将循环缓存队列中从截取起始位置开始到队列尾端的缓存数据发送给语音识别引擎,以便语音识别引擎根据缓存数据进行二次唤醒识别,并返回二次唤醒识别结果,若二次唤醒识别结果为确认唤醒,则确定最终的唤醒识别结果为确认唤醒,并由语音识别引擎对缓存数据中的识别内容进行语音识别。

图5为本发明所述语音数据处理装置第二实施例的组成结构示意图。如图5所示,包括:第三处理单元501以及第四处理单元502。

第三处理单元501,用于获取来自客户端的缓存数据,缓存数据中至少包括识别内容,缓存数据为客户端获取到语音唤醒引擎在完成唤醒识别后返回的唤醒识别结果后,若唤醒识别结果为确认唤醒,且确定当前处于oneshot情况时,获取到的循环缓存队列中从确定出的截取起始位置开始到队列尾端的缓存数据,其中,oneshot情况为唤醒词与识别内容连说的情况,客户端获取语音数据,利用语音唤醒引擎对获取到的语音数据进行唤醒识别,并将获取到的语音数据保存到循环缓存队列中。

第四处理单元502,用于对缓存数据中的识别内容进行语音识别。

客户端获取来自用户的语音数据,会将语音数据以数据块的形式发送给语音唤醒引擎进行唤醒识别,此外,还需要将语音数据保存到循环缓存队列中。

语音唤醒引擎在完成唤醒识别后,会返回唤醒识别结果,如确认唤醒或疑似唤醒。

语音唤醒引擎在返回唤醒识别结果的同时,还可返回唤醒词在语音数据中的结束位置(pos)、唤醒词的长度(length)信息以及唤醒词等。

客户端可根据pos以及length信息确定出唤醒词在语音数据中的起始位置(start),进而将start作为截取起始位置。之后,客户端可获取循环缓存队列中从截取起始位置开始到队列尾端的缓存数据,并将缓存数据发送给语音识别引擎。

其中,客户端可将缓存数据以数据块的方式发送给语音识别引擎。另外,客户端还可将唤醒词发送给语音识别引擎。

第四处理单元502获取到缓存数据和唤醒词之后,可根据唤醒词从缓存数据中过滤出识别内容,进而对识别内容进行语音识别。

此外,第三处理单元501还可获取当唤醒识别结果为疑似唤醒,且当前处于非oneshot情况时,来自客户端的循环缓存队列中从确定出的截取起始位置开始到队列尾端的缓存数据,相应地,第四处理单元502可根据缓存数据进行二次唤醒识别,并向客户端返回二次唤醒识别结果,若二次唤醒识别结果为确认唤醒,则确定最终的唤醒识别结果为确认唤醒。

第三处理单元501还可获取当唤醒识别结果为疑似唤醒,且当前处于oneshot情况时,来自客户端的循环缓存队列中从确定出的截取起始位置开始到队列尾端的缓存数据,相应地,第四处理单元502可根据缓存数据进行二次唤醒识别,并向客户端返回二次唤醒识别结果,若二次唤醒识别结果为确认唤醒,则确定最终的唤醒识别结果为确认唤醒,并且,对缓存数据中的识别内容进行语音识别。

图4和图5所示装置实施例的具体工作流程请参照前述各方法实施例中的相关说明,不再赘述。

总之,采用上述各装置实施例所述方案,可通过设置循环缓存队列,来将包括完整的识别内容的缓存数据发送给语音识别引擎,从而避免了现有技术中识别内容被部分截断的情况,进而提高了语音识别结果的准确性。

而且,采用上述各装置实施例所述方案,针对疑似唤醒的情况,可通过进行二次唤醒识别操作,尽可能地避免了漏掉真正的语音唤醒,从而提高了语音唤醒的成功率和准确率。

图6示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图6显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器(处理单元)16,存储器28,连接不同系统组件(包括存储器28和处理器16)的总线18。

总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(isa)总线,微通道体系结构(mac)总线,增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。

计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图6所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现图1或3所示实施例中的方法,即客户端获取语音数据,利用语音唤醒引擎对获取到的语音数据进行唤醒识别,并将获取到的语音数据保存到循环缓存队列中,客户端获取语音唤醒引擎在完成唤醒识别后返回的唤醒识别结果,若唤醒识别结果为确认唤醒,且确定当前处于oneshot情况,oneshot情况为唤醒词与识别内容连说的情况,则确定出截取起始位置,并获取循环缓存队列中从截取起始位置开始到队列尾端的缓存数据,缓存数据中至少包括识别内容,客户端将缓存数据发送给语音识别引擎,以便语音识别引擎对缓存数据中的识别内容进行语音识别等。

具体实现请参照前述各实施例中的相关说明,不再赘述。

本发明同时公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时将实现如图1或3所示实施例中的方法。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、rf等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如”c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1