一种语音数据识别方法及装置制造方法

文档序号:2826169阅读:260来源:国知局
一种语音数据识别方法及装置制造方法
【专利摘要】本发明实施例公开了一种语音数据识别方法及装置,所述方法包括:获取语音数据;对所述语音数据进行识别,如果识别出所述语音数据为命令语音数据,则确定所述命令语音数据对应的命令代码;将所述命令代码通过命令控制信道发送给桌面云服务端,以便于所述桌面云服务端根据所述命令代码确定对应的标准语音数据,并将所述标准语音数据插入到音频重定向数据队列中进行识别。本发明实施例解决了现有技术中,采用音频有损编解码或实时传输协议方式,都会导致语音识别成功率下降的技术问题。
【专利说明】一种语音数据识别方法及装置

【技术领域】
[0001] 本发明涉及通信【技术领域】,特别涉及一种语音数据识别方法及装置。

【背景技术】
[0002] 在现有的桌面云重定向场景中,为了确保在网络传输的时候得到最小的带宽消 耗并降低传输时延,桌面云客户端对音频数据通常会采用有损编码方式(比如采用speex、 vobis音频编码方式等),即针对原始PCM数据进行有损压缩,然后将压缩后的数据传输给 桌面云服务器,由桌面云服务器解压后还原成PCM数据,并将还原后的PCM数据发送给音频 重定向驱动程序,以便于完成相应音频操作。
[0003] 但是,在该语音识别的场景中,语音指令识别成功率,将取决于输入的PCM音频数 据是否完整清晰,然而,在现有的重定向音频编解码的过程中,由于采用了有损压缩,虽然 减小了带宽和降低传输时延,但是解压后音质都有所下降,从而导致语音指令的识别成功 率相应的下降。
[0004] 当然,在现有的桌面云重定向场景中,桌面云客户端对音频数据也会采取实时传 输协议(例如RTP)来进行重定向传输。这种音频数据传输方式,虽然实时性很强,但是可靠 性较低,会造成语音指令数据存在丢包的可能行,从而降低了语音指令的完整性,进而导致 语音指令的识别成功率相应的下降。
[0005] 在对现有技术的研究和实践过程中,本发明的发明人发现,现有的桌面云重定向 场景中,无论采用音频有损编解码方式,还是采用实时传输协议方式,均会导致语音识别成 功率下降的问题。


【发明内容】

[0006] 本发明实施例中提供了一种语音数据识别方法及装置,以解决现有技术中,采用 音频有损编解码或实时传输协议方式,都会导致语音识别成功率下降的技术问题。
[0007] 为了解决上述技术问题,本发明实施例公开了如下技术方案:
[0008] 第一方面提供了一种语音数据识别方法,所述方法包括:
[0009] 获取语音数据;
[0010] 对所述语音数据进行识别,如果识别出所述语音数据为命令语音数据,则确定所 述命令语音数据对应的命令代码;
[0011] 将所述命令代码通过命令控制信道发送给桌面云服务端,以便于所述桌面云服务 端根据所述命令代码确定对应的标准语音数据,并将所述标准语音数据插入到音频重定向 数据队列中进行识别。
[0012] 在第一方面的第一种可能的实现方式中,所述方法还包括:
[0013] 如果识别出所述语音数据为普通语音数据,则对所述普通语音数据进行音频编 码,并将编码后的语音数据通过数据通道发送给桌面云服务端,以便于所述桌面云服务端 将所述普通语音数插入所述音频重定向数据队列中进行识别。
[0014] 结合第一方面或第一方面的第一种可能的实现方式,在第二种可能的实现方式 中,所述方法还包括:
[0015] 在获取所述语音数据后,判断所述语音数据的模式;
[0016] 如果所述语音数据的模式为语音识别模式,则执行所述对所述语音数据进行识别 的步骤;
[0017] 如果所述语音数据的模式为普通语音模式,则执行所述对所述普通语音数据进行 音频编码的步骤。
[0018] 结合第一方面或第一方面的第一种或第二种可能的实现方式,在第三种可能的实 现方式中,所述方法还包括:
[0019] 预先存储配置的所述命令语音数据,以及所述命令语音数据对应的命令代码。
[0020] 结合第一方面或第一方面的第一种或第二种或第三种可能的实现方式,在第四种 可能的实现方式中,所述对所述语音数据进行识别,具体包括:
[0021] 将所述语音数据与存储的所述命令语音数据进行匹配,如果匹配成功,则所述语 音数据为可识别的命令语音数据。
[0022] 结合第一方面或第一方面的第一种或第二种或第三种或第四种可能的实现方式, 在第五种可能的实现方式中,所述方法还包括:
[0023] 接收管理系统下发的更新命令,所述更新命令包括:更新后的命令语音数据以及 所述命令语音数据对应的命令代码;
[0024] 根据所述更新命令更新存储的所述命令语音数据,以及所述命令语音数据对应的 命令代码。
[0025] 第二方面提供了一种语音数据识别方法,所述方法包括:
[0026] 接收桌面云客户端通过命令控制信道发送的命令代码,所述命令代码对应可识别 的命令语音数据;
[0027] 根据所述命令代码确定对应的标准语音数据;
[0028] 将所述标准语音数据插入到音频重定向数据队列中进行识别。
[0029] 在第二方面的第一种可能的实现方式中,所述方法还包括:
[0030] 接收桌面云客户端通过数据信道发送的普通语音数据;
[0031] 对所述普通语音数据进行音频解码,并将解码后的普通语音数据插入所述音频重 定向数据队列中进行识别。
[0032] 结合第二方面或第二方面的第一种可能的实现方式,在第二种可能的实现方式 中,所述方法还包括:预先存储配置的所述命令代码,以及所述命令代码对应的标准语音数 据。
[0033] 结合第二方面或第二方面的第一种或第二种可能的实现方式,在第三种可能的实 现方式中,所述方法还包括:
[0034] 接收管理系统下发的更新命令,所述更新命令包括:更新的命令代码以及所述命 令代码对应的标准语音数据;
[0035] 根据所述更新命令更新所述命令代码以及所述命令代码对应的标准语音数据。
[0036] 第三方面提供了一种语音数据识别方法,所述方法包括:
[0037] 接收桌面云客户端通过命令控制信道发送的命令代码,所述命令代码对应命令语 音数据;
[0038] 根据所述命令代码调用对应的语音识别软件开发接口识别出所述命令语音数据 对应的语音数据。
[0039] 第四方面提供了一种语音数据识别装置,包括:
[0040] 获取单元,用于获取语音数据;
[0041] 识别单元,用于对所述语音数据进行识别;
[0042] 确定单元,用于在所述识别单元识别出所述语音数据为命令语音数据时,确定所 述命令语音数据对应的命令代码;
[0043] 第一发送单元,用于将所述命令代码通过命令控制信道发送给桌面云服务端,以 便于所述桌面云服务端根据所述命令代码确定对应的标准语音数据,并将所述标准语音数 据插入到音频重定向数据队列中进行识别。
[0044] 在第四方面的第一种可能的实现方式中,还包括:
[0045] 编码单元,用于在所述识别单元识别出所述语音数据为普通语音数据时,对所述 普通语音数据进行音频编码;
[0046] 第二发送单元,用于将编码后的语音数据通过数据通道发送给桌面云服务端,以 便于所述桌面云服务端将所述普通语音数插入所述音频重定向数据队列中进行识别。
[0047] 结合第四方面或第四方面的第一种可能的实现方式,在第二种可能的实现方式 中,还包括:
[0048] 判断单元,用于在所述获取单元获取所述语音数据后,判断所述语音数据的模式, 并将所述语音数据的模式为语音识别模式的判断结果发送给所述识别单元;将所述语音数 据的模式为普通语音模式的判断结果发送给所述编码单元;
[0049] 所述识别单元,还用于在接收到所述判断单元发送的所述语音数据的模式为语音 识别模式的判断结果时,对所述语音数据进行识别;
[0050] 所述编码单元,还用于在接收到所述判断单元发送的所述语音数据的模式为普通 语音模式的判断结果时,对所述普通语音数据进行音频编码。
[0051] 结合第四方面或第四方面的第一种或第二种可能的实现方式,在第三种可能的实 现方式中,还包括:
[0052] 存储单元,用于预先存储所述命令语音数据,以及所述命令语音数据对应的命令 代码。
[0053] 结合第四方面或第四方面的第一种或第二种或第三种可能的实现方式,在第四种 可能的实现方式中,还包括:
[0054] 接收单元,用于接收管理系统下发的更新命令;所述更新命令包括:更新后的命 令语音数据以及所述命令语音数据对应的命令代码;
[0055] 更新单元,用于根据所述更新命令更新存储的所述命令识别数据,以及所述命令 语音数据对应的命令代码。
[0056] 第五方面提供了一种语音数据识别装置,包括:
[0057] 第一接收单元,用于接收桌面云客户端通过命令控制信道发送的命令代码,所述 命令代码对应可识别的命令语音数据;
[0058] 确定单元,用于根据所述命令代码确定对应的标准语音数据;
[0059] 第一识别单元,用于将所述标准语音数据插入到音频重定向数据队列中进行识 别。
[0060] 在第五方面的第一种可能的实现方式中,还包括:
[0061] 第二接收单元,用于接收桌面云客户端通过数据信道发送的普通语音数据;
[0062] 解码单元,用于对所述普通语音数据进行音频解码;
[0063] 第二识别单元,用于将解码后的普通语音数据插入所述音频重定向数据队列中进 行识别。
[0064] 结合第五方面或第五方面的第一种可能的实现方式,在第二种可能的实现方式 中,还包括:
[0065] 存储单元,用于预先存储配置的所述命令代码,以及所述命令代码对应的标准语 音数据。
[0066] 结合第五方面或第五方面的第一种或第二种可能的实现方式,在第三种可能的实 现方式中,还包括:
[0067] 第三接收单元,用于接收管理系统下发的更新命令;所述更新命令包括:更新的 命令代码以及所述命令代码对应的标准语音数据;
[0068] 更新单元,用于根据所述更新命令更新存储的所述命令代码对应的标准语音数 据。
[0069] 第六方面提供了一种语音数据识别装置,包括:
[0070] 接收单元,用于接收桌面云客户端通过命令控制信道发送的命令代码,所述命令 代码对应可识别的命令语音数据;
[0071] 识别单元,用于根据所述命令代码调用对应的语音识别软件开发接口识别出所述 命令语音数据对应的语音数据。
[0072] 由上述技术方案可知,本发明实施例中,将能识别出具体命令的语音数据先转换 为命令代码,然后通过命令控制信道发送给桌面云服务端,节省了传输带宽,降低了数据传 输延迟;而桌面云服务端按照接收到的命令代码从本地查找到对应的标准语音数据,并将 该标准语音数据插入到音频重定向数据队列中进行识别,减少了音频重定向的编解码操 作,提高了语音识别成功率。

【专利附图】

【附图说明】
[0073] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施 例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获 得其他的附图。
[0074] 图1为本发明实施例提供的一种语音数据识别方法的流程图;
[0075] 图2为本发明实施例提供的一种语音数据识别方法的另一流程图;
[0076] 图3为本发明实施例提供的一种语音数据识别方法的另一流程图;
[0077] 图4为本发明实施例提供的一种语音数据识别方法另一流程图;
[0078] 图5为本发明实施例提供的一种语音数据识别装置的结构示意图;
[0079] 图6为本发明实施例提供的一种语音数据识别装置的另一结构示意图;
[0080] 图7为本发明实施例提供的一种语音数据识别装置的另一结构示意图;
[0081] 图8为本发明实施例提供的一种桌面云架构的示意图;
[0082] 图9为本发明实施例提供的第一应用实例的流程图;
[0083] 图10为本发明实施例提供的第二应用实例的流程图;
[0084] 图11为本发明实施例提供的第三应用实例的流程图;
[0085] 图12为本发明实施例提供的第四应用实例的流程图。

【具体实施方式】
[0086] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0087] 请参阅图1,图1为本发明实施例提供的一种语音数据识别方法的流程图;所述方 法包括:
[0088] 步骤101 :获取语音数据;
[0089] 该步骤中,桌面云客户端通过声音采集系统获取用户输入的语音数据,通常情况 下,该语音数据为脉冲编码调制(PCM,Pulse Code Modulation)语音数据。其中,声音采集 系比如麦克风等。
[0090] 步骤102 :对所述语音数据进行识别,如果识别出所述语音数据为命令语音数据, 则确定所述命令语音数据对应的命令代码;
[0091] 在该步骤中,将该语音数据与预先存储的命令语音数据进行匹配,如果匹配成功, 则说明该语音数据为可识别的命令语音数据,然后从本地查找出该命令语音数据对应的命 令代码。
[0092] 步骤103 :将所述命令代码通过命令控制信道发送给桌面云服务端,以便于所述 桌面云服务端根据所述命令代码确定对应的标准语音数据,并将所述标准语音数据插入到 音频重定向数据队列中进行识别。
[0093] 本发明实施例中,将能识别出具体命令的语音数据先转换为命令代码,然后通过 命令控制信道发送给桌面云服务端,节省了传输带宽,降低了数据传输延迟;而桌面云服务 端按照接收到的命令代码从本地查找到对应的标准语音数据,并将该标准语音数据插入到 音频重定向数据队列中进行识别,减少了音频重定向的编解码操作,提高了语音识别成功 率。
[0094] 还请参阅图2,图2为本发明实施例提供的一种语音数据识别方法的另一流程图, 所述方法包括:
[0095] 步骤201 :获取语音数据;
[0096] 其获取语音数据的过程详见步骤101。
[0097] 步骤202 :判断所述语音数据的模式;如果所述语音数据的模式为语音识别模式, 执行步骤203 ;如果所述语音数据的模式为普通语音模式,执行步骤206 ;
[0098] 该步骤中,可以通过模式切换,将语音识别模式和普通语音模式的语音数据进行 分开处理,且各个模式的处理过程互不干扰,便于提高处理效率。
[0099] 步骤203 :对所述语音数据进行识别,如果识别出所述语音数据为命令语音数据, 执行步骤204 ;如果识别出所述语音数据为普通语音数据,执行步骤206 ;
[0100] 该步骤中,将所述语音数据与存储的所述命令语音数据进行匹配,如果匹配成功, 则所述语音数据为可识别的命令语音数据。也就是说,如果能够识别出该语音数据中的具 体命令,则说明该语音数据为可识别的命令语音数据;如果不可以,则说明该语音数据为普 通语音数据。
[0101] 步骤204 :确定所述命令语音数据对应的命令代码;
[0102] 在该步骤,通过查找桌面云客户端的数据库(即本地数据库),获取所述命令语音 数据对应的命令代码,其中,在本地数据库中预先存储配置的所述命令语音数据,以及所述 命令语音数据对应的命令代码。
[0103] 步骤205 :将所述命令代码通过命令控制信道发送给桌面云服务端,以便于所述 桌面云服务端根据所述命令代码确定对应的标准语音数据,并将所述标准语音数据插入到 音频重定向数据队列中进行识别;
[0104] 该步骤中,将命令代码通过命令控制信道发送给桌面云服务端,节省了传输带宽, 而桌面云服务端根据接收地的所述命令代码从桌面云服务端的数据库查找到对应的标准 语音数据,避免了编解码操作,提高了音质,以及对指令的识别成功率。
[0105] 步骤206 :对所述普通语音数据进行音频编码;
[0106] 如果不能识别出所述语音数据的具体命令,则认为,该语音数据为普通语音数据, 则对所述普通语音数据进行音频编码,其编码过程与现有技术相同,在此不再赘述。
[0107] 步骤207 :将编码后的语音数据通过数据通道发送给桌面云服务端,以便于所述 桌面云服务端将所述普通语音数插入所述音频重定向数据队列中进行识别。
[0108] 可选的,在上述图1和图2的实施例中,所述方法还可以包括:接收管理系统下发 的更新命令,所述更新命令包括:更新后的命令语音数据以及所述命令语音数据对应的命 令代码;根据所述更新命令更新存储的所述命令语音数据,以及所述命令语音数据对应的 命令代码。
[0109] 该实施例中,可以实时或定时更新本地存储的命令语音数据,以及所述命令语音 数据对应的命令代码。
[0110] 还请参阅图3,图3为本发明实施例提供的一种语音数据识别方法的另一流程图。 所述方法包括:
[0111] 步骤301 :接收桌面云客户端通过命令控制信道发送的命令代码,所述命令代码 对应可识别的命令语音数据;
[0112] 步骤302 :根据所述命令代码确定对应的标准语音数据;
[0113] 该步骤中,由于桌面云服务端中预先存储有命令代码,以及所述命令代码对应的 标准语音数据,在接收到命令代码可以,可以查找桌面云服务端的数据库(即本地数据库), 从而得到对应的标准语音数据。
[0114] 步骤303 :将所述标准语音数据插入到音频重定向数据队列中进行识别。
[0115] 本发明实施例中,在接收到命令代码后,通过查找的方式可以得到该命令代码对 应的标准语音数据,并将该标准语音数据插入到音频重定向数据队列中进行识别,减少了 音频重定向的编码解码操作,提高了语音识别成功率。
[0116] 可选的,在另一实施例中,该实施例在上述实施例的基础上,所述方法还可以包 括:接收桌面云客户端通过数据信道发送的普通语音数据;对所述普通语音数据进行音频 解码,并将解码后的普通语音数据插入所述音频重定向数据队列中进行识别。
[0117] 该实施例中,桌面云客户端将能识别的语音数据转换为命令代码后,通过信令控 制信道传输桌面云服务端,而将不能识别的普通语音数据通过数据通道传输给桌面云服务 端;节省了传输带宽;而桌面云服务端在接收到命令代码后,本地查找到所述命令代码对 应的标准语音数据,提高了语音的识别成功率。
[0118] 可选的,在另一实施例中,该实施例在上述所有实施例的基础上,所述方法还可以 包括:接收管理系统下发的更新命令,所述更新命令包括:更新的命令代码以及所述命令 代码对应的标准语音数据;根据所述更新命令更新所述命令代码对应的标准语音数据。
[0119] 还请参阅图4,图4为本发明实施例提供的一种语音数据识别方法另一流程图,所 述方法包括:
[0120] 步骤401 :接收桌面云客户端通过命令控制信道发送的命令代码,所述命令代码 对应可识别的命令语音数据;
[0121] 步骤402 :根据所述命令代码调用对应的语音识别软件开发接口识别出所述命令 语音数据对应的语音数据。
[0122] 上述实施例中,桌面云服务端将接收到的命令代码再次替换(通过查找的方式)成 语音数据,而该实施例中,还可以在接收到代码命令后,如果桌面云服务端,则可以直接执 行此命令代码:比如,当语音识别软件开放一定的开发接口,或者桌面云服务器能完全理解 此命令代码的含义,都可直接执行该代码命令,而不用再转成语音数据段,这样又可以减少 一次识别过程,从而提高了命令的执行效率。
[0123] 基于上述方法的实现过程,本发明实施例还提供一种语音数据识别装置,其结构 示意图如图5所示,所述装置包括:获取单元51,识别单元52,确定单元53和第一发送单元 54,其中,
[0124] 所述获取单元51,用于获取语音数据;所述识别单元52,用于对所述语音数据进 行识别;具体用于将所述语音数据与存储的所述命令语音数据进行匹配,如果匹配成功, 则所述语音数据为可识别的语音数据;所述确定单元53,用于在所述识别单元识别出所述 语音数据为命令语音数据时,确定所述命令语音数据对应的命令代码;所述第一发送单元 54,用于将所述命令代码通过命令控制信道发送给桌面云服务端,以便于所述桌面云服务 端根据所述命令代码确定对应的标准语音数据,并将所述标准语音数据插入到音频重定向 数据队列中进行识别。
[0125] 可选的,所述装置还可以包括:编码单元和第二发送单元,其中,所述编码单元,用 于在所述识别单元识别出所述语音数据为普通语音数据时,对所述普通语音数据进行音频 编码;所述第二发送单元,用于将编码后的语音数据通过数据通道发送给桌面云服务端,以 便于所述桌面云服务端将所述普通语音数插入所述音频重定向数据队列中进行识别。
[0126] 可选的,所述装置还可以包括:判断单元,其中,所述判断单元,用于在所述获取单 元获取所述语音数据后,判断所述语音数据的模式,并将所述语音数据的模式为语音识别 模式的判断结果发送给所述识别单元;将所述语音数据的模式为普通语音模式的判断结果 发送给所述编码单元;所述识别单元,还用于在接收到所述判断单元发送的所述语音数据 的模式为语音识别模式的判断结果时,对所述语音数据进行识别;所述编码单元,还用于在 接收到所述判断单元发送的所述语音数据的模式为普通语音模式的判断结果时,对所述普 通语音数据进行音频编码。
[0127] 可选的,所述装置还可以包括:存储单元,用于预先存储所述命令语音数据,以及 所述命令语音数据对应的命令代码。
[0128] 可选的,所述装置还可以包括:接收单元和更新单元,其中,所述接收单元,用于接 收管理系统下发的更新命令,所述更新命令包括:更新后的命令语音数据以及所述命令语 音数据对应的命令代码;所述更新单元,用于根据所述更新命令更新存储的所述命令识别 数据,以及所述命令语音数据对应的命令代码。
[0129] 可选的,所述装置可集成在桌面云客户端,也可以独立部署,本实施例不作限制。
[0130] 所述装置中各个单元的功能和作用的实现过程,详见上述方法中对应步骤的实现 过程,在此不再赘述。
[0131] 还请参阅图6,图6为本发明实施例提供的一种语音数据识别装置的另一结构示 意图,所述装置包括:第一接收单元61,确定单元62和第一识别单元63,其中,所述第一接 收单元61,用于接收桌面云客户端通过命令控制信道发送的命令代码,所述命令代码对应 可识别的命令语音数据;所述确定单元62,用于根据所述命令代码确定对应的标准语音数 据;所述第一识别单元63,用于将所述标准语音数据插入到音频重定向数据队列中进行识 别。
[0132] 可选的,所述装置还可以包括:第二接收单元,解码单元和第二识别单元,其中,所 述第二接收单元,用于接收桌面云客户端通过数据信道发送的普通语音数据;所述解码单 元,用于对所述普通语音数据进行音频解码;所述第二识别单元,用于将解码后的普通语音 数据插入所述音频重定向数据队列中进行识别。
[0133] 可选的,所述装置还可以包括:存储单元,与所述确定单元连接,用于预先存储配 置的所述命令代码,以及所述命令代码对应的标准语音数据。
[0134] 可选的,所述装置还可以包括:第三接收单元和更新单元,其中,所述第三接收单 元,用于接收管理系统下发的更新命令;所述更新命令包括:更新的命令代码以及所述命 令代码对应的标准语音数据;所述更新单元,用于根据所述更新命令更新存储的所述命令 代码对应的标准语音数据。
[0135] 可选的,所述装置可集成在桌面云服务端,也可以独立部署,本实施例不作限制。
[0136] 所述装置中各个单元的功能和作用的实现过程,详见上述方法中对应步骤的实现 过程,在此不再赘述。
[0137] 还请参阅图7,图7为本发明实施例提供的一种语音数据识别装置的另一结构示 意图,所述装置包括:接收单元71和识别单元72,其中,
[0138] 所述接收单元71,用于接收桌面云客户端通过命令控制信道发送的命令代码,所 述命令代码对应可识别的命令语音数据;所述识别单元72,用于根据所述命令代码调用对 应的语音识别软件开发接口识别出所述命令语音数据对应的语音数据。
[0139] 可选的,所述装置还可以包括:第二接收单元,解码单元和第二识别单元,其中,所 述第二接收单元,用于接收桌面云客户端通过数据信道发送的普通语音数据;所述解码单 元,用于对所述普通语音数据进行音频解码;所述第二识别单元,用于将解码后的普通语音 数据插入音频重定向数据队列中进行识别。
[0140] 可选的,所述装置可集成在桌面云服务端,也可以独立部署,本实施例不作限制。
[0141] 所述装置中各个单元的功能和作用的实现过程,详见上述方法中对应步骤的实现 过程,在此不再赘述。
[0142] 为了便于本领域技术人员的理解,下面以具体的实例来说明。
[0143] 还请参图8,图8为本发明实施例提供的一种桌面云架构的示意图,在该实施例 中,本发明实施例是在现有语音识别重定向的流程基础上,增加了若干步骤来实现,所涉及 的模块主要包括桌面云客户端的音频采集设备(比如耳机麦克风),音频服务模块(比如包 括音频采集模块,编解码模块等),通讯模块,桌面云服务端的音频服务模块(比如包括音频 重定向驱动,编解码模块等)。桌面云客户端和桌面云服务端之间通过桌面云重定向协议进 行通信,具体如图中斜字体所示,在此不再赘述。其中,该本发明实施例中涉及到模块,将在 下述实施例中说明。
[0144] 还请参阅图9,图9为本发明实施例提供的第一应用实例的流程图,具体包括:
[0145] 步骤901 :音频采集模块采集PCM语音数据;
[0146] 在客户端采集到的PCM语音数据;
[0147] 步骤902 :音频采集模块对采集的PCM语音数据进行识别;如果识别出具体命令, 即所述PCM语音数据为命令语音数据;则执行步骤903 ;如果没有识别出具体命令,即所述 PCM语音数据为普通语音,执行步骤911 ;
[0148] 步骤903 :音频采集模块查找本地数据库中与所述命令语音数据对应的命令代 码;
[0149] 步骤904 :将该命令代码发送桌面云客户端的通信模块;
[0150] 步骤905 :桌面云客户端的通信模块通过命令控制信道(比如RTP)将所述命令代 码发送给桌面云服务器的通信模块,即协议通信;
[0151] 步骤906 :桌面云服务器上的通信模块将所述命令代码发送给桌面云服务器上的 音频采集模块;
[0152] 步骤907 :桌面云服务器上的音频采集模块在本地查找所述命令代码对应的标准 PCM语音片段;
[0153] 步骤908 :将标准PCM语音片段插入音频重定向数据队列中;
[0154] 步骤909 :音频重定向驱动模块将音频重定向数据队列的语音数据(比如标准PCM 语音片段)发送给语音识别应用软件,
[0155] 步骤910 :语音识别应用软件对语音数据进行识别,并调用API执行相关命令的操 作,结束本次操作。
[0156] 步骤911 :音频采集模块将所述普通语音数据发送给音频编码模块,对所述普通 语音数据进行编码;
[0157] 步骤912 :将编码后的所述普通语音数据(即压缩数据包)发送桌面云客户端的通 信模块;
[0158] 步骤913 :桌面云客户端的通信模块通过数据信道(比如TCP)将所述编码后的所 述普通语音数据发送给桌面云服务器的通信模块;
[0159] 步骤914:桌面云服务器的通信模块将编码后的所述普通语音数据(基于压缩数 据包)发送给桌面云服务端的语音解码模块;
[0160] 步骤915 :桌面云服务端的语音解码模块对所述普通语音数据进行解码,得到对 应的PCM音频数据;
[0161] 步骤916 :将PCM音频数据插入到插入所述音频重定向数据队列中;
[0162] 然后执行步骤909和步骤910所述的内容。
[0163] 也就是说,所述音频重定向驱动模块,还用于将音频重定向数据队列的语音数据 (比如PCM语音数据)发送给语音识别应用软件,语音识别应用软件调用API执行相关命令 的操作,完成整个语音识别过程。
[0164] 其中,在该实施例中,无论是客户端还是服务端的通信模块均维护一个数据收发 队列,以确保命令语音数据和普通语音数据混合情况下数据顺序的正确性。
[0165] 需要说明的是,在该实施例中,桌面云客户端内置的语音识别模块能识别的命令 数量,与桌面云服务端预先存储的标准PCM语音片段是一一对应的,在安装桌面云系统的 时候预先内置。
[0166] 在该实施例中,本实施例新增步骤的过程应有相应的模块来实现,具体详见表1 和表2.
[0167] 表 1

【权利要求】
1. 一种语音数据识别方法,其特征在于,包括: 获取语音数据; 对所述语音数据进行识别,如果识别出所述语音数据为命令语音数据,则确定所述命 令语音数据对应的命令代码; 将所述命令代码通过命令控制信道发送给桌面云服务端,以便于所述桌面云服务端根 据所述命令代码确定对应的标准语音数据,并将所述标准语音数据插入到音频重定向数据 队列中进行识别。
2. 根据权利要求1所述的方法,其特征在于,还包括: 如果识别出所述语音数据为普通语音数据,则对所述普通语音数据进行音频编码,并 将编码后的语音数据通过数据通道发送给桌面云服务端,以便于所述桌面云服务端将所述 普通语音数插入所述音频重定向数据队列中进行识别。
3. 根据权利要求2所述的方法,其特征在于,还包括: 在获取所述语音数据后,判断所述语音数据的模式; 如果所述语音数据的模式为语音识别模式,则执行所述对所述语音数据进行识别的步 骤; 如果所述语音数据的模式为普通语音模式,则执行所述对所述普通语音数据进行音频 编码的步骤。
4. 根据权利要求1至3任一项所述的方法,其特征在于,还包括: 预先存储配置的所述命令语音数据,以及所述命令语音数据对应的命令代码。
5. 根据权利要求4所述的方法,其特征在于,所述对所述语音数据进行识别,具体包 括: 将所述语音数据与存储的所述命令语音数据进行匹配,如果匹配成功,则所述语音数 据为可识别的命令语音数据。
6. 根据权利要求5所述的方法,其特征在于,还包括: 接收管理系统下发的更新命令,所述更新命令包括:更新后的命令语音数据以及所述 命令语音数据对应的命令代码; 根据所述更新命令更新存储的所述命令语音数据,以及所述命令语音数据对应的命令 代码。
7. -种语音数据识别方法,其特征在于,包括: 接收桌面云客户端通过命令控制信道发送的命令代码,所述命令代码对应可识别的命 令语音数据; 根据所述命令代码确定对应的标准语音数据; 将所述标准语音数据插入到音频重定向数据队列中进行识别。
8. 根据权利要求7所述的方法,其特征在于,还包括: 接收桌面云客户端通过数据信道发送的普通语音数据; 对所述普通语音数据进行音频解码,并将解码后的普通语音数据插入所述音频重定向 数据队列中进行识别。
9. 根据权利要求7或8所述的方法,其特征在于,还包括: 预先存储配置的所述命令代码,以及所述命令代码对应的标准语音数据。
10. 根据权利要求9所述的方法,其特征在于,还包括: 接收管理系统下发的更新命令,所述更新命令包括:更新的命令代码以及所述命令代 码对应的标准语音数据; 根据所述更新命令更新所述命令代码以及所述命令代码对应的标准语音数据。
11. 一种语音数据识别方法,其特征在于,包括: 接收桌面云客户端通过命令控制信道发送的命令代码,所述命令代码对应命令语音数 据; 根据所述命令代码调用对应的语音识别软件开发接口识别出所述命令语音数据对应 的语音数据。
12. -种语音数据识别装置,其特征在于,包括: 获取单元,用于获取语音数据; 识别单元,用于对所述语音数据进行识别; 确定单元,用于在所述识别单元识别出所述语音数据为命令语音数据时,确定所述命 令语音数据对应的命令代码; 第一发送单元,用于将所述命令代码通过命令控制信道发送给桌面云服务端,以便于 所述桌面云服务端根据所述命令代码确定对应的标准语音数据,并将所述标准语音数据插 入到音频重定向数据队列中进行识别。
13. 根据权利要求12所述的装置,其特征在于,还包括: 编码单元,用于在所述识别单元识别出所述语音数据为普通语音数据时,对所述普通 语音数据进行音频编码; 第二发送单元,用于将编码后的语音数据通过数据通道发送给桌面云服务端,以便于 所述桌面云服务端将所述普通语音数插入所述音频重定向数据队列中进行识别。
14. 根据权利要求13所述的装置,其特征在于,还包括: 判断单元,用于在所述获取单元获取所述语音数据后,判断所述语音数据的模式,并将 所述语音数据的模式为语音识别模式的判断结果发送给所述识别单元;将所述语音数据的 模式为普通语音模式的判断结果发送给所述编码单元; 所述识别单元,还用于在接收到所述判断单元发送的所述语音数据的模式为语音识别 模式的判断结果时,对所述语音数据进行识别; 所述编码单元,还用于在接收到所述判断单元发送的所述语音数据的模式为普通语音 模式的判断结果时,对所述普通语音数据进行音频编码。
15. 根据权利要求12至14任一项所述的装置,其特征在于,还包括: 存储单元,用于预先存储所述命令语音数据,以及所述命令语音数据对应的命令代码。
16. 根据权利要求15所述的装置,其特征在于,还包括: 接收单元,用于接收管理系统下发的更新命令;所述更新命令包括:更新后的命令语 音数据以及所述命令语音数据对应的命令代码; 更新单元,用于根据所述更新命令更新存储的所述命令识别数据,以及所述命令语音 数据对应的命令代码。
17. -种语音数据识别装置,其特征在于,包括: 第一接收单元,用于接收桌面云客户端通过命令控制信道发送的命令代码,所述命令 代码对应可识别的命令语音数据; 确定单元,用于根据所述命令代码确定对应的标准语音数据; 第一识别单元,用于将所述标准语音数据插入到音频重定向数据队列中进行识别。
18. 根据权利要求17所述的装置,其特征在于,还包括: 第二接收单元,用于接收桌面云客户端通过数据信道发送的普通语音数据; 解码单元,用于对所述普通语音数据进行音频解码; 第二识别单元,用于将解码后的普通语音数据插入所述音频重定向数据队列中进行识 别。
19. 根据权利要求17或18所述的装置,其特征在于,还包括: 存储单元,用于预先存储配置的所述命令代码,以及所述命令代码对应的标准语音数 据。
20. 根据权利要求19所述的装置,其特征在于,还包括: 第三接收单元,用于接收管理系统下发的更新命令;所述更新命令包括:更新的命令 代码以及所述命令代码对应的标准语音数据; 更新单元,用于根据所述更新命令更新存储的所述命令代码对应的标准语音数据。
21. -种语音数据识别装置,其特征在于,包括: 接收单元,用于接收桌面云客户端通过命令控制信道发送的命令代码,所述命令代码 对应可识别的命令语音数据; 识别单元,用于根据所述命令代码调用对应的语音识别软件开发接口识别出所述命令 语音数据对应的语音数据。
【文档编号】G10L15/34GK104424948SQ201310369541
【公开日】2015年3月18日 申请日期:2013年8月22日 优先权日:2013年8月22日
【发明者】杜川 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1