一种erp语音控制方法

文档序号：2827809阅读：475来源：国知局

一种erp语音控制方法
【专利摘要】为了便于ERP用户能够方便、安全地从远程访问ERP服务，本发明提供了一种ERP语音控制方法，包括以下步骤：(1)预存储语音命令、语音命令集以及操作指令三者之间的映射关系；(2)音频通信设备接收语音命令，并传输给音频收发设备；(3)音频收发设备接收所述语音命令；(4)对所接收的语音命令生成语音命令模板；(5)将语音命令的模板与预存储的语音命令集进行匹配；如果相匹配，则根据所述映射关系获取相匹配的语音命令对应的操作指令后执行该操作指令；否则，向音频通信设备提示语音命令无效。本发明通过语音可以判断出当前操作人员是否是合法的操作人员，避免了非法操作人员的非法操作，提高了安全性。
【专利说明】一种ERP语音控制方法

【技术领域】
[0001]本发明涉及一种语音识别【技术领域】，尤其是涉及一种应用于ERP的语音控制方法。

【背景技术】
[0002]随着科技的日新月异，IT厂商所生产的外围装置，例如扫描器，均以能够让使用者方便使用为目标。一般控制外围装置的方式一般是利用键盘、滑鼠或触控屏输入控制命令。
[0003]在利用操作指令控制设备运行的应用场合，常常是通过输入操作指令的方式来启动设备的运行。一旦非法人员获取了操作指令，便可以冒充合法身份来操作设备，安全性较差。
[0004]如果采用语音来控制设备的运行，不但无需输入操作指令，而且兼具身份识别的能力，无疑能够提高系统的安全性和便利性。现有的语音识别系统能够识别出语音的语义内容，但识别过程较为复杂，识别效率也相对较低，仅适合在ERP系统的终端现场使用。例如，对于ERP系统的采购子系统，当操作人员输入正确的密码后，采购子系统便会进行查询、输入、输出等操作，无法远程地进行操作，尤其是无法仅仅使用普通的手机、座机来实现远程操作指令的下达。

【发明内容】

[0005]针对现有技术中存在的缺陷，本发明所要解决的技术问题是提供一种操作方便、安全性好的应用于ERP系统的语音控制方法。
[0006]为解决上述技术问题，本发明采用的技术方案如下:
[0007]一种ERP语音控制方法，包括以下步骤:
[0008](I)预存储语音命令、语音命令集以及操作指令三者之间的映射关系；
[0009](2)音频通信设备接收语音命令，并传输给音频收发设备；
[0010](3)音频收发设备接收所述语音命令；
[0011](4)对所接收的语音命令生成语音命令模板；
[0012](5)将语音命令的模板与预存储的语音命令集进行匹配；如果相匹配，则根据所述映射关系获取相匹配的语音命令对应的操作指令后执行该操作指令；否则，向音频通信设备提示语音命令无效。
[0013]进一步地，其中，所述语音命令集包括多个参考语音模板，所述参考语音模板是根据对同一命令在声调、发音长短和口音这三方面的多种变化的各种语音产生的。
[0014]进一步地，步骤(5)中所述将语音命令的模板与预存储的语音命令集进行匹配的方法如下:
[0015](a)获得语音命令模板中的第一声纹；
[0016](b)获取所述语音命令集中各个参考语音模板的第二声纹；
[0017](c)比较所述第一声纹和所述第二声纹，如果相匹配，则匹配成功；否则，匹配失败。
[0018]进一步地，在步骤(3)和步骤(4)之间，还包括对接收到的语音命令进行降噪处理。
[0019]进一步地，在步骤(I)中，将所述语音命令分成若干节，存储每一节语音命令的模板。
[0020]进一步地，步骤(3)中，如果每一节语音命令的模板均与预存储的相对应节的语音命令的模板相匹配，则获取该语音命令对应的操作指令。
[0021]进一步地，获得所述第一声纹包括:获得基于语音命令模板中的声调和口音的声纹，或者获得基于语音命令模板中的发音长短与口音的声纹，或者获得基于声调、发音长短和口音的声纹。
[0022]进一步地，获得所述第二声纹包括:获得基于语音命令模板中的声调和口音的声纹，或者获得基于语音命令模板中的发音长短与口音的声纹，或者获得基于声调、发音长短和口音的声纹。
[0023]进一步地，比较所述第一声纹和所述第二声纹包括:比较基于语音命令模板和语音命令集中的基于声调和口音的声纹，如果匹配，则继续比较基于语音命令模板中的发音长短与口音的声纹，如果匹配，再比较基于声调、发音长短和口音的声纹；其中任何匹配不成功都不再继续进行后续比较。
[0024]本发明所述方法，无需手动输入操作指令，通过语音便可控制设备的启动或运行，操作方便。而且，通过语音可以判断出当前操作人员是否是合法的操作人员，避免了非法操作人员的非法操作，提高了安全性。

【专利附图】

【附图说明】
[0025]图1是【具体实施方式】中ERP语音控制方法的流程图。

【具体实施方式】
[0026]下面结合【具体实施方式】和附图对本发明进行详细描述。
[0027]如图1所示，本实施方式中ERP系统的语音控制方法包括以下步骤:
[0028](I)预存储语音命令、语音命令集以及操作指令三者之间的映射关系。预存的语音命令包括表示ERP系统的各种操作动作(例如:打开、打印、发送邮件给、添加附件、查询)的动词、表示ERP系统的操作动作的各种参数(例如:起始日期、终止日期、文件位置、数据类型)的名词等。操作指令为预先编制好的ERP系统内部执行的指令，这些指令可以采用机器语言编制，通常采用软件编程的方式产生和维护。所述语音命令集包括多个参考语音模板，所述参考语音模板是根据对同一命令在声调、发音长短和口音这三方面的多种变化的各种语音产生的。在一个优选的实施例中，上述参考语音模板将所述声调、发音长短(单位采用微秒)和口音设置成三维数组。
[0029]对于口音的处理，本发明采用的是通过预先记录各地口音对于汉语字母的声母、韵母的发音规则实现的:这种处理已经是本领域公知技术，在此不再详述。例如，预先分析使用者发出声音的各个字符的发音长短、是否卷舌、是否带有声调、若带有声调时的具体声调。
[0030](2)音频通信设备接收语音命令，并传输给音频收发设备。
[0031]在优选的实施例中，所述的音频通信设备包括手机，尤其是非智能手机，还可以包括固定电话。更广泛地，可以使用包括智能手机在内的任何既具有语音接收功能又具有将所接收到的语音通过通信网络发送出去，并接收外部语音、文字和/或图像等信息反馈功能的设备。
[0032](3)音频收发设备接收所述语音命令。这里的音频收发设备优选地为ERP系统终端附近的音频收发设备。该设备接收来自上述音频通信设备发送来的语音信息。
[0033](4)对所接收的语音命令生成语音命令模板。具体地，在所接收到的语音信息中，根据本发明的优选实施例，首先进行降噪的操作，尽可能地去除语音信号中的噪声。然后，利用STT(SpeeCh To Text)技术得到语音信息中包括的语音命令，并在同时分析得到各个文字的声调、各个字符的发音长短时间和各个字符对应的声母、韵母的发音规则(例如，发音长短、是否卷舌、是否带有声调、若带有声调时的具体声调)，进而形成由声调、发音长短和口音组成的三维数组。
[0034](5)将语音命令的模板与预存储的语音命令集进行匹配；如果相匹配，则根据所述映射关系获取相匹配的语音命令对应的操作指令后执行该操作指令；否则，向音频通信设备提示语音命令无效。
[0035]这一步骤中，具体包括:
[0036](a)获得语音命令模板中的第一声纹；
[0037](b)获取所述语音命令集中各个参考语音模板的第二声纹；
[0038](C)比较所述第一声纹和所述第二声纹，如果相匹配，则匹配成功；否则，匹配失败。
[0039]在其他的实施例中，可以在步骤(I)中将所述语音命令分成若干节，存储每一节语音命令的模板，而不是像上述实施例中那样采用字符为单位进行分析和语音处理。此时，在步骤(3)中，如果每一节语音命令的模板均与预存储的相对应节的语音命令的模板相匹配，则获取该语音命令对应的操作指令。
[0040]根据本发明的优选实施例，获得所述第一声纹包括:获得基于语音命令模板中的声调和口音的声纹,或者获得基于语音命令模板中的发音长短与口音的声纹，或者获得基于声调、发音长短和口音的声纹。获得所述第二声纹包括:获得基于语音命令模板中的声调和口音的声纹，或者获得基于语音命令模板中的发音长短与口音的声纹，或者获得基于声调、发音长短和口音的声纹。
[0041]在确定了声纹的数据处理对象(或称数据来源)后，上述声纹的获取步骤为:将语音信号波形的k个样点的每一帧，或有k个参数的每一参数帧，构成k维空间中的一个矢量，然后对矢量进行量化。量化时，将k维无限空间划分为M个区域边界，然后将输入矢量与这些边界进行比较，并被量化为“距离”最小的区域边界的中心矢量值。当然，也可以采用HMM(隐马尔可夫法)实现对于声纹的特征提取。
[0042]根据本发明的优选实施例，比较所述第一声纹和所述第二声纹包括:比较基于语音命令模板和语音命令集中的基于声调和口音的声纹，如果匹配，则继续比较基于语音命令模板中的发音长短与口音的声纹，如果匹配，再比较基于声调、发音长短和口音的声纹；其中任何匹配不成功都不再继续进行后续比较。
[0043]上述比较过程中，如果基于语音命令模板的声纹和语音命令集中的声纹的方差在预定的阈值之内，则认为上述语音命令模板中包括的语音命令是可以被执行的，此时，ERP系统将根据该语音命令集中对应的操作指令进行处理，执行相应的操作。否则，上述音频通信设备将收到由ERP系统终端附近的音频收发设备发出的语音命令无法被执行的信息。
[0044]显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内，则本发明也意图包含这些改动和变型在内。
【权利要求】
1.一种ERP语音控制方法，其特征在于，包括以下步骤: (1)预存储语音命令、语音命令集以及操作指令三者之间的映射关系； (2)音频通信设备接收语音命令，并传输给音频收发设备； (3)音频收发设备接收所述语音命令； (4)对所接收的语音命令生成语音命令模板； (5)将语音命令的模板与预存储的语音命令集进行匹配；如果相匹配，则根据所述映射关系获取相匹配的语音命令对应的操作指令后执行该操作指令；否则，向音频通信设备提示语音命令无效。
2.根据权利要求1所述的方法，其特征在于，所述语音命令集包括多个参考语音模板，所述参考语音模板是根据对同一命令在声调、发音长短和口音这三方面的多种变化的各种语音产生的。
3.根据权利要求1所述的方法，其特征在于，步骤(5)中所述将语音命令的模板与预存储的语音命令集进行匹配的方法如下: (a)获得语音命令模板中的第一声纹； (b)获取所述语音命令集中各个参考语音模板的第二声纹； (c)比较所述第一声纹和所述第二声纹，如果相匹配，则匹配成功；否则，匹配失败。
4.根据权利要求1所述的方法，其特征在于，在步骤(3)和步骤(4)之间，还包括对接收到的语音命令进行降噪处理。
5.根据权利要求1所述的方法，其特征在于，在步骤(I)中，将所述语音命令分成若干节，存储每一节语音命令的模板。
6.根据权利要求5所述的方法，其特征在于，步骤(3)中，如果每一节语音命令的模板均与预存储的相对应节的语音命令的模板相匹配，则获取该语音命令对应的操作指令。
7.根据权利要求3所述的方法，其特征在于，获得所述第一声纹包括:获得基于语音命令模板中的声调和口音的声纹，或者获得基于语音命令模板中的发音长短与口音的声纹，或者获得基于声调、发音长短和口音的声纹。
8.根据权利要求3所述的方法，其特征在于，获得所述第二声纹包括:获得基于语音命令模板中的声调和口音的声纹，或者获得基于语音命令模板中的发音长短与口音的声纹，或者获得基于声调、发音长短和口音的声纹。
9.根据权利要求3所述的方法，其特征在于，比较所述第一声纹和所述第二声纹包括:比较基于语音命令模板和语音命令集中的基于声调和口音的声纹，如果匹配，则继续比较基于语音命令模板中的发音长短与口音的声纹，如果匹配，再比较基于声调、发音长短和口音的声纹；其中任何匹配不成功都不再继续进行后续比较。
【文档编号】G10L17/22GK104200807SQ201410478889
【公开日】2014年12月10日申请日期:2014年9月18日优先权日:2014年9月18日
【发明者】曹毅申请人:成都博智维讯信息技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曹毅
技术所有人：成都博智维讯信息技术有限公司
我是此专利的发明人