一种语音交互方法、系统、电子设备及存储介质与流程

文档序号：17686541发布日期：2019-05-17 20:40阅读：162来源：国知局

本发明涉及语音识别领域，尤其涉及一种语音交互方法、系统、电子设备及存储介质。

背景技术：

语音识别技术，也被称为自动语音识别(automaticspeechrecognition，asr)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。其通过将机器学习领域深度学习研究引入到语音识别声学模型训练中，通过声学模型实现对声音的识别。目前，随着智能家居行业的快速发展，语音识别在智能家居系统上的应用日渐火热，语音对话机器人、语音助手、交互工具等层出不穷。

另一方面，近些年来，随着自动化技术、智能识别技术的发展进步，在智能餐厨系统中，越来越多的自动化工具应用在餐厨系统中的各个方面上。现有一些烹饪平台，借助这类自动化工具，已经能够实现自动运输、自动洗菜乃至自动烹饪等各种流程。这些设备在烹饪前或者烹饪后，能够尽量减少人为干预，其烹饪过程无需人工的介入，较好地实现的餐厨系统的智能化、无人化。并且，借助语音识别技术，能够使现有的这些烹饪平台在使用上更加的智能化，使用者通过与烹饪平台进行语音交互，实现对烹饪平台的控制，进而实现对整个烹饪流程的自动化控制。

但是，在智能餐厨系统的使用过程中，对烹饪平台的语音控制，烹饪平台通常只能实现对一种语言进行识别，纵使能够识别多种语言，也需要用户手动操作进行切换。对于一些有多种母语的家庭，频繁切换语音识别系统较为麻烦。并且，对于一些不善操作烹饪平台的使用者而言，操作切换语音识别系统显得不太现实。基于此，提供一种基于自动烹饪平台的语音交互方法，能够识别多种不同语言，无需切换不同语言的语音识别系统，是目前智能餐厨系统中值得探究的技术问题。

技术实现要素：

为了克服现有技术的不足，本发明的目的之一在于提供一种语音交互方法，能够识别多种不同语言，无需切换不同语言的语音识别系统。

本发明的目的之一采用如下技术方案实现：

一种语音交互方法，包括：语音识别库激活步骤，获取唤醒语语音信号，识别判断唤醒语所对应的语音识别库，激活对应的语音识别库；语音识别步骤，获取用户语音信号，提取信号特征信息，根据对应的语音识别库比对信号特征信息，输出语音识别结果；反馈步骤，根据语音识别结果做出反馈，执行烹饪平台相应控制操作或根据交互场景库反馈对应的语音内容。

进一步地，在所述语音识别库激活步骤中，语音识别库为若干个对应不同语言的语音识别库，每一个语音识别库设有对应的唤醒语。

进一步地，在所述语音识别库激活步骤中，每一个语音识别库对应的唤醒语均为唯一标识的唤醒语。

进一步地，在所述语音识别库激活步骤中，提取唤醒语语音信号的信号特征信息，比对唤醒语识别库，根据唤醒语识别库比对唤醒语信号特征信息，识别判断出唤醒语所对应的语音识别库。

进一步地，在所述反馈步骤中，若语音识别结果为烹饪平台操作指令，则执行烹饪平台相应控制操作；若语音识别结果不是烹饪平台操作指令，则根据交互场景库反馈对应的语音内容。

进一步地，交互场景库存储有烹饪平台使用场景下，根据用户语音信号识别结果进行人机交互使用的语音内容。

进一步地，在所述语音识别库激活步骤之前，还包括：语音识别库建立步骤，根据不同语言分别获取烹饪平台使用场景下，进行人机交互所需使用的语音内容，通过学习训练分别建立对应不同语言的语音识别库。

本发明的目的之二在于提供一种语音交互系统，能够识别多种不同语言，无需切换不同语言的语音识别系统。

本发明的目的之二采用如下技术方案实现：

一种语音交互系统，包括唤醒语识别模块、语音识别模块及反馈模块；所述唤醒语识别模块用于，获取唤醒语语音信号，识别判断唤醒语所对应的语音识别库，激活对应的语音识别库；所述语音识别模块用于获取用户语音信号，提取信号特征信息，根据对应的语音识别库比对信号特征信息，输出语音识别结果；所述反馈模块用于根据语音识别结果做出反馈，执行烹饪平台相应控制操作或根据交互场景库反馈对应的语音内容。

本发明的目的之三在于提供一种电子设备，能够识别多种不同语言，无需切换不同语言的语音识别系统。

本发明的目的之三采用如下技术方案实现：

一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明目的之一所述的一种语音交互方法。

本发明的目的之四在于提供一种存储介质，能够识别多种不同语言，无需切换不同语言的语音识别系统。

本发明的目的之四采用如下技术方案实现：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明目的之一所述的一种语音交互方法。

相比现有技术，本发明的有益效果在于：

本发明的一种语音交互方法、系统、电子设备及存储介质，通过对不同的语音识别库设置对应的唤醒语，根据识别判断唤醒语来激活对应的语音识别库，进行语音识别，并根据语音识别结果，作出相应的反馈，实现用户与烹饪平台基于多种不同语言的语音交互，方便用户操作烹饪平台。

附图说明

图1为发明一种语音交互方法流程示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

实施例一：

实施例一提供了一种语音交互方法，如图1所示，包括如下步骤：

s1语音识别库建立步骤，根据不同语言分别获取烹饪平台使用场景下，进行人机交互所需使用的语音内容，通过学习训练分别建立对应不同语言的语音识别库；

s2语音识别库激活步骤，获取唤醒语语音信号，识别判断唤醒语所对应的语音识别库，激活对应的语音识别库；

s3语音识别步骤，获取用户语音信号，提取信号特征信息，根据对应的语音识别库比对信号特征信息，输出语音识别结果；

s4反馈步骤，根据语音识别结果做出反馈，执行烹饪平台相应控制操作或根据交互场景库反馈对应的语音内容。

本实施例的语音交互方法，旨在通过对多种不同语言进行识别，以实现自动烹饪平台使用过程中，针对不同语言的语音交互。在自动烹饪平台使用过程中，通过语音识别用户发出的语音信号，来获知用户语音信号中包含的信息，进而作出相应语音识别结果的反馈。目前大部分的语音识别系统，只针对普通话进行语音识别。其只根据获取的普通话的语音内容进行识别输出语音识别结果，对于无法识别的语言，反馈表示无法识别的语音内容。由于烹饪平台在家庭使用中，可能存在不同使用者会使用不同语言的可能。譬如，父母是使用粤语的，儿子是使用普通话的，儿媳妇是使用英语的，针对这类情况，传统的做法是设置多种语言的语音识别系统，通过操作烹饪平台的操作系统，可以进行语音识别系统的切换，对应用户使用烹饪平台时，对应切换语音识别系统即可实现与烹饪平台的语音交互，进而实现烹饪平台的控制。但是，上述方法对于不善使用烹饪平台操作系统的用户而言，手动操作烹饪平台显得不太现实，容易出现误操作等情况。并且，手动操作烹饪平台多有不便。因此，通过本实施例的语音交互方法，来自动识别不同的语言，无需操作烹饪平台操作系统切换语音识别系统，进一步实现烹饪平台的智能化及自动化。

要实现自动识别多种不同语言，首先需要建立多种不同语言的语音识别库。根据烹饪平台所需求识别的各种语言，对应建立语音识别库。需要注意的是，为了避免样本量过大，使烹饪平台能够针对性的对烹饪平台使用场景下会出现的人机语音交互内容进行识别。本实施例的语音交互方法，根据不同语言分别获取烹饪平台使用场景下进行人机交互所需使用的语音内容，通过学习训练分别建立对应不同语言的语音识别库。对于不属于烹饪平台使用场景下的语音内容，不纳入语音识别库中。这样，一方面减少了语音内容对应特征信息的存储，另一方面也方便了语音识别库能够快速识别出对应的语音信号，避免因为语音识别库比对样本量过大而花费大量时间进行语音信号的识别比对。针对不同语言的各语音识别库建立过程中，需大量获取烹饪平台使用场景下进行人机交互所需使用的语音内容，将这些语音内容转换为电压信号或者电流信号；之后将电信号进行模拟/数字转换，得到数字信号；对数字信号进行高频滤波或者带通滤波，去除非语音干扰信号。滤波处理的目的是去除直流信号和非语音信号的杂音干扰，使用户输入的语音数据便于后续提取特征信息。如果输入语音的环境噪音较大或者存在其他干扰信号，则不利于对于语音信息进行识别，因此需要将语音数据进行滤波处理，得到更加便于提取特征的数据。电信号进行滤波处理后进行预处理得到第二电信号，通过对第二电信号进行标准化处理，得到预处理第二电信号。其中，标准化处理具体包括：语音信号预加权处理、语音信号分帧处理、语音信号加窗处理。完成预处理后，即可提取经预处理的第二电信号的特征信息。利用线性预测编码(linearpredictivecoding，lpc)方法、线性预测倒谱系数lpcc方法、梅尔频率倒谱系数(mel-scalefrequencycepstralcoefficientsmer，mfcc)法提取预处理第二电信号的特征信息。完成各语音内容对应特征信息的提取后，即完成对应语音识别库的建立。语音识别库建立方法为现有较成熟技术，语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能，这里不多赘述。通过分别提取不同语言的特征信息，即可对应完成不同语音识别库的建立。

完成语音识别库建立后，需对应各语音识别库设置对应的唯一标识的唤醒语，作为激活对应语音识别库的“钥匙”。唤醒语可以设置成同一语言的，例如统一为普通话唤醒语，通过设置代表不同语义的语音内容，转换成不同的计算机文字，即可激活不同的语音识别库。唤醒语也可以设置成不同一语言同一语义的，例如“开启”在不同语言中的不同读法，其对应的语音信号不同，即可激活不同的语音识别库。通过预设置唤醒语识别库，对唤醒语进行识别，唤醒语识别库的建立类似上述语音识别库的建立。由于同样需要对语音信号进行识别，因而唤醒语识别库也需要根据语音信号提取特征信息。不同于语音识别库的建立，唤醒语识别库的特征样本相对不需要那么大量。唤醒语识别库建立时，只需要获取对应各个语音识别库的唤醒语的语音内容，同样按照上述方式将语音内容转化为电信号，在根据对电信号进行处理提取特征信息，完成唤醒语识别库的建立。之后，在烹饪平台使用过程中，用户需先发出唤醒语，激活对应语音识别库。通过麦克风采集用户唤醒语语音信号，通过信号处理得到对应的特征信息，与唤醒语识别库进行比对，识别判断该唤醒语所对应的语音识别库。此时若能够识别出该唤醒语所对应的语音识别库，则激活对应语音识别库，开始用户与烹饪平台的语音交互。若无法识别出唤醒语所对应的语音识别库，则判定该唤醒语无效，系统反馈识别结果，提示用户重新发出唤醒语。

激活对应语音识别库后，系统开始进行语音识别，系统通过获取用户发出的语音信号，按照上述语音内容的信号处理方法，提取出信号特征信息，然后根据预先被激活的对应的语音识别库比对信号特征信息。比对过程中，提取语音识别库中相似度最大的信号特征信息，通过设置一个相似度阈值，若此时相似度最大的信号特征信息的相似度大于或等于设定相似度阈值，则输出该信号特征信息对应语音内容的计算机文字信息，作为语音识别结果。若此时相似度最大的信号特征信息的相似度小于设定相似度阈值，则认为语音识别库中不存在与该语音信号信息相匹配的内容，系统反馈识别结果，提示用户重述语音内容。这样通过唤醒语激活对应语音识别库，即可实现自动烹饪平台对多种不同语言的识别。需要注意的是，语音识别库在被激活后，若设定时间段内没有获取到用户语音信号，表示该段时间内用户没有与自动烹饪平台进行语音交互，此时对应被激活的语音识别库进入“休眠”状态，系统提示语音识别库连接断开，若需要使用，需再次唤醒。另一方面，语音识别过程中，主要针对烹饪平台使用场景下人机可能发生的对话内容进行反馈，这样可以简化语音识别库，方便快速识别用户发出的语音信号信息。对于不属于烹饪平台使用场景下人机可能发生的对话内容，语音识别库中可能不存在对应相似度较大的信号特征信息，则无法完成语音识别，系统会反馈识别失败结果，提示用户重述语音内容。

完成语音识别后，针对识别输出的语音识别结果，自动烹饪平台根据不同的识别结果做出相应的反馈。若输出的语音识别结果为自动烹饪平台明确的控制操作，则系统输出对应操作的控制指令给到自动烹饪平台，控制对应自动化器械执行操作。系统同时反馈此时所执行操作对应的语音内容。譬如，用户发出“炒菜”语音内容，系统根据语音识别处理后输出语音识别结果，根据语音识别结果控制烹饪平台执行自动炒菜操作。开始执行时，烹饪平台发出语音提示用户“正在炒菜”，方便通过语音交互了解烹饪平台控制进程。若输出的语音识别结果为非明确烹饪平台操作指令，则根据交互场景库反馈对应的语音内容。譬如，用户发出“我想吃番茄炒蛋”语音内容，语音识别库根据语音识别结果，通过查找交互场景库反馈交互场景库记载的语音内容。烹饪平台根据平台自身的食材存储信息，分析此时自动烹饪平台的食材能否满足烹煮该菜品，若能够满足，根据交互场景库反馈用户“当前可以烹饪番茄炒蛋，是否确定烹饪”语音内容。进一步的，在用户确定烹饪后，根据交互场景库继续询问用户“番茄炒蛋要甜的还是咸的”，根据交互场景库存储的语音内容，主动问询用户，更细化、明确用户的需求。若烹饪平台根据平台自身的食材存储信息，分析此时自动烹饪平台的食材无法满足烹煮该菜品，缺少某部分食材或配料，此时则结合自动烹饪平台自身条件，，根据交互场景库反馈用户“当前缺少食材....，无法进行菜品烹饪”语音内容。进一步的，主动询问用户“是否下单购买补充....食材”或者回复用户当前可以烹饪的菜品类型，方便用户了解烹饪平台的实时情况。需要注意的是，交互场景库存储有烹饪平台使用场景下，根据用户语音信号识别结果进行人机交互使用的语音内容。通过大量地存储在烹饪平台使用场景下用户与烹饪平台可能发生的语音交互内容。结合烹饪平台自身属性信息，反馈最恰当回复的语音内容给到用户。以此来实现准确、细致的人机语音交互。

本实施例的一种语音交互方法，通过对不同的语音识别库设置对应的唤醒语，根据识别判断唤醒语来激活对应的语音识别库，进行语音识别，并根据语音识别结果，作出相应的反馈，实现用户与烹饪平台基于多种不同语言的语音交互，方便用户操作烹饪平台。借助唤醒语激活不同的语音识别库，使得自动烹饪平台的家庭使用中，不会出现部分使用者不会某一种语言而导致无法操作自动烹饪平台的尴尬。特别是对于年长的使用者而言，可能由于其母语是地方方言，而自身又没有掌握其他语言。那么此时如果烹饪平台是只识别普通话的话，就会影响这部分使用者的使用。而通过唤醒语激活不同的语音识别库，解决了使用者与烹饪平台语音交互上的障碍，进一步使得智能烹饪平台更加智能化、自动化，在方便用户操作控制的同时使得自动烹饪平台受众面更加的广，方便更多的人使用自动烹饪平台。

实施例二：

实施例二提供了一种语音交互系统，包括唤醒语识别模块、语音识别模块及反馈模块；该唤醒语识别模块用于，获取唤醒语语音信号，识别判断唤醒语所对应的语音识别库，激活对应的语音识别库；该语音识别模块用于获取用户语音信号，提取信号特征信息，根据对应的语音识别库比对信号特征信息，输出语音识别结果；该反馈模块用于根据语音识别结果做出反馈，执行烹饪平台相应控制操作或根据交互场景库反馈对应的语音内容。本实施例的语音交互系统，在运行时具体实现如实施例一所述的语音交互方法。其通过对不同的语音识别库设置对应的唤醒语，根据识别判断唤醒语来激活对应的语音识别库，进行语音识别，并根据语音识别结果，作出相应的反馈，实现用户与烹饪平台基于多种不同语言的语音交互，方便用户操作烹饪平台。借助唤醒语激活不同的语音识别库，使得自动烹饪平台的家庭使用中，不会出现部分使用者不会某一种语言而导致无法操作自动烹饪平台的尴尬。特别是对于年长的使用者而言，可能由于其母语是地方方言，而自身又没有掌握其他语言。那么此时如果烹饪平台是只识别普通话的话，就会影响这部分使用者的使用。而通过唤醒语激活不同的语音识别库，解决了使用者与烹饪平台语音交互上的障碍，进一步使得智能烹饪平台更加智能化、自动化，在方便用户操作控制的同时使得自动烹饪平台受众面更加的广，方便更多的人使用自动烹饪平台。

实施例三：

实施例三公开了一种电子设备，该电子设备包括处理器、存储器以及程序，其中处理器和存储器均可采用一个或多个，程序被存储在存储器中，并且被配置成由处理器执行，处理器执行该程序时，实现实施例一的语音交互方法，该电子设备可以是烹饪平台用户终端机、电脑、人机交互终端等等一系列的电子设备。本发明的一种基于语音交互方法电子设备，通过对不同的语音识别库设置对应的唤醒语，根据识别判断唤醒语来激活对应的语音识别库，进行语音识别，并根据语音识别结果，作出相应的反馈，实现用户与烹饪平台基于多种不同语言的语音交互，方便用户操作烹饪平台。

实施例四：

实施例四公开了一种可读的计算机存储介质，该存储介质用于存储程序，并且该程序被处理器执行时，实现实施例一的语音交互方法。本发明的一种基于语音交互方法的存储介质，通过对不同的语音识别库设置对应的唤醒语，根据识别判断唤醒语来激活对应的语音识别库，进行语音识别，并根据语音识别结果，作出相应的反馈，实现用户与烹饪平台基于多种不同语言的语音交互，方便用户操作烹饪平台。

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：傅峰峰
技术所有人：广州富港万嘉智能科技有限公司
我是此专利的发明人

上一篇：过闸检测系统的制作方法
上一篇：一种基于预装药的光面精细爆破技术的制作方法