智能音箱、多语音助手控制方法以及智能家居系统与流程

文档序号：21789108发布日期：2020-08-07 20:40阅读：645来源：国知局

本发明涉及人工智能领域，具体涉及一种智能音箱、多语音助手控制方法以及智能家居系统。

背景技术：

随着物联网技术的蓬勃发展，智能家居逐渐走进大众的视野里。其中，智能音箱因人机交互、语音控制、娱乐游戏、资讯播报等多方面优势，受到大家的喜爱。在世界信息产业第三次浪潮的推动下，许多公司参与到智能音箱的大市场里，开发出各种各样的智能音箱，丰富了人们的智能生活。

目前大多数品牌的智能音箱仍然存在局限性，没有从细节方面考虑更人性化的需求，存在以下问题：

首先，仅支持单语言或支持多语言切换，但需提前设定并只能以当前语言去唤醒智能音箱。当家里有使用不同种类语言的人时，不能获得很好的用户体验。

其次，智能音箱的物理控制键一般都是音量加减键、静音键、唤醒键等，没有一个能控制智能家居设备的按键。当用户无法使用app或语音去控制智能家居设备时，不能选择其他控制方式，失去了对设备的管理能力。

技术实现要素：

本发明的目的是提供一种智能音箱、多语音助手控制方法以及智能家居系统，以解决上述现有技术中存在的问题。

为了解决上述问题，根据本发明的一个方面，提供了一种智能音箱，其特征在于，所述智能音箱包括语音输入模块、语种识别模块和至少两个语音助手，所述语种识别模块从所述语音输入模块接收语音信息并根据所述语音信息判断语种类别并激活对应该语种类别的语音助手。

在一个实施例中，所述语种识别模块设置成通过收集多个国家对于同一个唤醒词的发音，然后将这些音频按照不同的国家进行分类，并训练出区分语种的分类器，以实现语种识别。

在一个实施例中，所述语音助手包括声纹识别模块，所述声纹识别模块用于在用户使用特定功能时，对用户进行声纹认证。

在一个实施例中，所述智能音箱设有一键控制键，所述一键控制键与一个或多个智能家居设备关联，以一键控制与该一键控制键关联的家居设备。

在一个实施例中，所述智能音箱还包括无线通讯模块、移动通讯模块和控制模块，所述无线通讯模块和移动通讯模块与所述控制模块信号连接并交互。

在一个实施例中，所述智能音箱还包括扬声器、音量升高控制键和音量降低控制键，所述音量升高控制键和音量降低控制键与扬声器连接以控制扬声器的音量，以及所述音量升高控制键和音量降低控制键还分别与所述无线通讯模块和移动通讯模块关联并控制所述无线通讯模块和移动通讯模块的开启和关闭。

在一个实施例中，所述智能音箱还包括电路板，所述无线通讯模块、移动通讯模块和控制模块集成在所述电路板上。

在一个实施例中，所述音箱包括底座，所述移动通讯模块设置于所述底座上，所述智能音箱通过配置wifi连接到所述移动通讯模块上。

在一个实施例中，所述声纹识别模块执行以下步骤：

所述声纹识别模块输入语音信息；

声纹识别模型根据语音信息打分；

声纹识别模型将所得的分数与阈值进行比较，如果得分高于阈值，授权用户操作权限，如果低于阈值，判禁止当前用户进行操作。

在一个实施例中，所述语音助手包括英语语音助手、法语语音助手和汉语语音助手。

根据本发明的另一方面，提供了一种多语音助手控制方法，所述方法应用于集成多个语音助手、语音输入模块和语种识别模块的电子设备，所述方法步骤包括：

步骤一、通过所述语音输入模块输入语音；

步骤二、所述语种识别模块从所述语音输入模块接收语音信息并根据该语音信息判断语种类别，以及根据该语种类别激活对应该语种类别的语音助手。

在一个实施例中，所述语音助手包括声纹识别模块，以及所述步骤二包括以下步骤：

所述语音助手输入外部指令；

所述语音助手判断所述外部指令是否包含特定功能的关键词，如果是，则启动声纹识别模块，否则执行指令功能。

在一个实施例中，所述声纹识别模块执行以下步骤：

所述声纹识别模块输入语音信息；

所述声纹识别模块根据语音信息打分；

所述声纹识别模块将所得的分数与阈值进行比较，如果得分高于阈值，授权用户操作权限，如果得分低于阈值，禁止当前用户进行当前操作。

根据本发明的另一方面，提供了一种智能家居系统，所述智能家居系统包括上述的智能音箱、智能家居服务器以及至少一个智能家居设备，所述智能音箱与所述智能家居服务器联通，所述智能家居服务器与所述至少一个智能家居设备联通，从而可以通过所述智能音箱控制所述智能家居设备。

在一个实施例中，所述智能家居设备包括智能开关、智能灯和/或智能窗帘。

本发明具有以下有益效果：

第一、用户可以与智能音箱使用多语言交互，通过app选择任意两种语言同时使用音箱，包括使用不同语言唤醒音箱，与音箱对话，通过音箱去控制智能家居设备等；

第二、通过音箱上的一键控制按键，能够一键控制智能家居设备。

附图说明

图1是本发明一实施例的智能音箱的主视图。

图2是图1的智能音箱的俯视图。

图3是图2的智能音箱沿a-a线剖开的剖视图。

图4是本发明一实施例的无线通讯模块的控制框图。

图5是本发明一实施例的移动通讯模块的控制框图。

图6是本发明一实施例的智能音箱的控制系统的示意框图。

图7是图6的控制系统的运行框图。

图8是包含声纹识别模块的语音助手的运行框图。

图9是本发明一实施例的声纹识别模块的运行框图。

具体实施方式

以下将结合附图对本发明的较佳实施例进行详细说明，以便更清楚理解本发明的目的、特点和优点。应理解的是，附图所示的实施例并不是对本发明范围的限制，而只是为了说明本发明技术方案的实质精神。

在下文的描述中，出于说明各种公开的实施例的目的阐述了某些具体细节以提供对各种公开实施例的透彻理解。但是，相关领域技术人员将认识到可在无这些具体细节中的一个或多个细节的情况下来实践实施例。在其它情形下，与本申请相关联的熟知的装置、结构和技术可能并未详细地示出或描述从而避免不必要地混淆实施例的描述。

在整个说明书中对“一个实施例”或“一实施例”的提及表示结合实施例所描述的特定特点、结构或特征包括于至少一个实施例中。因此，在整个说明书的各个位置“在一个实施例中”或“在一实施例”中的出现无需全都指相同实施例。另外，特定特点、结构或特征可在一个或多个实施例中以任何方式组合。

在以下描述中，为了清楚展示本发明的结构及工作方式，将借助诸多方向性词语进行描述，但是应当将“前”、“后”、“左”、“右”、“外”、“内”、“向外”、“向内”、“上”、“下”等词语理解为方便用语，而不应当理解为限定性词语。

本发明包含的主要创新点：

第二、通过音箱上的一键控制按键，能够一键控制智能家居设备。

为了实现上述目的，根据本发明的一个方面，采用多语言交互使用的技术方案，即在智能音箱上，同时运行多个自然语言处理(nlp)模块。根据唤醒词的不同，选择启用不同的nlp模块。比如，用户说出唤醒词“你好树实”，这时候中文nlp模块被激活，后面用户与智能音箱的交互都是被中文nlp模块所处理。用户的语音数据相继被该模块的云端自动语音识别技术(asr)和自然语言理解技术(nlu)所处理，以及提供智能家居物联网服务。如果用户使用其他语言的唤醒词，比如“alexa”，其他语言的处理模块被激活，然后语音数据被相应处理模块所处理。

为了实现上述目的，根据本发明的另一方面，提供了一种智能音箱，该智能音箱包括语音输入模块、语种识别模块和至少两个语音助手，该语种识别模块从语音输入模块接收语音信息并根据该语音信息判断语种类别并激活对应该语种类别的语音助手。

下面参照附图对本发明的具体实施例进行描述。图1是智能音箱100的主视图，图2是图1的智能音箱100的俯视图，图3是沿图2的a-a线剖开的剖视图。如图1-3所示，智能音箱100整体上包括音箱壳体10，音箱壳体10内设有电路板20和扬声器30。壳体10的上表面的中部还设有一键控制键15，环绕一键控制键15设有麦克风键11、音量降低键12、激活键13以及音箱升高键14。虽然本实施例中的各个功能按键如此设置，然而本领域的技术人员应该理解，各功能按键的位置也可以互相调整、更换或设置于壳体上的其他位置。

麦克风键11用于控制麦克风的开启和关闭，音量键12和13用于控制扬声器30的音高，一键控制键15与各种智能家居设备关联，例如智能开关、智能窗帘等，从而通过一键控制键15可以一键开启或关闭这些智能家居设备。

电路板20上设有无线通讯模块、控制模块(cpu)以及移动通讯模块，无线通讯模块和移动通讯模块与控制模块信号连接并进行交互，并与音量键12和13(例如音量升高控制键或音量降低控制键)关联，从而通过音量键12和13可以分别控制无线通讯模块和移动通讯模块的开启和关闭。

在本发明的另一个实施方式中，移动通讯模块也可以不集成到电路板上，而是通过在智能音箱的底部设置底座，通过直接将移动通讯模块设置于该底座内，移动通讯模块可以用作wifi热点，此时，底座是一个随身wifi，通过在手机app上设置随身wifi的账号密码，给智能音箱配置wifi连接到配套的随身wifi上。

本发明的技术人员可以理解，上述移动通讯模块可以利用3g模块、4g模块和/和5g模块等来实现。

下面介绍集成到电路板上的移动通讯模块和无线通讯模块的一种控制方式。本领域的技术人员可以理解，移动通讯模块和无线通讯模块也可以有别的控制方式，此控制方式仅仅是一种示例。

图4是本发明的无线通讯模块的控制框图。如图4所示：

步骤600中，长按音量升高键一定时间，开始运行；

随后进入步骤601：判断当前无线通讯模块是否开启？如果当前无线通讯模块未开启，则进入步骤602，打开无线通讯模块；如果当前无线通讯模块开启，则进入步骤603，关闭无线通讯模块。

图5是本发明的移动通讯模块的控制框图。如图5所示：

步骤700中，长按音量降低键一定时间，开始运行；

随后进入步骤701：判断当前移动通讯模块是否开启？如果当前移动通讯模块开启，则进入步骤703，关闭移动通讯模块；如果当前移动通讯模块未开启，则进入步骤702，打开移动通讯模块。

本发明的智能音箱能够自由切换无线通讯信号和移动通讯信号。如果无线通讯信号和移动通讯信号同时开启，默认首先使用无线通讯，例如wifi，如果无线通讯信号，例如wifi网络不通，使用移动通讯信号，例如4g网络。具体地。如果音箱只有无线通讯网络，例如wifi网络，智能音箱就通过无线通讯网络，例如wifi联网；如果音箱只有移动通讯网络，例如4g网络，智能音箱就通过移动通讯网络，例如4g联网；如果音箱同时有移动通讯网络和无线通讯网络，例如4g和wifi网络，智能音箱优先使用无线通讯网络，例如wifi网络。

需要说明的是，本发明的无线通讯模块可以使用诸如wifi模块的方式来实现，移动通讯模块可以利用例如5g模块、4g模块和3g模块等来实现。

图6是本发明一实施例的智能音箱的控制系统100a的示意框图。下面结合图6介绍本发明的智能音箱的控制系统100a。如图6所示，控制系统100a包括语音输入模块21、语种识别模块22以及多个语音助手，多个语音助手诸如可以为语音助手23、语音助手24以及语音助手25。语音输入模块21用于接收语音输入，语种识别模块22接受语音输入模块21传来的语音信息并根据该语音信息确定语种类别，然后再根据确定的语种类别选择与该语种对应的语音助手。

图7示出控制系统100a的运行框图。如图7所示：

步骤500中：通过语音输入模块(例如麦克风)输入语音信息；

此后进入步骤501：语种识别模块采集语音输入模块的语音信息：

此后进入步骤502：语种识别模块识别语种类别：

此后进入步骤503：根据步骤502中识别的语种类别选择对应该语种的语音助手。

例如，当使用者通过语音输入模块21输入单词“alexa”，由于不同语种的发音习惯，法语念“alexa”和德语念“alexa”会有不同的发音习惯，语种识别模块22接收到语音输入模块21传来的语音信息，判断出语种类别，例如为法语或德语，然后选择相应的法语语音助手或德语语音助手。这与普通智能音箱仅仅只能通过不同唤醒词切换到不同的语音助手存在本质区别，可以解决通过同一个唤醒词来唤醒智能音箱，并自动切换到相应语种的语音助手，方便不同语种的人使用。例如，在一个多语种家庭中，不同语种的人都可以与该智能音箱实现对话，并进一步利用语音信息通过智能音箱100控制家中的其他智能设备，例如智能开关、智能窗帘等，下文还会进一步详细描述。

下面介绍语种识别模块22的实现方法。首先收集各个国家的对于同一个唤醒词的发音，按照不同的国家，将这些音频进行分类，训练一个区分语种的分类器，从而得到语种识别模型，语种识别模块22即可以通过该语种识别模型来实现语种识别。

本实施方式对应一种情景如下：

将思必驰语音助手和亚马逊语音助手集成并应用于智能音箱100中，并将思必驰语音助手和亚马逊语音助手的唤醒词都设置成“alexa”。

说汉语的用户首先对电子设备发出“alexa”，思必驰语音助手被唤醒(亚马逊语音助手保持监听)，然后用户继续发出“今天上海天气”指令，思必驰语音助手将该指令通过网络上传至云端服务器，云端服务器根据该指令进行处理并将结果(可以是语音包)发回给思必驰语音助手，思必驰语音助手将该处理的结果进行响应(发出“今天上海天气多云，25°”)。

之后英语用户对电子设备发出“alexa”，然后亚马逊语音助手被唤醒(思必驰语音助手中断之前的音频/响应进程)，然后用户继续发出“what’stheweatherofshanghaitoday”指令，亚马逊语音助手将该指令通过网络上传至云端服务器，云端服务器根据该指令进行处理并将结果(可以是语音包)发回给亚马逊语音助手，亚马逊语音助手将该处理的结果进行响应(发出“todaytheweatherofshanghaiiscloudy”)。

采用上述方法，当一个家庭中有多种语种的成员时，不同语种的成员都可以通过同一个唤醒词唤醒音箱，并根据自身语言习惯选择习惯的语言来与音箱进行对话。

根据本发明的另一个实施例，各个语音助手中还包括声纹识别模块，以限定特定功能(例如支付功能)只能由特定用户使用，图8示出包含声纹识别模块的语音助手的运行框图。如图8所示：

在步骤200中，通过麦克风阵列采集外部输入的指令。

此后进入步骤201：通过语音助手获取外部指令。

此后进入步骤202：语音助手输入所述外部指令。

此后进入步骤203：语音助手判断外部指令是否包括设计特殊功能的关键词(例如支付、购买等)，如果是，则执行步骤204：启动声纹识别模块，否则执行步骤206：执行指令功能。

执行步骤204后，进入步骤205：判断是否是特定用户？如果是，则执行步骤206：执行指令功能，否则返回步骤200：通过麦克风阵列采集外部输入的指令。

本实施方式中，麦克风阵列可以采用多种形式：线形、环形和球形，例如：2麦克风阵列、6+1麦克风阵列和8+1麦克风阵列，拾音距离远、噪声抑制佳、采集效果更好。

下面结合图9说明步骤205的实现方法，步骤205包括图9所示的步骤，图9是声纹识别模块的运行框图。如图9所示：

在步骤300中，声纹识别模块输入语音信息。

此后进入步骤301：声纹识别模型根据语音信息打分。

此后进入步骤302：声纹识别模型将步骤301中所得的分数与阈值进行比较。

此后进入步骤303：对步骤302中的比较结果进行判断，如果得分高于阈值，则进入步骤304，如果得分低于阈值，则进入步骤305。

根据本发明的另一个实施方式，还涉及一种智能家居系统，该智能家居系统上述的智能音箱、智能家居服务器以及至少一个智能家居设备，智能音箱与智能家居服务器联通，智能家居服务器与至少一个智能家居设备联通，从而可以通过智能音箱控制智能家居设备。该智能家居设备可以包括智能开关、智能灯、智能窗帘等。

在一个实施例中，可以通过两种语言对智能设备进行交叉控制，比如家庭成语中的甲成员是母语为英语的人，乙成员是母语为汉语的人，甲成员通过英语与智能音箱对话，并通过英语发出指令开启智能家居设备(诸如打开智能开关)，然后乙成员可以通过汉语与智能音箱对话，并通过汉语发出指令关闭该智能家居设备(诸如关闭该智能开关)，从而实现两种语言对智能设备的交叉控制。可以看出，通过本发明的智能家居系统，非常适用于多语种家庭成员，同一个唤醒词就就可以唤醒智能音箱，并实现两种以上语言对智能设备的交叉控制。

在一个实施例中，智能音箱设有一键控制按键，该一键控制键与一个或多个智能家居设备关联，从而通过该一键控制键可以控制与该一键控制键关联的智能家居设备。

本发明的各方法实施方式均可以以软件、硬件、固件等方式实现。不管本发明是以软件、硬件、还是固件方式实现，指令代码都可以存储在任何类型的计算机可访问的存储器中(例如永久的或者可修改的，易失性的或者非易失性的，固态的或者非固态的，固定的或者可更换的介质等等)。同样，存储器可以例如是可编程阵列逻辑(programmablearraylogic，简称“pal”)、随机存取存储器(randomaccessmemory，简称“ram”)、可编程只读存储器(programmablereadonlymemory，简称“prom”)、只读存储器(read-onlymemory，简称“rom”)、电可擦除可编程只读存储器(electricallyerasableprogrammablerom，简称“eeprom”)、磁盘、光盘、数字通用光盘(digitalversatiledisc，简称“dvd”)等等。

需要说明的是，本发明各设备实施方式中提到的各模块都是逻辑模块，在物理上，一个逻辑模块可以是一个物理模块，也可以是一个物理模块的一部分，还可以以多个物理模块的组合实现，这些逻辑模块本身的物理实现方式并不是最重要的，这些逻辑模块所实现的功能的组合才是解决本发明所提出的技术问题的关键。此外，为了突出本发明的创新部分，本发明上述各设备实施方式并没有将与解决本发明所提出的技术问题关系不太密切的模块引入，这并不表明上述设备实施方式并不存在其它的模块。

需要说明的是，在本专利的说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上已详细描述了本发明的较佳实施例，但应理解到，在阅读了本发明的上述讲授内容之后，本领域技术人员可以对本发明作各种改动或修改。这些等价形式同样落于本申请所附权利要求书所限定的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：董学章
技术所有人：江苏树实科技有限公司
我是此专利的发明人

上一篇：一种碳刷双穿管点焊方法及其装置与流程
上一篇：轨道碰撞台车的制作方法