语音辅助设备和方法与流程

文档序号：21789103发布日期：2020-08-07 20:40阅读：288来源：国知局

本发明的技术领域是语音辅助。本发明涉及语音辅助设备和方法。

背景技术：

语音辅助设备或语音助手传统上以以下方式工作：麦克风捕获信号形式的环境并将该信号发射到用于检测唤醒词的单元。唤醒词后续的信号被认为是用户的请求。在检测到唤醒词的情况下，检测单元将源自麦克风的信号路由到分析单元，该分析单元对其进行处理，以便解释其所包含的请求并生成对所述请求的响应信号。然后，分析单元将响应信号发射到扬声器，扬声器将其进行广播。用户因此获得对其请求的响应。

已知语音助手的缺点在于，它们不能区分直接源自人类用户的信号和源自录音的信号。例如如果麦克风捕获源自电视或广播设备的录音，并且当记者在播出中说出唤醒词时，语音助手将把随后的内容解释为请求，并将尽力对此做出响应。对于用户而言，这种故障是令人不愉快的，甚至是有害的：例如，语音助手将回应用户并未提出的问题或者甚至不恰当地命令对象。

用于消除声音回声的已知技术将使得可以从语音助手的麦克风捕获的信号中删除源自诸如电视或收音机之类的外部音频源的扬声器的信号。然而，该技术需要复杂的信号处理模块，并且为了高效，特别需要精确地知道语音助手的麦克风和外部音频源的扬声器之间的距离。除了其复杂性和由此造成的成本之外，该解决方案的缺点还在于，语音助手的麦克风必须与外部音频源保持固定的距离。

波束形成的另一种已知技术将使得可以定位外部音频源并识别其相对于麦克风的方向，以便忽略源自该方向的任何信号。该技术的一个缺点是完全拒绝了可用空间的区域：使用此技术，位于其电视和其语音助手之间的用户将被语音助手忽略。

技术实现要素：

通过提出一种语音助手，本发明提供了一种针对上述问题的解决方案，该语音助手使得可以将直接源自人类用户的信号与源自外部音频源的录音的信号区分开，而对语音助手与录音源之间的距离或者用户相对于语音助手和录音源的位置没有任何限制。

本发明的第一方面涉及一种语音辅助设备，包括：

-麦克风，和

-用于检测唤醒词的单元，

麦克风被配置为捕获第一信号形式的声音环境并将第一信号发射到检测单元；检测单元被配置为在检测到第一信号中的唤醒词的情况下将所述第一信号路由到分析单元；所述分析单元被配置为处理第一信号并生成输出信号；检测单元包括：

-第一模块，被配置为从麦克风接收第一信号并检测所述第一信号中的唤醒词，

-第二模块，被配置为从至少一个外部音频源接收第二信号并检测所述第二信号中的唤醒词，以及

-控制模块，被配置为当唤醒词仅被检测单元的第一模块检测到时，将第一信号路由到分析单元。

本发明的第二方面涉及一种语音辅助方法，包括以下步骤：

-麦克风捕获第一信号形式的声音环境，并将第一信号发射到检测单元，该检测单元包括：

o第一模块，用于检测第一信号中的唤醒词，

o第二模块，用于检测由至少一个外部音频源发射的第二信号中的唤醒词，以及

o控制模块；

-当唤醒词仅被检测单元的第一模块检测到时，控制模块将第一信号路由到分析单元；

-分析单元处理由控制模块发射的第一信号并生成输出信号。

由于本发明，检测单元经由第一模块在来自麦克风的第一信号中以及经由第二模块在来自至少一个外部音频源的第二信号二者中检测唤醒词。在检测到唤醒词的情况下，检测单元根据第一检测模块和第二检测模块的活动经由其控制模块将第一信号路由到分析单元：

-如果唤醒词仅被第一模块检测到，则控制模块将第一信号路由到分析单元；

-如果唤醒词仅被第二模块检测到或者被第一模块和第二模块都检测到，则控制模块不将第一信号路由到分析单元。

检测单元借助其第一检测模块和第二检测模块将第一信号与第二信号区分开；检测单元借助其控制模块，根据第一模块和第二模块的活动来适配第一信号的路由。因此，根据本发明的第一方面的语音辅助设备和根据本发明的第二方面的语音辅助方法仅处理第一信号，而对麦克风相对于用户或外部音频源的位置没有任何限制。

除了在前面的段落中已经提及的特征之外，根据本发明的第一方面的语音辅助设备和根据本发明的第二方面的语音辅助方法可以具有以下之中的一个或多个补充特征，这些特征可以被单独考虑或根据任何技术上可能的组合而被考虑。

语音辅助设备包括输出接口，该输出接口被配置为根据由分析单元生成的输出信号而被激活，该输出接口优选地包括指示灯和/或屏幕和/或扩音扬声器。输出接口有利地使得可以向已经发送请求的语音辅助设备的用户通知该请求的处理状态。

分析单元优选地解释第一信号中的两种类型的请求：

-作为问题的第一类型的请求：在这种情况下，分析单元生成第一类型的输出信号；

-作为外部装备的命令的第二类型的请求：在这种情况下，分析单元生成第二类型的输出信号。

语音辅助设备的输出接口有利地包括：

-被配置为由第一类型的输出信号激活的屏幕和/或扩音扬声器；

-被配置为由第二类型的输出信号激活的指示灯。

因此，输出接口有利地使得可以根据请求类型以合适的方式通知已经发送了请求的用户。

根据一个优选实施例：

-第一模块在其检测到第一信号中的唤醒词时激活第一逻辑事件；

-第二模块在其检测到第二信号中的唤醒词时激活第二逻辑事件；

-控制模块具有：

o第一逻辑状态，在其中控制模块不将第一信号路由到分析单元，以及o第二逻辑状态，在其中控制模块将第一信号路由到分析单元；

-控制模块默认处于其第一逻辑状态，以及

-当第一逻辑事件被激活而第二逻辑事件未被激活时，控制模块切换到其第二逻辑状态。

有利地，该优选实施例使得可以仅当达到肯定条件时才将第一信号路由到分析单元，肯定条件即：第一逻辑事件被激活而第二逻辑事件未被激活。因此有利于设备的鲁棒性，同时保证第一信号将不被错误地路由到分析单元。

根据优选实施例，每个第二逻辑事件有利地保持被激活预定的时间延迟，该时间延迟优选地在0.1秒与1秒之间。因此，考虑了在第二模块检测到第二信号中唤醒词的发生与第一模块检测到第一信号中唤醒词的这种相同发生之间可能发生的时间延迟，例如由于：

-在外部音频源实际广播来自第二信号的声波之前，第二信号在外部音频源内的传输时间；

-声波在外部音频源和麦克风之间的传播时间；

-麦克风对声波的处理时间，然后由第一检测模块对第一信号的处理时间。

在唤醒词的发生是在被麦克风捕获之前源自外部音频源的情况下，允许针对该唤醒词的这种发生的第二逻辑事件的激活持续直到针对唤醒词的这种相同发生的第一逻辑事件的激活。

根据优选实施例，已经切换到其第二逻辑状态的控制模块在以下情况下切换回其第一逻辑状态：

-在第一信号的处理结束时根据分析单元的命令来切换，或者

-在预定义的时间延迟之后自动地切换，该时间延迟优选地在0.5秒与5秒之间，更优选地在0.5秒与3秒之间。

本发明的第三方面涉及一种数字电视解码器，其包括根据本发明的第一方面的语音辅助设备。

本发明的第四方面涉及一种包括指令的计算机程序产品，当程序由计算机执行时，所述指令使所述计算机实现根据本发明的第二方面的语音辅助方法的步骤。

本发明的第五方面涉及一种计算机可读记录载体，在其上记录了根据本发明的第四方面的计算机程序产品。

通过阅读以下描述并通过查看随附的附图，将更好地理解本发明及其应用。

附图说明

附图仅出于参考的目的而呈现，并且不以任何方式限制本发明。

-图1示出了根据本发明的第一方面的语音辅助设备的示意表示。

-图2示出了根据本发明的第二方面的语音辅助方法的步骤的示意图。

具体实施方式

除非另有说明，否则出现在不同附图中的相同元素具有单个参考标记。

图1示意性地表示了根据本发明的第一方面的语音辅助设备100。语音辅助设备100包括：

-麦克风m，和

-用于检测唤醒词的单元ude。

优选地，语音辅助设备100还包括输出接口ints。输出接口ints优选地包括：

-指示灯，和/或

-屏幕，和/或

-扩音扬声器。

麦克风m被配置为捕获第一信号sigm形式的声音环境。麦克风m可以是模拟的，在这种情况下它产生第一模拟信号sigm，或者它可以是数字的，在这种情况下它产生第一数字信号sigm。如果麦克风m是模拟的，则语音辅助设备100优选地还包括布置在模拟麦克风m和检测单元ude之间的模拟数字转换器，以便将第一模拟信号sigm转换为第一数字信号sigm。

检测单元ude包括：

-第一模块md1，

-第二模块md2，以及

-控制模块k。

第一模块md1被配置为从麦克风m接收优选为数字的第一信号sigm，并检测所述第一信号sigm中的唤醒词。根据优选实施例，第一模块md1在其检测到唤醒词时激活第一逻辑事件ev1。

第二模块md2被配置为从至少一个外部音频源sax接收优选为数字的第二信号sigx，并检测所述第二信号sigx中的唤醒词。根据优选实施例，第二模块md2在其检测到唤醒词时激活第二逻辑事件ev2。图1表示单个外部音频源sax，但是第二模块md2可以有利地从多个外部音频源sax接收多个第二信号sigx。外部音频源sax的示例是：电视、收音机、电话、个人计算机。每个外部音频源sax优选是数字装备；在相反的情况下，语音辅助设备100优选地还包括布置在模拟装备的(一个或多个)项目与检测单元ude之间的模拟数字转换器，以便将每个第二模拟信号sigx转换为第二数字信号sigx。

控制模块k被配置为当唤醒词仅被第一模块md1检测到时，将第一信号sigm路由到分析单元uan。根据优选实施例，控制模块k具有：

-第一逻辑状态，在其中控制模块k不将第一信号sigm路由到分析单元uan，以及

-第二逻辑状态，在其中控制模块k将第一信号sigm路由到分析单元uan。

仍然根据优选实施例，控制模块k在默认情况下处于其第一逻辑状态，并且在第一逻辑事件ev1被激活而第二逻辑事件ev2未被激活时切换到其第二逻辑状态。具体而言，图1示意性地示出了控制模块k通过开关in所命令的路由功能：

-当控制模块k处于其第一逻辑状态时，其保持开关in打开，以便不将第一信号sigm路由到分析单元uan；

-当控制模块k处于其第二逻辑状态时，其闭合开关in，以便将第一信号sigm路由到分析单元uan。

第一信号sigm和第二信号sigx是由图1中的双箭头表示的音频信号。第一逻辑事件ev1、第二逻辑事件ev2和控制模块k的输出处的命令信号是由图1中的单箭头表示的逻辑信号。

分析单元uan通常被托管在计算机基础结构中，该计算机基础结构包括例如一个或多个可远程访问的服务器，也被称为“计算云”或简称为“云”。因此，分析单元uan通常不与语音辅助设备100物理上位于同一位置。在接收到第一信号sigm时，分析单元uan对其进行处理，以便生成合适的输出信号sigs。分析单元uan通常实施nlu(自然语言理解)技术以便处理其接收的每个第一信号sigm。

用户通常可以发射两种类型的请求：

-作为问题的第一类型的请求，针对信息的请求；

-作为外部装备的命令的第二类型的请求。

由分析单元uan生成的输出信号sigs有利地适合于由分析单元uan解释的请求类型，并且输出接口ints继而又有利地适合于输出信号sigs。

外部装备例如是家庭自动化装备，诸如恒温器、照明设备、卷帘门：命令然后例如是温度或光度的调节(开灯或关灯，打开或关闭卷帘门)。外部装备也可以是智能电话，以便命令拨打电话、发送消息或将事件添加到个人议程等等。通常来说，任何适合与其环境连接(也即是说与其环境通信的)的装备项目可以通过分析单元uan的输出信号sigs而被命令。

如果分析单元uan将接收到的第一信号sigm解释为第一类型的请求，则分析单元uan优选地生成第一类型的输出信号sigs，其在输出接口ints的屏幕上显示所需的信息和/或经由输出接口ints的扩音扬声器广播所需的信息。如果分析单元uan将接收到的第一信号解释为第二类型的请求，则分析单元uan优选地生成第二类型的输出信号sigs，其命令所期望的外部装备并激活输出接口ints的指示灯。

检测单元ude可以特别被集成在数字电视解码器内。麦克风m可以与检测单元ude集成在一起，因此如果需要的话可以在数字电视解码器之内。可替代地，麦克风m和检测单元ude可以形成能够相对于彼此移位的两个物理上分立的部分。在同一物理块内，输出接口ints优选地与麦克风m集成在一起。

图2示出了根据本发明的第二方面的语音辅助方法100的步骤的示意图：

-根据第一步骤101，麦克风m捕获第一信号sigm形式的声音环境；

-根据第二步骤102，麦克风m将第一信号sigm发射到检测单元ude；

-根据第三步骤103，当唤醒词仅被检测单元ude的第一模块md1检测到时，检测单元ude的控制模块k将第一信号sigm路由到分析单元uan；

-根据第四步骤104，分析单元uan处理由控制模块k发射的第一信号sigm，并生成输出信号sigs。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吉勒·布古安
技术所有人：萨基姆宽带简易股份有限公司
我是此专利的发明人

上一篇：一种接地涨圈成型装置的制作方法
上一篇：一种医院麻醉治疗管理系统的制作方法