语音识别设备和方法与流程

文档序号:21733147发布日期:2020-08-05 01:28阅读:383来源:国知局
语音识别设备和方法与流程

本公开涉及一种语音识别设备和方法。

本公开还涉及利用诸如深度学习的机器学习算法的人工智能(ai)系统及其应用。



背景技术:

人工智能(ai)系统是实现人类水平的智能的计算机系统。与现有的基于规则的智能系统不同,ai是其中机器学习、判断和变得智能的系统。ai系统越来越被人们所认识,并正随着它们被使用而提高它们对用户偏好的理解,并且现有的基于规则的智能系统正逐渐被基于深度学习的ai系统所取代。

ai技术包括机器学习(深度学习)和利用机器学习的元素技术。

机器学习是自己对输入数据的特征进行分类/学习的算法技术。元素技术是利用机器学习算法(诸如深度学习)的技术,并且包括诸如语言理解、视觉理解、推理/预测、知识表示和运动控制的技术领域。

应用ai技术的各个领域如下。语言理解是用于识别、应用和处理人类语言/字符的技术,并且包括自然语言处理、机器翻译、对话系统、查询响应、话音识别/合成等。视觉理解是用于将对象识别和处理为人类视觉的技术,并且包括对象识别、对象跟踪、图像搜索、人类识别、场景理解、空间理解、图像增强等。推理/预测是用于判断以及逻辑地推断和预测信息的技术,并且包括基于知识/概率的推理、优化预测、基于偏好的规划、和推荐。知识表示是用于将人类经验信息自动化为知识数据的技术,并且包括知识构建(数据生成/分类)和知识管理(数据利用)。运动控制是用于控制车辆自主行驶和机器人运动的技术,并且包括运动控制(导航、碰撞、行驶)、操作控制(行为控制)等。

最近,在语音识别领域,已经要求研究一种语音识别设备,该设备从用户的话音命令中掌握用户的意图并向用户提供期望的服务。



技术实现要素:

技术问题

提供的是一种语音识别设备和方法。提供的是其上记录有程序的计算机可读记录介质,该程序当被计算机执行时,执行上述方法。本公开的技术目标不限于此,并且可以存在其他技术目标。

问题的解决方案

根据本公开的一方面,语音识别设备包括麦克风和处理器,该处理器被配置为通过麦克风接收话音信号,通过使用基于神经网络的数据识别模型分析话音信号来生成话音特征数据,基于话音特征数据来确定话音信号是从用户发出的话音还是从外部设备输出的话音,以及当话音信号被确定为用户发出的话音时,将话音信号确定为用户的话音命令,并执行对应于该话音命令的操作。

附图说明

图1是示出根据实施例的操作语音识别设备的示例的图。

图2是示出根据实施例的操作语音识别设备的方法的流程图。

图3a是示出根据实施例的检测话音信号的示例的流程图。

图3b是示出根据实施例的检测话音信号的示例的图。

图4a是示出根据实施例的区分用户的话音和外部设备的话音的示例的流程图。

图4b是示出根据实施例的由语音识别设备过滤外部设备的话音的示例的图。

图4c是示出根据实施例的区分用户的发出的话音和用户的记录的话音的再现的示例的图。

图5是示出根据实施例的生成话音特征数据的示例的流程图。

图6是示出根据实施例的生成话音特征数据的示例的图。

图7是示出根据另一实施例的生成话音特征数据的示例的流程图。

图8是示出根据另一实施例的生成话音特征数据的示例的图。

图9是示出根据另一实施例的生成话音特征数据的示例的流程图。

图10是示出根据另一实施例的生成话音特征数据的示例的图。

图11是示出根据实施例的通过使用外围图像来区分用户的话音和外部设备的话音的示例的流程图。

图12是示出根据实施例的通过使用外围图像来区分用户的话音和外部设备的话音的示例的图。

图13是示出根据实施例的识别被授予话音命令权限的用户的示例的流程图。

图14是示出根据另一实施例的识别被授予话音命令权限的用户的示例的流程图。

图15是示出根据实施例的识别被授予话音命令权限的用户的示例的图。

图16是根据实施例的语音识别设备的框图。

图17是根据实施例的语音识别设备的详细框图。

图18是根据实施例的处理器的框图。

图19是根据实施例的数据学习单元的框图。

图20是根据实施例的数据识别单元的框图。

图21是其中根据实施例的语音识别设备和服务器相互关联地学习和识别数据的示例的图。

具体实施方式

根据本公开的一方面,语音识别设备包括麦克风和处理器,该处理器被配置为通过麦克风接收话音信号,通过使用基于神经网络的数据识别模型分析话音信号来生成话音特征数据,基于话音特征数据来确定话音信号是从用户发出的话音还是从外部设备输出的话音,以及当话音信号被确定为用户发出的话音时,将话音信号确定为用户的话音命令,并执行对应于该话音命令的操作。

根据本公开的另一方面,语音识别设备的操作方法包括通过麦克风接收话音信号,通过使用基于神经网络的数据识别模型分析话音信号来生成话音特征数据,通过使用数据识别模型,基于话音特征数据来确定话音信号是从用户发出的话音还是从外部设备输出的话音,以及当话音信号被确定为用户发出的话音时,将话音信号确定为用户的话音命令并执行对应于该话音命令的操作。

根据本公开的另一方面,提供了其上记录有用于执行方法的程序的计算机可读记录介质。

公开的方式

本文使用的包括描述性或技术性术语在内的所有术语应当被解释为具有对本领域普通技术人员来说显而易见的含义。然而,根据本领域普通技术人员的意图、先例或新技术的出现,这些术语可以具有不同的含义。此外,一些术语可以由申请人任意选择。在这种情况下,所选术语的含义将在详细的描述中描述。因此,本文使用的术语必须基于术语的含义以及说明书中的描述来定义。

还应当理解,当在本说明书中使用时,术语“包括”和/或“包含”指定所述组件的存在,但不排除一个或多个组件的存在或添加。此外,本文提供的术语诸如“...单元”、“模块”等的术语指示执行至少一个功能或操作的单元,并且可以通过硬件、软件或硬件和软件的组合来实现。

在下文中,将参照附图详细描述本公开的一个或多个实施例,达到本领域普通技术人员能够实施本公开的程度。然而,本公开可以以各种方式实现,并且不限于本文描述的一个或多个实施例。

在下文中,将参考附图详细描述本公开的实施例。

图1是示出根据实施例的操作语音识别设备的示例的图。

根据实施例,语音识别设备1000(参见图16和图17,下文中称为语音识别设备1000)是能够识别来自用户的话音命令的设备。根据该实施例的语音识别设备1000可以包括能够执行对应于所识别的用户的话音命令的功能的话音识别扬声器,但不限于此。例如,语音识别设备1000可以提供但不限于对用户的问题(例如,天气、日程管理等)的回答,并且可以通过访问网页服务器来提供订购和支付产品的服务。此外,语音识别设备1000可以连接到其他设备以执行控制其他设备的功能(例如,控制家用电器等)。

参考图1,当从用户10接收到话音输入(例如,“请点一个美味的比萨”101)时,根据实施例的语音识别设备1000可以确定话音输入信号是否是从用户10直接发出的话音。

在实施例中,为了确定所接收到的话音信号是直接从在距离语音识别设备1000预定距离内的用户10发出的,还是从另一外部设备(例如,诸如tv、收音机等声音输出设备)(未示出,以下称为外部设备或声音输出设备)输出的,语音识别设备1000可以使用被训练以应用于话音信号分析的一个或多个数据识别模型。

根据实施例,语音识别设备1000可以使用基于诸如深度神经网络(dnn)、递归神经网络(rnn)等的神经网络的数据识别模型。

语音识别设备1000通过使用基于神经网络的一个或多个数据识别模型分析通过麦克风1620(参见图16和图17;在下文中,称为麦克风620)输入的话音信号来生成话音特征数据,然后可以基于话音特征数据来确定话音信号是从用户发出的还是从外部设备输出的。

根据实施例,话音特征数据可以包括通过分析话音信号特征(诸如话音信号的波形、频率、幅度等)而生成的信息。例如,话音特征数据可以包括关于话音信号是模拟信号、数字信号还是来自压缩信号的重构信号(其中话音信号包括电噪声等)的分析信息。

稍后将参照图5至图10更详细地描述话音特征数据。

根据实施例,当确定所接收到的话音信号不是用户直接发出的话音命令,而是从另一声音输出设备(未示出)输出的话音信号时,语音识别设备1000可以过滤所接收到的话音信号,以不将话音信号分类为话音命令。

根据实施例,即使当语音识别设备1000接收到从另一声音输出设备(未示出)输出的人类话音信号(例如,从tv输出的用户的话音、从移动电话输出的记录的用户的话音等)时,语音识别设备1000不会将该话音信号误解为对于语音识别设备1000的话音命令,因此,可以防止语音识别设备1000不必要地执行用户不希望的操作的情形。

图1示出了实施例,并且不限于该实施例。

在图1中,作为示例,语音识别设备1000被示为话音识别扬声器,但不限于此。

根据该实施例的语音识别设备1000可以被实现为执行话音识别功能的电子设备。例如,语音识别设备1000可以实现为各种电子设备,例如智能tv、机顶盒、移动电话、平板pc、数码照相机、膝上型计算机、台式计算机、电子书终端、数字广播终端、个人数字助理(pda)、便携式多媒体播放器(pmp)、导航设备、mp3播放器、可穿戴设备等。

图2是示出根据实施例的操作语音识别设备的方法的流程图。

在图2的操作s201中,语音识别设备1000可以接收话音信号。

根据实施例,语音识别设备1000可以通过麦克风1620(参见图16和图17;在下文中,称为麦克风1620)接收话音信号。根据实施例,语音识别设备1000的处理器1300(参见图16和图17;下文中,称为处理器1300)执行用于话音识别的应用,并且可以通过控制该应用来接收通过麦克风1620输入的话音。

在操作s202中,语音识别设备1000可以通过分析话音信号来生成话音特征数据。

用户发出的话音和从声音输出设备(例如,tv、收音机等)输出的话音可以具有不同的话音信号特征,诸如话音信号的波形、频率等。例如,用户发出的话音信号可以是模拟信号,且从声音输出设备输出的话音信号可以是压缩的数字信号的重构信号。此外,与用户发出的话音信号不同,从声音输出设备输出的话音信号可能包括电噪声。

根据实施例,语音识别设备1000可以使用基于神经网络的数据识别模型,以便分析话音信号并生成话音特征数据。

根据实施例,语音识别设备1000可以生成包括通过使用一个或多个数据识别模型分析输入话音信号的波形、频率等而获取的信息的话音特征数据。例如,话音特征数据可以包括关于话音信号是模拟信号、数字信号还是来自压缩信号的重构信号的信息。

在操作s203中,语音识别设备1000可以基于话音特征数据确定话音信号是由用户发出的还是从外部设备输出的。

根据实施例,语音识别设备1000可以使用基于神经网络的数据识别模型,以便基于话音特征数据来确定话音信号是用户发出的话音还是从外部设备输出的话音。

例如,语音识别设备1000可以通过使用一个或多个数据识别模型分析话音信号,基于包括表示话音信号是模拟信号并且不包括电噪声的信息的话音特征数据,来确定话音信号是由用户直接发出的话音,而不是从外部设备输出的话音。

在操作s204中,语音识别设备1000可以将话音信号确定为用户的话音命令,并执行对应于该话音命令的操作,因为话音信号被确定为用户发出的话音。

根据实施例,语音识别设备1000可以将话音信号确定为用户的话音命令,并且可以通过确定话音命令的含义和用户的意图来执行对应于用户的话音命令的功能。

根据实施例,语音识别设备1000可以通过使用基于神经网络的数据识别模型分析用户的话音命令,来根据用户的意图执行操作。例如,如图1所示,根据用户的话音命令(“请点一个美味的比萨”101),语音识别设备1000可以访问用于订购比萨的网站,根据用户的偏好来确定比萨的种类,并且执行订购和支付操作。

根据实施例,因为语音识别设备1000当通过分析话音信号确定话音信号是由用户直接发出的话音时,根据话音命令执行操作,所以可以避免将从外部设备输出的话音误解为话音命令的风险。根据实施例,可以防止语音识别设备不必要地执行用户不希望的操作的情形。

图1和图2示出了本公开的实施例,并且不限于此。

图3a是示出根据实施例的检测话音信号的示例的流程图。图3b是示出根据实施例的检测话音信号的示例的图。将参照图3b描述图3a的流程图。

在图3a的操作s301中,语音识别设备1000可以接收通过麦克风1620输入的声音。

根据实施例,通过麦克风1620输入的声音可以包括环境噪声以及人类话音。

参考图3b,例如,语音识别设备1000的麦克风1620可以接收包括车辆驾驶或鸣喇叭声音411、人类话音声音412、动物声音413等的声音。从不同声音源生成的每个声音可能具有彼此不同的波形。

根据实施例,当语音识别设备1000的麦克风1620操作时,通过麦克风1620输入的声音可以被识别为组合话音信号414。

在图3a的操作s320中,语音识别设备1000可以从所接收到的声音中检测话音信号。

参考图3b,例如,语音识别设备1000可以从组合话音信号414中检测人类话音声音415。根据实施例,通过使用应用于话音信号分析的一个或多个数据识别模型,语音识别设备1000可以仅从所接收到的话音信号中检测人类话音信号。

根据实施例,语音识别设备1000可以通过分析人类话音和噪声的频率特征和相对能量来区分人类话音和噪声。语音识别设备1000可以将输入声音划分成非常小的时间单位,并且可以分析声音的频率或能量在每个帧中是如何变化的。例如,过零率(zero-crossingrate,zcr)可用于区分话音和噪声。对于通过以时间为单位分割声音而获取的每个帧,计算声音通过零点的频率,并且可以计算当时的能量值以理解声音的特征。

图4a是示出根据实施例的区分用户的话音和外部设备的话音的示例的流程图。图4b是示出根据实施例的由语音识别设备过滤外部设备的话音的示例的图。将参照图4b描述图4a的流程图。

在图4a的操作s401中,语音识别设备1000可以基于话音特征数据来确定话音信号是由用户发出的还是从外部设备输出的。

在操作s402中,语音识别设备1000可以将话音信号确定为用户的话音命令,并执行对应于该话音命令的操作,因为话音信号被确定为用户发出的话音。

因为操作s401和s402与上述图2的操作s203和s204相同,所以省略其描述。

在操作s403中,当话音信号被确定为从外部设备输出的话音时,语音识别设备1000可以过滤话音信号。

根据实施例,当所接收到的话音信号不是用户直接发出的话音,而是从外围声音输出设备(例如,tv、收音机、智能电话等)输出的话音时,语音识别设备1000确定该话音信号不是来自用户的话音命令,并且过滤该话音信号。语音识别设备1000相对于被过滤的话音信号不分析话音命令的含义,并且不根据话音命令执行操作。

参考图4b,例如,因为确定所接收到的话音信号(“请点一个美味的比萨”401)不是用户发出的话音,而是从外部设备200(以下称为外部设备200或声音输出设备200)输出的话音信号,所以语音识别设备1000可以不分析话音信号的含义,并且可以不执行附加操作。

根据实施例,可以防止语音识别设备不必要地执行用户不希望的操作的情形。

图4c是示出根据实施例的区分用户的发出的话音和用户的记录的话音的再现的示例的图。

根据实施例,即使当话音来自一个用户时,直接从用户发出的声音421和作为从声音输出设备(例如,移动电话等)再现的记录的话音的声音422可以具有不同的话音信号的波形、幅度和频率。

根据实施例,语音识别设备1000可以通过以非常小的时间为单位划分输入声音并分析每一帧的话音信号的频率特征,来识别输入声音是直接从用户发出的声音还是用户的记录的话音的再现声音。

根据实施例,通过使用应用于话音信号分析的一个或多个数据识别模型,语音识别设备1000可以识别所接收到的话音信号是直接从用户发出的声音还是用户的记录的话音的再现声音。

图3a至图4c示出了实施例,并且不限于此。

图5是示出根据实施例的生成话音特征数据的示例的流程图。图6是示出根据实施例的生成话音特征数据的示例的图。将参照图6描述图5的流程图。

在图5的操作s501中,语音识别设备1000可以接收话音信号。

因为操作s501与上述图2的操作s201相同,所以省略其描述。

此外,如上参考图3的操作s301和s302所述,语音识别设备1000可以执行从通过麦克风1620输入的声音中检测话音信号的操作。

在操作s502中,语音识别设备1000可以通过分析话音信号是否是从压缩的话音信号重建的来生成话音特征数据。

从声音输出设备200输出的话音信号可以包括当声音输出设备200再现存储在声音输出设备的存储器中的话音文件或再现从另一设备或服务器接收到的话音文件时输出的话音信号,或者包括在通过广播接收器1530接收到的广播信号中的话音信号(参见图17),但不限于此。

根据实施例的从声音输出设备200输出的话音信号可以包括通过使用码激励线性预测(codeexcitedlinearprediction,celp)重构压缩信号而获取的信号。此外,从声音输出设备200输出的话音信号可以包括例如通过使用诸如mp3、ac3、高级音频编码(advancedaudiocoding,aac)等的编解码器重构压缩信号而获取的重构信号。在压缩和重构话音信号的过程中可能会有信号丢失。例如,在人类可能听不到的频带中可能有信号丢失。

语音识别设备1000可以生成话音特征数据,该话音特征数据包括通过分析话音信号是否是从压缩的话音信号重建的而获取的信息。

参考图6,例如,语音识别设备1000可以通过分析话音信号的频率、波形等来识别话音信号是压缩的数字信号601还是未压缩的模拟信号602。

根据实施例,当确定话音信号是未被压缩的模拟信号时,语音识别设备1000可以确定话音信号是直接从用户发出的话音。或者,语音识别设备1000可以确定话音信号可能是从用户发出的话音信号。

根据实施例,语音识别设备1000可以通过使用基于神经网络的数据识别模型确定话音信号是否被压缩或者话音信号是否被压缩的概率,从而生成话音特征数据。此外,语音识别设备1000可以通过使用数据识别模型,基于话音特征数据来确定话音信号是从用户发出的话音还是从声音输出设备200输出的话音。

此外,语音识别设备1000可以考虑包括在话音特征数据中的至少一条信息来确定话音信号是从用户发出的话音还是从外部设备输出的话音,该话音特征数据是根据参考稍后将描述的图8至图15示出的话音信号分析而生成的。

图5和图6示出了本公开的实施例,并且不限于此。

图7是示出根据另一实施例的生成话音特征数据的示例的流程图。图8是示出根据另一实施例的生成话音特征数据的示例的图。将参照图8描述图7的流程图。

在图7的操作s701中,语音识别设备1000可以接收话音信号。

因为操作s701与上述图2的操作s201相同,所以省略其描述。

此外,如上参考图3的操作s301和s302所述,语音识别设备1000可以执行从通过麦克风1620输入的声音中检测话音信号的操作。

在操作s702中,语音识别设备1000可以通过分析话音信号中是否包括电噪声来生成话音特征数据。

从声音输出设备200(例如,智能电话等)输出话音信号(例如,记录有用户的话音的话音文件的话音信号)可能包括电噪声。

参考图8,例如,语音识别设备1000可以通过分析话音信号的波形、频率等来确定话音信号包括电噪声(603)还是话音信号不包括电噪声(604)。语音识别设备1000可以生成包括分析电噪声是否包括在话音信号中的信息的话音特征数据。

根据实施例,语音识别设备1000可以通过使用基于神经网络的数据识别模型确定话音信号是否包括电噪声或者话音信号是否包括电噪声的概率,从而生成话音特征数据。此外,语音识别设备1000可以通过使用数据识别模型,基于话音特征数据来确定话音信号是从用户发出的话音还是从声音输出设备200输出的话音。

此外,语音识别设备1000可以考虑包括在话音特征数据中的至少一条信息来确定话音信号是从用户发出的话音还是从外部设备输出的话音,该话音特征数据是根据参考图5至图7和稍后将描述的图10至图15示出的话音信号分析而生成的。

图7和图8示出了本公开的实施例,并且不限于此。

图9是示出根据另一实施例的生成话音特征数据的示例的流程图。图10是示出根据另一实施例的生成话音特征数据的示例的图。将参照图10描述图9的流程图。

在图9的操作s901中,语音识别设备1000可以接收话音信号。

因为操作s901与上述图2的操作s201相同,所以省略其描述。

此外,如上参考图3的操作s301和s302所述,语音识别设备1000可以执行从通过麦克风1620输入的声音中检测话音信号的操作。

在操作s902中,语音识别设备1000可以通过分析话音信号的输出位置来生成话音特征数据。

根据实施例,语音识别设备1000可以预先设置从外部设备输出的话音信号的至少一个输出位置。

例如,参考图10,可以控制声音输出设备200输出话音信号,以便预先设置声音输出设备200的话音输出位置。语音识别设备1000可以通过麦克风1620接收话音信号(见图17),然后可以确定输出话音信号的位置和方向。例如,语音识别设备1000可以设置从外部设备200输出的话音信号的输出位置1001。

根据实施例,语音识别设备1000可以生成包括确定所接收到的话音信号的输出位置是否对应于预先设置的输出位置的信息的话音特征数据。

例如,参考图10,当接收话音信号时,语音识别设备1000确定话音信号的输出位置,并确定话音信号的输出位置1002和1003是否对应于预先设置的输出位置1001。

根据实施例,语音识别设备1000可以通过确定话音信号的输出位置1002和1003是否对应于外部设备的预先设置的输出位置1001或者在预定范围内接近输出位置1001来生成话音特征数据。

当确定话音信号的输出位置1003在预先设置的外部设备的输出位置1001的预定范围之外时,语音识别设备1000可以确定话音信号是用户直接发出的话音。或者,语音识别设备1000可以确定话音信号可能是用户发出的话音信号。

此外,当话音信号的输出位置1002被确定为在预定范围内接近预先设置的外部设备的输出位置1001时,语音识别设备1000可以确定话音信号是从预先设置的声音输出设备200输出的。或者,语音识别设备1000可以确定话音信号很可能是从声音输出设备200输出的话音信号。

此外,根据实施例,语音识别设备1000可以通过确定输出话音信号的输出位置的数量来生成话音特征数据。

当声音输出设备连接到多个外部扬声器以通过多个外部扬声器输出话音信号时,声音可以从不同方向输出。

例如,当确定存在输出话音信号的多个输出位置时,语音识别设备1000可以确定话音信号可能是从外部设备输出的话音信号。

根据实施例,语音识别设备1000可以通过使用基于神经网络的数据识别模型确定话音信号的输出位置、输出位置的数量等来生成话音特征数据。此外,语音识别设备1000可以通过使用数据识别模型,基于话音特征数据来确定话音信号是从用户发出的话音还是从声音输出设备200输出的话音。

此外,语音识别设备1000可以考虑包括在话音特征数据中的至少一条信息来确定话音信号是从用户发出的话音还是从外部设备输出的话音,该话音特征数据是根据参考图5至图9和稍后将描述的图11至图15示出的话音信号分析而生成的。

图9和图10示出了本公开的实施例,并且不限于此。

图11是示出根据实施例的通过使用外围图像来区分用户的话音和外部设备的话音的示例的流程图。图12是示出根据实施例的通过使用外围图像来区分用户的话音和外部设备的话音的示例的图。将参照图12描述图11的流程图。

在图11的操作s1101中,语音识别设备1000可以获取语音识别设备1000的外围区域的图像。

根据实施例,语音识别设备1000可以包括照相机1610(参见图17;在下文中,称为照相机1610)。语音识别设备1000可以通过使用照相机1610获取语音识别设备1000的外围区域的图像。

在操作s1102中,语音识别设备1000可以确定所获取的外围图像包括用户还是外部设备。

参考图12,例如,由语音识别设备1000获取的外围图像可以包括用户10或声音输出设备200(例如,tv)。

在操作s1103中,语音识别设备1000可以确定话音信号是由用户发出的还是从外部设备输出的。

参考图12,例如,当确定声音输出设备200被包括在所获取的图像中时,语音识别设备1000可以确定话音信号可能是从声音输出设备200输出的话音。或者,当确定所获取的图像包括用户10时,语音识别设备1000可以确定话音信号可能是由用户10直接发出的话音。

根据实施例,通过使用基于神经网络的数据识别模型分析包括语音识别设备1000的外围的图像,语音识别设备1000可以确定话音信号是用户发出的话音还是从声音输出设备200输出的话音。

此外,语音识别设备1000可以考虑包括在话音特征数据中的至少一条信息来确定话音信号是从用户发出的话音还是从外部设备输出的话音,该话音特征数据是根据参考图5至图11和稍后将描述的图13至图15示出的话音信号分析而生成的。

图11和图12示出了本公开的实施例,并且不限于此。

图13是示出根据实施例的识别被授予话音命令权限的用户的示例的流程图。图14是示出根据另一实施例的识别被授权发出话音命令的用户的示例的流程图。图15是示出根据实施例的识别被授权发出话音命令的用户的示例的图。将参照图15描述图13和图14的流程图。

根据实施例,语音识别设备1000可以仅针对被注册为允许发出话音命令的用户的话音命令来执行对应于话音命令的操作。

图13示出了示例,其中通过识别用户的面部来执行被授权发出话音命令的用户的话音命令。

在图13的操作s1301中,语音识别设备1000可以预先设置被授权发出话音命令的注册用户的面部识别数据。

参考图15,例如,语音识别设备1000可以将被授权发出话音命令的注册用户的面部识别数据151存储在存储器1700中(参见图17)。

在操作s1302中,语音识别设备1000可以获取语音识别设备1000的外围区域的图像。

参考图15,例如,语音识别设备1000可以包括照相机1610(参见图17)。语音识别设备1000可以通过使用照相机1610获取外围区域的图像。

在操作s1303中,语音识别设备1000可以确定所获取的外围图像中的用户对应于预先设置的面部识别数据。

参考图15,例如,语音识别设备1000可以识别包括在所获取的图像中的用户20的面部,并确定该面部是否对应于预先设置的面部识别数据151。

根据实施例,语音识别设备1000可以通过使用基于神经网络的数据识别模型来识别图像中包括的用户的面部,并识别用户面部是否对应于存储在存储器1700中的注册用户的面部识别信息。

在操作s1304中,语音识别设备1000可以将话音信号确定为用户的话音命令,并执行对应于该话音命令的操作。

根据实施例,当确定图像中包括的用户面部对应于预先设置的有权限发出话音命令的用户的面部时,语音识别设备1000可以分析话音信号的含义,并根据话音命令执行操作。

此外,参考图15,例如,当确定所识别的用户的面部不对应于预先设置的有权限发出话音命令的用户的面部时,语音识别设备1000可以不将话音信号确定为话音命令并过滤话音信号。

图14示出了一个示例,其中通过识别用户的话音来执行被授权发出话音命令的用户的话音命令。

在图14的操作s1401中,语音识别设备1000可以预先设置被授权发出话音命令的注册用户的话音识别数据。

参考图15,例如,语音识别设备1000可以将被授权发出话音命令的注册用户的话音识别数据152存储在存储器1700中(参见图17)。

在操作s1402中,语音识别设备1000可以接收话音信号。

参考图15,例如,语音识别设备1000可以经由麦克风1620接收用户20的话音信号(参见图17)。

在操作s1403中,语音识别设备1000可以确定话音信号对应于预先设置的话音识别数据。

参考图15,例如,语音识别设备1000可以通过识别话音来确定用户20的话音是否对应于预先设置的话音识别数据152。

根据实施例,语音识别设备1000可以通过使用基于神经网络的数据识别模型来识别用户的话音,并确定该话音是否对应于预先存储在存储器1700中的注册用户的话音识别信息。

在操作s1404中,语音识别设备1000可以将话音信号确定为用户的话音命令,并执行对应于该话音命令的操作。

根据实施例,当确定所识别的用户的话音对应于预先设置的有权限发出话音命令的用户的话音时,语音识别设备1000可以分析话音信号的含义,并根据话音命令执行操作。

此外,参考图15,例如,当确定所识别的用户20的话音不对应于预先设置的有权限发出话音命令的用户的话音识别数据152时,语音识别设备1000可以不将话音信号确定为话音命令并过滤话音信号。

此外,根据实施例,语音识别设备1000可以包括声音输出器1220(参见图17)。当确定所识别的话音或所识别的用户面部不对应于授权用户时,语音识别设备1000可以通过声音输出器1220输出通知用户不是被授权发出话音命令的用户的消息。例如,语音识别设备1000可以通过声音输出器1220输出消息“未授权用户”。

图13至图15示出了本公开的实施例,并且不限于此。

图16是根据实施例的语音识别设备的框图。图17是根据实施例的语音识别设备的详细框图。

如图16所示,根据一个或多个实施例的语音识别设备1000可以包括麦克风1620和处理器1300。然而,并非图16所示的所有元件都是语音识别设备1000的基本元件。语音识别设备1000可以用比图16所示元件更多的元件来实现,或者可以用比图16所示元件更少的元件来实现。

例如,如图17所示,除了麦克风1620和处理器1300之外,根据一个或多个实施例的语音识别设备1000还可以包括用户输入器1100、输出器1200、传感器1400、通信器1500、a/v(audioorvideo,音频/视频)输入器1600和存储器1700。

用户输入器1100是用户通过其输入用于控制语音识别设备1000的数据的单元。例如,用户输入器1100可以包括但不限于键盘、圆顶开关、触摸板(电容覆盖型、电阻覆盖型、红外光束型、表面声波型、整体应变仪型、压电型等)、滚轮、微动开关等。此外,用户输入器1100可以连接到麦克风1620,以接收用于控制语音识别设备1000的话音输入。

输出器1200可以输出音频信号、视频信号或振动信号,并且可以包括显示器1210、声音输出器1220和振动马达1230。

显示器1210被配置为显示和输出由语音识别设备1000处理的信息。例如,显示器1210可以被配置为显示关于由语音识别设备1000识别的用户的话音命令的信息,或者关于根据话音命令的操作执行结果的信息。

此外,当显示器1210和触摸板以分层结构被配置为触摸屏时,除了作为输出设备之外,显示器1210还可以被用作输入设备。显示器1210可以包括液晶显示器、薄膜晶体管液晶显示器、有机发光二极管显示器、柔性显示器、三维(3d)显示器或电泳显示器中的至少一种。

此外,显示器1210可以包括发光设备(未示出)。发光设备(未示出)可以包括例如发光二极管和显示面板,并且不限于此。

声音输出器1220输出从通信器1500传输的或者存储在存储器1700中的声音数据。振动马达1230可以输出振动信号。

根据实施例,声音输出器1220可以输出关于根据话音命令的操作执行结果的信息。

此外,根据实施例,声音输出器1220可以输出表示话音不是授权用户的话音的消息。

处理器1300控制语音识别设备1000的整体操作。例如,处理器1300可以执行存储在存储器1700中的程序,以控制用户输入器1100、输出器1200、传感器1400、通信器1500、a/v输入器1600等。处理器1300可以控制语音识别设备1000的操作,以便执行图1至图15所示的语音识别设备1000的功能。

详细地,处理器1300可以通过麦克风1620接收话音信号。

此外,处理器1300可以通过使用基于神经网络的数据识别模型分析话音信号来生成话音特征数据,并且可以基于话音特征数据来确定话音信号是从用户发出的话音还是从外部设备输出的话音。

此外,处理器1300可以将话音信号确定为用户的话音命令,并执行对应于该话音命令的操作,因为话音信号被确定为用户发出的话音。

此外,当话音信号被确定为从外部设备输出的话音时,处理器1300可以过滤话音信号。

此外,处理器1300可以通过分析话音信号是否是从压缩的话音信号重建的来生成话音特征数据。

此外,处理器1300可以通过分析话音信号中是否包括电噪声来生成话音特征数据。

此外,处理器1300可以通过分析话音信号的输出位置来生成话音特征数据。

此外,处理器1300可以通过预先设置从外部设备输出的话音信号的至少一个输出位置并且通过确定所接收到的话音信号的输出位置是否对应于预先设置的输出位置来生成话音特征数据。

此外,处理器1300可以通过确定输出所接收到的话音信号的输出位置的数量来生成话音特征数据。

此外,处理器1300可以通过使用照相机1610获取语音识别设备1000的外围图像,并且可以基于所获取的图像包括用户还是外部设备200来确定话音信号是从用户发出的话音还是从外部设备200输出的话音。

此外,处理器1300可以预先设置被授权发出话音命令的注册用户的面部识别数据,并且当确定所获取的外围图像中的用户对应于预先设置的面部识别数据时,可以将话音信号确定为用户的话音命令,并且执行对应于话音命令的操作。

此外,处理器1300可以预先设置被授权发出话音命令的注册用户的话音识别数据,并且当确定所接收到的话音信号对应于预先设置的话音识别数据时,可以将话音信号确定为用户的话音命令,并且执行对应于话音命令的操作。

传感器1400感测语音识别设备1000的状态或语音识别设备1000的外围状态,并且可以将感测到的信息传输到处理器1300。

传感器1400可以包括但不限于磁传感器1410、加速度传感器1420、温度/湿度传感器1430、红外线传感器1440、陀螺仪传感器1450、位置传感器(例如,全球定位系统(gps))1460、照度传感器1495、接近传感器1480或rgb传感器1490中的至少一个。因为本领域的普通技术人员可以从传感器的名称中直观地推断出传感器的功能,所以省略了对其的详细描述。

通信器1500可以包括允许语音识别设备1000与外部通信的一个或多个元件。例如,通信器1500可以包括短程无线通信器1510、移动通信器1520和广播接收器1530。

短程无线通信器1510可以包括但不限于蓝牙通信器、蓝牙低能量(bluetoothlowenergy,ble)通信器、近场通信单元、wlan(wi-fi)通信器、zigbee通信器、红外线数据协会(irda)通信器、wi-fi直连(wfd)通信器、超宽带(uwb)通信器、ant+通信器等。

移动通信器1520可以向/从移动通信网络上的基站、外部终端或服务器中的至少一个发送/接收无线信号。这里,无线信号可以包括话音呼叫信号、视频呼叫信号、或根据文本/多媒体消息的发送/接收的各种类型的数据。

广播接收器1530经由广播信道从外部接收广播信号和/或广播相关信息。广播信道可以包括卫星信道和地面信道。在本公开的一些实施例中,语音识别设备1000可以不包括广播接收器1530。

a/v输入单元1600用于输入音频信号或视频信号,并且可以包括照相机1610、麦克风1620等。

照相机1610可以通过在视频呼叫模式或拍摄模式下使用图像传感器获取图像帧,诸如静止图像、视频等。由图像传感器捕获的图像可以由处理器1300或附加图像处理器(未示出)处理。

由照相机1610处理的图像帧可以存储在存储器1700中,或者可以经由通信器1500传输到外部。根据终端的配置方面,可以提供两个或更多个照相机1610。

麦克风1620从外部接收声音信号,并将该声音信号作为电话音数据进行处理。例如,麦克风1620可以从外部设备或叙述者接收声音信号。麦克风1620可以使用各种噪声消除算法来消除当从外部接收声音信号时产生的噪声。

存储器1700可以存储用于处理和控制处理器1300的程序,并且可以存储输入到语音识别设备1000或从语音识别设备1000输出的数据。

存储器1700可以包括闪存类型、硬盘类型、多媒体卡微型、卡型存储器(例如,sd或xd存储器等)、随机存取存储器(ram)、静态ram(sram)、只读存储器(rom)、电可擦除可编程rom(eeprom)、可编程rom(prom)、磁存储器、磁盘或光盘中的至少一种类型的存储介质。

存储在存储器1700中的程序可以根据其功能被分类为多个模块,例如,ui模块1710、触摸屏模块1720、通知模块1730、图像过滤模块1740等。

存储器1700可以存储注册方向、阴影方向、关于家庭设备200的信息、关于优先级顺序的信息、地点信息等。

根据实施例,存储器1700可以存储被授权发出话音命令的注册用户的面部识别数据、话音识别数据等。

此外,根据实施例,存储器1700可以存储从外部设备200输出的话音信号的至少一个输出位置、方向等。

ui模块1710可以提供连接到每个应用的语音识别设备1000的指定的ui、gui等。触摸屏模块1720感测用户在触摸屏上的触摸手势,并且可以将关于触摸手势的信息传输到处理器1300。根据一些实施例的触摸屏模块1720可以感测和分析触摸代码。触摸屏模块1720可以被配置为包括控制器的附加硬件。

通知模块1730可以生成用于通知语音识别设备1000中事件发生的信号。发生在语音识别设备1000中的事件的示例可以包括日程通知、相关信息(诸如话音命令的完成、按键信号输入等)的通知。通知模块1730可以通过显示器1210将通知信号输出为视频信号,可以通过声音输出器1220将通知信号输出为音频信号,或者可以通过振动马达1230将通知输出为振动信号。

外部设备200还可以包括图16和图17所示的元件。

图18是根据实施例的处理器1300的框图。

参考图18,根据本公开实施例的处理器1300可以包括数据学习单元1310和数据识别单元1320。

数据学习单元1310可以学习用于确定情形的标准。数据学习单元1310可以学习关于应该使用哪些数据来确定特定情形以及如何通过使用该数据来确定情形的标准。数据学习单元1310获取在学习中使用的数据,并将所获取的数据应用于稍后将描述的数据识别模型,以学习用于确定情形的标准。

数据识别单元1320可以基于数据确定情形。数据识别单元1320可以通过使用经训练的数据识别模型从某些数据中识别情形。数据识别单元1320通过学习根据预先设置的标准获取特定数据,并且通过使用所获取的数据作为输入值来使用数据识别模型,以基于特定数据确定特定情形。此外,根据用作输入值的所获取的数据、通过数据识别模型输出的结果值可以用于更新数据识别模型。

数据学习单元1310和数据识别单元1320中的至少一个可以以安装在电子装置中的至少一个硬件芯片的形式制造。例如,数据学习单元1310和数据识别单元1320中的至少一个可以被制造为专用于人工智能(ai)的硬件芯片,或者可以被制造为要安装在各种电子装置中的现有通用处理器(例如,中央处理单元(cpu)或应用处理器)或纯图形处理器(例如,图形处理单元(gpu))的一部分。

在这种情况下,数据学习单元1310和数据识别单元1320可以安装在一个电子装置中,或者可以分别安装在单独的电子装置中。例如,数据学习单元1310和数据识别单元1320中的一个可以包括在电子装置中,而另一个可以包括在服务器中。此外,数据学习单元1310和数据识别单元1320可以通过有线或无线方式彼此通信,使得由数据学习单元1310建立的模型信息可以被提供给数据识别单元1320,并且输入到数据识别单元1320的数据可以作为附加学习数据被提供给数据学习单元1310。

此外,数据学习单元1310和数据识别单元1320中的至少一个可以实现为软件模块。当数据学习单元1310和数据识别单元1320中的至少一个被实现为软件模块(或包括指令的编程模块)时,软件模块可以存储在非暂时性计算机可读记录介质中。此外,在这种情况下,至少一个软件模块可以由操作系统(os)或预定的应用提供。否则,至少一个软件模块的一部分由os提供,或者至少一个软件模块的剩余部分可以由预定应用提供。

图19是根据实施例的数据学习单元的框图。

参考图19,根据本公开的一些实施例的数据学习单元1310可以包括数据获取器1310-1、预处理器1310-2、学习数据选择单元1310-3、模型训练单元1310-4和模型评估单元1310-5。

数据获取器1310-1可以获取确定情形所需的数据。数据获取器1310-1可以获取用于确定情形的训练所需的数据。

例如,数据获取器1310-1可以通过电子装置的输入设备(例如,麦克风、照相机、传感器等)接收数据的输入。可替代地,数据获取器1310-1可以通过与电子装置通信的外部设备获取数据。数据获取器1310-1可以从服务器接收数据。

根据实施例,数据获取器1310-1可以获取视频帧或话音信号。

例如,数据获取器1310-1可以接收语音识别设备1000的外围图像的输入。外围图像可以包括多个图像(或帧)。例如,数据获取器1310-1可以通过包括数据学习单元1310的语音识别设备的照相机或能够与包括数据学习单元1300的语音识别设备通信的外部照相机(例如,cctv、黑匣子照相机等)接收视频的输入。这里,照相机可以包括一个或多个图像传感器(例如,前传感器或后传感器)、透镜、图像信号处理器(isp)或闪光灯(例如,led、氙灯等)。

此外,根据实施例,数据获取器1310-1可以获取通过麦克风1620(参见图17)输入的话音信号。

预处理器1310-2可以预处理所获取的数据,使得所获取的数据可以用于确定情形的训练。预处理器1310-2可以以预设格式处理所获取的数据,使得稍后将描述的模型训练单元1310-4可以使用所获取的用于训练的数据来确定情形。例如,预处理器1310-2可以基于构成输入视频的至少一部分的多个图像(或帧)中的每一个中包括的公共区域,通过至少部分重叠多个图像来生成一个组合图像。在这种情况下,可以从一个视频生成多个组合图像。公共区域可以是在多个图像中的每一个中包括相同或相似的公共对象(例如,对象、植物或动物、人等)的区域。或者,公共区域可以是在多个图像中分别具有相同或相似颜色、阴影、rgb值或cmyk值的区域。

学习数据选择单元1310-3可以从预处理数据中选择学习所需的数据。所选择的数据可以被提供给模型训练单元1310-4。学习数据选择单元1310-3可以根据预先设置的用于确定情形的标准,从预处理数据中选择训练所需的数据。此外,学习数据选择单元1310-3可以通过稍后将描述的模型训练单元1310-4执行的训练,根据预先设置的标准来选择数据。

例如,可以选择通过分析话音信号生成的话音特征数据。此外,例如,可以选择通过拍摄语音识别设备1000的外围而获取的图像数据。

模型训练单元1310-4可以学习关于如何基于学习数据确定情形的标准。此外,模型训练单元1310-4可以学习关于必须使用哪些学习数据来确定情形的标准。

根据实施例,模型训练单元1310-4可以基于话音特征数据学习用于确定话音信号是从用户发出的话音还是从外部设备输出的话音的标准。

此外,模型训练单元1310-4可以通过使用学习数据来训练用于确定情形的数据识别模型。在这种情况下,可以预先建立数据识别模型。例如,可以通过接收基本学习数据(例如,样本图像、样本话音信号等)来预先建立数据识别模型。

可以考虑识别模型的应用领域、学习的目的、设备的计算机性能等来建立数据识别模型。数据识别模型可以例如基于神经网络。例如,诸如深层神经网络(dnn)、递归神经网络(rnn)或双向递归深层神经网络(brdnn)的模型可以用作数据识别模型,但不限于此。

根据一个或多个实施例,当存在预先建立的多个数据识别模型时,模型训练单元1310-4可以将其中输入学习数据和基本学习数据彼此高度相关的数据识别模型确定为要学习的数据识别模型。在这种情况下,可以根据数据类型预先对基本学习数据进行分类,并且可以针对每个数据类型预先建立数据识别模型。例如,可以基于各种标准(诸如生成学习数据的区域、生成学习数据的时间、学习数据的大小、学习数据的类型、学习数据的生产者、包括在学习数据中的对象的种类等)预先对基本学习数据进行分类。

此外,模型训练单元1310-4可以通过使用包括例如误差反向传播方法或梯度下降方法的学习算法来训练数据识别模型。

此外,模型训练单元1310-4可以通过例如使用学习数据作为输入值的监督学习来训练数据识别模型。此外,模型训练单元1310-4可以通过无监督学习来训练数据识别模型,该无监督学习通过在没有指导的情况下学习确定情形所需的数据类型来发现用于确定情形的标准。此外,模型训练单元1310-4可以通过例如强化学习来训练数据识别模型,强化学习使用关于根据训练确定情形的结果是否正确的反馈。

此外,当训练数据识别模型时,模型训练单元1310-4可以存储经训练的数据识别模型。在这种情况下,模型训练单元1310-4可以将经训练的数据识别模型存储在包括数据识别单元1320的语音识别设备的存储器中。可替代地,模型训练单元1310-4可以将经训练的数据识别模型存储在包括稍后将描述的数据识别单元1320的语音识别设备的存储器中。可替代地,模型训练单元1310-4可以将经训练的数据识别模型存储在通过有线网络或无线网络连接到语音识别设备的服务器的存储器中。

在这种情况下,存储经训练的数据识别模型的存储器还可以存储例如与语音识别设备的至少一个其他元件相关的命令或数据。此外,存储器可以存储软件和/或程序。该程序可以包括例如内核、中间件、应用编程接口(api)和/或应用程序(或“应用”)等。

模型评估单元1310-5可以向数据识别模型输入评估数据,并且当从评估数据输出的识别结果不满足预定标准时,模型评估单元1310-5可以允许模型学习单元1310-4再次训练。在这种情况下,可以预先设置评估数据以评估数据识别模型。

例如,当在针对评估数据的经训练的数据识别模型的识别结果中,识别结果不准确的评估数据的数量或比率超过预设阈值时,模型评估单元1310-5可以评估不满足预定标准。例如,在预定标准被定义为2%比率的情况下,当经训练的数据识别模型对于总共1000条评估数据中的20条或更多条评估数据输出错误的识别结果时,模型评估单元1310-5可以评估经训练的数据识别模型不适当。

此外,当存在多个经训练的数据识别模型时,模型评估单元1310-5可以对于每个经训练的数据识别模型评估是否满足预定标准,并且可以将满足预定标准的模型确定为最终数据识别模型。在这种情况下,当存在满足预定标准的多个模型时,模型评估单元1310-5可以按照高评估分数的顺序确定一个模型或预定数量的模型作为最终数据识别模型。

数据学习单元1310中的数据获取器1310-1、预处理器1310-2、学习数据选择单元1310-3、模型训练单元1310-4或模型评估单元1310-5中的至少一个可以被制造为至少一个硬件芯片并安装在语音识别设备中。例如,数据获取器1310-1、预处理器1310-2、学习数据选择单元1310-3、模型训练单元1310-4或模型评估单元1310-5中的至少一个可以被制造为ai专用的硬件芯片,或者可以被制造为要安装在上述各种电子装置中的现有通用处理器(例如,cpu或应用处理器)或纯图形处理器(例如,gpu)的一部分。

此外,数据获取器1310-1、预处理器1310-2、学习数据选择单元1310-3、模型训练单元1310-4和模型评估单元1310-5可以设置在一个电子装置中,或者可以分别设置在单独的电子装置中。例如,数据获取器1310-1、预处理器1310-2、学习数据选择单元1310-3、模型训练单元1310-4和模型评估单元1310-5中的一些可以包括在语音识别设备中,而其他一些可以包括在服务器中。

此外,数据获取器1310-1、预处理器1310-2、学习数据选择单元1310-3、模型训练单元1310-4或模型评估单元1310-5中的至少一个可以实现为软件模块。当数据获取器1310-1、预处理器1310-2、学习数据选择单元1310-3、模型训练单元1310-4或模型评估单元1310-5中的至少一个被实现为软件模块(或包括指令的程序模块)时,软件模块可以存储在非暂时性计算机可读记录介质中。此外,在这种情况下,至少一个软件模块可以由操作系统(os)或预定的应用提供。否则,至少一个软件模块的一部分由os提供,或者至少一个软件模块的剩余部分可以由预定应用提供。

图20是根据实施例的数据识别单元的框图。

参考图20,根据一个或多个实施例的数据识别单元1320可以包括数据获取器1320-1、预处理器1320-2、识别数据选择单元1320-3、识别结果提供器1320-4和模型更新单元1320-5。

数据获取器1320-1可以获取确定情形所需的数据,并且预处理器1320-2可以预处理所获取的要使用的数据以确定情形。预处理器1310-2可以以预设格式处理所获取的数据,使得稍后将描述的识别结果提供器1320-4可以使用所获取的数据来确定情形。

识别数据选择单元1320-3可以从预处理数据中选择确定情形所需的数据。所选择的数据可以被提供给识别结果提供器1320-4。识别数据选择单元1320-3可以根据预先设置的用于确定情形的标准来选择预处理数据中的一些或所有。此外,识别数据选择单元1320-3可以通过稍后将描述的模型训练单元1310-4执行的训练,根据预先设置的标准来选择数据。

识别结果提供器1320-4可以通过将所选择的数据应用于数据识别模型来确定情形。识别结果提供器1320-4可以根据识别数据的目的提供识别结果。识别结果提供器1320-4可以通过使用由识别数据选择单元1320-3选择的数据作为输入值,将所选择的数据应用于数据识别模型。此外,识别结果可以由数据识别模型来确定。

根据实施例,可以以文本、话音、视频、图像或指令(例如,应用执行指令、模块功能执行指令等)的形式提供所识别的话音信号是否是用户发出的话音或者被授权发出话音命令的注册用户的话音。

此外,根据实施例,根据所识别的话音命令执行操作的结果可以以文本、话音、视频、图像或指令(例如,应用执行指令、模块功能执行指令等)的形式提供。

模型更新单元1320-5可以基于对由识别结果提供器1320-4提供的识别结果的评估来更新数据识别模型。例如,模型更新单元1320-5将来自识别结果提供器1320-4的识别结果提供给模型训练单元1310-4,使得模型训练单元1310-4可以更新数据识别模型。

此外,数据识别单元1320中的数据获取器1320-1、预处理器1320-2、识别数据选择单元1320-3、识别结果提供器1320-4或模型更新单元1320-5中的至少一个可以被制造为至少一个硬件芯片并安装在电子装置中。例如,数据获取器1320-1、预处理器1320-2、识别数据选择单元1320-3、识别结果提供器1320-4或模型更新单元1320-5中的至少一个可以被制造为ai专用的硬件芯片,或者可以被制造为要安装在上述各种电子装置中的现有通用处理器(例如,cpu或应用处理器)或纯图形处理器(例如,gpu)的一部分。

此外,数据获取器1320-1、预处理器1320-2、识别数据选择单元1320-3、识别结果提供器1320-4和模型更新单元1320-5可以设置在一个电子装置中,或者可以分别设置在单独的电子装置中。例如,数据获取器1320-1、预处理器1320-2、识别数据选择单元1320-3、识别结果提供器1320-4和模型更新单元1320-5中的一些可以包括在电子装置中,而其他一些可以包括在服务器中。

此外,数据获取器1320-1、预处理器1320-2、识别数据选择单元1320-3、识别结果提供器1320-4或模型更新单元1320-5中的至少一个可以实现为软件模块。当数据获取器1320-1、预处理器1320-2、识别数据选择单元1320-3、识别结果提供器1320-4或模型更新单元1320-5中的至少一个被实现为软件模块(或包括指令的程序模块)时,软件模块可以存储在非暂时性计算机可读记录介质中。此外,在这种情况下,至少一个软件模块可以由操作系统(os)或预定的应用提供。否则,至少一个软件模块的一部分由os提供,或者至少一个软件模块的剩余部分可以由预定应用提供。

图21是其中根据实施例的语音识别设备和服务器相互关联地学习和识别数据的示例的图。

图21是其中根据实施例的语音识别设备1000和服务器2000相互关联地学习和识别数据的示例的图。

参考图21,服务器2000可以学习用于确定情形的标准,并且语音识别设备1000可以基于服务器2000的学习结果来确定情形。

在这种情况下,服务器2000的模型训练单元2340可以执行图19所示的数据学习单元1310的功能。服务器2000的模型训练单元2340可以学习关于应该使用哪些数据来确定特定情形以及如何通过使用该数据来确定情形的标准。模型训练单元2340获取在学习中使用的数据,并将所获取的数据应用于稍后将描述的数据识别模型,以学习用于确定情形的标准。

此外,语音识别设备1000的识别结果提供器1320-4可以通过将由识别数据选择单元1320-3选择的数据应用于由服务器2000生成的数据识别模型来确定情形。例如,识别结果提供器1320-4可以将识别数据选择单元1320-3选择的数据传送到服务器2000,并且可以请求服务器2000将识别数据选择单元1320-3选择的数据应用到识别模型并确定情形。此外,识别结果提供器1320-4可以从服务器2000接收关于由服务器2000确定的情形的信息。

例如,语音识别设备1000将话音特征数据传送到服务器2000,并且可以请求服务器2000将话音特征数据应用到数据识别模型,并且确定话音信号是用户发出的话音还是外部设备输出的话音。此外,语音识别设备1000可以从服务器2000接收由服务器2000确定的关于话音信号是用户发出的话音还是从外部设备输出的话音的确定。

或者,语音识别设备1000的识别结果提供器1320-4可以从服务器2000接收由服务器2000生成的识别模型,并且可以通过使用识别模型来确定情形。在这种情况下,语音识别设备1000的识别结果提供器1320-4可以通过将由识别数据选择单元1320-3选择的数据应用于从服务器2000接收到的数据识别模型来确定情形。

例如,语音识别设备1000可以将话音特征数据应用于从服务器2000接收到的数据识别模型,并且学习话音信号是从用户发出的话音还是从外部设备输出的话音。

根据实施例的装置可以包括:处理器,用于存储程序数据并执行程序数据的存储器,诸如磁盘驱动器的永久存储单元,用于处理与外部设备的通信的通信端口,以及包括触摸面板、按键、按钮等的用户接口设备。当涉及软件模块或算法时,这些软件模块可以作为程序命令或在处理器上可执行的计算机可读代码存储在计算机可读记录介质上。计算机可读记录介质的示例包括磁存储介质(例如,rom、ram、软盘、硬盘等)和光学记录介质(例如,cd-rom或数字多功能光盘(dvd))。计算机可读记录介质也可以分布在网络耦合的计算机系统上,从而以分布式方式存储和执行计算机可读代码。该介质可以由计算机读取,存储在存储器中,并由处理器执行。

可以根据功能块组件和各种处理步骤来描述本文的实施例。功能块可以被实现为执行某些功能的各种数量的硬件和/或软件配置。例如,本公开可以采用直接电路配置,诸如存储器、处理、逻辑、查找表等,其可以根据一个或多个微处理器或其他控制设备的控制来执行各种功能。以与本公开的元素可以用软件编程或软件元素来执行的方式类似的方式,示例性实施例可以用脚本语言或编程语言来实现,例如c、c++、java、汇编程序等,包括由数据结构、过程、例程或其他编程配置的组合来实现的各种算法。功能方面可以以在一个或多个处理器上执行的算法实现。此外,实施例可以采用根据相关技术的任意数量的技术用于电子配置、信号处理和/或控制、数据处理等。术语“机构”、“元件”、“装置”和“配置”可以广泛使用,并且不限于机械和物理配置。上述术语可以包括与处理器结合的软件例程等。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1