用于定位和声学语音接口的系统和方法与流程

文档序号：14078024阅读：235来源：国知局

发明背景

本文公开的主题总体涉及语音识别，并且更具体地说涉及用于改进语音识别的位置识别。

传统上来说，人与建筑物内设备，诸如电梯系统、照明、空气调节、电子设备、门、窗户、遮光帘等的交互取决于物理交互，诸如按压按钮或开关、在终端中键入请求等。另外，人与某一建筑物内设备的交互被设计来通过与建筑物内设备进行物理交互而便利商业管理应用，包括维护调度、资产更换、电梯派送、空气调节、照明控制等。随着技术的进步，可以实施要求较少物理交互的系统，诸如包括不同激活类型的语音控制系统。

例如，现有的系统主要采用两种模式之一来激活语音识别系统。典型地，第一模式包括用户按压按钮来激活语音识别系统，并且第二模式包括用户向语音识别系统说出一组特定单词，诸如“呼叫......”。

例如，使用电梯作为建筑物内设备的实例，在按钮激活模式下，所述系统可能要求电梯轿厢中或大厅中有额外的语音识别按钮。如果按钮安装在大厅中，那么用户可以按压上行或下行按钮来激活语音识别，或者可以按压另外安装的按钮来激活楼层目的地的语音识别。要求按钮按压剥夺了语音识别系统的许多优点。

在非按钮模式下，用户尤其可能无法意识到轿厢或大厅中存在语音识别系统。另外，即使假设用户识别出存在语音激活系统，在潜在乘客之间进行正常对话期间也可能会存在多次虚假检测，这是因为系统一直需要听音以尝试并检测触发语音激活。另外，对所检测的所有声音的这种持续听音和处理呈现出隐私问题和较重的信号处理负载，这可能要求提供大量处理硬件和连接来支持持续信号负载。

技术实现要素：

根据一个实施方案，提供了用于用户定位和声学语音接口的系统。所述系统包括：定位器系统，所述定位器系统包括至少一个传感器，所述至少一个传感器检测用户的位置并且产生位置值；听音系统，所述听音系统包括麦克风阵列，所述麦克风阵列包括至少一个麦克风，其中听音系统接收位置值并且从由位置值限定的位置收集音频信号；以及信号处理器，所述信号处理器至少基于音频信号而产生控制信号。

除了上文描述的一个或多个特征之外，或作为替代方案，另外的实施方案可以包括其中包括检测用户的方向的至少一个传感器的定位器系统进一步产生方向值，其中方向值包括俯仰角ρ和偏航角θ，其中听音系统接收方向值并且从由方向值限定的方向收集音频信号，并且其中信号处理器也基于方向值而产生控制信号。

除了上文描述的一个或多个特征之外，或者作为替代方案，另外的实施方案可以包括其中位置值包括用户在建筑物内的x坐标和y坐标。

除了上文描述的一个或多个特征之外，或者作为替代方案，另外的实施方案可以包括其中位置值还包括用户在建筑物内的z坐标，其中z坐标限定用户的高度。

除了上文描述的一个或多个特征之外，或者作为替代方案，另外的实施方案可以包括其中听音装置使用波束成形从由位置值和方向值中的至少一个限定的位置和方向中的至少一个收集音频信号。

除了上文描述的一个或多个特征之外，或者作为替代方案，另外的实施方案可以包括其中定位器系统包括多个传感器，其中传感器分散在整个建筑物内部和外部中。

除了上文描述的一个或多个特征之外，或者作为替代方案，另外的实施方案可以包括建筑物内设备，所述建筑物内设备包括以下各项中的一项或多项：照明、供暖、通风、空调(hvac)、门、窗户、遮光帘、标志以及一个或多个电子装置。

除了上文描述的一个或多个特征之外，或者作为替代方案，另外的实施方案可以包括其中由信号处理器产生的控制信号控制建筑物内设备。

除了上文描述的一个或多个特征之外，或者作为替代方案，另外的实施方案可以包括电梯系统，所述电梯系统包括电梯控制器和一个或多个电梯轿厢，其中电梯控制器从信号处理器接收控制信号并且基于控制信号而控制一个或多个电梯轿厢。

除了上文描述的一个或多个特征之外，或者作为替代方案，另外的实施方案可以包括提示装置，所述提示装置包括显示器、灯、扬声器中的一项或多项，所述提示装置向用户提供包括以下至少各项中的一项的通知：系统的当前状态和向用户请求信息的提示。

除了上文描述的一个或多个特征之外，或者作为替代方案，另外的实施方案可以包括其中定位器系统的传感器包括由以下各项组成的组中的一项或多项：3d传感器、2d传感器、深度传感器、热传感器、红外传感器、运动传感器、麦克风、麦克风阵列、按钮、一组按钮、开关、一组开关、键盘、触摸屏、rfid阅读器、用于来自个人装置的位置信息的接收器、电容传感器、无线信标传感器、压敏地垫、雷达系统、声纳系统以及重力梯度计。

除了上文描述的一个或多个特征之外，或者作为替代方案，另外的实施方案可以包括其中听音系统麦克风阵列还包括分散在建筑物内部和建筑物外部的一个或多个中的麦克风。

根据一个实施方案，提供了用户定位和提供声学语音接口的方法。所述方法包括：使用包括至少一个传感器的定位器系统来检测用户的位置；使用定位器系统来基于用户的位置而产生位置值；在包括麦克风阵列的听音系统处接收位置值，所述麦克风阵列包括至少一个麦克风；从由位置值限定的位置收集音频信号；在信号处理器处接收音频信号和位置值中的至少一个；以及使用信号处理器来至少基于音频信号而产生控制信号。

除了上文描述的一个或多个特征之外，或作为替代方案，另外的实施方案可以包括其中定位器系统包括检测用户的方向的至少一个传感器并且进一步产生方向值，其中方向值包括俯仰角ρ和偏航角θ，其中听音系统接收方向值并且从由方向值限定的方向收集音频信号，并且其中信号处理器也基于方向值而产生控制信号。

除了上文描述的一个或多个特征之外，或者作为替代方案，另外的实施方案可以包括其中位置值包括用户在建筑物内的x坐标、y坐标和z坐标，并且其中z坐标限定用户的高度。

除了上文描述的一个或多个特征之外，或者作为替代方案，另外的实施方案可以包括建筑物内设备，所述建筑物内设备包括以下各项中的一项或多项：照明、供暖、通风、空调(hvac)、门、窗户、遮光帘、标志以及一个或多个电子装置，其中由信号处理器产生的控制信号控制建筑物内设备。

除了上文描述的一个或多个特征之外，或者作为替代方案，另外的实施方案可以包括电梯系统，所述电梯系统包括电梯控制器和至少一个电梯轿厢，其中由信号处理器产生的控制信号控制电梯系统。

除了上文描述的一个或多个特征之外，或者作为替代方案，另外的实施方案可以包括提示装置，所述提示装置包括显示器、灯和扬声器中的一项或多项，所述提示装置向用户提供包括以下各项中的至少一项的通知：系统的当前状态、向用户请求信息的提示和对用户输入的确认。

根据一个实施方案，提供了用于用户定位和提供声学语音接口的计算机程序产品。计算机程序产品包括体现有程序指令的计算机可读存储介质，所述程序指令可由处理器执行来使所述处理器：使用包括至少一个传感器的定位器系统来检测用户的位置；使用定位器系统来基于用户的位置而产生位置值；在包括麦克风阵列的听音系统处接收位置值，所述麦克风阵列包括至少一个麦克风；从由位置值限定的位置收集音频信号；并且在信号处理器处接收音频信号和位置值中的至少一个，使用信号处理器来至少基于音频信号而产生控制信号。

附图简述

以下描述不应被视为以任何方式进行限制。参考附图，相似元件的编号相似：

图1是根据一个或多个实施方案的用于用户定位和声学语音接口的系统的方框图；

图2是根据一个或多个实施方案的具有单独的控制器和信号处理器的用于用户定位和声学语音接口的串联系统的方框图；

图3是根据一个或多个实施方案的具有整合的控制器和信号处理器的用于用户定位和声学语音接口的并联系统的方框图；

图4是根据一个或多个实施方案的包括用于用户定位和声学语音接口的系统的建筑物的平面图；并且

图5是根据一个或多个实施方案的用于控制用于用户定位和声学语音接口的系统的方法的流程图。

具体实施方式

如本文所示和所描述，将呈现本公开的各种特征。虽然可以在一般意义上使用类似参考数字，但是将描述各种实施方案并且各种特征可以包括如本领域技术人员将了解的变化、更改、修改等，而不管是明确描述的还是本领域技术人员另外了解的。

本文描述的实施方案涉及用户定位和跟踪以确定声学波束成形系统的焦点。声学波束成形可以提供话音增强和噪声抑制。此外，一个或多个实施方案包括：训练话音识别以便处理使用声学波束成形获得的信号，以在其他人可能在说话，存在环境噪声和/或可能有混响的环境中为人们实现高品质语音接口。

现转向图1，提供了用于用户定位和声学语音接口的总系统100。系统100包括定位器系统110、听音系统120和信号处理器130。如图所示，定位器系统110、听音系统120和信号处理器130彼此都通信地连接在一起。在另一个实施方案中，定位器系统110可以仅连接至听音系统120，并且听音系统进而连接至信号处理器130。在另一个实施方案中，听音系统120可以仅连接至定位器系统110，并且听音系统进而连接至信号处理器130。在另一个实施方案中，信号处理器130可以被包括在听音系统120内，或者可以可替代地并入定位器系统110内。系统100进一步连接至建筑物内设备140，所述建筑物内设备由系统100基于定位器系统110和听音系统120而控制。根据一个或多个实施方案，建筑物内设备140是单件设备，所述单件设备是用于这个语音识别系统的客户端，或者可替代地，建筑物内设备140可以是任何数目件设备。例如，门厅中的语音识别可以连接至电梯控制器，并且也可以连接至其他类型的设备(例如，照明设备)。

例如，根据实施方案，定位器系统110包括至少一个传感器，所述至少一个传感器检测用户的位置并且产生位置值。另外，听音系统120包括麦克风阵列，所述麦克风阵列包括至少一个麦克风。根据实施方案，可以使用具有可转向抛物面反射器的麦克风。听音系统120从定位器系统110接收位置值和/或方向值，并且从由位置值和/或方向值限定的位置和/或方向收集音频信号。信号处理器130从听音系统120接收音频信号，并且基于音频信号而产生控制信号。这个控制信号之后可以用于控制建筑物内设备140中的一个或多个。

根据一个或多个实施方案，信号处理器130基于音频信号而产生控制信号。信号处理器130通过以下方式来达到这一点：实施信号处理技术和算法来识别与特定语音命令或对应于命令的预定义声学图案对应的波型。例如，信号处理器可以在音频信号中找到某一敲击图案，所述敲击图案指示使用电梯的请求以及取决于敲击次数的楼层请求。另一个实例包括信号处理器识别与对应于命令的单词或短语对应的声音。例如，信号处理器可以识别短语“开门”，并且将产生控制信号来打开最靠近用户的门。另一个实例包括信号处理器识别短语“请带我到四十四楼”，并且产生呈电梯呼叫信号形式的控制信号。根据另一个实施方案，信号处理器还可以使用一个或多个信号处理算法来处理所接收的音频信号，以例如对音频信号进行滤波，对信号进行调制，放大信号和/或其组合。还可以在如上所述分析和识别信号内容之前和之后通过信号处理装置来对音频信号进行其他处理。

根据一个或多个实施方案，位置值包括用户在建筑物内的x坐标和y坐标。另外，根据另一个实施方案，位置值还包括用户在建筑物内的z坐标。z坐标限定了用户的高度。根据一个或多个实施方案，用户的高度可以被定义为用户发出声音之处，例如用户的嘴部。因此，根据一个或多个实施方案，用户的高度可以指代“用户的嘴部的高度”或“用户的头部的高度”。根据另一个实施方案，位置值可以包括向量，例如定位器系统可以告知听音系统收听从40度至50度的区域。另外，根据另一个实施方案，方向值包括俯仰角ρ和偏航角θ。

根据另一个实施方案，定位器系统110包括多个传感器。传感器可以分散在整个建筑物内部和外部中。

根据一个或多个实施方案，建筑物内设备140可以包括以下各项中的一项或多项：照明、供暖、通风、空调(hvac)、门、窗户、遮光帘、标志、一个或多个电子装置以及运输装置。因此，由信号处理器产生的控制信号控制建筑物内设备。

根据另一个实施方案，建筑物内设备140包括电梯系统，所述电梯系统包括电梯控制器和一个或多个电梯轿厢。电梯控制器从信号处理器130接收控制信号，并且基于控制信号而控制一个或多个电梯轿厢。

另外，由信号处理器130产生的控制信号可以控制整个电梯系统，不仅包括呼叫电梯轿厢，而且包括电梯通知能力，系统电源管理，基于对请求用户了解的特定信息而进行资源分配等。

根据一个或多个实施方案，系统100还可以包括提示装置，所述提示装置包括以下一项或多项：显示器、灯、扬声器或向用户提供包括以下各项中的至少一项的通知的任何其他已知的提示装置：系统的当前状态、向用户请求信息的提示等。

根据一个或多个实施方案，定位器系统110的一个或多个传感器包括由以下各项组成的组中的一项或多项：3d传感器；2d传感器；深度传感器；热传感器；红外传感器；运动传感器；麦克风或麦克风阵列；按钮或一组按钮；开关或一组开关；键盘；触摸屏；rfid阅读器；用于来自个人装置，诸如移动电话、手表、眼镜、信标等的位置信息的接收器；电容传感器；无线信标传感器；压敏地垫；雷达系统；声纳系统；以及重力梯度计，或任何其他已知的位置检测装置。

根据另一个实施方案，听音系统120麦克风阵列还包括分散在整个建筑物内部和/或外部的麦克风。

现转向图2，根据一个或多个实施方案示出了另一个实例。具体而言，示出了具有单独的控制器211和221以及信号处理器230的用于用户定位和声学语音接口的串联系统200。系统200包括定位器系统210，所述定位器系统连接至听音系统220，所述听音系统连接至信号处理器230。在一个实施方案中，定位器系统210和听音系统220都可以直接连接至信号处理器230。在一个实施方案中，听音系统220连接至定位器系统210，所述定位器系统连接至信号处理器230。系统200可以进一步连接至系统200所控制的建筑物内设备240。

另外，根据一个或多个实施方案，定位器系统210包括控制器211和至少一个传感器212-213。从多个传感器212-213接收收集的数据的控制器处理所收集的数据，并且可以将收集和处理的数据传输至听音系统220。收集的数据可以包括被处理来对建筑物内的用户进行定位的图像、3d深度图、向量移动值等。处理可以进一步产生用户的坐标或向量数据，所述坐标或向量数据之后被传输至听音系统220。坐标数据可以包括x和y数据，所述数据对建筑物中的用户进行定位；以及z数据，所述数据指示用户在建筑物内的高度或高程。在一个实施方案中，坐标数据可以包括对建筑物中的用户进行定位的方位。

根据一个或多个实施方案，听音系统220包括控制器221和多个传感器222-223。控制器可以从定位器系统210接收指示用户的位置的数据。有了可以坐标数据形式提供的这个位置信息之后，控制器221可以控制传感器222-223，使得所述传感器可从由所接收的位置或方向数据限定的位置或方向捕获声音。例如，传感器222-223是麦克风，如果已知所述位置，那么所述麦克风可以被调整来从空间中的特定位置收集声学信号。这可以例如通过使用延迟求和波束成形技术来完成。例如，根据一个或多个实施方案，在延迟求和波束成形技术中，使用用户的位置或方向的信息和声速来计算每个传感器222-223处的延迟。传感器222-223位置必须是已知的，以便于从位置或方向计算延迟。所述位置可以例如在安装期间预先测量；可以在安装之后例如通过在一个或多个已知位置处播放测试源来获得等等。如果麦克风在制造方面的相同性不够，那么了解所述麦克风的灵敏度会是另外的优点。所述位置可以例如在安装之前预先测量；可以在安装之后例如通过在一个或多个已知位置处播放测试源来获得等等。其他波束成形技术包括但不限于：滤波求和波束成形、自适应波束成形、自适应维纳滤波、lms、rls、smi、mvdr等等，并且特别可以包括对潜在干扰噪声源的自适应置零，诸如广义旁瓣消除器、lcmv等等。

另外，根据一个或多个实施方案，信号处理器230至少可以从听音系统220接收所收集的声学信号，并且可以处理所述信号来产生控制信号。创建由信号处理器230产生的控制信号，使得所述控制信号可以控制一个或多个选择的建筑物内设备240。

现转向图3，根据一个或多个实施方案示出了具有整合的控制器311和321以及信号处理器330的用于用户定位和声学语音接口的并联系统300的另一种布置。系统300包括定位器系统310、听音系统320和建筑物内设备340。在这个实施方案中，定位器系统310包括第一传感器311，所述第一传感器还含有控制器311。定位器系统310还可以包括其他传感器312-313。类似地，听音系统可以包括也用作控制器321的传感器。另外，听音系统320可以包括附加传感器322-323。另外，在一个或多个实施方案中，信号处理器330可以是建筑物内设备340的一部分。因此，定位器系统310和听音系统320可以将其收集的信号直接提供给可以相应地接收并且进行控制的信号处理器330或建筑物内设备340。例如，建筑物内设备340可以从定位器系统310接收用户位置信息并从听音系统320接收声学信号，并且可以处理两者以产生控制信号，所述控制信号之后用于控制建筑物内设备。

根据一个或多个实施方案，信号处理器可以整体或部分地提供在多个不同位置处。确切地说，根据实施方案，信号处理器可以被包括在定位器系统的传感器之一内。例如，信号处理器可以被包括在也用作控制器的传感器中。可替代地，信号处理器可以被包括在定位器系统中的其他传感器之一中。另外，根据另一个实施方案，信号处理器可以进行分解并且部分地驻留在定位器系统的多个部件中。例如，信号处理器可以分布在传感器中的一个或多个上，并且部分地驻留在传感器外部，但是仍处于定位器系统内。另外，根据另一个实施方案，信号处理器可以被提供成使得信号处理器的一部分被提供在定位器系统内，并且其余部分(如果提供的话)被提供在定位器系统外部。

类似地，根据另一个实施方案，信号处理器可以被包括在听音系统的传感器之一内。例如，信号处理器可以被包括在也用作控制器的传感器中。可替代地，信号处理器可以被包括在听音系统中的其他传感器之一中。另外，根据另一个实施方案，信号处理器可以进行分解并且部分地驻留在听音系统的多个部件中。例如，信号处理器可以分布在传感器中的一个或多个上，并且部分地驻留在传感器外部，但是仍处于听音系统内。另外，根据另一个实施方案，信号处理器可以被提供成使得信号处理器的一部分被提供在听音系统内，并且其余部分(如果提供的话)被提供在定位器系统外部。

另外，根据另一个实施方案，信号处理器可以异地提供在一个或多个服务器中，并且经由有线或无线实现方式通过网络连接而连接至总系统。这个异地信号处理器可以具有接至所述系统的一个连接点或者可以连接至多个不同部件。另外，根据另一个实施方案，信号处理器可以具有如上所述部分地驻留在所述系统内某处的一部分，所述部分负责通常在本地级别完成的一组特定处理。此外，信号处理器还可以具有驻留在所述系统外部，例如驻留在异地或建筑物中的其他地方的另一部分，所述另一部分可以由所述系统或任何个别部件使用来进行不必在本地级别完成的其他处理。另外，其他布置和位置也可以用于信号处理器。

根据一个或多个实施方案，系统被设计用于接至建筑物设备和服务的更丰富、更自然的用户接口。具体而言，希望向电梯或需求响应人员输送机提供语音命令接口。

例如，现转向图4，针对所安装的用于用户定位和声学语音接口的系统400示出了建筑物平面图。系统400具有由多个传感器412、413、414、415、416、417以及418构成的定位器系统。系统400还包括听音系统，所述听音系统包括多个麦克风421、422、423、424、425、426、427、428以及429。所述建筑物同样包括建筑物内设备。例如，如图所示，建筑物具有电梯系统440，所述电梯系统包括多个电梯轿厢441、442、443、444、445以及446。平面图包括在以下实例中将为参考物的标记空间。例如，示出了主门厅区域401以及角落办公室403和会议室402。这些房间中的应用并不意味着进行限制，因为系统400可以安装和使用在建筑物中的任何房间或房间组合中，甚至是跨越多个楼层以及内部和外部空间。

在一个实例中，用户600可以在处于其角落办公室403中时决定他们想要使用系统400来控制例如他们办公室中的灯。在一个实施方案中，定位器系统可以连续监测用户600的位置。在替代实施方案中，用户600可以挥动他们的手，做出特定姿势，移动至房间的特定角落，移动其桌子上的特定物体，说出特定单词或可以由定位器系统的传感器412检测的任何其他操作集合。定位器传感器之后收集传感器数据并且处理所述传感器数据来确定用户600的位置或方向。例如，所述传感器可以确定用户在其桌子处，所述桌子处于特定的x、y坐标处。

然后，用户600可以说出命令或以其他方式产生声学信号，例如，对着其桌子敲出一系列特定节拍，所述声学信号可以被提供在办公室(未示出)，或处于其他地方的多个麦克风，诸如424-426和/或421-423听到，所述多个麦克风被校准成具有足够的灵敏度以使用波束成形来检测用户输入，从而从位置或方向收集声学信号。在另一个实施方案中，传感器412可以具有整合的麦克风传感器阵列，所述麦克风传感器阵列是听音系统的一部分，所述部分可以用于跟随其他传感器，诸如传感器413和414一起收集用户600的声学输入。

所收集的用户声学输入之后可以被处理来例如确定用户打算例如将灯调暗20％。用户可以可替代地提供不同命令，所述不同命令可以例如控制其他建筑物内设备，诸如电梯系统。确切地说，用户可以提供声学命令，所述声学命令可能请求延迟用户600抵达电梯系统440要花费的设定时间之后呼叫电梯。用户600还可以提供可以控制多个系统的多个命令。例如，用户可以使用听音系统的一个或多个麦克风来指示所述系统在20秒内关闭其办公室的灯，为其呼叫电梯轿厢441，并且记录并以邮件发送他们从离开其办公室到进入电梯轿厢441过程中所说的一切的音频文件。

根据另一个实施方案，站在建筑物的主门厅401中的用户601也可能希望输入一些建筑物命令。这个用户601可以由多个传感器，诸如传感器414、415和416来跟踪和定位。听音系统麦克风424、425和426可以使用所收集的位置或方向和跟踪信息以如本文其他地方所描述从用户601收集声学信号。例如，根据一个或多个实施方案，传感器数据用于引导麦克风从检测到用户的位置检测口头命令/处理/转发所述口头命令。用户的声学信号可以是在会议室402中开始会议呼叫的请求，并且在会议呼叫结束时会留下一大群人要求使用电梯系统440的六分之五的电梯轿厢的问题。因此，定位系统可以使用传感器413、414和415来跟踪用户，并且当确定用户601正在进入会议室402时，可以打开会议设备。另外，当使用传感器413或使用麦克风421、422和423通过语音识别检测到用户601正离开会议室时，此时，可以发送控制信号来呼叫所请求的电梯轿厢441、442、443、444以及445。

另外，根据依据一个或多个实施方案的另一个实例，用户602可以位于电梯轿厢附近并且希望呼叫一个电梯轿厢来离开所述楼层。在这个实例中，传感器414和415将跟踪用户602，并且将所述信息提供至麦克风427、428和429。这些麦克风427、428和429之后将使用这个信息连同如本文在其他地方所描述的波束成形技术来从用户602收集声学信号，所述声学信号将被处理来产生对电梯轿厢444的呼叫。例如，根据一个或多个实施方案，传感器数据用于引导麦克风从检测到用户的位置检测口头命令/处理/转发所述口头命令。

通过能够确切地从用户的特定位置收集声学信号，可以避免任何环境噪声，诸如可能在说话的其他人的存在、机械噪声、移动以及混响。所有这些情况都可能会对一个用户的话音(“我想去十一楼”)造成干扰，并且使得命令的识别容易出错或无法进行。这种外来干扰可以通过使用麦克风阵列来补偿，对所述麦克风阵列提供了如本文所公开从中收集声学信号的特定位置信息。

现转向图5，提供了操作用于定位和声学检测系统的方法500的流程图。所述方法包括使用包括至少一个传感器的定位器系统来检测用户的位置(操作510)。所述方法还包括使用定位器系统来基于用户的位置或方向而产生位置值(操作520)。所述方法还包括在包括麦克风阵列的听音系统处接收位置或方向值(操作530)，所述麦克风阵列包括至少一个麦克风。另外，所述方法包括从由位置或方向值限定的位置或方向收集音频信号(操作540)。所述方法还包括在信号处理器处接收音频信号和位置值中的至少一个(操作550)。所述方法包括使用信号处理器来至少基于音频信号而产生控制信号(操作560)。

根据一个或多个实施方案，定位器系统包括至少一个传感器，所述至少一个传感器检测用户的方向并进一步产生方向值。方向值包括俯仰角ρ和偏航角θ。另外，听音系统接收方向值，并且从由方向值限定的方向收集音频信号。此外，信号处理器也基于方向值而产生控制信号。

根据一个或多个实施方案，虽然声学波束成形通常包括半波长间隔的线性麦克风阵列，但是这对于安装限制、成本和话音分离性能来说可能是不希望的。因此，可以将麦克风放置在所有3个空间维度中的各种位置上，并且可以使用许多不同的麦克风组合。

例如，根据一个或多个实施方案，所述系统可以了解话音在空间中起源于何处，以避免使用盲源定位；执行话音分离和干扰消除；并且之后进行话音识别以实现高品质语音接口以方便用户使用。另外，根据另一个实施方案，当人员在整个建筑物中移动时，所述系统可以维持任何个人特定话音识别数据(语言、口音、词汇等)与所述人员的关联。

根据一个或多个实施方案，用于用户定位和声学语音接口的系统包括3d人员定位和跟踪以确定声学波束成形参数，以及声学波束成形以便实现话音增强和噪声抑制。所述系统还可以包括特别针对通过波束成形增强的话音训练话音识别。话音识别系统特别针对来自波束成形系统的增强的话音进行的训练可以通过训练或反复训练深度神经网络、卷积神经网络、递归神经网络等等来实现。这个系统可以在可能有其他人在说话，环境噪声和/或混响的环境中为人们实现高品质语音接口。

另外，根据一个或多个实施方案，除了用户的位置或方向之外，还可以确定附加空间信息，所述附加空间信息之后可以用于提供更好的波束成形和声学采样。例如，对潜在电梯乘客的3d定位和跟踪可以用于电梯调度、门控制和相关功能。此外，在世界坐标系中对乘客进行定位，并且可以准确地例如在10cm内确定所述乘客的头部的位置或方向。定位系统使用3d传感器来收集这个位置信息，并且相较于2d相机，还可以提供更优异的抗干扰性、隐私保护和遮挡状况性能。3d定位准确度本身足以确定从人到麦克风的声学话音延迟处在大约300us内，反过来这对于初始化延迟求和波束成形器而言是足够准确的。另外，在用户被3d传感器跟踪时，波束成形器可以用新的位置来更新。此外，随着用户在各位置之间移动，所述用户的特定话音特征(语言、口音、词汇等)可以(经由跟踪)而与所述用户保持关联，以改进持续话音识别。

因此，根据一个或多个实施方案，可以使用声学波束成形来同时增强每个人的话音并且抑制来自其他同时说话人的话音。例如，在一个实施方案中，可以对每个人的分离的话音信号使用维纳滤波器，以减少任何环境宽带噪声。另外，根据另一个实施方案，可以使用声学回声消除来抑制来自环境的任何混响。

所得话音可以比未利用波束成形和干扰抑制的话音更容易理解。另外，所得话音流可以被设计成由计算机系统识别。当如本文在其他地方所描述针对特定希望的话音信号训练识别器时，可以进一步改进话音的计算机识别。在这个实例中，提供这种特定训练是因为波束成形和干扰抑制过程中存在残留话音失真。这种训练通常需要大量数据，但是在这个实例中，大量数据是不必要的，因为系统只需要识别相对较少的词汇。此外，根据至少一个实施方案，出于隐私原因，不会保留话音。

任选地，根据一个或多个实施方案，乘客的反馈可以利用提示装置，诸如显示器，或者可以利用听觉反馈，其中听觉反馈类似地使用从3d跟踪已知的延迟通过波束成形技术来聚焦于用户。例如，可以提供将声音聚焦于用户的扬声器阵列，使得所述用户能清楚地听到反馈，而其他人不会听到大声或清楚的反馈。

有利的是，本文描述的实施方案为按需人员输送机和/或利用同一定位器系统和听音系统中的一些或全部的其他建筑物内设备提供了准确的语音命令接口。另外，所述系统提供了被设计来增强乘客体验的差异化的方便的用户接口。

虽然仅结合有限数目的实施方案详细描述了本公开，但是应容易理解，本公开并不限于这类公开的实施方案。相反，可以对本公开进行修改，以结合前文未描述的，但与本公开的范围相称的任何数目的变化、更改、替代、组合、子组合或等同布置。此外，虽然已经描述了本公开的各种实施方案，但是应理解，本公开的各方面可以包括所描述实施方案中的仅一些。

本文使用的术语只用于描述具体实施方案的目的，而不是意在进行限制。除非上下文另外明确指出，否则如本文所使用的单数形式“一个”、“一种”和“所述”意在同样包括复数形式。将进一步理解，术语“包括(comprises)”和/或“包括(comprising)”在本说明书中使用时明确说明存在所述特征、整体、步骤、操作、元件和/或部件，但是并不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、部件和/或其组合。

以上权利要求书中的所有装置或步骤的对应的结构、材料、动作以及等同物加上功能要素意在包括用于执行所述功能的任何结构、材料或动作以及具体要求保护的其他要求保护的要素。已经出于说明和描述的目的提供了描述，但是所述描述并不意在是详尽的或者限于呈所公开的形式的实施方案。在不脱离本公开的范围的情况下，许多修改和变化对于本领域普通技术人员而言将是显而易见的。选择并描述实施方案来最好地解释本公开的原理和实际应用，并且使其他本领域普通技术人员能够理解各种实施方案以及适于所预期的具体用途的各种修改。

本实施方案可以是系统、方法、和/或处于任何可能的技术细节整合等级的计算机程序产品。计算机程序产品可以包括在上面具有计算机可读程序指令的一种或多种计算机可读存储介质，所述计算机可读程序指令用于使处理器执行本公开的各方面。

本文参考根据实施方案的方法、设备(系统)和计算机程序产品的流程图图示和/或方框图来描述本公开的各方面。将理解，流程图图示和/或方框图的每个方框以及流程图图示和/或方框图中的方框的组合可以通过计算机可读程序指令来实施。

附图中的流程图和方框图示出了根据各种实施方案的系统、方法和计算机程序产品的可能实现方式的架构、功能性和操作。在此方面，流程图或方框图中的每个方框可以表示模块、指令段或部分，它们包括用于实施指定逻辑功能的一个或多个可执行指令。在一些替代实现方式中，方框中提到的功能可以不按附图中提到的顺序出现。例如，连续显示的两个方框实际上可以基本上同时执行，或者所述方框有时可以按相反的顺序执行，这取决于所涉及的功能性。还将注意到，方框图和/或流程图图示的每个方框以及方框图和/或流程图图示中的方框的组合可以由执行指定功能或动作的、或者执行专用硬件和计算机指令的组合的基于专用硬件的系统来实施。

已经出于说明的目的提供了对各种实施方案的描述，但是所述描述并不意在是详尽的或限于所公开的实施方案。在不脱离所描述的实施方案的范围和精神的情况下，许多修改和变化对于本领域普通技术人员而言将是显而易见的。选择本文使用的术语来最好地解释实施方案的原理、对市场中发现的技术的实际应用或技术改进，或使其他本领域普通技术人员能够理解本文公开的实施方案。

虽然已经参考一个或多个示例性实施方案描述了本公开，但是本领域技术人员将理解，在不脱离本公开的范围的情况下，可以进行各种改变并且等同物可以由其元件取代。此外，在不脱离本公开的本质范围的情况下，可以进行许多修改来使特定情况或材料适于本公开的教义。因此，本公开并不意在限于作为预期用于执行本公开的最佳模式公开的特定实施方案，而是本公开将包括落入权利要求书的范围内的所有实施方案。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：A.M.芬;徐阿特;熊子友;王洪成
技术所有人：奥的斯电梯公司
我是此专利的发明人

上一篇：一种语音控制PPT翻页方法及系统与流程
上一篇：语音对话系统以及语音对话方法与流程