一种基于多音区的语音检测方法、相关装置及存储介质与流程

文档序号：22681684发布日期：2020-10-28 12:43阅读：170来源：国知局

本申请涉及人工智能领域，尤其涉及一种基于多音区的语音检测方法、相关装置及存储介质。

背景技术：

随着远场语音在人们日常生活中的广泛应用，在多声源(或多用户)场景下，对每一个可能的声源进行语音激活检测(voiceactivitydetection，vad)、分离、增强、识别和通话等处理，已成为多种智能语音产品提升其语音交互性能的瓶颈。

在传统方案中，设计一种基于主说话人检测算法的单声道前处理系统，该前处理系统一般采用方位角估计结合信号强度估计的方法，或者采用方位角估计结合空间谱估计的方法，估计出信号能量(即到达麦克风阵列处的信号能量)最强的说话人和其方位角度，并将其作为主说话人及其方位角度。

然而，当环境中存在多个说话人时，仅凭到达信号强度来判断主说话人是存在漏洞的，这是因为主说话人可能相对干扰说话人而言，与距离麦克风阵列之间的距离更远，虽然主说话人的音量可能大于干扰说话人，但其语音信号在空间中的传播损耗更大，因此到达麦克风阵列的信号强度可能反而更小，导致在后续的语音处理上效果较差。

技术实现要素：

本申请实施例提供了一种基于多音区的语音检测方法、相关装置及存储介质，可以在多声源的场景下，通过控制信号对不同方向上的语音信号进行保留或者抑制，从而能够实时分离和增强每个用户的语音，由此提升语音检测的准确度，有利于提升语音处理效果。

有鉴于此，本申请一方面提供一种基于多音区的语音检测方法，包括：

获取n个音区内每个音区所对应的音区信息，其中，音区信息包括音区标识、指向角度以及用户信息，音区标识用于标识音区，指向角度用于指示音区的中心角度，用户信息用于指示音区内的用户存留情况，n为大于1的整数；

根据每个音区所对应的音区信息，生成每个音区所对应的控制信号，其中，控制信号用于对语音输入信号进行抑制处理或保留处理，控制信号与音区具有一一对应的关系；

采用每个音区所对应的控制信号，对每个音区所对应的语音输入信号进行处理，得到每个音区所对应的语音输出信号，其中，控制信号、语音输入信号以及语音输出信号具有一一对应的关系；

根据每个音区所对应的语音输出信号，生成语音检测结果。

本申请另一方面提供一种语音检测装置，包括：

获取模块，用于获取n个音区内每个音区所对应的音区信息，其中，音区信息包括音区标识、指向角度以及用户信息，音区标识用于标识音区，指向角度用于指示音区的中心角度，用户信息用于指示音区内的用户存留情况，n为大于1的整数；

生成模块，用于根据每个音区所对应的音区信息，生成每个音区所对应的控制信号，其中，控制信号用于对语音输入信号进行抑制处理或保留处理，控制信号与音区具有一一对应的关系；

处理模块，用于采用每个音区所对应的控制信号，对每个音区所对应的语音输入信号进行处理，得到每个音区所对应的语音输出信号，其中，控制信号、语音输入信号以及语音输出信号具有一一对应的关系；

生成模块，还用于根据每个音区所对应的语音输出信号，生成语音检测结果。

在一种可能的设计中，在本申请实施例的另一方面的一种实现方式中，

获取模块，具体用于对n个音区内的每个音区进行检测，得到每个音区所对应的用户检测结果；

根据每个音区所对应的用户检测结果确定每个音区所对应的用户信息；

根据每个音区所对应的用户检测结果确定每个音区所对应的唇部运动信息；

获取每个音区所对应的音区标识以及每个音区所对应的指向角度；

根据每个音区所对应的用户信息、每个音区所对应的唇部运动信息、每个音区所对应的音区标识以及每个音区所对应的指向角度，生成每个音区所对应的音区信息。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，

获取模块，具体用于针对于n个音区中的任意一个音区，若用户检测结果为音区内存在可识别用户，则将第一身份标识确定为用户信息；

针对于n个音区中的任意一个音区，若用户检测结果为音区内不存在用户，则将第二身份标识确定为用户信息；

针对于n个音区中的任意一个音区，若用户检测结果为音区内存在未知用户，则将第三身份标识确定为用户信息；

获取模块，具体用于针对于n个音区中的任意一个音区，若用户检测结果为音区内存在具有唇部运动的用户，则将第一运动标识确定为唇部运动信息；

针对于n个音区中的任意一个音区，若用户检测结果为音区内存在用户，且用户不具有唇部运动，则将第二运动标识确定为唇部运动信息；

针对于n个音区中的任意一个音区，若用户检测结果为音区内不存在用户，则将第三运动标识确定为唇部运动信息。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，

生成模块，具体用于针对于n个音区中的任意一个音区，若用户信息用于指示音区内不存在用户，则生成第一控制信号，其中，第一控制信号属于控制信号，第一控制信号用于对语音输入信号进行抑制处理；

针对于n个音区中的任意一个音区，若用户信息用于指示音区内存在用户，则生成第二控制信号，其中，第二控制信号属于控制信号，第二控制信号用于对语音输入信号进行保留处理。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，

针对于n个音区中的任意一个音区，若用户信息用于指示音区内存在用户，且用户不具有唇部运动，则生成第一控制信号；

针对于n个音区中的任意一个音区，若用户信息用于指示音区内存在用户，且用户具有唇部运动，则生成第二控制信号，其中，第二控制信号属于控制信号，第二控制信号用于对语音输入信号进行保留处理；

针对于n个音区中的任意一个音区，若用户信息用于指示音区内存在用户，且未知用户的唇部运动情况，则根据原始音频信号生成第一控制信号或第二控制信号。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，

生成模块，具体用于根据每个音区所对应的音区信息，采用预设算法生成每个音区所对应的控制信号，其中，预设算法为自适应波束形成算法、盲源分离算法或基于深度学习的语音分离算法；

处理模块，具体用于若预设算法为自适应波束形成算法，则根据每个音区所对应的控制信号，采用自适应波束形成算法对每个音区所对应的语音输入信号进行处理，得到每个音区所对应的语音输出信号；

若预设算法为盲源分离算法，则根据每个音区所对应的控制信号，采用盲源分离算法对每个音区所对应的语音输入信号进行处理，得到每个音区所对应的语音输出信号；

若预设算法为基于深度学习的语音分离算法，则根据每个音区所对应的控制信号，采用基于深度学习的语音分离算法对每个音区所对应的语音输入信号进行处理，得到每个音区所对应的语音输出信号。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，

生成模块，具体用于根据每个音区所对应的语音输出信号，确定每个音区所对应的信号功率，其中，信号功率为语音输出信号在时频点上的信号功率；

根据每个音区所对应的信号功率，确定每个音区所对应的估计信噪比；

根据每个音区所对应的估计信噪比，确定每个音区所对应的输出信号加权值，其中，输出信号加权值为语音输出信号在时频点上的加权结果；

根据每个音区所对应的输出信号加权值以及每个音区所对应的语音输出信号，确定每个音区所对应的目标语音输出信号；

根据每个音区所对应的目标语音输出信号，确定每个音区所对应的语音检测结果。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，

生成模块，具体用于根据每个音区所对应的输出信号加权值以及每个音区所对应的语音输出信号，确定每个音区所对应的待处理语音输出信号；

对每个音区所对应的待处理语音输出信号进行降噪处理，得到每个音区所对应的目标语音输出信号。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，

生成模块，具体用于针对于n个音区中的任意一个音区，若目标语音输出信号满足人声匹配条件，则生成第一语音检测结果，其中，第一语音检测结果属于语音检测结果，第一语音检测结果表示目标语音输出信号为人声信号；

针对于n个音区中的任意一个音区，若目标语音输出信号不满足人声匹配条件，则生成第二语音检测结果，其中，第二语音检测结果属于语音检测结果，第二语音检测结果表示目标语音输出信号为噪声信号。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，语音检测装置还包括确定模块以及传输模块；

确定模块，用于在生成模块根据每个音区所对应的语音输出信号，生成语音检测结果之后，若存在m个音区所对应的语音检测结果均为第一语音检测结果，则根据m个音区中每个音区所对应的语音输出信号，从m个音区中确定至少一个目标音区，其中，第一语音检测结果表示语音输出信号为人声信号，m个音区属于n个音区，m为大于或等于1，且小于或等于n的整数；

传输模块，用于将至少一个目标音区所对应的语音输出信号传输至通话方。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，语音检测装置还包括确定模块以及识别模块；

识别模块，用于针对于每个目标音区，对目标音区所对应的语音输出信号进行语义识别，得到语义识别结果；

生成模块，还用于根据每个目标音区所对应的语义识别结果，生成对话响应信息。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，语音检测装置还包括确定模块以及识别模块；

处理模块，用于针对于每个目标音区，对目标音区所对应的语音输出信号进行切分处理，得到待识别音频数据；

识别模块，用于针对于每个目标音区，对目标音区所对应的待识别音频数据进行语音识别，得到语音识别结果；

生成模块，还用于根据每个目标音区所对应的语音识别结果，生成文本记录信息，其中，文本记录信息包括翻译文本以及会议记录文本中的至少一种。

本申请另一方面提供一种计算机设备，包括：存储器、收发器、处理器以及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，处理器用于根据程序代码中的指令执行上述各方面所述的方法；

总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请的另一方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

本申请的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方面中各种可选实现方式所提供的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种基于多音区的语音检测方法，首先获取n个音区内每个音区所对应的音区信息，该音区信息包括音区标识、指向角度以及用户信息，于是可以根据每个音区所对应的音区信息，生成每个音区所对应的控制信号，然后采用每个音区所对应的控制信号，对每个音区所对应的语音输入信号进行处理，得到每个音区所对应的语音输出信号，最后根据每个音区所对应的语音输出信号，生成语音检测结果。采用上述方式，基于多个音区并行处理来自不同方向的语音信号，进而在多声源的场景下，可通过控制信号对不同方向上的语音信号进行保留或者抑制，从而能够实时分离和增强每个用户的语音，由此提升语音检测的准确度，有利于提升后续的语音处理效果。

附图说明

图1为本申请实施例中基于多用户会议场景的一个环境示意图；

图2为本申请实施例中语音检测系统的一个实施例示意图；

图3为本申请实施例中基于多音区的语音检测方法的一个实施例示意图；

图4为本申请实施例中多音区划分方式的一个示意图；

图5为本申请实施例中多声道拾音系统的一个架构示意图；

图6为本申请实施例中多声道拾音系统的另一个架构示意图；

图7为本申请实施例中基于多音区语音检测方法实现通话的一个界面示意图；

图8为本申请实施例中多声道拾音系统的另一个架构示意图；

图9为本申请实施例中基于多音区语音检测方法实现对话响应的一个界面示意图；

图10为本申请实施例中多声道拾音系统的另一个架构示意图；

图11为本申请实施例中基于多音区语音检测方法实现文本记录的一个界面示意图；

图12为本申请实施例中语音检测装置的一个实施例示意图；

图13为本申请实施例中计算机设备的一个结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的用户，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请提供的基于多音区的语音检测方法，能够针对多用户同时说话的情况，进行语音识别和语义识别，再决定响应哪一个用户。在远场识别场景下，容易存在多人说话的情况，比如，在会议室内，在车里，或在放置有智能家居的屋子里可能存在多个用户同时说话的情况，这便会造成多源信号干扰检测的问题。本申请提供的基于多音区的语音检测方法可解决上述场景中存在的信号干扰问题。例如，在智能音箱产品的免唤醒场景下，经常出现周围环境中的多个用户同时发声的情形，基于此，采用本申请提供的方法先确定应该响应哪一个用户，然后对该用户的语音内容进行内容方面和意图方面的识别，智能音箱产品根据识别结果确定是否响应用户的语音指令。

为了便于理解，下面将结合一个具体的场景对本申请提供的语音检测方法进行介绍。请参阅图1，图1为本申请实施例中基于多用户会议场景的一个环境示意图，如图所示，在远场语音的会议场景下，会议室中可能同时有多名参会人员，如用户1、用户2、用户3、用户4、用户5和用户6。会议系统可以包括屏幕、摄像头以及麦克风阵列，其中，麦克风阵列用于采集6位用户的语音，摄像头用于拍摄6位用户的实时画面，屏幕既可以展示6位用户的画像，还可以展示与会议相关的信息等。对于通话应用而言，需要实时确定在会议场景中的主讲人(通常为1个或2个主讲人)，然后增强主讲人的语音并传输到通话连接的远端，同时在会议场景下，对于会议转录功能而言，还需要实时确定每一个用户是否在说话，以此分离并增强说话人的语音，再传输到云端的自动语音识别技术(automaticspeechrecognition，asr)服务模块，通过asr服务模块对语音内容进行识别。

本申请提供的基于多音区的语音检测方法应用于如图2所示的语音检测系统，请参阅图2，图2为本申请实施例中语音检测系统的一个实施例示意图，如图所示，信息展示系统中包括服务器以及终端设备。本申请涉及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdeliverynetwork，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能电视、智能音箱、智能手机、平板电脑、笔记本电脑、掌上电脑、个人电脑等，但不局限于此。

在语音检测系统中，终端设备和服务器之间可以通过无线网络、有线网络或可移动存储介质进行通信。其中，上述的无线网络使用标准通信技术和/或协议。无线网络通常为互联网(internet)、但也可以是任何网络，包括但不限于蓝牙、局域网(localareanetwork，lan)、城域网(metropolitanareanetwork，man)、广域网(wideareanetwork，wan)、移动、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，可以使用定制或专用数据通信技术取代或者补充上述数据通信技术。可移动存储介质可以为通用串行总线(universalserialbus，usb)闪存盘、移动硬盘或其他可移动存储介质等，本申请在此不做限制。虽然图2中仅示出了五种类型的终端设备，但应当理解，图2中的示例仅用于理解本方案，不应理解为对本申请的限定。

基于图2所示的语音检测系统，可通过终端设备上装备的麦克风阵列拾取语音信号以及环境中的其他声音，然后麦克风阵列将收集到的数字信号传输到语音信号的前处理模块，由前处理模块进行目标语音的提取、增强、vad检测、说话人检测以及主说话人检测等处理，具体处理内容视场景和功能需求灵活确定。经过前处理模块增强后的语音信号可被送入至服务器，通过服务器中部署的语音识别模块或者语音通话模块等，对增强后的语音信号进行相关处理。

本申请提供的基于多音区的语音检测方法是采用ai技术实现的，ai是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，ai是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。ai也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

ai技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。ai基础技术一般包括如传感器、专用ai芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。ai软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请基于ai技术进行语音识别，包含但不仅限于车联网、智能翻译、智能家居以及自动驾驶等领域的语音。本申请采用语音技术(speechtechnology)的关键技术，即asr，此外，语音技术还包括语音合成技术(texttospeech，tts)以及声纹识别技术，让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。其中，语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高新技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别是人机交互的基础，主要解决让机器听清楚人说什么的难题。ai目前落地最成功的就是语音识别技术。

本申请还采用了自然语言处理(naturelanguageprocessing，nlp)技术，nlp是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。nlp是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。nlp技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请还可以基于计算机视觉技术(computervision，cv)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(opticalcharacterrecognition，ocr)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

结合上述介绍，下面将对本申请中基于多音区的语音检测方法进行介绍，请参阅图3，本申请实施例中基于多音区的语音检测方法的一个实施例包括：

101、获取n个音区内每个音区所对应的音区信息，其中，音区信息包括音区标识、指向角度以及用户信息，音区标识用于标识音区，指向角度用于指示音区的中心角度，用户信息用于指示音区内的用户存留情况，n为大于1的整数；

本实施例中，首先可以将可视范围内的空间划分为n个音区，为了便于说明，请参阅图4，图4为本申请实施例中多音区划分方式的一个示意图，如图所示，假设一个360度的空间可以平均分为12个音区，每个音区为30度，每个音区的中心角度为θi＝1,...,n，例如，θ1＝15度，θ2＝45度，θ3＝75度，以此类推。需要说明的是，图4仅为一个示例，在实际应用中，n的数量为大于或等于2的整数，例如可以取值12、24或36等，分区数量取决于运算量，此外，对可视范围内的空间还可以进行非均匀的划分，此处不做限定。每个音区对应于一个声源，假设某个音区内存在2个或2个以上的用户，则也可以认为这些用户属于同一个人，因此，在实际分区中，可对每个音区划分的足够细密。

在音区划分完成之后，语音检测装置可以获取每个音区所对应的音区信息，其中，音区信息包括音区标识、指向角度以及用户信息，例如，第1个音区的音区信息可以表示为{(i,θi,λi)}i＝1，第2个音区的音区信息可以表示为{(i,θi,λi)}i＝2，以此类推。其中，i表示第i个音区，θi表示第i个音区对应的指向角度，λi表示第i个音区对应的用户信息，用户信息用于指示音区内的用户存留情况，例如，假设检测到第i个音区内不存在用户，则λi可设置为-1，假设检测到第i个音区内存在用户，则λi可设置为1。

需要说明的是，语音检测装置可部署于终端设备，也可以部署于服务器，还可以部署于语音检测系统，具体地，语音检测装置可基于多声道拾音系统实现本申请提供的方法。

102、根据每个音区所对应的音区信息，生成每个音区所对应的控制信号，其中，控制信号用于对语音输入信号进行抑制处理或保留处理，控制信号与音区具有一一对应的关系；

本实施例中，在语音检测装置获取到n个音区中每个音区所对应的音区信息之后，可以分别生成每个音区所对应的控制信号，控制信号能够对通过麦克风阵列获取到的语音输入信号进行抑制处理或保留处理。假设检测到第i个音区内不存在用户，即表示该音区上的语音输入信号属于噪声(非正常人声)，因此，针对于该音区生成的控制信号可以对语音输入信号进行抑制处理。假设检测到第i个音区内存在用户且该音区上的语音输入信号属于正常人声，那么针对于该音区生成的控制信号可以对语音输入信号进行保留处理。

需要说明的是，检测音区内是否存用户的方式可以是采用计算机视觉(computervision，cv)技术进行检测，也可以利用空间谱估计的方式估计当前音区内是否存在用户。

103、采用每个音区所对应的控制信号，对每个音区所对应的语音输入信号进行处理，得到每个音区所对应的语音输出信号，其中，控制信号、语音输入信号以及语音输出信号具有一一对应的关系；

本实施例中，在语音检测装置获取到n个音区中每个音区所对应的控制信号之后，分别采用每个音区所对应的控制信号对相应音区内的语音输入信号进行抑制处理或保留处理，由此输出每个音区所对应的语音输出信号。例如，第i个音区内不存在用户，则第i个音区的控制信号可以为“0”，即对该音区对应的语音输入信号进行抑制处理。又例如，第i个音区内存在正常发声的用户，则第i个音区的控制信号可以为“1”，即对该音区对应的语音输入信号进行保留处理，进一步地，还可以对该音区对应的语音输入信号进行提取、分离以及增强等处理。

104、根据每个音区所对应的语音输出信号，生成语音检测结果。

本实施例中，为了提升语音输出信号的质量，语音检测装置还可以对每个音区所对应的语音输出信号进行后处理，例如，进行跨声道后处理以及降噪后处理等，最后对经过后处理的语音输出信号进行检测，生成每个音区的语音检测结果，进而确定是否响应来源于该音区的语音。具体地，语音检测装置可检测每个音区是否符合人声匹配条件，假设第i个音区符合人声匹配条件，则第i个音区的语音检测结果可以为“第i个音区存在用户”。又假设第i个音区不符合人声匹配条件，则第i个音区的语音检测结果为“第i个音区无用户”。

本申请可基于多声道拾音系统实现语音检测，具体地，请参阅图5，图5为本申请实施例中多声道拾音系统的一个架构示意图，如图所示，在终端设备上装备的麦克风阵列可拾取每个音区所对应的音频信号，音频信号包括语音输入信号以及噪声信号。由信号分离器生成每个音区所对应的控制信号，采用各个音区对应的控制信号分别对每个指向角度的语音输入信号进行抑制或保留处理，再分别对每个语音输出信号进行跨声道后处理和降噪后处理，由此得到每个音区对应的目标语音输出信号。最后，基于每个音区的音区信息和目标语音输出信号，确定语音检测结果，即得到n个音区中每个音区的语音检测结果。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的一个可选实施例中，获取n个音区内每个音区所对应的音区信息，具体包括如下步骤：

对n个音区内的每个音区进行检测，得到每个音区所对应的用户检测结果；

根据每个音区所对应的用户检测结果确定每个音区所对应的用户信息；

根据每个音区所对应的用户检测结果确定每个音区所对应的唇部运动信息；

获取每个音区所对应的音区标识以及每个音区所对应的指向角度；

本实施例中，介绍了一种基于cv技术获取音区信息的方式，cv是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，cv研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。cv技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(opticalcharacterrecognition，ocr)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

具体地，cv技术可以采用神经网络来实现，通常情况下，还需要配置对应的摄像头来捕捉用户画面，该摄像头可以是采用1个广角摄像头覆盖，对于360度的空间而言，可以采用2到3个广角摄像头以拼接的方式进行全面覆盖。利用cv技术可以检测空间内的每个人，并对其进行编号，还可以提供相关信息，例如，用户的身份信息、人脸方位角、唇部运动信息、脸部朝向以及人脸距离等，针对n个音区中的每个音区进行检测，分别得到每个音区所对应的用户检测结果。本申请以用户检测结果包括用户的身份信息以及唇部运动信息为例进行说明，然而这不应理解为对本申请的限定。

用户检测结果包括用户信息以及唇部运动信息，其中，用户信息包括是否存在用户，以及若存在用户的情况下，是否能够提取到该用户的身份信息，例如，第2个音区存在用户，且经过识别后确定该用户为“小李”，对应的身份标识为“01011”。又例如，第5个音区不存在用户，即无需进行识别。唇部运动信息表示用户的嘴唇是否在动，通常情况下，人在说话时嘴唇会运动，因此，基于唇部运动信息能够进一步确定该用户是否在说话。结合预先划分的音区，即可确定每个音区所对应的音区标识以及每个音区所对应的指向角度，由此，生成每个音区所对应的音区信息{(i,θi,λi,li)}i＝1,...n,。音区信息{(i,θi,λi,li)}i＝1,...n,中的i表示第i个音区，θi表示第i个音区的指向角度，λi表示第i个音区的用户信息，li表示第i个音区的唇部运动信息。

其次，本申请实施例中，提供了一种基于cv技术获取音区信息的方式，采用上述方式，利用cv技术能够探测到更多的音区信息，相当于可以“看”到每个音区内用户的相关情况，比如，是否存在用户，用户的用户信息，以及用户是否存在唇部运动等，实现多模态信息的整合利用，通过视觉维度上的信息能够进一步提升语音检测的准确度，并且还可以为后续处理有关视频的方案通过可行的方式。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，根据每个音区所对应的用户检测结果确定每个音区所对应的用户信息，具体包括如下步骤：

针对于n个音区中的任意一个音区，若用户检测结果为音区内存在可识别用户，则将第一身份标识确定为用户信息；

针对于n个音区中的任意一个音区，若用户检测结果为音区内不存在用户，则将第二身份标识确定为用户信息；

针对于n个音区中的任意一个音区，若用户检测结果为音区内存在未知用户，则将第三身份标识确定为用户信息；

根据每个音区所对应的用户检测结果确定每个音区所对应的唇部运动信息，具体包括如下步骤：

针对于n个音区中的任意一个音区，若用户检测结果为音区内存在具有唇部运动的用户，则将第一运动标识确定为唇部运动信息；

针对于n个音区中的任意一个音区，若用户检测结果为音区内存在用户，且用户不具有唇部运动，则将第二运动标识确定为唇部运动信息；

针对于n个音区中的任意一个音区，若用户检测结果为音区内不存在用户，则将第三运动标识确定为唇部运动信息。

本实施例中，介绍了一种基于cv技术提取唇部运动信息和用户信息的具体方式，由于用户信息和唇部运动信息需要结合实际情况进行确定，因此，需要对每个音区内的用户信息和唇部运动信息进行检测，下面将进行详细介绍。

一、针对用户信息的识别方式；

为了便于说明，本申请将以n个音区中的任意一个音区为例进行介绍，其他音区采用类似地方式确定用户信息，故此处不做赘述，假设该音区为第i个音区，基于第i个音区的用户检测结果可确定第i个音区内是否存在用户，以及存在用户的情况下，是否能够得到该用户的身份信息。第i个音区所对应的用户信息表示为λi，即表示为在指向角度为θi的方向上的用户信息。如果指向角度为θi的方向上存在用户，且能够确定该用户的身份信息，即表示能够确定该用户的姓名和身份标识，则λi为该用户的第一身份标识，如“5”。如果指向角度为θi的方向上没有用户，则λi可设置为特殊值，即设置为第二身份标识，如“-1”。如果不具有人脸识别的功能，即无法确定该用户的身份信息，则可以将λi设置为另一个特殊值，即第三身份标识，如“0”，由此告知后续的处理模块该方向虽然有用户，但是身份未知，如有必要，可以通过声纹识别的方式进一步识别该用户的身份信息。

二、针对唇部运动信息的识别方式；

为了便于说明，本申请将以n个音区中的任意一个音区为例进行介绍，其他音区采用类似地方式确定唇部运动信息，故此处不做赘述，假设该音区为第i个音区，基于第i个音区的用户检测结果可确定第i个音区内是否存在用户，以及存在用户的情况下，该用户的嘴唇是否发生运动。摄像头一般采用不可活动的广角摄像头，通过cv算法检测视角范围内所有的人和人脸，同时可将人脸局部图像抠出，通过cv算法检测人脸上嘴唇是否在运动。第i个音区所对应的唇部运动信息表示为li，即表示为在指向角度为θi的方向上的唇部运动信息。如果指向角度为θi的方向上存在用户，且能够确定该用户的发生唇部运动，则li可设置为第一运动标识，如“0”。如果指向角度为θi的方向上存在用户，但是该用户并未发生唇部运动，则li可设置为第二运动标识，如“1”。如果指向角度为θi的方向上没有用户，则li可设置为特殊值，即设置为第三运动标识。如“-1”。

再次，本申请实施例中，提供了一种基于cv技术提取唇部运动信息和用户信息的具体方式，采用上述方式，能够从多个方面分析用户的用户信息以及唇部运动信息，尽可能增加识别的可行性，在多个维度上对每个音区所包括的信息进行分析，从而提升方案的可操作性。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，根据每个音区所对应的音区信息，生成每个音区所对应的控制信号，具体包括如下步骤：

针对于n个音区中的任意一个音区，若用户信息用于指示音区内不存在用户，则生成第一控制信号，其中，第一控制信号属于控制信号，第一控制信号用于对语音输入信号进行抑制处理；

本实施例中，介绍了一种不采用cv技术的情况下生成控制信号的方式，不采用cv技术时，即无法识别用户的身份，并且无法获取用户的唇部运动信息。该情况下，可利用空间谱估计的方式估计当前音区内是否存在用户，由此得到n个音区的音区信息，n个音区的音区信息可以表示为{(i,θi,λi)}i＝1,...,n。

为了便于说明，本申请将以n个音区中的任意一个音区为例进行介绍，其他音区采用类似地方式生成控制信号，故此处不做赘述，假设该音区为第i个音区，即第i个音区的音区信息为{(i,θi,λi)}，其中，用户信息λi可指示指向角度为θi的方向上没有用户，或者，指向角度为θi的方向存在用户，如有必要，可以通过声纹识别的方式进一步识别该用户的身份信息，此处不做详述。具体地，在生成控制信号的过程中，如果检测到第i个音区内没有用户，则可以通过信号分离器学习并抑制在指向角度θi上的所有信号，即通过信号分离器生成第一控制信号，利用第一控制信号对指向角度θi上的所有信号进行抑制处理。如果检测到第i个音区内存在用户，则可以通过信号分离器学习并保留在指向角度θi上的信号，即通过信号分离器生成第二控制信号，利用第二控制信号对指向角度θi上的信号进行保留处理。

其次，本申请实施例中，提供了一种不采用cv技术的情况下生成控制信号的方式，采用上述方式，能够仅利用音频数据生成控制信号，一方面增加方案的灵活性，另一方面基于较少的信息量也可以生成控制信号，从而节省了运算资源，有利于提升控制信号的生成效率，对于设备而言还可以节省电量。

针对于n个音区中的任意一个音区，若用户信息用于指示音区内存在用户，且用户不具有唇部运动，则生成第一控制信号；

本实施例中，介绍了一种采用cv技术的情况下生成控制信号的方式，采用cv技术时，可以识别用户的身份，并且获取用户的唇部运动信息。该情况下，可仅采用cv技术估计当前音区内是否存在用户，或者采用cv技术与空间谱估计方式联合判定当前音区内是否存在用户，即得到n个音区的音区信息，n个音区的音区信息可以表示为{(i,θi,λi,li)}i＝1,...,n。

为了便于说明，本申请将以n个音区中的任意一个音区为例进行介绍，其他音区采用类似地方式生成控制信号，故此处不做赘述，假设该音区为第i个音区，即第i个音区的音区信息为{(i,θi,λi,li)}，其中，用户信息λi可以为第一身份标识、第二身份标识或者第三身份标识，唇部运动信息可以为第一运动标识、第二运动标识或者第三运动标识。具体地，在生成控制信号的过程中，如果检测到第i个音区内没有用户，则可以通过信号分离器学习并抑制在指向角度θi上的所有信号，即通过信号分离器生成第一控制信号，利用第一控制信号对指向角度θi上的所有信号进行抑制处理。如果检测到第i个音区内存在用户，则需要进一步判断该用户是否具有唇部运动。

如果检测到第i个音区内存在用户，但该用户不具有唇部运动，则可以通过信号分离器学习并抑制在指向角度θi上的所有信号，即通过信号分离器生成第一控制信号，利用第一控制信号对指向角度θi上的所有信号进行抑制处理。

如果检测到第i个音区内存在用户，且该用户具有唇部运动，则可以通过信号分离器学习并保留在指向角度θi上的信号，即通过信号分离器生成第二控制信号，利用第二控制信号对指向角度θi上的信号进行保留处理。

如果检测到第i个音区内存在用户，但是可能由于人脸不清晰，或者人头偏转角度较大，导致摄像头无法清楚地拍摄到嘴唇部分等原因，导致无法确定该用户的唇部运动情况，于是需要对指向角度θi上输入的原始音频信号进行空间谱估计或方位估计等，粗略地判断该用户是否在发声，如果确定该用户正在发声，则可以通过信号分离器学习并保留在指向角度θi上的信号，即通过信号分离器生成第二控制信号，利用第二控制信号对指向角度θi上的信号进行保留处理。如果确定该用户未发声，则可以通过信号分离器学习并抑制在指向角度θi上的所有信号，即通过信号分离器生成第一控制信号，利用第一控制信号对指向角度θi上的所有信号进行抑制处理。

再次，本申请实施例中，提供了一种采用cv技术的情况下生成控制信号的方式，采用上述方式，同时利用了音频数据和图像数据作为生成控制信号的依据，一方面增加方案的灵活性，另一方面基于更多的信息量生成的控制信号会更加准确，从而提升语音检测的准确度。

根据每个音区所对应的音区信息，采用预设算法生成每个音区所对应的控制信号，其中，预设算法为自适应波束形成算法、盲源分离算法或基于深度学习的语音分离算法；

采用每个音区所对应的控制信号，对每个音区所对应的语音输入信号进行处理，得到每个音区所对应的语音输出信号，具体包括如下步骤：

若预设算法为自适应波束形成算法，则根据每个音区所对应的控制信号，采用自适应波束形成算法对每个音区所对应的语音输入信号进行处理，得到每个音区所对应的语音输出信号；

本实施例中，介绍了一种基于控制信号实现信号分离的方式，在生成控制信号时所采用的预设算法，与在实际应用中，对信号进行分离所使用的算法一致，本申请提供了三种预设算法，分别为自适应波束形成算法、盲源分离算法或基于深度学习的语音分离算法。下面将结合这三种预设算法对信号分离进行介绍。

一、自适应波束形成算法；

自适应波束形成又称自适应空域滤波，可通过对各阵元加权进行空域滤波，以达到增强有用信号，并抑制干扰的目的，此外，还可以根据信号环境的变化，来改变各阵元的加权因子。在理想的条件下，自适应波束形成技术可以有效地抑制干扰而保留期望的信号，从而使阵列的输出信号干扰噪声比达到最大。

二、盲源分离算法；

盲源分离(blindsourceseparation，bss)的含义是在不知道源信号及信号混合参数的情况下，仅根据观测到的混合信号估计源信号。独立分量分析(independentcomponentanalysis，ica)是为了解决盲信号分离问题而逐渐发展起来的一种新技术。盲信号分离大部分都采用独立分量分析的方法，即将接收到的混合信号按照统计独立的原则通过优化算法分解为若干独立分量，这些独立分量作为源信号的一种近似估计。

三、基于深度学习的语音分离算法；

基于深度学习的语音分离，主要是用基于深度学习的方法，从训练数据中学习语音、说话人和噪音的特征，从而实现语音分离的目标。具体可以使用多层感知机、深度神经网络(deepneuralnetwork，dnn)、卷积神经网络(convolutionalneuralnetworks，cnn)、长短时记忆(longshort-termmemory，lstm)网络以及生成式对抗网络(generativeadversarialnetworks，gan)等，此处不做限定。

其中，采用gan进行语音增强时，模型中通常会把生成器设置为全部是卷积层，为了减少训练参数从而缩短训练时间；判别器负责向生成器提供生成数据的真伪信息，帮助生成器向着“生成干净声音”的方向微调。

其次，本申请实施例中，提供了一种基于控制信号实现信号分离的方式，采用上述方式，若使用自适应波束形成算法生成控制信号，那么在信号分离的时候也使用自适应波束形成算法，若使用盲源分离算法生成控制信号，那么在信号分离的时候也使用盲源分离算法，若使用基于深度学习的语音分离算法生成控制信号，那么在信号分离的时候也使用基于深度学习的语音分离算法。从而使得控制信号能够更好地配合协调信号的分离，达到更好的信号分离效果，进而提升语音检测的准确度。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，根据每个音区所对应的语音输出信号，生成语音检测结果，具体包括如下步骤：

根据每个音区所对应的语音输出信号，确定每个音区所对应的信号功率，其中，信号功率为语音输出信号在时频点上的信号功率；

根据每个音区所对应的信号功率，确定每个音区所对应的估计信噪比；

根据每个音区所对应的估计信噪比，确定每个音区所对应的输出信号加权值，其中，输出信号加权值为语音输出信号在时频点上的加权结果；

根据每个音区所对应的输出信号加权值以及每个音区所对应的语音输出信号，确定每个音区所对应的目标语音输出信号；

根据每个音区所对应的目标语音输出信号，确定每个音区所对应的语音检测结果。

本实施例中，介绍了一种对语音输出信号进行跨声道后处理的方式，由于经过信号分离的语音输出信号并非总是洁净的，如果每个指向角度对应的语音输出信号都具有较高的信噪比，那么可以进行跨声道的后处理。需要说明的是，在语音输出信号的信噪比达到-5分贝以上的情况下，可认为信噪比较高，然而，还可以根据实际情况调整信噪比临界值，“-5分贝”仅为一个示意，不应理解为对本申请的限定。

具体地，跨声道后处理的一种实现方式为，先根据每个音区所对应的语音输出信号，确定每个音区所对应的信号功率，然后分别计算每个音区所对应的估计信噪比，再确定每个音区所对应的输出信号加权值，最后根据每个音区所对应的输出信号加权值和语音输出信号，确定每个音区所对应的目标语音输出信号，基于该目标语音输出信号，确定每个音区所对应的语音检测结果。基于此，为了便于说明，下面将以n个音区中的任意一个音区为例进行介绍，其他音区也采用类似方式确定目标语音输出信号，此处不做赘述，假设该音区为第i个音区，对应的指向角度为θi，对于指向角度θi的每个时频点(t,f)而言，采用如下方式计算第i个音区的估计信噪比：

其中，μi(t,f)表示第i个音区的估计信噪比，pi(t,f)表示指向角度为θi方向的语音输出信号在时频点(t,f)上的信号功率，n表示n个音区(也可作为n个指向角度)，j表示第j个音区(也可作为第j个指向角度)，i表示第i个音区(也可作为第i个指向角度)，t表示时间，f表示频率。

接下来，可采用维纳滤波的公式计算第i个音区的输出信号加权值：

其中，gi(t,f)表示第i个音区的输出信号加权值，即产生对指向角度为θi方向的语音输出信号在时频点(t,f)的加权。

最后，基于第i个音区的输出信号加权值以及第i个音区的语音输出信号，计算第i个音区的目标语音输出信号：

yi(t,f)＝xi(t,f)*gi(t,f)；

其中，yi(t,f)表示第i个音区的目标语音输出信号，即跨声道后处理算法在指向角度为θi方向的目标语音输出信号。xi(t,f)表示第i个音区的语音输出信号，即指向角度为θi方向的语音输出信号。可以理解的是，本实施例中的目标语音输出信号yi(t,f)是未经过降噪处理的语音输出信号。

其次，本申请实施例中，提供了一种对语音输出信号进行跨声道后处理的方式，采用上述方式，考虑到不同音区之间的关联关系，可通过跨声道后处理的方式更好地分离出语音信号，尤其在信噪比足够高的情况下，能够提升语音信号的纯净度，从而进一步提高输出信号质量。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，根据每个音区所对应的输出信号加权值以及每个音区所对应的语音输出信号，确定每个音区所对应的目标语音输出信号，具体包括如下步骤：

根据每个音区所对应的输出信号加权值以及每个音区所对应的语音输出信号，确定每个音区所对应的待处理语音输出信号；

对每个音区所对应的待处理语音输出信号进行降噪处理，得到每个音区所对应的目标语音输出信号。

本实施例中，介绍了一种对待处理语音输出信号进行降噪处理的方式，为了便于说明，下面将以n个音区中的任意一个音区为例进行介绍，其他音区也采用类似方式确定目标语音输出信号，此处不做赘述，假设该音区为第i个音区，对应的指向角度为θi。基于上述实施例可知，根据第i个音区的输出信号加权值以及第i个音区的语音输出信号，计算第i个音区的目标语音输出信号。然而，如果需要进行降噪处理，则基于第i个音区的输出信号加权值以及第i个音区的语音输出信号，计算第i个音区的是待处理语音输出信号，具体的计算方式为；

y′i(t,f)＝xi(t,f)*gi(t,f)；

其中，y′i(t,f)表示第i个音区的待处理语音输出信号，即跨声道后处理算法在指向角度为θi方向的待处理语音输出信号。xi(t,f)表示第i个音区的语音输出信号，即指向角度为θi方向的语音输出信号。可以理解的是，与前述实施例不同，本实施例中的待处理语音输出信号y′i(t,f)是未经过降噪处理的语音输出信号，而本实施例中的目标语音输出信号yi(t,f)是经过降噪处理的语音输出信号。

基于此，再对待处理语音输出信号y′i(t,f)进行降噪处理，得到每个音区所对应的目标语音输出信号yi(t,f)。

具体地，一种可行的滤波方式为，采用最小均方(leastmeansquare，lms)自适应滤波器进行降噪处理，lms自适应滤波器利用前一刻已获得的滤波器参数，自动调节当前滤波器参数，以适应信号和噪声未知的或随机变化的统计特性，从而实现最优滤波。另一种可行的滤波方式为，采用lms自适应陷波器进行降噪处理，自适应陷波器法适用于单色干扰噪声，如单频正弦波噪声，希望陷波器的特性理想，缺口的肩部任意窄，可马上进入平坦区域。另一种可行的滤波方式为，采用基本谱减法进行降噪处理，待处理语音输出信号对相位不灵敏，将谱减前的相位信息用到谱减后的信号中，在求出谱减后的幅值之后，结合相角，就能用快速傅里叶逆变换(inversefastfouriertransform，ifft)求出谱减后的目标语音输出信号。另一种可行的滤波方式为，采用维纳滤波降噪进行降噪处理。上述示例仅为可行方案，在实际应用中，还可以采用其他降噪方式，此处不做限定。

再次，本申请实施例中，提供了一种对待处理语音输出信号进行降噪处理的方式，采用上述方式，能够进一步抑制噪声、干扰人声以及残留回声等，由此能够更好地提升目标语音输出信号的质量，有利于增加语音检测的准确度。

针对于n个音区中的任意一个音区，若目标语音输出信号满足人声匹配条件，则生成第一语音检测结果，其中，第一语音检测结果属于语音检测结果，第一语音检测结果表示目标语音输出信号为人声信号；

本实施例中，介绍了一种对每个音区进行语音检测的方式，在语音检测过程中，需要判断每个音区的语音输出信号是否满足人声匹配条件，需要说明的是，本实施例中的“目标语音输出信号”为语音输出信号经过跨声道后处理以及降噪后处理得到的。可选地，如果语音输出信号未经过跨声道后处理和降噪后处理，则对“语音输出信号”进行语音检测。可选地，如果语音输出信号仅经过跨声道后处理，而未经过降噪后处理，则可以对“待处理语音输出信号”进行语音检测。本申请以“目标语音输出信号”为例进行说明，但这不应理解为对本申请的限定。

下面将介绍如何基于目标语音输出信号判断是否满足人声匹配条件，为了便于说明，下面将以n个音区中的任意一个音区为例进行介绍，其他音区也采用类似方式确定语音检测结果，此处不做赘述。在检测过程中，可利用目标语音输出信号、唇部运动信息、用户信息以及声纹中的至少一种来判定某个音区是否满足人声匹配条件，具体地，下面将结合几个示例进行说明。

情形一、如果并未收到目标语音输出信号，即表示用户并未说话，则确定不满足人声匹配条件。

情形二、如果收到的目标语音输出信号非常微弱或不像人声，则可以判定此时在该音区对应的指向角度方向上，用户并没有说话，因此确定不满足人声匹配条件。

情形三、如果收到的目标语音输出信号是人声，但是与给定用户信息的声纹极端不匹配(例如，匹配分值小于0.5)，则可以判定此时在该音区对应的指向角度方向上，用户并没有说话，该目标语音输出信号为其它方向的人声泄漏至在本声道中的噪声信号，因此确定不满足人声匹配条件。

情形四、如果收到的目标语音输出信号是人声，但唇部运动信息表示用户的嘴唇没有发生运动，且声纹匹配度不高，则也可以判定此时在该音区对应的指向角度方向上，用户并没有说话，该标语音输出信号为其它方向的人声泄漏至在本声道中的噪声信号，因此确定不满足人声匹配条件。

其中，基于用户信息可以从数据库中得到其对应的声纹(假设该用户已使用用户信息进行注册)，根据声纹可以判断当前该通道中的目标语音输出信号是否与该用户的声纹匹配，如果匹配成功，则确定满足人声匹配条件，如果不匹配，则判断该目标语音输出信号为其它方向的人声泄漏至在本声道中的噪声信号，即不满足人声匹配条件。

需要说明的是，上述四种情形仅为一个示意，在实际应用中，还可以根据情况灵活地设定其他的判定方式，此处不做限定。如果确定目标语音输出信号满足人声匹配条件，则生成第一语音检测结果，即表示该目标语音输出信号为正常的人声信号。反之，如果确定目标语音输出信号不满足人声匹配条件，则生成第二语音检测结果，即表示该目标语音输出信号为噪声信号。

其次，本申请实施例中，提供了一种对每个音区进行语音检测的方式，采用上述方式，针对每个音区需要分别判定是否满足人声匹配条件，即使有些音区存在用户，但是可能该用户的并未开口说话，或者说话的声音很小，又或者是用户的身份信息与预设身份信息不匹配等情况，均认为不满足人声匹配条件，因此，为了能够提高语音检测的准确度，可以从多个维度上判断该音区对应的语音输出信号是否符合人声匹配条件，由此增加方案的可行性和可操作性。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，根据每个音区所对应的语音输出信号，生成语音检测结果之后，还可以包括如下步骤：

若存在m个音区所对应的语音检测结果均为第一语音检测结果，则根据m个音区中每个音区所对应的语音输出信号，从m个音区中确定至少一个目标音区，其中，第一语音检测结果表示语音输出信号为人声信号，m个音区属于n个音区，m为大于或等于1，且小于或等于n的整数；

将至少一个目标音区所对应的语音输出信号传输至通话方。

本实施例中，介绍了一种基于语音检测结果进行通话的方式，基于上述实施例可知，在得到n个音区中每个音区所对应的语音检测结果之后，从中选择第一语音检测结果所对应的音区，这是因为在通话场景中，为了提升通话质量，需要传递人声并且抑制噪声，第一语音检测结果表示该音区的语音输出信号为人声信号。可以理解的是，本实施例中的“语音输出信号”也可以是“待处理语音输出信号”或者“目标语音输出信号”，在具体的处理过程中可灵活选择，此处仅为一个示意，不应理解为对本申请的限定。

具体地，假设n个音区中存在m个音区的语音检测结果为第一语音检测结果，即根据m个音区中每个音区所对应的语音输出信号(或，目标语音输出信号，或，待处理语音输出信号)，基于此，还可以进一步基于m个音区的语音输出信号判定主说话人，其中，m个音区中的每个音区称为“目标音区”。为了便于介绍，请参阅图6，图6为本申请实施例中多声道拾音系统的另一个架构示意图，如图所示，在终端设备上装备的麦克风阵列可拾取每个音区所对应的音频信号，音频信号包括语音输入信号以及噪声信号。由信号分离器生成每个音区所对应的控制信号，采用各个音区对应的控制信号分别对每个指向角度的语音输入信号进行抑制或保留处理，得到每个音区对应的语音输出信号。基于每个音区的音区信息和语音输出信号，确定每个音区的语音检测结果。

主说话人判定模块根据m个音区的语音输出信号以及音区信息实时判定主说话人，例如，当对判决结果的时延要求较高时，主说话人判定模块可以直接根据短时间内接收到的每一个说话人的信号强度以及该说话人离麦克风阵列的距离(可以通过广角摄像头或多摄像头阵列提供)来测算说话人的原始音量(即嘴部出声处的音量)，进而根据原始音量判决主说话人。又例如，当对判决结果的时延要求较低时，可以根据每一个说话人的人脸朝向(例如，视频会议场景下，正脸朝向摄像头的用户更有可能是主说话人)来判断主说话人。主说话人的判决结果包括其方位和身份，将其输出给混合器用于通话需求。混合器根据主说话人判决结果，将n路连续音频流汇成一路或多路的输出音频，用于满足通话需求。一种实现方式为，如果主说话人被判定在指向角度为θi方向，则输出的单路音频等于第1路输入的语音输出信号，其它声道的输入数据直接舍弃。一种实现方式为，如果主说话人被判定在指向角度为θi方向和指向角度为θ4方向，则输出的音频等于第1路输入的语音输出信号和第4路输入的语音输出信号，其它声道的输入数据直接舍弃。

需要说明的是，基于图6可知，还可以对语音输出信号进行跨声道后处理和降噪后处理，则得到每个音区对应的目标目标语音输出信号，基于每个音区的音区信息和目标语音输出信号，确定每个音区的语音检测结果。

请参阅图7，图7为本申请实施例中基于多音区语音检测方法实现通话的一个界面示意图，如图所示，以应用于通话场景为例，我方参与人有多位用户，因此，可采用本申请提供的技术方案确定主说话人，并将该主说话人的语音传递给用户甲，而其他说话人或者噪声可被抑制，从而使得用户甲能够听到更清晰的语音。

进一步地，本申请实施例中，提供了一种基于语音检测结果进行通话的方式，采用上述方式，能够在多用户的场景下，实时分离以及增强每一个用户的语音，使得在通话场景下能够根据语音检测结果，并基于多用户并行分离增强处理以及后期混合的处理的流程，实现高质量的通话。

针对于每个目标音区，对目标音区所对应的语音输出信号进行语义识别，得到语义识别结果；

根据每个目标音区所对应的语义识别结果，生成对话响应信息。

本实施例中，提供了一种基于语音检测结果反馈对话响应信息的方式，基于上述实施例可知，在得到n个音区中每个音区所对应的语音检测结果之后，从中选择第一语音检测结果所对应的音区，这是因为在智能对话场景中，为了提升智能对话的准确度，需要传递人声并且抑制噪声，第一语音检测结果表示该音区的语音输出信号为人声信号。可以理解的是，本实施例中的“语音输出信号”也可以是“待处理语音输出信号”或者“目标语音输出信号”，在具体的处理过程中可灵活选择，此处仅为一个示意，不应理解为对本申请的限定。

具体地，假设n个音区中存在m个音区的语音检测结果为第一语音检测结果，即根据m个音区中每个音区所对应的语音输出信号(或，目标语音输出信号，或，待处理语音输出信号)，基于此，还可以进一步基于m个音区的语音输出信号判定主说话人。其中，m个音区中的每个音区称为“目标音区”。为了便于介绍，请参阅图8，图8为本申请实施例中多声道拾音系统的另一个架构示意图，如图所示，在终端设备上装备的麦克风阵列可拾取每个音区所对应的音频信号，音频信号包括语音输入信号以及噪声信号。由信号分离器生成每个音区所对应的控制信号，采用各个音区对应的控制信号分别对每个指向角度的语音输入信号进行抑制或保留处理，得到每个音区对应的语音输出信号。基于每个音区的音区信息和语音输出信号，确定每个音区的语音检测结果。

接下来，对m个音区中每个目标音区所对应的语音输出信号进行nlp处理，即获取每个目标音区内说话人的意图，即得到语义识别结果。

需要说明的是，基于图8可知，还可以对语音输出信号进行跨声道后处理和降噪后处理，则得到每个音区对应的目标目标语音输出信号，基于每个音区的音区信息和目标语音输出信号，确定每个音区的语音检测结果。

请参阅图9，图9为本申请实施例中基于多音区语音检测方法实现对话响应的一个界面示意图，如图所示，以应用于智能对话为例，假设我方有多位说话人，可采用本申请提供的技术方案确定主说话人，并根据主说话人的判定结果以及语义识别结果，可对主说话人说出的“小腾，今天是星期几呢？”进行回复，即生成对话响应信息，例如“hi，今天是星期五”。

在实际应用中，还可以应用于智能客服和人机对话等场景，可实现对场景中每一个说话人的同步、实时以及独立的语义解析，还可以实现对每一个说话人进行手动屏蔽或开启等功能，还可以对每一个说话人进行自动屏蔽或开启等功能，此处不再详述。

进一步地，本申请实施例中，提供了一种基于语音检测结果反馈对话响应信息的方式，采用上述方式，能够在多用户的场景下，实时分离以及增强每一个用户的语音，使得在智能对话下能够根据语音检测结果以及语义识别结果确定主说话人，并基于多用户并行分离增强处理以及后期混合的处理的流程，提升语音质量，从而实现能够根据语义识别结果单独反馈对话响应信息，对非交互目的的语音进行过滤。

针对于每个目标音区，对目标音区所对应的语音输出信号进行切分处理，得到待识别音频数据；

针对于每个目标音区，对目标音区所对应的待识别音频数据进行语音识别，得到语音识别结果；

根据每个目标音区所对应的语音识别结果，生成文本记录信息，其中，文本记录信息包括翻译文本以及会议记录文本中的至少一种。

本实施例中，介绍了一种基于语音检测结果生成文本记录信息的方式，基于上述实施例可知，在得到n个音区中每个音区所对应的语音检测结果之后，从中选择第一语音检测结果所对应的音区，这是因为在翻译或记录的场景中，为了提升翻译或记录的准确度，需要传递人声并且抑制噪声，第一语音检测结果表示该音区的语音输出信号为人声信号。可以理解的是，本实施例中的“语音输出信号”也可以是“待处理语音输出信号”或者“目标语音输出信号”，在具体的处理过程中可灵活选择，此处仅为一个示意，不应理解为对本申请的限定。

具体地，假设n个音区中存在m个音区的语音检测结果为第一语音检测结果，即根据m个音区中每个音区所对应的语音输出信号(或，目标语音输出信号，或，待处理语音输出信号)，基于此，还可以进一步基于m个音区的语音输出信号判定主说话人。其中，m个音区中的每个音区称为“目标音区”。为了便于介绍，请参阅图10，图10为本申请实施例中多声道拾音系统的另一个架构示意图，如图所示，在终端设备上装备的麦克风阵列可拾取每个音区所对应的音频信号，音频信号包括语音输入信号以及噪声信号。由信号分离器生成每个音区所对应的控制信号，采用各个音区对应的控制信号分别对每个指向角度的语音输入信号进行抑制或保留处理，得到每个音区对应的语音输出信号。基于每个音区的音区信息和语音输出信号，确定每个音区的语音检测结果。

接下来，对m个音区中每个目标音区所对应的语音输出信号进行切分处理，即判定每个语音输出信号止点位置，由此得到待识别音频数据，此外，每个待识别音频数据携带有用户信息，该用户信息具体可以是用户标识。待识别音频数据和用户信息均可用于后续的语音识别任务。于是对m个音区中每个目标音区所对应的待识别音频数据采用asr技术进行处理，即获取每个目标音区内说话人的说话内容，即得到语音识别结果。

可以理解的是，asr技术可采用规则方式或机器学习的模型方式，将切分后的待识别音频数据和声纹一起送给云端的asr模块，通常是将声纹标识或者声纹模型参数送给云端的asr模块，asr模块可以利用该声纹信息进一步提升其识别率。

需要说明的是，基于图10可知，还可以对语音输出信号进行跨声道后处理和降噪后处理，则得到每个音区对应的目标目标语音输出信号，基于每个音区的音区信息和目标语音输出信号，确定每个音区的语音检测结果。此外，语音信号切分的对象为每个目标音区所对应的目标语音输出信号。

请参阅图11，图11为本申请实施例中基于多音区语音检测方法实现文本记录的一个界面示意图，如图所示，以应用于同声翻译场景为例，假设我方有多位说话人，可采用本申请提供的技术方案确定主说话人，并根据主说话人的判定结果以及语音识别结果，可对主说话人说出的一段话进行实时翻译，例如，主说话人是用户a，用户a说出“本次会议的主要内容是将让大家能够更好的了解今年的工作目标，提升工作效率”，此时，可实时展示文本记录信息，如“themaincontentofthismeetingistoleteveryonehaveabetterunderstandingofthisyear'sworkobjectivesandimproveworkefficiency”。

在实际应用中，还可以应用于翻译、会议记录以及会议助手等场景，可实现对场景中每一个说话人的同步、实时以及独立的语音识别(例如，进行完整的会议转录)，还可以实现对每一个说话人进行手动屏蔽或开启等功能，还可以对每一个说话人进行自动屏蔽或开启等功能，此处不再详述。

进一步地，本申请实施例中，提供了一种基于语音检测结果生成文本记录信息的方式，采用上述方式，能够在多用户的场景下，实时分离以及增强每一个用户的语音，使得在智能对话下能够根据语音检测结果以及语音识别结果准确地分辨出每一个说话人各自的起止时间点，并单独对每个说话人的语音进行识别，得到更准确的语音识别性能，可用于后续的语义理解性能以及翻译性能等。并且基于多用户并行分离增强处理以及后期混合的处理的流程，提升语音质量，从而有利于增加文本记录信息的准确度。

下面对本申请中的语音检测装置进行详细描述，请参阅图12，图12为本申请实施例中语音检测装置的一个实施例示意图，语音检测装置20包括：

获取模块201，用于获取n个音区内每个音区所对应的音区信息，其中，音区信息包括音区标识、指向角度以及用户信息，音区标识用于标识音区，指向角度用于指示音区的中心角度，用户信息用于指示音区内的用户存留情况，n为大于1的整数；

生成模块202，用于根据每个音区所对应的音区信息，生成每个音区所对应的控制信号，其中，控制信号用于对语音输入信号进行抑制处理或保留处理，控制信号与音区具有一一对应的关系；

处理模块203，用于采用每个音区所对应的控制信号，对每个音区所对应的语音输入信号进行处理，得到每个音区所对应的语音输出信号，其中，控制信号、语音输入信号以及语音输出信号具有一一对应的关系；

生成模块202，还用于根据每个音区所对应的语音输出信号，生成语音检测结果。

可选地，在上述图12所对应的实施例的基础上，本申请实施例提供的语音检测装置20的另一实施例中，

获取模块201，具体用于对n个音区内的每个音区进行检测，得到每个音区所对应的用户检测结果；

根据每个音区所对应的用户检测结果确定每个音区所对应的用户信息；

根据每个音区所对应的用户检测结果确定每个音区所对应的唇部运动信息；

获取每个音区所对应的音区标识以及每个音区所对应的指向角度；

可选地，在上述图12所对应的实施例的基础上，本申请实施例提供的语音检测装置20的另一实施例中，

获取模块201，具体用于针对于n个音区中的任意一个音区，若用户检测结果为音区内存在可识别用户，则将第一身份标识确定为用户信息；

针对于n个音区中的任意一个音区，若用户检测结果为音区内不存在用户，则将第二身份标识确定为用户信息；

针对于n个音区中的任意一个音区，若用户检测结果为音区内存在未知用户，则将第三身份标识确定为用户信息；

获取模块201，具体用于针对于n个音区中的任意一个音区，若用户检测结果为音区内存在具有唇部运动的用户，则将第一运动标识确定为唇部运动信息；

针对于n个音区中的任意一个音区，若用户检测结果为音区内存在用户，且用户不具有唇部运动，则将第二运动标识确定为唇部运动信息；

针对于n个音区中的任意一个音区，若用户检测结果为音区内不存在用户，则将第三运动标识确定为唇部运动信息。

可选地，在上述图12所对应的实施例的基础上，本申请实施例提供的语音检测装置20的另一实施例中，

生成模块202，具体用于针对于n个音区中的任意一个音区，若用户信息用于指示音区内不存在用户，则生成第一控制信号，其中，第一控制信号属于控制信号，第一控制信号用于对语音输入信号进行抑制处理；

可选地，在上述图12所对应的实施例的基础上，本申请实施例提供的语音检测装置20的另一实施例中，

针对于n个音区中的任意一个音区，若用户信息用于指示音区内存在用户，且用户不具有唇部运动，则生成第一控制信号；

可选地，在上述图12所对应的实施例的基础上，本申请实施例提供的语音检测装置20的另一实施例中，

生成模块202，具体用于根据每个音区所对应的音区信息，采用预设算法生成每个音区所对应的控制信号，其中，预设算法为自适应波束形成算法、盲源分离算法或基于深度学习的语音分离算法；

处理模块203，具体用于若预设算法为自适应波束形成算法，则根据每个音区所对应的控制信号，采用自适应波束形成算法对每个音区所对应的语音输入信号进行处理，得到每个音区所对应的语音输出信号；

可选地，在上述图12所对应的实施例的基础上，本申请实施例提供的语音检测装置20的另一实施例中，

生成模块202，具体用于根据每个音区所对应的语音输出信号，确定每个音区所对应的信号功率，其中，信号功率为语音输出信号在时频点上的信号功率；

根据每个音区所对应的信号功率，确定每个音区所对应的估计信噪比；

根据每个音区所对应的估计信噪比，确定每个音区所对应的输出信号加权值，其中，输出信号加权值为语音输出信号在时频点上的加权结果；

根据每个音区所对应的输出信号加权值以及每个音区所对应的语音输出信号，确定每个音区所对应的目标语音输出信号；

根据每个音区所对应的目标语音输出信号，确定每个音区所对应的语音检测结果。

可选地，在上述图12所对应的实施例的基础上，本申请实施例提供的语音检测装置20的另一实施例中，

生成模块202，具体用于根据每个音区所对应的输出信号加权值以及每个音区所对应的语音输出信号，确定每个音区所对应的待处理语音输出信号；

对每个音区所对应的待处理语音输出信号进行降噪处理，得到每个音区所对应的目标语音输出信号。

可选地，在上述图12所对应的实施例的基础上，本申请实施例提供的语音检测装置20的另一实施例中，

生成模块202，具体用于针对于n个音区中的任意一个音区，若目标语音输出信号满足人声匹配条件，则生成第一语音检测结果，其中，第一语音检测结果属于语音检测结果，第一语音检测结果表示目标语音输出信号为人声信号；

可选地，在上述图12所对应的实施例的基础上，本申请实施例提供的语音检测装置20的另一实施例中，语音检测装置20还包括确定模块204以及传输模块205；

确定模块204，用于在生成模块202根据每个音区所对应的语音输出信号，生成语音检测结果之后，若存在m个音区所对应的语音检测结果均为第一语音检测结果，则根据m个音区中每个音区所对应的语音输出信号，从m个音区中确定至少一个目标音区，其中，第一语音检测结果表示语音输出信号为人声信号，m个音区属于n个音区，m为大于或等于1，且小于或等于n的整数；

传输模块205，用于将至少一个目标音区所对应的语音输出信号传输至通话方。

可选地，在上述图12所对应的实施例的基础上，本申请实施例提供的语音检测装置20的另一实施例中，语音检测装置20还包括确定模块204以及识别模块206；

识别模块206，用于针对于每个目标音区，对目标音区所对应的语音输出信号进行语义识别，得到语义识别结果；

生成模块202，还用于根据每个目标音区所对应的语义识别结果，生成对话响应信息。

处理模块203，用于针对于每个目标音区，对目标音区所对应的语音输出信号进行切分处理，得到待识别音频数据；

识别模块206，用于针对于每个目标音区，对目标音区所对应的待识别音频数据进行语音识别，得到语音识别结果；

生成模块202，还用于根据每个目标音区所对应的语音识别结果，生成文本记录信息，其中，文本记录信息包括翻译文本以及会议记录文本中的至少一种。

图13是本申请实施例计算机设备30的结构示意图。计算机设备30可包括输入设备310、输出设备320、处理器330和存储器340。本申请实施例中的输出设备可以是显示设备。存储器340可以包括只读存储器和随机存取存储器，并向处理器330提供指令和数据。存储器340的一部分还可以包括非易失性随机存取存储器(non-volatilerandomaccessmemory，nvram)。

存储器340存储了如下的元素，可执行模块或者数据结构，或者它们的子集，或者它们的扩展集:

操作指令：包括各种操作指令，用于实现各种操作。

操作系统：包括各种系统程序，用于实现各种基础业务以及处理基于硬件的任务。

本申请实施例中处理器330用于：

根据每个音区所对应的语音输出信号，生成语音检测结果。

处理器330控制计算机设备30的操作，处理器330还可以称为中央处理单元(centralprocessingunit，cpu)。存储器340可以包括只读存储器和随机存取存储器，并向处理器330提供指令和数据。存储器340的一部分还可以包括nvram。具体的应用中，计算机设备30的各个组件通过总线系统350耦合在一起，其中总线系统350除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线系统350。

上述本申请实施例揭示的方法可以应用于处理器330中，或者由处理器330实现。处理器330可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器330中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器330可以是通用处理器、数字信号处理器(digitalsignalprocessing，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现成可编程门阵列(field－programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器340，处理器330读取存储器340中的信息，结合其硬件完成上述方法的步骤。图13的相关描述可以参阅图3方法部分的相关描述和效果进行理解，本处不做过多赘述。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如前述实施例所描述的方法。

本申请实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行如前述实施例所描述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-onlymemory，rom)、随机存取存储器(randomaccessmemory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑脊萌;陈联武;黎韦伟;段志毅;于蒙;苏丹;姜开宇
技术所有人：腾讯科技(深圳)有限公司
我是此专利的发明人

上一篇：音频增益控制方法、系统、设备和存储介质与流程
上一篇：净水机的制作方法