显示设备及回声消除方法与流程

文档序号:25742919发布日期:2021-07-06 18:54阅读:376来源:国知局
显示设备及回声消除方法与流程

本申请涉及显示设备技术领域,尤其涉及一种显示设备及回声消除方法。



背景技术:

随着语音识别技术的飞速发展,语音交互的应用场景越来越普遍,智能音箱,智能电视,智能车载,智能家居,智能机器人都是语音交互的应用场景,同时,由于语音交互对用户体验的要求越来越高,语音交互时的人机距离也越来越不局限于近场,这使得远场语音技术迅速发展。远场语音技术的目标是在增加人机交互的距离,且不用人特意去增大音量时,仍然能够保持较好的语音识别效果。远场语音技术最关键的几个指标包括,唤醒率,打断唤醒率,唤醒响应速度,识别率,识别响应速度,服务准确率,其中,打断唤醒率以及唤醒响应速度这两个指标直接关系到用户在使用远场语音功能时的用户体验,尤其是打断唤醒率,以智能电视为例,在播放状态下,如果智能电视对用户的唤醒指令响应不及时不灵敏,将会严重影响用户体验。

为提高智能电视的语音识别效果,智能电视可对接收到的音频进行回声消除,从而在音频中消除掉智能电视自身发出的声音,避免智能电视自身发出的声音对唤醒指令造成干扰。相关技术中,智能电视包括左声道、右声道和低音声道,然而,回声消除通常只针对左声道和右声道,通过预先设置左声道的回采电路和右声道的回采电路,可拾取智能电视左右声道的声音,进而在智能电视接收到的音频中消除这两路声音,实现回声消除。在近场语音场景下,上述仅消除左声道回声和右声道回声的方法基本能满足语音识别要求,然而,在远场语音场景下,智能电视接收到的声音较为嘈杂,上述回声消除方法逐渐不能满足语音识别的要求。



技术实现要素:

为解决上述技术问题,本申请提供了一种显示设备及回声消除方法。

第一方面,本申请提供了一种显示设备,该显示设备包括:

显示器,被配置为显示用户界面;

控制器,与所述显示器连接,所述控制器被配置为:

获取音频输入装置采集的麦克风信号、音频输出装置的左声道参考信号和右声道参考信号,以及获取显示设备正在播放媒资的音频播放流;

将所述音频播放流进行输出仿真,得到所述音频播放流的仿真输出信号;

将所述仿真输出信号进行频段分离;

若从所述仿真输出信号中分离出低音声道参考信号,则根据所述低音声道参考信号、左声道参考信号和右声道参考信号,对所述麦克风信号进行回声消除,对回声消除后的信号进行语义识别,并根据识别结果控制所述显示器生成语音交互的用户界面。

在一些实施例中,所述将所述音频播放流进行输出仿真,得到所述音频播放流的仿真输出信号,包括:

将所述音频播放流进行播放音效仿真、音量控制和动态范围控制,得到所述音频播放流的仿真输出信号,所述输出仿真包括所述播放音效仿真、音量控制和动态范围控制。

在一些实施例中,所述将所述仿真输出信号中进行频段分离,包括:

通过低通滤波器将所述仿真输出信号进行滤波,将滤波后的信号确定为低音声道参考信号。

在一些实施例中,所述控制器还被配置为:

若从所述仿真输出信号中没有分离出低音声道参考信号,则根据所述左声道参考信号和右声道参考信号,对所述麦克风信号进行回声消除,对回声消除后的信号进行语义识别,并根据识别结果控制所述显示器生成语音交互的用户界面。

第二方面,本申请实施例提供了一种回声消除方法,用于第一方面所述的显示设备,该方法包括:

获取音频输入装置采集的麦克风信号、音频输出装置的左声道参考信号和右声道参考信号,以及获取显示设备正在播放媒资的音频播放流;

将所述音频播放流进行输出仿真,得到所述音频播放流的仿真输出信号;

将所述仿真输出信号中进行频段分离;

若从所述仿真输出信号中分离出低音声道参考信号,则根据所述低音声道参考信号、左声道参考信号和右声道参考信号,对所述麦克风信号进行回声消除。

在一些实施例中,所述方法还包括:

若从所述仿真输出信号中没有分离出低音声道参考信号,则根据所述左声道参考信号和右声道参考信号,对所述麦克风信号进行回声消除,对回声消除后的信号进行语义识别,并根据识别结果控制所述显示器生成语音交互的用户界面。

本申请提供的显示设备及回声消除方法的有益效果包括:

本申请实施例通过获取显示设备正在播放媒资的音频播放流,将音频播放流进行输出仿真,得到所述音频播放流的仿真输出信号,再从仿真输出信号中分离出低音声道参考信号,从而根据低音声道参考信号和左声道参考信号和右声道参考信号对麦克风信号进行回声消除,解决了低音信号对用户输入的语音信号的干扰问题,有利于提高语音识别准确性,进而提高了语音交互的用户体验。

附图说明

为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1中示例性示出了根据一些实施例的显示设备与控制装置之间操作场景的示意图;

图2中示例性示出了根据一些实施例的控制装置100的硬件配置框图;

图3中示例性示出了根据一些实施例的显示设备200的硬件配置框图;

图4中示例性示出了根据一些实施例的显示设备200中软件配置示意图;

图5中示例性示出了根据一些实施例的语音识别网络原理示意图;

图6中示例性示出了根据一些实施例的麦克风阵列和扬声器阵列的分布示意图;

图7中示例性示出了根据一些实施例的根据一些实施例的音频传输示意图;

图8中示例性示出了根据一些实施例的回声消除的原理示意图;

图9中示例性示出了根据一些实施例的回声消除的原理示意图;

图10中示例性示出了根据一些实施例的低音声道参考信号的获取方法示意图;

图11中示例性示出了根据一些实施例的滤波器滤波示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。

需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。

图1为根据实施例中显示设备与控制装置之间操作场景的示意图。如图1所示,用户可通过智能设备300或控制装置100操作显示设备200。

在一些实施例中,控制装置100可以是遥控器,遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信,及其他短距离通信方式,通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等输入用户指令,来控制显示设备200。

在一些实施例中,也可以使用智能设备300(如移动终端、平板电脑、计算机、笔记本电脑等)以控制显示设备200。例如,使用在智能设备上运行的应用程序控制显示设备200。

在一些实施例中,显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制,例如,可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制,也可以通过显示设备200设备外部设置的语音控制设备来接收用户的语音指令控制。

在一些实施例中,显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(lan)、无线局域网(wlan)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群,也可以是多个集群,可以包括一类或多类服务器。

图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示,控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令,且将操作指令转换为显示设备200可识别和响应的指令,起用用户与显示设备200之间交互中介作用。

图3示出了根据示例性实施例中显示设备200的硬件配置框图。

在一些实施例中,显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。

在一些实施例中控制器包括处理器,视频处理器,音频处理器,图形处理器,ram,rom,用于输入/输出的第一接口至第n接口。

在一些实施例中,显示器260包括用于呈现画面的显示屏组件,以及驱动图像显示的驱动组件,用于接收源自控制器输出的图像信号,进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控ui界面。

在一些实施例中,显示器260可为液晶显示器、oled显示器、以及投影显示器,还可以为一种投影装置和投影屏幕。

在一些实施例中,通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如:通信器可以包括wifi模块,蓝牙模块,有线以太网模块等其他网络通信协议芯片或近场通信协议芯片,以及红外接收器中的至少一种。显示设备200可以通过通信器220与外部控制设备100或服务器400建立控制信号和数据信号的发送和接收。

在一些实施例中,用户接口,可用于接收控制装置100(如:红外遥控器等)的控制信号。

在一些实施例中,检测器230用于采集外部环境或与外部交互的信号。例如,检测器230包括光接收器,用于采集环境光线强度的传感器;或者,检测器230包括图像采集器,如摄像头,可以用于采集外部环境场景、用户的属性或用户交互手势,再或者,检测器230包括声音采集器,如麦克风等,用于接收外部声音。

在一些实施例中,外部装置接口240可以包括但不限于如下:高清多媒体接口接口(hdmi)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(cvbs)、usb输入接口(usb)、rgb端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。

在一些实施例中,调谐解调器210通过有线或无线接收方式接收广播电视信号,以及从多个无线或有线广播电视信号中解调出音视频信号,如以及epg数据信号。

在一些实施例中,控制器250和调谐解调器210可以位于不同的分体设备中,即调谐解调器210也可在控制器250所在的主体设备的外置设备中,如外置机顶盒等。

在一些实施例中,控制器250,通过存储在存储器上中各种软件控制程序,来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如:响应于接收到用于选择在显示器260上显示ui对象的用户命令,控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中,所述对象可以是可选对象中的任何一个,例如超链接、图标或其他可操作的控件。与所选择的对象有关操作有:显示连接到超链接页面、文档、图像等操作,或者执行与所述图标相对应程序的操作。

在一些实施例中控制器包括中央处理器(centralprocessingunit,cpu),视频处理器,音频处理器,图形处理器(graphicsprocessingunit,gpu),ramrandomaccessmemory,ram),rom(read-onlymemory,rom),用于输入/输出的第一接口至第n接口,通信总线(bus)等中的至少一种。

cpu处理器。用于执行存储在存储器中操作系统和应用程序指令,以及根据接收外部输入的各种交互指令,来执行各种应用程序、数据和内容,以便最终显示和播放各种音视频内容。cpu处理器,可以包括多个处理器。如,包括一个主处理器以及一个或多个子处理器。

在一些实施例中,图形处理器,用于产生各种图形对象,如:图标、操作菜单、以及用户输入指令显示图形等。图形处理器包括运算器,通过接收用户输入各种交互指令进行运算,根据显示属性显示各种对象;还包括渲染器,对基于运算器得到的各种对象,进行渲染,上述渲染后的对象用于显示在显示器上。

在一些实施例中,视频处理器,用于将接收外部视频信号,根据输入信号的标准编解码协议,进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等视频处理,可得到直接可显示设备200上显示或播放的信号。

在一些实施例中,视频处理器,包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等。其中,解复用模块,用于对输入音视频数据流进行解复用处理。视频解码模块,用于对解复用后的视频信号进行处理,包括解码和缩放处理等。图像合成模块,如图像合成器,其用于将图形生成器根据用户输入或自身生成的gui信号,与缩放处理后视频图像进行叠加混合处理,以生成可供显示的图像信号。帧率转换模块,用于对转换输入视频帧率。显示格式化模块,用于将接收帧率转换后视频输出信号,改变信号以符合显示格式的信号,如输出rgb数据信号。

在一些实施例中,音频处理器,用于接收外部的音频信号,根据输入信号的标准编解码协议,进行解压缩和解码,以及降噪、数模转换、和放大处理等处理,得到可以在扬声器中播放的声音信号。

在一些实施例中,用户可在显示器260上显示的图形用户界面(gui)输入用户命令,则用户输入接口通过图形用户界面(gui)接收用户输入命令。或者,用户可通过输入特定的声音或手势进行输入用户命令,则用户输入接口通过传感器识别出声音或手势,来接收用户输入命令。

在一些实施例中,“用户界面”,是应用程序或操作系统与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(graphicuserinterface,gui),是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素,其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、widget等可视的界面元素。

在一些实施例中,显示设备的系统可以包括内核(kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构,它们让用户可以管理文件、运行程序并使用系统。上电后,内核启动,激活内核空间,抽象硬件、初始化硬件参数等,运行并维护虚拟内存、调度器、信号及进程间通信(ipc)。内核启动后,再加载shell和用户应用程序。应用程序在启动后被编译成机器码,形成一个进程。

显示设备的系统可以包括内核(kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构,它们让用户可以管理文件、运行程序并使用系统。上电后,内核启动,激活内核空间,抽象硬件、初始化硬件参数等,运行并维护虚拟内存、调度器、信号及进程间通信(ipc)。内核启动后,再加载shell和用户应用程序。应用程序在启动后被编译成机器码,形成一个进程。

如图4所示,将显示设备的系统分为三层,从上至下分别为应用层、中间件层和硬件层。

应用层主要包含电视上的常用应用,以及应用框架(applicationframework),其中,常用应用主要是基于浏览器browser开发的应用,例如:html5apps;以及原生应用(nativeapps);

应用框架(applicationframework)是一个完整的程序模型,具备标准应用软件所需的一切基本功能,例如:文件存取、资料交换...,以及这些功能的使用接口(工具栏、状态列、菜单、对话框)。

原生应用(nativeapps)可以支持在线或离线,消息推送或本地资源访问。

中间件层包括各种电视协议、多媒体协议以及系统组件等中间件。中间件可以使用系统软件所提供的基础服务(功能),衔接网络上应用系统的各个部分或不同的应用,能够达到资源共享、功能共享的目的。

硬件层主要包括hal接口、硬件以及驱动,其中,hal接口为所有电视芯片对接的统一接口,具体逻辑由各个芯片来实现。驱动主要包含:音频驱动、显示驱动、蓝牙驱动、摄像头驱动、wifi驱动、usb驱动、hdmi驱动、传感器驱动(如指纹传感器,温度传感器,压力传感器等)、以及电源驱动等。

为清楚说明本申请的实施例,下面结合图5对本申请实施例提供的一种语音识别网络架构进行描述。

参见图5,图5为本申请实施例提供的一种语音识别网络原理示意图。图5中,智能设备用于接收输入的信息以及输出对该信息的处理结果。语音识别服务设备为部署有语音识别服务的电子设备,语义服务设备为部署有语义服务的电子设备,业务服务设备为部署有业务服务的电子设备。这里的电子设备可包括服务器、计算机等,这里的语音识别服务、语义服务(也可称为语义引擎)和业务服务为可部署在电子设备上的web服务,其中,语音识别服务用于将音频识别为文本,语义服务用于对文本进行语义解析,业务服务用于提供具体的服务如墨迹天气的天气查询服务、qq音乐的音乐查询服务等。在一个实施例中,图5所示架构中可存在部署有不同业务服务的多个实体服务设备,也可以一个或多个实体服务设备中集合一项或多项功能服务。

一些实施例中,下面对基于图5所示架构处理输入智能设备的信息的过程进行举例描述,以输入智能设备的信息为通过语音输入的查询语句为例,上述过程可包括如下三个过程:

[语音识别]

智能设备可在接收到通过语音输入的查询语句后,将该查询语句的音频上传至语音识别服务设备,以由语音识别服务设备通过语音识别服务将该音频识别为文本后返回至智能设备。在一个实施例中,将查询语句的音频上传至语音识别服务设备前,智能设备可对查询语句的音频进行去噪处理,这里的去噪处理可包括去除回声和环境噪声等步骤。

[语义理解]

智能设备将语音识别服务识别出的查询语句的文本上传至语义服务设备,以由语义服务设备通过语义服务对该文本进行语义解析,得到文本的业务领域、意图等。

[语义响应]

语义服务设备根据对查询语句的文本的语义解析结果,向相应的业务服务设备下发查询指令以获取业务服务给出的查询结果。智能设备可从语义服务设备获取该查询结果并输出。作为一个实施例,语义服务设备还可将对查询语句的语义解析结果发送至智能设备,以由智能设备输出该语义解析结果中的反馈语句。

需要说明的是,图5所示架构只是一种示例,并非对本申请保护范围的限定。本申请实施例中,也可采用其他架构来实现类似功能,例如:三个过程全部或部分可以由智能终端来完成,在此不做赘述。

在一些实施例中,图5所示的智能设备可为显示设备,如智能电视,语音识别服务设备的功能可由显示设备上设置的声音采集器和控制器配合实现,语义服务设备和业务服务设备的功能可由显示设备的控制器实现,或者由显示设备的服务器来实现。

在一些实施例中,用户通过语音输入显示设备的查询语句或其他交互语句可称为语音指令。

在一些实施例中,显示设备从语义服务设备获取到的是业务服务给出的查询结果,显示设备可对该查询结果进行分析,生成语音指令的响应数据,然后根据响应数据控制显示设备执行相应的动作。

在一些实施例中,显示设备从语义服务设备获取到的是语音指令的语义解析结果,显示设备可对该语义解析结果进行分析,生成响应数据,然后根据响应数据控制显示设备执行相应的动作。

在一些实施例中的硬件或软件架构可以基于上述实施例中的介绍,在一些实施例中可以是基于相近的其他硬件或软件架构,可以实现本申请的技术方案即可。

在一些实施例中,显示设备可设置有语音助手应用实现上述智能语音业务,如搜索媒资、调节音量等业务。用户可通过向显示设备发出语音信号的方式来唤醒语音助手应用,该语音信号可为一些预设的唤醒词,在语音助手应用唤醒后,用户可与语音助手应用进行交互,对显示设备进行语音控制。

在一些实施例中,当用户向显示设备输入语音信号,如唤醒词时,显示设备未播放音视频,显示设备上的麦克风接收到的音频信号包括用户的语音信号和显示设备所处环境的噪音信号,由于噪音信号通常音量较小且与用户的语音信号差别较大,因此,这种情况下,显示设备的控制器接收到并准确识别语音信号的概率较高,较易唤醒语音助手应用,该接收到并准确识别语音信号的概率可称为打断唤醒率,语音助手应用响应语音信号的速度可称为唤醒响应速度。

在一些实施例中,显示设备可通过音频输入装置实现音频采集,通过音频输出装置实现音频播放,其中,音频输入装置可为显示设备上设置的麦克风阵列,音频输出装置可为显示设备上设置的扬声器阵列。参见图6,麦克风阵列可包括第一麦克风501和第二麦克风502,扬声器阵列包括左声道扬声器601、右声道扬声器602和低音声道扬声器603,其中,第一麦克风501和左声道扬声器601可设置在显示设备的左侧,第二麦克风502和右声道扬声器602可设置在显示设备的右侧,低音声道扬声器603可设置在显示设备的中部。

在一些实施例中,音频输入装置也可为显示设备连接的外部设备,如外置麦克风,音频输出装置可为显示设备连接的外部设备,如外置扬声器。

在一些实施例中,音频输入装置和音频输出装置还可为显示设备连接的外部一体设备,如外置智能音箱。

在一些实施例中,音频输入装置和音频输出装置还可为显示设备连接的内部一体设备,如内置智能音箱。

下面以音频输入装置为显示设备上设置的麦克风阵列,音频输出装置为显示设备上设置的扬声器阵列为例进行介绍。

在一些实施例中,图6所示的显示设备,在用户与显示设备进行语音交互时,音频传输过程可参见图7,为根据一些实施例的根据一些实施例的音频传输示意图,图7中,用户向显示设备输入的语音信号可为s(n),显示设备的麦克风阵列实际接收到的麦克风信号d(n)的计算公式为:

d(n)=s(n)+(x(n)*h(n))(1)

其中,x(n)为显示设备的扬声器阵列播放的音频信号x(n),h(n)可为显示设备所在的空间的冲击响应函数。(x(n)*h(n))表示将x(n)与h(n)进行卷积,卷积后的音频信号即为回声,由于回声的音量可能较大,且回声中可能也会包含人声,甚至有可能包含与用户的语音信号相同或相近的语音,这会对语音信号s(n)造成干扰,导致显示设备的打断唤醒率较低,唤醒响应速度也会较慢,通过消除回声可提高打断唤醒率和唤醒响应速度,提升用户体验。

在一些实施例中,回声消除针对的回声为左声道扬声器601输出地左声道参考信号和右声道扬声器602输出地右声道参考信号,在消除这两路回声后,可以满足近场语音的打断唤醒率和唤醒响应速度的要求。

在一些实施例中,近场语音的回声消除架构图可参见图8,如图8所示,显示设备的cpu,即控制器可设置有音效dsp(digitalsignalprocessing,数字信号处理器)和aec(acousticechocancellation,声学回声消除)模块。音频播放流为正在播放媒资解码后的数据流,该解码后的数据流为raw格式的数据流。该音频播放流经过音效dsp处理后分别输入到立体声pa(proaudio,专业音频设备)和低音pa(proaudio,专业音频设备)进行处理。

在一些实施例中,立体声pa从音效处理后的信号解析出需要在左声道扬声器601播放的信号和需要在右声道扬声器602播放的信号;然后将需要在左声道扬声器601播放的信号发送给左声道扬声器601,使左声道扬声器601进行发声,左声道扬声器601发出的声音信号可为左声道扬声器信号;立体声pa将需要在右声道扬声器602播放的信号发送给右声道扬声器602,使右声道扬声器602进行发声,右声道扬声器602发出的声音信号可为右声道扬声器信号。

在一些实施例中,低音pa从音效处理后的信号解析出需要在低音声道扬声器603播放的信号;然后将需要在低音声道扬声器603播放的信号发送给低音声道扬声器603,使低音声道扬声器603进行发声,低音声道扬声器603发出的声音信号可称为低音声道扬声器信号。

在一些实施例中,aec模块用于进行回声消除,aec模块通过预先在左声道扬声器601和aec模块之间搭建的回采电路,可采集左声道参考信号,也就是输入到左声道扬声器601的信号;通过预先在右声道扬声器602和aec模块之间搭建的回采电路,可采集右声道参考信号,也就是输入到右声道扬声器602的信号;aec模块在采集到左声道参考信号和右声道参考信号后,可对第一麦克风501和第二麦克风502采集的麦克风信号进行处理:根据左声道参考信号将麦克风信号中的左声道扬声器信号进行消除,根据右声道参考信号将麦克风信号中的右声道扬声器信号进行消除,从而实现左右声道的回音消除。

可见,上述针对左右声道的回音消除,依赖于预先搭建的回采电路,而aec模块与低音声道扬声器603之间并没有预先搭建回采电路。

随着语音交互技术朝着远场语音方向的不断发展,语音交互要求的人机距离越来越大,对用户的语音音量要求越来越低,上述针对左右声道的回声消除方法,在消除了左右声道的回声后,低音声道的回声对语音识别的干扰越来越大,进行低音声道回声消除的需求越来越迫切。

为解决上述技术问题,针对没有预先搭建低音声道回采电路的显示设备,本申请提供了一种回声消除方法,该方法通过输出仿真及频段分离,为aec模块提供了低音声道参考信号,解决了aec模块不能进行低音消除的问题,具体方案可参见下文描述。

参见图9,为本申请实施例提供的一种回音消除的原理示意图,如图9所示,显示设备的控制器在麦克风阵列采集到麦克风信号后,获取显示设备正在播放的音频播放流、左声道参考信号和右声道参考信号,通过对音频流播放器输出的音频播放流进行输出仿真及频段分离,得到低音声道参考信号,将低音声道参考信号和左声道参考信号和右声道参考信号分别发送给aec模块,可实现左声道、右声道和低音声道的回声消除,其中,低音声道参考信号的获取以及发送均在显示设备的cpu内通过软件实现,不需要通过硬件电路实现。

在一些实施例中,显示设备在播放媒资时,按照默认设置的音效模式或用户选择的音效模式播放媒资对应的音频播放流,一些音效模式如影院模式、重低音模式,被配置为将音频播放流中的频率较低的信号在低音声道扬声器播放,从而形成低音效果,这种情况下,可对音频播放流进行输出仿真和频段分离,进而进行低音声道的回声消除;而另一些音效模式如普通模式,被配置为将音频中的信号在左声道扬声器和右声道扬声器进行播放,不调用低音声道扬声器,这种情况下,可不需对音频播放流进行回声消除。因此,显示设备的控制器在麦克风阵列采集到麦克风信号后,可先判断下正在播放媒资的音效模式,确定音效模式为需要低音声道扬声器发声的模式后,再进行左声道、右声道和低音声道的回声消除,若确定音效模式为不需要低音声道扬声器发声的模式,则可只进行左声道和右声道的回声消除。

在一些实施例中,显示设备的控制器对音频播放流进行输出仿真及频段分离的流程可参见图10,为根据一些实施例的音频播放流的信号处理流程示意图,如图10所示,对音频播放流的处理可包括peq(pammeterequalizer,音效设置)、音量控制、3bdrc(dynamicrangecontrol,动态范围控制)、频段分离,其中,peq、音量控制、3bdrc属于对音频播放流的输出仿真。

需要说明的是,输出仿真的具体数据处理过程可参考显示设备的音效处理dsp的数据处理过程,由于不同的显示设备,音效处理dsp的数据处理过程可能不同,因此,图9中的信号处理流程可根据显示设备的音效处理dsp的数据处理过程进行适应性调整。例如,在一些实施例中,输出仿真可能只包括音量控制;在一些实施例中,输出仿真可能只包括peq和音量控制;在一些实施例中,除了peq、音量控制和3bdrc,输出仿真可能还包括一些其他步骤,如去噪处理。

在一些实施例中,peq为对音频播放流进行播放音效的仿真。根据音频播放流的音效模式,可选择相应的音效算法,通过音效算法对音频播放流进行处理,得到仿真播放音效的数据流。其中,音效算法可预先依据音效模式的音效特性确定,示例性的音效特性如下:特定频段的音频信号波形拉平、低频段的音频信号增强等等,低频段可为0-300hz。在对音频播放流进行播放音效的仿真后,可将仿真后的信号进行音量控制。

在一些实施例中,音量控制为根据显示设备的音量对仿真播放音效后的信号进行增益,音量越大,则增益越大,音量越小,则增益越小。在进行音量控制后,可将增益后的信号再进动态范围控制。

在一些实施例中,动态范围控制可防止音量设置过大带来的截辐。通过预设一个音量阈值,在音量控制后的信号对应的最大音量值超过该音量阈值时,将该最大音量值对应的音频信号前后50ms的信号进行加窗处理,使整个波段的音频音量降低,同时,保持变化部分的平滑,让音频播放效果更加自然,其中,音量控制后的信号的幅值与音量值相对应。在进行动态范围控制后,可将动态范围控制后的信号进行频段分离。

在一些实施例中,频段分离可通过滤波器实现,由于aec模块可通过预先建立的回采电路获取左声道参考信号和右声道参考信号,因此,aec模块可只需再通过低通滤波器获取低音声道参考信号即可。将动态范围控制后的信号通过低通滤波器进行滤波后,可输出aec模块所需的低音声道参考信号,其中,低通滤波器可选为截止频率为300hz的滤波器。

在一些实施例中,aec模块在获取到各个声道的参考信号后,可进行回声消除,假设回声消除后的信号为d(n),则d(n)的计算公式为:

d(n)=d(n)-x(n)*h(n)(2)

其中,x(n)包括上述实施例中介绍的左声道参考信号、右声道参考信号和低音声道参考信号,h(n)可通过维纳滤波器进行求解。

参见图11,为根据一些是实施例的维纳滤波器的滤波示意图,如图11所示,可预设一个fir滤波器作为h(n),将x(n)输入到该fir滤波器后,得到输出信号,将输出信号与期望信号,也就是图7中的麦克风信号d(n)作差可得误差信号e(n),这里的误差信号可为图7中用户向显示设备输入的语音信号s(n),即误差信号e(n)的计算公式为:

e(n)=x(n)*h(n)-d(n)(3)

基于维纳滤波器的原理,可以通过对误差函数求最小均方差来计算最大相关性,其中,最小均方差的计算公式为:

e[e2(n)]=e[((x(n)*h(n)-d(n))^2](4)

最终,求得其中,为输入信号的自相关矩阵的逆,rxx=e[x(n)x(n)t],rxd=e[x(n)d(n)]。

在得到h(n)后,可依据(2)式得到回声消除后的信号d(n),对d(n)进行语义识别,可得到识别结果,进而可根据识别结果生成响应数据,根据响应数据生成语音交互的用户界面。由于消除了左声道、右声道和低音声道的回声,语义识别的识别速度和识别结果的准确性将会得到提高,进而使得语音交互的打断唤醒率和响应速度都得到提高。

由于以上实施方式均是在其他方式之上引用结合进行说明,不同实施例之间均具有相同的部分,本说明书中各个实施例之间相同、相似的部分互相参见即可。在此不再详细阐述。

需要说明的是,在本说明书中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或暗示这些实体或操作之间存在任何这种实际的关系或顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的电路结构、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种电路结构、物品或者设备所固有的要素。在没有更多限制的情况下,有语句“包括一个……”限定的要素,并不排除在包括要素的电路结构、物品或者设备中还存在另外的相同要素。

本领域技术人员在考虑说明书及实践这里发明的公开后,将容易想到本申请的其他实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求的内容指出。以上的本申请实施方式并不构成对本申请保护范围的限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1