基于视联网的音频处理方法、装置、电子设备及存储介质与流程

文档序号:20917275发布日期:2020-05-29 13:41阅读:201来源:国知局
基于视联网的音频处理方法、装置、电子设备及存储介质与流程
本申请涉及数据处理
技术领域
,特别是涉及一种基于视联网的音频处理方法、装置、电子设备及存储介质。
背景技术
:当前,随着视联网业务在全国范围内的普及发展,视联网高清视联交互技术在政府部门已经其它行业中发挥着举足轻重的作用。视联网采用全球最先进的visionvera实时高清视频交换技术,实现了目前互联网无法实现的全网高清视频实时传输,将高清视频会议、视频监控、远程培训、智能化监控分析、应急指挥、视频电话、现场直播、电视邮件、信息发布等数十种视频、语音、图片、文字、通讯、数据等服务全部整合在一个系统平台,通过多种终端设备实现高清品质视频通信实时互联互通。随着视联网视频会议的广泛运用,部分视联网视频会议是在视联网和4g网络的环境下进行的。例如,在无人机入会参会中,无人机通常会连接一个手机,在手机上通过手机上安装的视联网内应用对无人机进行操控,同时需要通过该视联网内应用与指挥大厅的视联网终端进行音视频通话。一般在无人机参会的视联网视频会议中,无人机参会方一般处于野外环境,这样,用户一般会在手机上连接麦克风,在连接麦克风的情况下,手机一边播放对方的声音,一边用麦克风进行采集。但是手机播放对方的声音后,该声音会产生回声,进而回声又与新采集的声音一起传送给视联网终端。这样,造成指挥大厅的视联网终端在播放回传的声音时,对方就会听到在前次通话中他们自己发出的回声。现有技术中,视联网视频会议为了抑制该回声,一般采取的方式是:通过设置时间间隔的方式进行,以使人耳无法区分回声和新采集的声音,但是此种方式,并不能完全杜绝回声,对时间间隔的设置要求较高,且由于这个循环回路一直进行,从而使得回声越累积越多,最后出现嗡鸣声,影响通话质量。技术实现要素:鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于视联网的音频处理方法、装置、电子设备及存储介质。第一方面,本申请实施例提供一种基于视联网的音频处理方法,在所述视联网中部署有视联网终端,所述视联网终端与流媒体服务器通信连接,所述流媒体服务器与移动终端通信连接,所述移动终端上配置有音频播放组件,所述方法应用于所述移动终端中设置的应用程序对象,包括:在检测到预设的音视频通话业务被开启时,触发所述移动终端上预设的音频采集模式;接收所述流媒体服务器在所述音视频通话业务中发送的第一音频数据,并调用所述音频播放组件,对所述第一音频数据进行播放;其中,所述第一音频数据由所述视联网终端发送给所述流媒体服务器;获取由所述移动终端在所述音频采集模式下采集的第二音频数据;根据所述第一音频数据及所述第二音频数据,对所述第二音频数据进行回声消除处理,得到回声消除处理后的目标音频数据;将所述目标音频数据发送给所述流媒体服务器,所述流媒体服务器用于将所述目标音频数据发送给所述视联网终端。可选地,在所述移动终端上配置有第一麦克风及第二麦克风,触发所述移动终端上预设的音频采集模式,包括:调用所述第一麦克风及所述第二麦克风;获取由所述移动终端在所述音频采集模式下采集的第二音频数据,包括:获取由所述第一麦克风采集的第一麦克风音频数据,以及由所述第二麦克风采集的第二麦克风音频数据;根据所述第一麦克风音频数据及所述第二麦克风音频数据,对所述第二麦克风音频数据进行降噪处理,得到第二音频数据。可选地,根据所述第一音频数据及所述第二音频数据,对所述第二音频数据进行回声消除处理,得到回声消除处理后的目标音频数据,包括:在所述第二音频数据中,确定与所述第一音频数据对应的第三音频数据;将所述第三音频数据从所述第二音频数据中滤除,得到滤除所述第三音频数据的目标音频数据。可选地,在触发所述移动终端上预设的音频采集模式的同时,所述方法还包括:调用所述移动终端中设置的自适应滤波器;在所述第二音频数据中,确定与所述第一音频数据的频率相同的第三音频数据,包括:将所述第一音频数据输入所述自适应滤波器,得到由所述自适应滤波器输出的输出音频数据;在所述第二音频数据中,确定与所述输出音频数据的频率相同的第三音频数据。可选地,调用所述移动终端上配置的自适应滤波器,包括:确定所述视联网终端上与所述应用程序对象适配的至少一个应用程序接口,并确定所述至少一个应用程序接口中是否存在目标接口;在所述至少一个应用程序接口中存在所述目标接口时,通过所述目标接口调用与所述目标接口对应的自适应滤波器;在所述至少一个应用程序接口中不存在所述目标接口时,通过预设的应用程序接口调用与所述预设的应用程序接口对应的自适应滤波器第二方面,本申请实施例提供一种基于视联网的音频处理装置,在所述视联网中部署有视联网终端,所述视联网终端与流媒体服务器通信连接,所述流媒体服务器与移动终端通信连接,所述移动终端上配置有音频播放组件,所述装置应用于所述移动终端中设置的应用程序对象,所述装置具体地可以为虚拟装置,具体可以包括以下模块:音频模式触发模块,用于在检测到预设的音频通话业务被开启时,触发所述移动终端上预设的音频数据采集模式;音频数据接收并播放模块,用于接收所述流媒体服务器发送的第一音频数据,调用所述音频播放组件,对所述第一音频数据进行播放;所述第一音频数据由所述视联网终端发送给所述流媒体服务器;音频数据采集模块,用于获取由所述移动终端在所述音频数据采集模式下采集的第二音频数据;音频数据处理模块,用于根据所述第一音频数据及所述第二音频数据,对所述第二音频数据进行回声消除处理,得到回声消除处理后的目标音频数据;音频数据发送模块,用于将所述目标音频数据发送给所述流媒体服务器,所述流媒体服务器用于将所述目标音频数据发送给所述视联网终端。可选地,在所述移动终端上配置有第一麦克风及第二麦克风,所述音频模式触发模块,具体可以用于调用所述第一麦克风及所述第二麦克风;所述音频数据采集模块,具体可以包括以下单元:麦克风音频数据获取单元,用于获取由所述第一麦克风采集的第一麦克风音频数据,以及由所述第二麦克风采集的第二麦克风音频数据;降噪处理单元,用于根据所述第一麦克风音频数据及所述第二麦克风音频数据,对所述第二麦克风音频数据进行降噪处理,得到第二音频数据。可选地,所述音频数据处理模块,具体可以包括以下单元:音频数据查找单元,用于在所述第二音频数据中,确定与所述第一音频数据对应的第三音频数据;音频数据滤除单元,用于将所述第三音频数据从所述第二音频数据中滤除,得到滤除所述第三音频数据的目标音频数据。可选地,所述装置还具体可以包括以下模块:调用模块,用于调用所述移动终端中设置的自适应滤波器;所述音频数据查找单元,具体可以包括以下单元:音频数据输入单元,用于将所述第一音频数据输入所述自适应滤波器,得到由所述自适应滤波器输出的输出音频数据;音频数据确定单元,用于在所述第二音频数据中,确定与所述输出音频数据的频率相同的第三音频数据。可选地,所述调用模块,具体可以包括以下单元:目标接口确定单元,用于确定所述视联网终端上与所述应用程序对象适配的至少一个应用程序接口,并确定所述至少一个应用程序接口中是否存在目标接口;第一调用单元,用于在所述至少一个应用程序接口中存在所述目标接口时,通过所述目标接口调用与所述目标接口对应的自适应滤波器;第二调用单元,用于在所述至少一个应用程序接口中不存在所述目标接口时,通过预设的应用程序接口调用与所述预设的应用程序接口对应的自适应滤波器。第三方面,本申请实施例还公开了一种电子设备,包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述设备执行如本申请实施例所述的一个或多个的基于视联网的音频处理方法。第四方面,本申请实施例还公开了一种计算机可读存储介质,其存储的计算机程序使得处理器执行如本申请实施例所述的基于视联网的音频处理方法。与现有技术相比,本申请实施例包括以下优点:在本申请实施例中,在移动终端中设置的应用程序对象检测到预设的音视频通话业务被开启时,便触发预设的音频采集模式。之后,在接收到流媒体服务器发送的第一音频数据时,可以调用移动终端上的音频播放组件对该第一音频数据进行播放,之后,获取移动终端在音频采集模式下采集的第二音频数据,并根据第一音频数据,对第二音频数据进行回声消除处理,以得到目标音频数据,进而可以将回声消除处理后的目标音频数据经由流媒体服务器发送给视联网终端。由于应用程序对象可以使得移动终端在预设的音频采集模式下采集第二音频数据,进而可以提高第二音频数据的音频质量,又由于本申请是根据第一音频数据,对采集到的第二音频数据进行回声消除处理,可以在第二音频数据中对播放第一音频数据所产生的回声进行消除,进而可以提高本申请对回声处理的效果,进而提高通话质量。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请的一种视联网的组网示意图;图2是本申请的一种节点服务器的硬件结构示意图;图3是本申请的一种接入交换机的硬件结构示意图;图4是本申请的一种以太网协转网关的硬件结构示意图;图5是本申请实施例的一种基于视联网的音频处理方法的应用场景图;图6是本申请实施例的一种基于视联网的音频处理方法的步骤流程图;图7是本申请实施例的一种基于视联网的音频处理装置的结构示意图。具体实施方式为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。视联网是网络发展的重要里程碑,是一个实时网络,能够实现高清视频实时传输,将众多互联网应用推向高清视频化,高清面对面。视联网采用实时高清视频交换技术,可以在一个网络平台上将所需的服务,如高清视频会议、视频监控、智能化监控分析、应急指挥、数字广播电视、延时电视、网络教学、现场直播、vod点播、电视邮件、个性录制(pvr)、内网(自办)频道、智能化视频播控、信息发布等数十种视频、语音、图片、文字、通讯、数据等服务全部整合在一个系统平台,通过电视或电脑实现高清品质视频播放。为使本领域技术人员更好地理解本申请实施例,以下对视联网进行介绍:视联网所应用的部分技术如下所述:网络技术(networktechnology)视联网的网络技术创新改良了传统以太网(ethernet),以面对网络上潜在的巨大第一视频流量。不同于单纯的网络分组包交换(packetswitching)或网络电路交换(circuitswitching),视联网技术采用packetswitching满足streaming需求。视联网技术具备分组交换的灵活、简单和低价,同时具备电路交换的品质和安全保证,实现了全网交换式虚拟电路,以及数据格式的无缝连接。交换技术(switchingtechnology)视联网采用以太网的异步和包交换两个优点,在全兼容的前提下消除了以太网缺陷,具备全网端到端无缝连接,直通用户终端,直接承载ip数据包。用户数据在全网范围内不需任何格式转换。视联网是以太网的更高级形态,是一个实时交换平台,能够实现目前互联网无法实现的全网大规模高清视频实时传输,将众多网络视频应用推向高清化、统一化。服务器技术(servertechnology)视联网和统一视频平台上的服务器技术不同于传统意义上的服务器,它的流媒体传输是建立在面向连接的基础上,其数据处理能力与流量、通讯时间无关,单个网络层就能够包含信令及数据传输。对于语音和视频业务来说,视联网和统一视频平台流媒体处理的复杂度比数据处理简单许多,效率比传统服务器大大提高了百倍以上。储存器技术(storagetechnology)统一视频平台的超高速储存器技术为了适应超大容量和超大流量的媒体内容而采用了最先进的实时操作系统,将服务器指令中的节目信息映射到具体的硬盘空间,媒体内容不再经过服务器,瞬间直接送达到用户终端,用户等待一般时间小于0.2秒。最优化的扇区分布大大减少了硬盘磁头寻道的机械运动,资源消耗仅占同等级ip互联网的20%,但产生大于传统硬盘阵列3倍的并发流量,综合效率提升10倍以上。网络安全技术(networksecuritytechnology)视联网的结构性设计通过每次服务单独许可制、设备与用户数据完全隔离等方式从结构上彻底根除了困扰互联网的网络安全问题,一般不需要杀毒程序、防火墙,杜绝了黑客与病毒的攻击,为用户提供结构性的无忧安全网络。服务创新技术(serviceinnovationtechnology)统一视频平台将业务与传输融合在一起,不论是单个用户、私网用户还是一个网络的总合,都不过是一次自动连接。用户终端、机顶盒或pc直接连到统一视频平台,获得丰富多彩的各种形态的多媒体视频服务。统一视频平台采用“菜谱式”配表模式来替代传统的复杂应用编程,可以使用非常少的代码即可实现复杂的应用,实现“无限量”的新业务创新。视联网的组网如下所述:视联网是一种集中控制的网络结构,该网络可以是树型网、星型网、环状网等等类型,但在此基础上网络中需要有集中控制节点来控制整个网络。如图1所示,视联网分为接入网和城域网两部分。接入网部分的设备主要可以分为3类:节点服务器,接入交换机,终端(包括各种机顶盒、编码板、存储器等)。节点服务器与接入交换机相连,接入交换机可以与多个终端相连,并可以连接以太网。其中,节点服务器是接入网中起集中控制功能的节点,可控制接入交换机和终端。节点服务器可直接与接入交换机相连,也可以直接与终端相连。类似的,城域网部分的设备也可以分为3类:城域服务器,节点交换机,节点服务器。城域服务器与节点交换机相连,节点交换机可以与多个节点服务器相连。其中,节点服务器即为接入网部分的节点服务器,即节点服务器既属于接入网部分,又属于城域网部分。城域服务器是城域网中起集中控制功能的节点,可控制节点交换机和节点服务器。城域服务器可直接连接节点交换机,也可直接连接节点服务器。由此可见,整个视联网络是一种分层集中控制的网络结构,而节点服务器和城域服务器下控制的网络可以是树型、星型、环状等各种结构。形象地称,接入网部分可以组成统一视频平台(虚线圈中部分),多个统一视频平台可以组成视联网;每个统一视频平台可以通过城域以及广域视联网互联互通。视联网设备分类1.1本申请实施例的视联网中的设备主要可以分为3类:服务器,交换机(包括以太网协转网关),终端(包括各种机顶盒,编码板,存储器等)。视联网整体上可以分为城域网(或者国家网、全球网等)和接入网。1.2其中接入网部分的设备主要可以分为3类:节点服务器,接入交换机(包括以太网协转网关),终端(包括各种机顶盒,编码板,存储器等)。各接入网设备的具体硬件结构为:节点服务器:如图2所示,主要包括网络接口模块201、交换引擎模块202、cpu模块203、磁盘阵列模块204;其中,网络接口模块201,cpu模块203、磁盘阵列模块204进来的包均进入交换引擎模块202;交换引擎模块202对进来的包进行查地址表205的操作,从而获得包的导向信息;并根据包的导向信息把该包存入对应的包缓存器206的队列;如果包缓存器206的队列接近满,则丢弃;交换引擎模块202轮询所有包缓存器队列,如果满足以下条件进行转发:1)该端口发送缓存未满;2)该队列包计数器大于零。磁盘阵列模块204主要实现对硬盘的控制,包括对硬盘的初始化、读写等操作;cpu模块203主要负责与接入交换机、终端(图中未示出)之间的协议处理,对地址表205(包括下行协议包地址表、上行协议包地址表、数据包地址表)的配置,以及,对磁盘阵列模块204的配置。接入交换机:如图3所示,主要包括网络接口模块(下行网络接口模块301、上行网络接口模块302)、交换引擎模块303和cpu模块304;其中,下行网络接口模块301进来的包(上行数据)进入包检测模块305;包检测模块305检测包的目地地址(da)、源地址(sa)、数据包类型及包长度是否符合要求,如果符合,则分配相应的流标识符(stream-id),并进入交换引擎模块303,否则丢弃;上行网络接口模块302进来的包(下行数据)进入交换引擎模块303;cpu模块304进来的数据包进入交换引擎模块303;交换引擎模块303对进来的包进行查地址表306的操作,从而获得包的导向信息;如果进入交换引擎模块303的包是下行网络接口往上行网络接口去的,则结合流标识符(stream-id)把该包存入对应的包缓存器307的队列;如果该包缓存器307的队列接近满,则丢弃;如果进入交换引擎模块303的包不是下行网络接口往上行网络接口去的,则根据包的导向信息,把该数据包存入对应的包缓存器307的队列;如果该包缓存器307的队列接近满,则丢弃。交换引擎模块303轮询所有包缓存器队列,可以包括两种情形:如果该队列是下行网络接口往上行网络接口去的,则满足以下条件进行转发:1)该端口发送缓存未满;2)该队列包计数器大于零;3)获得码率控制模块产生的令牌;如果该队列不是下行网络接口往上行网络接口去的,则满足以下条件进行转发:1)该端口发送缓存未满;2)该队列包计数器大于零。码率控制模块308是由cpu模块304来配置的,在可编程的间隔内对所有下行网络接口往上行网络接口去的包缓存器队列产生令牌,用以控制上行转发的码率。cpu模块304主要负责与节点服务器之间的协议处理,对地址表306的配置,以及,对码率控制模块308的配置。以太网协转网关:如图4所示,主要包括网络接口模块(下行网络接口模块401、上行网络接口模块402)、交换引擎模块403、cpu模块404、包检测模块405、码率控制模块408、地址表406、包缓存器407和mac添加模块409、mac删除模块410。其中,下行网络接口模块401进来的数据包进入包检测模块405;包检测模块405检测数据包的以太网macda、以太网macsa、以太网lengthorframetype、视联网目地地址da、视联网源地址sa、视联网数据包类型及包长度是否符合要求,如果符合则分配相应的流标识符(stream-id);然后,由mac删除模块410减去macda、macsa、lengthorframetype(2byte),并进入相应的接收缓存,否则丢弃;下行网络接口模块401检测该端口的发送缓存,如果有包则根据包的视联网目地地址da获知对应的终端的以太网macda,添加终端的以太网macda、以太网协转网关的macsa、以太网lengthorframetype,并发送。以太网协转网关中其他模块的功能与接入交换机类似。终端:主要包括网络接口模块、业务处理模块和cpu模块;例如,机顶盒主要包括网络接口模块、视音频编解码引擎模块、cpu模块;编码板主要包括网络接口模块、视音频编码引擎模块、cpu模块;存储器主要包括网络接口模块、cpu模块和磁盘阵列模块。1.3城域网部分的设备主要可以分为2类:节点服务器,节点交换机,城域服务器。其中,节点交换机主要包括网络接口模块、交换引擎模块和cpu模块;城域服务器主要包括网络接口模块、交换引擎模块和cpu模块构成。2、视联网数据包定义2.1接入网数据包定义接入网的数据包主要包括以下几部分:目的地址(da)、源地址(sa)、保留字节、payload(pdu)、crc。如下表所示,接入网的数据包主要包括以下几部分:dasareservedpayloadcrc其中:目的地址(da)由8个字节(byte)组成,第一个字节表示数据包的类型(例如各种协议包、组播数据包、单播数据包等),最多有256种可能,第二字节到第六字节为城域网地址,第七、第八字节为接入网地址;源地址(sa)也是由8个字节(byte)组成,定义与目的地址(da)相同;保留字节由2个字节组成;payload部分根据不同的数据报的类型有不同的长度,如果是各种协议包的话是64个字节,如果是单组播数据包话是32+1024=1056个字节,当然并不仅仅限于以上2种;crc有4个字节组成,其计算方法遵循标准的以太网crc算法。2.2城域网数据包定义城域网的拓扑是图型,两个设备之间可能有2种、甚至2种以上的连接,即节点交换机和节点服务器、节点交换机和节点交换机、节点交换机和节点服务器之间都可能超过2种连接。但是,城域网设备的城域网地址却是唯一的,为了精确描述城域网设备之间的连接关系,在本申请实施例中引入参数:标签,来唯一描述一个城域网设备。本说明书中标签的定义和mpls(multi-protocollabelswitch,多协议标签交换)的标签的定义类似,假设设备a和设备b之间有两个连接,那么数据包从设备a到设备b就有2个标签,数据包从设备b到设备a也有2个标签。标签分入标签、出标签,假设数据包进入设备a的标签(入标签)是0x0000,这个数据包离开设备a时的标签(出标签)可能就变成了0x0001。城域网的入网流程是集中控制下的入网过程,也就意味着城域网的地址分配、标签分配都是由城域服务器主导的,节点交换机、节点服务器都是被动的执行而已,这一点与mpls的标签分配是不同的,mpls的标签分配是交换机、服务器互相协商的结果。如下表所示,城域网的数据包主要包括以下几部分:dasareserved标签payloadcrc即目的地址(da)、源地址(sa)、保留字节(reserved)、标签、payload(pdu)、crc。其中,标签的格式可以参考如下定义:标签是32bit,其中高16bit保留,只用低16bit,它的位置是在数据包的保留字节和payload之间。基于上述视联网的特性,基于视联网进行的视频会议越来越多,其视频会议的应用场景也越来越多样。因此,为了保证在不同的应用场景下进行的视频会议的会议质量,需要保证视频会议中的音频通话质量的稳定性。例如,一种应用场景是对无人机进行指挥的视频会议场景,在该视频会议中,视联网中的视联网终端会和互联网中的移动终端进行音视频通信,其中,互联网中的移动终端上安装有针对该应用场景的应用程序服务,该应用程序服务可以为用户提供无人机控制、与视联网终端进行音视频通信的本地服务。在此种应用场景下,为保证常常处于野外的移动终端的音频通话质量,需要避免该移动终端发出的音频中有回声。目前的方式是将该应用程序服务对接到第三方的回声抑制工具,使得可以通过设置时间间隔来避免回声的产生。但是,对接第三方的回声抑制工具时,就得用c语言把第三方的库封装为移动终端能调用的so库(动态链接库),通过jni(javanativeinterface)接口调用该so库,过程非常繁琐。不仅增加了开发人员的开发工作量,且回声抑制的效果并不好,在通话进行一段时间后,便会出现嗡嗡声,影响通话质量。基于此,本申请人在综合考虑视联网特性和上述应用程序对象的基础上,为了提高上述应用场景下移动终端侧的音频通话质量,构思了本申请的技术构思之一,以至少解决上述技术问题中存在的通话进行一段时间后,便会出现嗡嗡声的问题。具体地,在应用程序对象检测到音视频通话业务开启时,便触发移动终端上预设的音频采集模式,以使得移动终端在该采集模式下采集第二音频数据,并根据第一音频数据对第二音频数据进行回声消除,从而可以在第二音频数据中对播放第一音频数据所产生的回声进行消除。避免了调用第三方的回声抑制库,通过设置时间间隔以达到人耳无法分辨回声所带来的对接第三方过程繁琐、随着时间的积累回声被叠加从而降低通话质量的问题。参考图5,示出了本申请实施例的一种基于视联网的音频处理方法的应用场景中,在该应用场景中,视联网终端与互联网终端进行视联网视频会议,其中,互联网终端通过遥控手柄建立与无人机的通信连接,具体地,遥控手柄向无人机发出控制指令,以控制无人机的飞行高度和航向,其中,无人机所拍摄的图片及飞行数据会传回给互联网终端,进而,互联网终端可以将图片及飞行数据通过视联网传回给视联网终端。其中,在所述视联网中部署有视联网终端,该视联网终端与流媒体服务器通信连接,流媒体服务器与移动终端通信连接。移动终端、无人机和遥控手柄均可以部署在互联网中,流媒体服务器可以分别与视联网中的视联网终端通信、以及与互联网中的移动终端通信。其中,在所述移动终端上配置有音频播放组件,其中,音频播放组件可以是但是不限于下述音频播放器:mp3、mp4等。在该移动终端中还设置有应用程序对象,该应用程序对象可以与流媒体服务器相对应,应用程序对象可以为用户提供无人机的数据分析、保存、传输以及视联网音视频会议等本地服务,则流媒体服务器可以为应用程序对象进行的上述服务提供后台服务,如提供数据的转发服务。本申请实施例中,移动终端可以为安装安卓系统的终端,如安卓手机、安卓平板电脑等。参照图6所示,示出了本申请实施例的一种基于视联网的音频处理方法的步骤流程图,所述方法可以应用于所述移动终端中设置的所述应用程序对象中,如图6所示,具体可以包括以下步骤:步骤s601,在检测到预设的音视频通话业务被开启时,触发所述移动终端上预设的音频采集模式。本申请实施例中,预设的音视频通话业务可以是指该音视频通话业务预先配置在该应用程序对象中,作为该应用程序对象所提供的多个服务中的一个服务。例如,应用程序对象可以提供无人机数据分析、音视频通话、监控回放等服务。具体实施时,应用程序对象可以根据用户对音视频通话业务的操作去检测该音频通话业务是否被开启,实际中,用户对音视频通话业务进行了启动操作,则应用程序对象可以检测到该启动操作,进而根据该启动操作,去触发移动终端上预设的音频采集模式。其中,预设的音频采集模式可以是指:在移动终端上预设的与该应用程序对象上的音视频通话业务相对应的音频采集模式。该音频采集模式可以控制移动终端采集音频数据、对音频数据进行预处理的方式。实际中,在音视频通话业务启动时,应用程序对象便可以触发该音频采集模式,以使得移动终端可以在该音频采集模式下采集音频数据。本申请实施例中的触发可以是指启动,即,启动该预设的音频采集模式。实际中,在该移动终端中可以配置有多个原始的音频采集模式,本实施例中,可以根据移动终端在各原始的音频采集模式下所各自采集的音频数据中,将环境噪声最少的音频数据所对应的音频采集模式确定为上述预设的音频采集模式。示例地,以移动终端为安卓手机设备为例,在该安卓手机设备上包括有9种原始的音频采集模式,分别为:audiosource(音频源).default默认模式;audiosource.mic麦克风模式;audiosource.voice_uplink电话上行模式;audiosource.voice_downlink电话下行模式;audiosource.voice_call电话上行+下行模式;audiosource.camcorder摄像机模式;audiosource.voice_recognition语音识别模式;audiosource.voice_communication语音通信模式,例如voip(voiceoverinternetprotocol,基于ip的语音传输)模式;audiosource.remote_submix远程声音模式,例如wifidisplay(无线显示)模式。则经过实际测试,确定到在语音通信模式下移动终端所采集的音频数据中包含的噪声最少,则可以将该语音通信模式确定为预设的音频采集模式,从而在该安卓手机中设置的应用程序对象检测到音视频通话业务开启时,则可以触发该语音通信模式。步骤s602,接收所述流媒体服务器在所述音视频通话业务中发送的第一音频数据,并调用所述音频播放组件,对所述第一音频数据进行播放。其中,所述第一音频数据由所述视联网终端发送给所述流媒体服务器。本实施例中,第一音频数据为由视联网终端采集的数据,并被视联网终端通过视联网发送给流媒体服务器,再由流媒体服务器发送给移动终端上的应用程序对象。具体实施时,移动终端可以对调用音频播放组件对该第一音频数据进行解码播放,同时可以对该第一音频数据进行缓存,以便在后续可以根据该缓存的第一音频数据,对移动终端新采集的音频数据进行回声消除。步骤s603,获取由所述移动终端在所述音频采集模式下采集的第二音频数据。实际中,在播放完第一音频数据后,应用程序对象便开始获取移动终端在音频采集模式下采集的第二音频数据。由于在播放第一音频数据的过程中,播放组件发出的声音被周围环境所反射形成回声,由于该回声相比直接传播的声音所经过的路程更长,因而在播放完第一音频数据后,该由第一音频数据所产生的回声会与用户的说话声一起被移动终端所采集到。因此,在该第二音频数据中则包括了环境对播放的第一音频数据进行反射的回声音频数据。本实施例中,由于在预设的音频采集模式下采集的音频数据中包括的环境噪声可以最少,因此,该预设的音频采集模式下采集的第二音频数据中包括的环境噪声也较少,进而提高了第二音频数据的音频质量。具体地,环境噪声是指移动终端所处的周围环境中产生的噪声,而回声可以是环境噪声中的一种,当在该预设的音频采集模式下采集的第二音频数据中包括的环境噪声较少时,表征其中的回声也可以较少。因此,可以提高采集的第二音频数据的质量,以得到较好的回声消除效果。步骤s604,根据所述第一音频数据及所述第二音频数据,对所述第二音频数据进行回声消除处理,得到回声消除处理后的目标音频数据。本实施例中,在获得到第二音频数据时,则可以根据缓存的第一音频数据,对第二音频数据中包括的回声音频数据进行消除,以得到消除回声音频数据后的目标音频数据。其中,该回声音频数据即为移动终端所采集的由环境对播放中的第一音频数据进行反射而产生的音频数据。这样,在得到的目标音频数据中便不包括回声音频数据,由此,实现了在音视频通话业务中,在移动终端侧的回声消除处理。步骤s605,将所述目标音频数据发送给所述流媒体服务器,所述流媒体服务器用于将所述目标音频数据发送给所述视联网终端。在得到目标音频数据后,则应用程序对象可以将该目标音频数据发送给流媒体服务器,以使流媒体服务器通过视联网将该目标音频数据发送给视联网终端。由于目标音频数据中不包括回声音频数据,则视联网终端在播放该目标音频数据时,视联网终端的用户听到的便是清晰的移动终端的用户的声音,而不会听到自己前次发出的语音,从而提高了通话质量。本申请实施例中,由于在该预设的音频采集模式下采集的第二音频数据中包括的环境噪声较少,表征其中的回声也较少。因此,本申请可以提高了采集的第二音频数据的质量。又由于是根据第一音频数据对该第二音频数据进行回声消除处理,使得在得到的目标音频数据中不包括回声音频数据,提高了传送出去的目标音频数据的音频质量。相比于设置时间间隔的方式,本申请发送出去的目标音频数据本身并不携带回声音频数据,因此,可以保证通话质量,实现清晰通话。避免了时间间隔设置不合理所带来的人耳仍能听到回声,以及随着时间的推移,在传送出去的音频数据中回声累积越来越多以产生嗡嗡声的问题。结合上述实施例,在一种可选的实例中,在所述移动终端上配置有第一麦克风及第二麦克风,则在步骤s601中,触发所述移动终端上预设的音频采集模式,具体包括以下步骤:步骤s6011,调用所述第一麦克风及所述第二麦克风。实际中,第一麦克风和第二麦克风可以配置在移动终端的不同位置,可选地,第一麦克风可以配置在移动终端的底部,第二麦克风可以配置在移动终端的顶端。有上述步骤s601对音频采集模式的描述可知,在移动终端中可以设置多个原始的音频采集模式,实际中,每一种音频采集模式所调用的麦克风并不相同,对麦克风采集到的音频数据进行预处理的方式也可以不相同。本申请实施例中,预设的音频采集模式可以对应于同时调用第一麦克风和第二麦克风。即,预设的音频采集模式触发时,应用程序对象可以同时调用第一麦克风和第二麦克风,以利用该第一麦克风和第二麦克风进行音频数据的采集。相应地,步骤s603具体可以包括以下步骤:步骤s6031,获取由所述第一麦克风采集的第一麦克风音频数据,以及由所述第二麦克风采集的第二麦克风音频数据。实际中,在调用第一麦克风和第二麦克风后,第一麦克风和第二麦克风可以同时对音频数据进行采集。由于第一麦克风和第二麦克风位于移动终端上的不同位置,则二者采集的音频数据具有差异。具体地,由于在通话时顶部的第二麦克风和底部的第一麦克风距离用户的距离不同,因此,第一麦克风音频数据中包括的用户语音的音量和第二麦克风音频数据中包括的用户的语音的音量大小是不同的,而两个麦克风所拾取的背景噪声音量是基本相同的,因此可以利用上述差别,过滤掉噪声保留人声。步骤s6032,根据所述第一麦克风音频数据及所述第二麦克风音频数据,对所述第二麦克风音频数据进行降噪处理,得到第二音频数据。本申请实施例中,在预设的音频采集模式下,可以对第二麦克风采集的的第二麦克风音频数据进行降噪处理。具体地,可以对第一麦克风音频数据和第二麦克风音频数据进行解码生成补偿信号,进而根据该补偿信号对第二麦克风音频数据进程降噪处理,从而可以去除该第二麦克风音频数中的环境噪音,从而得到降噪处理后的第二音频数据。结合上述实施例,在一种可选的实例中,步骤s604具体可以包括以下步骤:步骤s6041,在所述第二音频数据中,确定与所述第一音频数据对应的第三音频数据。本可选示例中,在对第二音频数据进行回声消除处理时,由于第二音频数据中包括的回声音频数据是由播放第一音频数据所反射的回声,进而该回声音频数据是与第一音频数据相关的音频数据。如,回声音频数据与第一音频数据都是来自同一用户的声音,虽然经过反射,但是其声学特征是一样的。因此,可以基于语音识别技术,从第二音频数据中找出与第一音频数据的声学特征的匹配度大于预设匹配度的第三音频数据,这样确定出的第三音频数据便是播放第一音频数据所反射的回声音频数据。其中,声学特征可以是音频数据的频率特征或频谱特征。步骤s6042,将所述第三音频数据从所述第二音频数据中滤除,得到滤除所述第三音频数据的目标音频数据。实际中,在确定第三音频数据后,便可以从第二音频数据中将第三音频数据进行剔除,以得到目标音频数据。相应地,在一种可选示例中,在触发所述移动终端上预设的音频采集模式的同时,所述方法还具体可以包括以下步骤:步骤s6012,调用所述移动终端中设置的自适应滤波器。本可选示例中,为了提高对第二音频数据进行回声消除处理的效率,减少应用程序对象的底层开发量,应用程序对象可以调用移动终端中配置的自适应滤波器,以使该自适应滤波器对第二音频数据进行回声消除处理。可选地,步骤s6012具体可以包括以下步骤:步骤s6012-1,确定所述视联网终端上与所述应用程序对象适配的至少一个应用程序接口,并确定所述至少一个应用程序接口中是否存在目标接口。实际中,基于不同的底层开发软件可以得到不同的自适应滤波器,不同的自适应滤波器进行回声消除处理的效率和质量也可以不同,且不同的自适应滤波器对应不同的应用程序接口。本申请实施例中,可以将上述不同的自适应滤波器各自对应的应用程序接口与应用程序对象建立调用关系,确定所述视联网终端上与所述应用程序对象适配的应用程序接口,即是可以确定在所述视联网终端上与应用程序对象具有调用关系的至少一个应用程序接口。这样,应用程序对象在对第二音频数据进行回声消除处理时,可以通过调用与自己建立调用关系的应用程序接口,便可以成功调用移动终端配置的自适应滤波器,相比于借助第三方的回声抑制工具的情况,简化了调用过程,提高了效率。其中,目标接口可以预先设定,具体地,每个应用程序接口都具有各自的标识,实际中,确定所述至少一个应用程序接口中是否存在目标接口,可以是在所述至少一个应用程序接口中,确定是否存在应用程序接口的标识与目标接口的标识相一致的应用程序接口。在一种可选示例中,由于不同的自适应滤波器进行回声消除处理的效率和质量不同,则实际中所述至少一个应用程序接口都可以具有各自的优先级,优先级越高,应用程序接口所对应的自适应滤波器的器进行回声消除处理的效率和质量越好。则在本申请实施例中,目标接口可以是指优先级高于预设优先级的应用程序接口,即可以在至少一个应用程序接口确定是否存在优先级高于预设优先级的目标接口具体实施时,以移动终端为安卓手机为例,该目标接口可以是aec(acousticechocanceler,声回波抵消器)接口。由于aec可以非常快速的开发出回声消除程序,因此,基于该aec所开发出的自适应滤波器可以快速地对音频数据进行回声消除,回声消除的质量较好,因而可以提高本申请的音频通话质量。其中,在确定存在所述目标接口时,则转步骤s6012-2,在确定不存在所述目标接口时,则转步骤s6012-3。步骤s6012-2,通过所述目标接口调用与所述目标接口对应的自适应滤波器。实际中,在所述至少一个应用程序接口中存在所述目标接口时,则可以通过该目标接口调用该接口对应的自适应滤波器。例如,存在aec接口,则通过该aec接口调用该aec接口对应的自适应滤波器。步骤s6012-3,通过预设的应用程序接口调用与所述预设的应用程序接口对应的自适应滤波器。本实施例中,预设的应用程序接口可以是指在所述至少一个应用程序接口中的一个备用的应用程序接口,实际中,可以预先在于所述应用程序对象建立调用关系的各个应用程序接口中,指定其中一个应用程序接口为备用的应用程序接口,在确定所述至少一个应用程序中不存在目标接口时,随即该应用程序对象可以调用该备用的应用程序接口。如,以移动终端为安卓手机为例、目标接口为aec接口为例,实际中,该aec接口不一定与移动终端的机型适用,此种情况下,则可以将speex(回声消除算法)接口作为预设的应用程序接口,则可以通过该speex接口调用自适应滤波器。由于speex可以与移动终端的各个机型适用,适配范围广,因此,可以speex接口可以作为备用应用程序接口。相应地,在一种可选示例中,由于每个应用程序接口可以具有各自的优先级,则该预设的应用程序接口的优先级与预设优先级相邻的下一优先级的级别相同。在成功调用自适应滤波器后,则可以利用自适应滤波器对第二音频数据进行回声消除处理,具体地,可以利用自适应滤波器分别执行上述步骤s6041和步骤s6042,其中,步骤s6041具体可以包括以下步骤:s60411,将所述第一音频数据输入所述自适应滤波器,得到由所述自适应滤波器输出的输出音频数据。由于在接收到第一音频数据时,对第一音频数据进行了缓存,则可以从缓存中提取该第一音频数据,将该第一音频数据输入至自适应滤波器,经自适应滤波器的处理后,便得到输出音频数据。具体地,以aec接口对应的自适应滤波器为例,假设第一音频数据为x(n),将x(n)输入该自适应滤波器,自适应滤波器对输入信号序列x(n)的每一个样值,按特定的算法,更新、调整加权系数,使输出信号序列y(n)与期望输出信号序列d(n)相比较的均方误差为最小,即输出信号序列y(n)逼近期望信号序列d(n),y(n)越逼近d(n),则代表y(n)与x(n)越一致。其中,输出信号序列y(n)即为输出音频数据,以最小均方误差为准则设计的自适应滤波器的系数可以由维纳-霍甫夫方程解得。s60412,在所述第二音频数据中,确定与所述输出音频数据的频率相同的第三音频数据。其中,应用程序对象可以利用自适应滤波器在所述第二音频数据中,确定与所述输出音频数据的频率相同的第三音频数据。由于输出音频数据与x(n)相一致,则第三音频数据与输出音频数据的频率相同时,则可以表示该第三音频数据是与第一音频数据相关的音频数据。相应地,步骤s6042具体可以为以下步骤:步骤s6043,通过所述自适应滤波器,将所述第三音频数据从所述第二音频数据中滤除,得到滤除所述第三音频数据的目标音频数据。实际中,在确定出第三音频数据时,也可以利用自适应滤波器将所述第三音频数据从所述第二音频数据中滤除。需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。参考图7,示出了本申请实施例的一种基于视联网的音频处理装置的结构框图,在所述视联网中部署有视联网终端,所述视联网终端与流媒体服务器通信连接,所述流媒体服务器与移动终端通信连接,所述移动终端上配置有音频播放组件,所述装置应用于所述移动终端中设置的应用程序对象,所述装置具体地可以为虚拟装置,具体可以包括以下模块:音频模式触发模块701,用于在检测到预设的音频通话业务被开启时,触发所述移动终端上预设的音频数据采集模式;音频数据接收并播放模块702,用于接收所述流媒体服务器发送的第一音频数据,调用所述音频播放组件,对所述第一音频数据进行播放;所述第一音频数据由所述视联网终端发送给所述流媒体服务器;音频数据采集模块703,用于获取由所述移动终端在所述音频数据采集模式下采集的第二音频数据;音频数据处理模块704,用于根据所述第一音频数据及所述第二音频数据,对所述第二音频数据进行回声消除处理,得到回声消除处理后的目标音频数据;音频数据发送模块705,用于将所述目标音频数据发送给所述流媒体服务器,所述流媒体服务器用于将所述目标音频数据发送给所述视联网终端。可选地,在所述移动终端上配置有第一麦克风及第二麦克风,所述音频模式触发模块,具体可以用于调用所述第一麦克风及所述第二麦克风;所述音频数据采集模块,具体可以包括以下单元:麦克风音频数据获取单元,用于获取由所述第一麦克风采集的第一麦克风音频数据,以及由所述第二麦克风采集的第二麦克风音频数据;降噪处理单元,用于根据所述第一麦克风音频数据及所述第二麦克风音频数据,对所述第二麦克风音频数据进行降噪处理,得到第二音频数据。可选地,所述音频数据处理模块,具体可以包括以下单元:音频数据查找单元,用于在所述第二音频数据中,确定与所述第一音频数据对应的第三音频数据;音频数据滤除单元,用于将所述第三音频数据从所述第二音频数据中滤除,得到滤除所述第三音频数据的目标音频数据。可选地,所述装置还具体可以包括以下模块:调用模块,用于调用所述移动终端中设置的自适应滤波器;所述音频数据查找单元,具体可以包括以下单元:音频数据输入单元,用于将所述第一音频数据输入所述自适应滤波器,得到由所述自适应滤波器输出的输出音频数据;音频数据确定单元,用于在所述第二音频数据中,确定与所述输出音频数据的频率相同的第三音频数据。可选地,所述调用模块,具体可以包括以下单元:目标接口确定单元,用于确定所述视联网终端上与所述应用程序对象适配的至少一个应用程序接口,并确定所述至少一个应用程序接口中是否存在目标接口;第一调用单元,用于在所述至少一个应用程序接口中存在所述目标接口时,通过所述目标接口调用所述自适应滤波器;第二调用单元,用于在所述至少一个应用程序接口中不存在所述目标接口时,通过预设的应用程序接口调用所述自适应滤波器。:对于基于视联网的音频处理装置实施例而言,由于其与基于视联网的音频处理方法实施例基本相似,所以描述的比较简单,相关之处参见基于视联网的音频处理方法实施例的部分说明即可。本申请实施例还提供了一种电子设备,包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述设备执行如本申请实施例所述的一个或多个的基于视联网的音频处理方法。本申请实施例还提供了一种计算机可读存储介质,其存储的计算机程序使得处理器执行如本申请实施例所述的基于视联网的音频处理方法。本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。以上对本申请所提供的一种基于视联网的音频处理方法、装置、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1