音视频转换方法及装置与流程

文档序号:12890294阅读:159来源:国知局
音视频转换方法及装置与流程
本发明涉及通信领域,具体而言,涉及一种音视频转换方法及装置。
背景技术
:随着视频会议技术的迅猛发展,网络上的多媒体应用越来越丰富,人们对多媒体业务也产生了更高的要求,其中,不仅要求系统支持的媒体类型丰富,还要求保证进行多媒体通话时的qos(qualityofservice,服务质量)、fec(forwarderrorcorrection,向前纠错)和ip升降速。但是,虽然ip网络尽力而为,但由于udp(userdatagramprotocol,用户数据报协议)的不可靠性,往往导致视频或者音频质量下降,这已成为人们享受高质量视频和音频的障碍。为了解决在召开视频会议时,由于网络堵塞、延时或者抖动引起的视频质量较差、用户体验降低的问题,目前的主要方法是启动fec补偿和ip升降速,以适应各种网络的丢包和异常。但是,该方法通常是手动完成,便捷性较差;并且,该方法不能立即解码,引入了延时,造成了带宽增加,执行效率较低。因此,现有启动fec补偿和ip升降速的方法并不能有效保障视频会议中的用户体验。针对相关技术中,由于网络堵塞、延时或者抖动引起的视频质量较差、用户体验降低的问题,目前尚未提出有效的解决方案。技术实现要素:本发明实施例提供了一种音视频转换方法及装置,以至少解决相关技术中由于网络堵塞、延时或者抖动引起的视频质量较差、用户体验降低的问题。根据本发明的一个实施例,提供了一种音视频转换方法,包括: 在第一预设时间段内检测视频的视频质量;判断视频质量是否始终低于预设视频质量阈值;在判断结果为是的情况下,将视频转换为音频。可选地,将视频转换为音频包括:检测视频的图像质量;判断图像质量是否低于预设图像质量阈值;在图像质量低于预设图像质量阈值的情况下,将视频转换为音频。可选地,判断视频质量是否始终低于预设视频质量阈值包括:判断视频的视频丢包率是否始终不低于预设视频丢包率阈值;在判断结果为视频的视频丢包率始终不低于预设视频丢包率阈值的情况下,确定视频质量始终低于预设视频质量阈值。可选地,在判断视频的视频丢包率是否始终不低于预设视频丢包率阈值之前,通过以下方式确定预设视频丢包率阈值:建立丢包率与用于表征视频质量的峰值信噪比psnr之间的映射关系;根据映射关系,确定预设psnr阈值对应的预设视频丢包率阈值。可选地,通过以下方式确定视频丢包率:获取视频的实时传输控制协议rtcp数据包中携带的第一信息,其中,第一信息包括视频的输入报文和输出报文的信息;根据视频的输入报文和输出报文计算视频丢包率。可选地,在将视频转换为音频之后,还包括:在第二预设时间段内检测音频的音频质量;判断音频质量是否始终不低于预设音频质量阈值;在判断结果为音频质量始终不低于预设音频质量阈值的情况下,将音频转换为视频。可选地,判断音频质量是否始终不低于预设音频质量阈值包括:判断音频的音频丢包率是否始终低于预设音频丢包率阈值;在判断结果为音频的音频丢包率始终低于预设音频丢包率阈值的情况下,确定音频质量始终不低于预设音频质量阈值。可选地,通过以下方式确定音频丢包率:获取音频的实时传输控制协议rtcp数据包中的第二信息,其中,第二信息包括音频的输入报文和输出报文的信息;根据音频的输入报文和输出报文计算音频丢 包率。根据本发明的另一个实施例,提供了一种音视频转换装置,包括:检测模块,用于在第一预设时间段内检测视频的视频质量;判断模块,用于判断视频质量是否始终低于预设视频质量阈值;转换模块,用于在判断结果为是的情况下,将视频转换为音频。可选地,转换模块包括:检测单元,用于检测视频的图像质量;判断单元,用于判断图像质量是否低于预设图像质量阈值;转换单元,用于在图像质量低于预设图像质量阈值的情况下,将视频转换为音频。根据本发明的又一个实施例,还提供了一种存储介质。该存储介质设置为存储用于执行以下步骤的程序代码:在第一预设时间段内检测视频的视频质量;判断视频质量是否始终低于预设视频质量阈值;在判断结果为是的情况下,将视频转换为音频。通过本发明,由于持续检测一段时间之内的视频质量是否始终低于预设视频质量阈值,并在视频质量始终低于预设视频质量阈值的情况下,执行视频到音频的切换,解决了相关技术中由于网络堵塞、延时或者抖动引起的视频质量较差、用户体验降低的问题。本发明在不启动fec编解码和ip升降速的前提下,实现了音视频切换,有效改善了视频会议通话中的用户体验。附图说明此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:图1是根据本发明实施例的音视频转换方法的流程图;图2是根据本发明实施例的一种可选的视频转换为音频的方法的流程图;图3是根据本发明实施例的一种可选的音频转换为视频的方法的流程图;图4是根据本发明实施例的音视频转换装置的结构框图;图5是根据本发明实施例的一种可选的音视频转换装置的示意图;图6是根据本发明实施例的一种可选的网络信息反馈模块的示意图。具体实施方式下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。在本实施例中提供了一种音视频转换方法,图1是根据本发明实施例的音视频转换方法的流程图,如图1所示,该流程包括如下步骤:步骤s102,在第一预设时间段内检测视频的视频质量;步骤s104,判断视频质量是否始终低于预设视频质量阈值;步骤s106,在判断结果为是的情况下,将视频转换为音频。可选地,上述步骤的执行主体可以为处理器,特别是应用于视频会议中的处理器,但不限于此。可选地,根据该实施例的音视频转换方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。可选地,步骤s102可以包括:在预设时间段内,每间隔预设时间检测一次视频质量。例如,预设时间段为从视频会议的当前时间t0直至延续10秒,在这10秒时间之内,每间隔1秒检测一次视频会议的视频质量。可选地,步骤s104可以包括:在该时间段内,判断每次检测到 的视频质量是否均低于预设视频质量阈值。例如,时间点t0、t0+1、t0+2……t0+9,每个时间点检测到的视频质量均低于预设视频质量阈值。需要说明的是,上述的预设视频质量阈值可以是用户的经验值或者可以是根据用户需求设置的。上述的视频质量可以通过表征视频质量的其他参量获取。例如,可以通过峰值信噪比psnr(peaksignaltonoiseratio)、图像相似度指标ssim(structuralsimilarityindexmeasurement)、信噪比snr(signalnoiseratio)、时延、抖动、丢包率及其结合进行表征,但不限于此。本发明实施例,通过持续检测一段时间之内的视频质量是否始终低于预设视频质量阈值,并在视频质量始终低于预设视频质量阈值的情况下,执行视频到音频的切换,解决了相关技术中由于网络堵塞、延时或者抖动引起的视频质量较差、用户体验降低的问题。本发明在不启动fec编解码和ip升降速的前提下,实现了音视频切换,有效改善了视频会议通话中的用户体验。可选地,将视频转换为音频包括:检测视频的图像质量;判断图像质量是否低于预设图像质量阈值;在图像质量低于预设图像质量阈值的情况下,将视频转换为音频。考虑到视频会议中传输的视频流是实时的,不易获取原始视频,因此该实施例中,可优先采用无参考帧客观质量评测方法获取视频的图像质量。其中,图像的清晰度算法可选择基于canny算子边缘检测算法,该算法是最优的阶梯型边缘检测算法,它具有能滤去噪声又保持边缘特性的边缘检测最优滤波器,其采用一阶微分滤波器。具体地,其采用二维高斯函数的任意方向上的一阶方向导数为噪声滤波器,通过与图像卷积进行滤波,然后对滤波后的图像寻找图像梯度的局部最大值,以此来确定图像边缘;根据对信噪比与定位乘积进行测度,得到最优化逼近算子;清晰度分值在0~100区间内;对一幅图像提取轮廓,对其进行高斯滤波后再计算轮廓,两次的轮廓像素差值可以表征 图像清晰度。可选地,可设定适当的上下阈值,当低于下阈值,或者高于上阈值,清晰度得分都为0,当在上下阈值之间,清晰度得分在0~100之间。在该实施例中,使用canny算子边缘检测算法预测图像质量,准确性更好,在检测得到的视频的清晰度得分值比较低的情况下,可执行视频会议到音频会议的转换,使得视频到音频的切换更具准确性和有效性。可选地,判断视频质量是否始终低于预设视频质量阈值包括:判断视频的视频丢包率是否始终不低于预设视频丢包率阈值;在判断结果为视频的视频丢包率始终不低于预设视频丢包率阈值的情况下,确定视频质量始终低于预设视频质量阈值。丢包率(losstolerance或packetlossrate)是指丢失数据包数量占所发送数据的比率。通常来说,丢包率的计算方法为:[(输入报文-输出报文)/输入报文]*100%。丢包率与数据包长度以及包发送频率相关。可以通过rtcp报文获得相应信息(输入报文和输出报文)。一般网络堵塞、带宽不足、延时或者抖动会引起网络丢包。例如,提取视频会议通话相关的网络指标信息,根据该网络指标信息计算当前的视频丢包率;当前丢包率如果大于丢包率阈值1.5%,则记录当前时间点t0时刻的丢包率值,否则检测丢包率;从t0开始,连续t(可以估算10秒)时间内的丢包情况统计,如果丢包率一直大于1.5%,则执行视频到音频的转换。另外,在判断出丢包率一直大于1.5%的情况下,在执行视频到音频的转换之前,还可以对图像进行检测,如果图像的清晰度较差,则确定执行视频到音频的转换。该实施例通过丢包率来表征视频质量,由于丢包率的获取不会占用太多的系统资源,因此,该方法更加有助于节省系统资源。可选地,在判断视频的视频丢包率是否始终不低于预设视频丢包率阈值之前,通过以下方式确定预设视频丢包率阈值:建立丢包率与用于表征视频质量的峰值信噪比psnr之间的映射关系;根据映射关 系,确定预设psnr阈值对应的预设视频丢包率阈值。在该实施例中,通过研究发现,视频质量变差实际上是由于时延抖动严重而导致的数据包延迟而被丢弃,造成媒体丢包率增加,从而导致视屏质量下降。在该实施例中,通过建立丢包率和视频质量等级的映射关系,可以获知丢包率对视频质量的影响规律,进而可以获知当视频质量恶化到一定程度时(不足以支持视频通话),对应的丢包率为多大。可选地,可以通过ssim、snr和psnr算法等对视频的图像质量进行评价。优选地,可使用psnr来进行视频的图像质量评测(作为视频质量)。表1提供了一种可选的psnr值和mos(meanopinionscore,平均意见值)的对应关系,其中,mos为衡量通信系统音视频质量的指标,具体如表1所示。表1psnrmos>375(excellent)31~374(good)25~313(fair)20~252(poor)<201(bad)从表1可见,psnr和视频质量等级之间同样存在一定的映射关系。例如,设定mos等级达到2以上认为视频质量较好,则对应的预设视频质量阈值为3。按照表1所述的对应关系,则预设psnr阈值为25。在建立了视频丢包率和psnr之间的映射关系、以及确定了预设psnr阈值之后,则可以根据该映射关系获取预设psnr阈值对应的预设视频丢包率阈值。例如,针对h.246或h.264hp格式的视频流,当丢包发生时,视频流的psnr值下降很快,当丢包率达到1.5%左右时,psnr值就 下降到25以下,视频流的质量达到poor等级,因此,可将丢包率的阈值设定为1.5%。该实施例,可以保证在网络状况恶化到不足以支持视频通话的情况下,将视频流转换成音频流进行传输,从而有效改善用户体验。需要说明的是,该实施例通过预先获取丢包率和psnr之间的映射关系,并通过该映射关系获取丢包率阈值,可以有效提升视频质量(或者音频质量)的检测效率。例如,如果采用psnr直接进行视频或者音频的质量预测的话,则每次进行psnr的采集,均会消耗大量的资源,严重影响执行效率。该实施例,采用准确性更高的峰值信噪比psnr表征视频质量,并建立了丢包率和psnr之间的映射关系,获取预设视频丢包率阈值的便捷性更高可选地,通过以下方式确定视频丢包率:获取视频的实时传输控制协议rtcp数据包中携带的第一信息,其中,第一信息包括视频的输入报文和输出报文的信息;根据视频的输入报文和输出报文计算视频丢包率。网络时延和网络抖动严重会导致数据包延迟而被丢弃,造成媒体丢包率增加,从而造成视频图像质量下降。本发明实施例中,可通过收集实时传输控制协议rtcp(real-timetransportcontrolprotocol)包中反馈的相关信息,如输入报文和输出报文等,并根据反馈的信息计算当前网络的标识量-视频丢包率。另外,也可通过rtcp包中反馈的相关信息确定当前网络的时延、抖动、带宽等。抖动和可用带宽可以作为终端信息统计的辅助参数。该实施例占用资源较少,计算效果高。可选地,在将视频转换为音频之后,还包括:在第二预设时间段内检测音频的音频质量;判断音频质量是否始终不低于预设音频质量阈值;在判断结果为音频质量始终不低于预设音频质量阈值的情况下,将音频转换为视频。该实施例,在进行视频转换为音频的处理之后, 在合适的时机还会将音频恢复为视频,使得用户体验更佳。可选地,判断音频质量是否始终不低于预设音频质量阈值包括:判断音频的音频丢包率是否始终低于预设音频丢包率阈值;在判断结果为音频的音频丢包率始终低于预设音频丢包率阈值的情况下,确定音频质量始终不低于预设音频质量阈值。例如,在因网络等原因引起图像质量下降,由视频自动切换成音频之后,可提取音频会议中的相关的网络指标信息,根据该网络指标信息计算当前音频丢包率;前丢包率如果小于丢包阈值1.5%,则记录当前时间点t0时刻的丢包率值,否则继续检测丢包率;从t0开始,对连续t(可以估算10秒)时间内的丢包情况统计,如果丢包率一直小于丢包率阈值,则将音频恢复为视频。该实施例通过丢包率来表征音频质量,由于丢包率的获取不会占用太多的系统资源,因此,该方法更加有助于节省系统资源。可选地,通过以下方式确定音频丢包率:获取音频的实时传输控制协议rtcp数据包中的第二信息,其中,第二信息包括音频的输入报文和输出报文的信息;根据音频的输入报文和输出报文计算音频丢包率。网络时延和网络抖动严重会导致数据包延迟而被丢弃,造成媒体丢包率增加,从而造成视频图像质量下降。本发明实施例中,可通过收集实时传输控制协议rtcp(real-timetransportcontrolprotocol)包中反馈的相关信息,如输入报文和输出报文等,并根据反馈的信息计算当前网络的标识量-音频丢包率。另外,也可以通过rtcp包中反馈的相关信息确定当前网络的时延、抖动、带宽等。该实施例占用资源较少,计算效果高。下面根据本发明的实施例,提供了一种可选的视频转换为音频的方法,如图2所示,该方法包括:步骤s202,计算视频的当前丢包率。该丢包率等同于上述的视频丢包率。步骤s204,判断当前的丢包率是否大于丢包率阈值1.5%;在判断结果为是的情况下,执行步骤s206;在判断结果为否的情况下,执行步骤s202。该丢包率阈值1.5%可以作为上述预设视频丢包率阈值的一种可选实施方式。步骤s206,记录当前时间点t0。步骤s208,检测t0至t时间内的持续丢包情况;t大于t0;t、t0均为正数。其中,从t0至t时间相当于上述的第一预设时间段。步骤s210,在检测到丢包率持续大于1.5%的情况下,利用canny算子边缘检测算法预测图像质量。步骤s212,判断图像质量是否达到需要进行视频切换为音频的预设图像质量阈值;如果判断结果为是,则执行步骤s214;如果判断结果为否,则执行步骤s204。步骤s214,将视频切换为音频。该实施例提出了一种基于视频会议中图像质量预测的适变策略,该方法在不启动fec补偿和ip升降速的情况下,实现了网络服务质量反馈机制、丢包率预测和图像质量检测,可以实时根据丢包率检测网络视频图像质量,通过预测图像质量来作出适变策略以改善用户体验,可有效解决利用ip网络等进行视频通讯时因网络状况变化而造成的用户体验差的问题。下面根据本发明的实施例,提供了一种可选的音频转换为视频的方法,如图3所示,该方法包括:步骤s302,计算音频的当前丢包率。该丢包率等同于上述的音频丢包率。步骤s304,判断该丢包率是否大于丢包率阈值1.5%;在判断结果为是的情况下,执行步骤s306;在判断结果为否的情况下,执行 步骤s302。该丢包率阈值1.5%可以作为上述的预设音频丢包率阈值的一种可选的实施方式。步骤s306,记录当前时间点t1。步骤s308,检测t1至t1时间内的持续丢包情况。该t1至t1时间相当于上述的第二预设时间段。需要说明的是,t1至t1时间和上述的t至t时间可以是相同的时间段。该丢包率阈值和图2中的丢包率阈值可以均为1.5%,也可以设置为不同的值。步骤s310,在检测到丢包率持续低于1.5%的情况下,将音频恢复为视频。对于恢复后的视频,还可按照步骤s302继续计算视频的丢包率,以在合适的时机进行视频到音频的切换。上述图2和图3所述的实施例,充分考虑到相关技术中启动fec丢包补偿或ip升降速等方式的一系列的缺陷(占用资源,效率低等),并结合发现的网络拥塞导致丢包发生的现象,提出将丢包率作为表征视频或者音频质量的一个参数,通过检测一段时间内的丢包率是否达到预设阈值,来确定是否进行音视频的转换,以及是否将音频恢复为视频,实现了在不影响音视频质量的前提下,根据网络状况选择合适的时机来执行音视频切换策略,降低了fec丢包补偿或ip升降速的使用频率,有效保证了视频会议等通话顺畅。针对网络状况变化对多媒体通话用户体验造成的影响给出了完整的解决方案,首先确定视频传输中最低容忍的丢包率阈值,然后根据网络信息反馈模块来预测网络中的丢包率,以及预测图像质量,最后通过特定的音视频切换方法,实现对不同网络状况下音视频传输的适变策略作出选择。该实施例提出的多媒体适变方法能够随网络状况进行适变,根据网络中丢包率情况确定最适合用户进行多媒体通话的媒介(音频或者视频),该方法对改善多媒体通话的用户体验具有重要意义。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。在本实施例中还提供了一种音视频转换装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。图4是根据本发明实施例的音视频转换装置的结构框图,如图4所示,该装置包括:检测模块40,用于在第一预设时间段内检测视频的视频质量;判断模块42,用于判断视频质量是否始终低于预设视频质量阈值;转换模块44,用于在判断结果为是的情况下,将视频转换为音频。本发明实施例,通过检测模块40持续检测一段时间之内的视频质量是否始终低于预设视频质量阈值,并在判断模块42判断出视频质量始终低于预设视频质量阈值的情况下,利用转换模块44执行视频到音频的切换,解决了相关技术中由于网络堵塞、延时或者抖动引起的视频质量较差、用户体验降低的问题。本发明在不启动fec编解码和ip升降速的前提下,实现了音视频切换,有效改善了视频会议通话中的用户体验。可选地,转换模块44包括:检测单元,用于检测视频的图像质 量;判断单元,用于判断图像质量是否低于预设图像质量阈值;转换单元,用于在图像质量低于预设图像质量阈值的情况下,将视频转换为音频。下面根据本发明的实施例,提供了一种可选的音视频转换装置,如图5所示,该装置包括:vcsp模块,可作为一个平台化的业务管理中心,负责协议、媒体处理、通讯等。该模块将视频流封装成rtp(real-timetransportprotocol,实时传输协议)包、udp(userdatagramprotocol,用户数据报协议)包和ip包,然后将封装好的ip数据包通过internet传送到接收端;接收端收到ip数据包,根据rtp报头中的序号将视频流数据放入dsp编解码模块(编解码器)进行解码。网络信息反馈模块,用于收集rtcp包中反馈的相关信息,并根据反馈的信息计算当前网络标志量(丢包率、时延、抖动、带宽等),如图6所示,其中,测量出的抖动、时延和可用带宽可以作为终端信息统计的辅助参数。上述当前网络标志量可通过vcsp模块上报给音视频切换模块。其中,网络信息反馈模块可以实现上述检测模块40的功能。音视频切换模块,用于根据网络状况预测丢包率,将预测结果上报图像质量检测模块,通过dsp编解码模块硬件加速进行图像质量预测,并根据预测结果作出适变决策;其中,在音频通话中,该音视频切换模块持续跟踪当前的网络状况,预测网络服务质量,根据网络状况选择合适的时机执行音视频切换(包括视频切换为音频,并在其后的合适时机自动恢复成原来的视频会议)。其中,音视频切换模块可以实现判断模块42和转换模块44的功能。该实施例充分利用rtcp数据包实时监控网络服务质量,能够获取预测的网络丢包率和图像质量的对应关系,通过充分利用dsp编解码模块进行全无参考图像质量运算并进行预测,为适变策略提供可 靠的参数指标。该实施例通过适变策略,在不启动fec编解码和ip升降速的前提下实现了音视频之间的切换,从而有效保证了视频会议通话时的通话顺畅。需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:s1,在第一预设时间段内检测视频的视频质量;s2,判断视频质量是否始终低于预设视频质量阈值;s3,在判断结果为是的情况下,将视频转换为音频。可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本 发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1