一种音视频同步的方法及终端与流程

文档序号：15625579发布日期：2018-10-09 22:53阅读：199来源：国知局

本发明涉及通讯技术领域，特别是涉及一种音视频同步的方法及终端。

背景技术：

音视频是分离的媒体源，存在音视频同步问题。该同步问题属于融合通信一个关键技术。同步是多媒体通信的主要特征，也是其重要研究内容之一，同步与否直接影响多媒体通信的质量。媒体间同步即是要保持音频流和视频流之间的时间关系。为了描述同步，实现相关的控制机制，定义了相应的服务质量(qos)参数。针对音视频，采用时间差即偏差来表示。结果表明，如果偏差限制在一定的范围内，认为媒体是同步的。当偏移在-90ms(音频滞后于视频)到+20ms(音频超前视频)之间时，人感觉不到试听质量的变化，这个区域可以认为是同步区域；当偏移在-185到+90之外时，音频和视频会出现严重的不同步现象，此区域认为是不同步区域。

音视频媒体间同步是多媒体系统服务质量研究中的一项重要内容。在网络上传输多媒体数据时，由于终端对数据的处理方式，以及网络中的延时、抖动，会引起音视频流的不同步。

技术实现要素：

本发明要解决的技术问题是提供一种音视频同步的方法及终端，以解决音视频同步问题。

一种音视频同步的方法，包括：

终端在发起视频呼叫后，确定所述终端的音频功能模块和应用软件无法基于网络时间协议进行同步或者呼叫接收终端为音视频分离；

所述终端的音频功能模块向所述呼叫接收终端发送音频流；

所述终端的应用软件向所述呼叫接收终端发送校准音频流和所述校准音频流的时间戳并发送视频流和所述视频流的时间戳。

可选地，所述终端的应用软件发送的校准音频流为按第一时间间隔采样的音频流。

可选地，所述确定所述终端的音频功能模块和应用软件无法基于网络时间协议进行同步或者呼叫接受终端为音视频分离后，还包括：

所述终端在音频输入通道中按第二时间间隔加入超声波脉冲；

所述终端的音频功能模块发送的音频流包括所述超声波脉冲，所述终端的应用软件发送的校准音频流包括所述超声波脉冲。

可选地，所述终端的应用软件发送校准音频流之前，还包括：

过滤所述校准音频流中的非脉冲部分。

可选地，所述校准音频流的时间戳和所述视频流的时间戳为所述终端本地的时间戳或者为指定网络时间协议服务器的时间戳。

一种终端，包括：

确定模块，用于在发起视频呼叫后，确定所述终端的音频功能模块和应用软件无法基于网络时间协议进行同步或者呼叫接受终端为音视频分离；

所述音频功能模块，用于向所述呼叫接收终端发送音频流；

所述应用软件，用于向所述呼叫接收终端发送校准音频流和所述校准音频流的时间戳，并发送视频流和所述视频流的时间戳。

可选地，所述应用软件，发送的校准音频流为按第一时间间隔采样的音频流。

可选地，加入模块，用于在音频输入通道中按第二时间间隔加入超声波脉冲；

所述终端的音频功能模块发送的音频流包括所述超声波脉冲，所述终端的应用软件发送的校准音频流包括所述超声波脉冲。

可选地，所述终端的应用软件，发送校准音频流之前还包括：过滤所述校准音频流中的非脉冲部分。

一种音视频同步的方法，包括：

终端接受视频呼叫后，接收音频流、校准音频流和所述校准音频流的时间戳、视频流和所述视频流的时间戳；

所述终端通过比较所述音频流和所述校准音频流获得第一时间偏移；根据所述校准音频流的时间戳与所述视频流的时间戳，获得所述视频流相对所述校准音频流的第二时间偏移；

所述终端根据所述第一时间偏移和所述第二时间偏移进行音频流和视频流的同步处理。

可选地，如所述音频流和所述校准音频流中包括超声波脉冲，则所述终端是通过比所述音频流和所述校准音频流中的超声波脉冲来获得所述第一时间偏移的。

一种终端，包括：

接收模块，用于接受视频呼叫后，接收音频流、校准音频流和所述校准音频流的时间戳、视频流和所述视频流的时间戳；

获取模块，用于通过比较所述音频流和所述校准音频流获得第一时间偏移；根据所述校准音频流的时间戳与所述视频流的时间戳，获得所述视频流相对所述校准音频流的第二时间偏移；

同步模块，用于根据所述第一时间偏移和所述第二时间偏移进行音频流和视频流的同步处理。

可选地，所述获取模块，如所述音频流和所述校准音频流中包括超声波脉冲，则通过比所述音频流和所述校准音频流中的超声波脉冲来获得所述第一时间偏移。

通过本发明实施例的方法，可以实现音视频源分离的音视频通话过程中的音视频同步问题，解决很部分强势终端厂家不开放视频能力的限制，同时也极大程度提高用户volte和ims的使用体验。

附图说明

图1为本发明实施例的主叫侧的一种音视频同步的方法的流程图；

图2为本发明实施例的被叫侧的一种音视频同步的方法的流程图；

图3为本发明实施例的基于ntp的时间同步的流程图；

图4为本发明实施例三的使用校准流的时间同步的流程图；

图5为本发明实施例四的使用校准流的时间同步流程图；

图6为本发明实施例五的校准流间隔采样流程图；

图7为本发明实施例六的校准流使用超声波脉冲校准同步的流程图；

图8为本发明实施例七的校准流过滤非脉冲部分的流程图；

图9为本发明实施例八的终端的示意图；

图10为本发明实施例九的终端的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

实施例一

图1为本发明实施例的主叫侧的一种音视频同步的方法的流程图，如图1所示，本实施例的方法包括以下步骤：

步骤11、终端在发起视频呼叫后，确定所述终端的音频功能模块和应用软件无法基于ntp(networktimeprotocol，网络时间协议)进行同步或者呼叫接受终端为音视频分离；

步骤12、终端的音频功能模块向所述呼叫接收终端发送音频流；

步骤13、终端的应用软件向所述呼叫接收终端发送校准音频流和所述校准音频流的时间戳，并发送视频流和所述视频流的时间戳。

本发明实施例考察音视频源一侧的用户，该用户在呼叫过程中，可以是主叫，也可以是被叫。该用户的终端音视频源分离：音频由终端的volte(基于ims(ipmultimediasubsystem，ip多媒体子系统)的语音业务)功能发送；因为这类终端中的volte功能不支持视频，所以视频源由app提供。app与volte功能在终端侧属于两个独立的软件程序，所以对应分离的媒体源。

当然，音频部分也可以是传统电路语音(cs)，典型的如gsm(globalsystemformobilecommunication，全球移动通信系统)，不局限于volte。

当接收方为音视频合一时，使用基于ntp的时间戳同步机制。

当接受方也为音视频分离时，则由app创造性的引入一个校准音频流，并提出全新的音视频校准方法。

可选地，所述终端的应用软件发送的校准音频流为按第一时间间隔采样的音频流，以优化校准流的码率。

可选地，为了优化校准流与正常音频流的对比性能消耗，在音频输入通道中按第二时间间隔加入超声波脉冲。

本发明实施例的方法可以解决上述音视频同步问题，使得即使是使用独立的音频源与视频源，也可以做到很好的音视频同步。

图2为本发明实施例的被叫侧的一种音视频同步的方法的流程图，如图2所示，本实施例的方法包括：

步骤21、终端接受视频呼叫后，接收音频流、校准音频流和所述校准音频流的时间戳、视频流和所述视频流的时间戳；

步骤22、终端通过比较所述音频流和所述校准音频流获得第一时间偏移；根据所述校准音频流的时间戳与所述视频流的时间戳，获得所述视频流相对所述校准音频流的第二时间偏移；

步骤23、终端根据所述第一时间偏移和所述第二时间偏移进行音频流和视频流的同步处理。

在一优先实施例中，如所述音频流和所述校准音频流中包括超声波脉冲，则所述终端是通过比所述音频流和所述校准音频流中的超声波脉冲来获得所述第一时间偏移的。

通过本发明实施例提出的方法，可以实现音视频源分离的音视频通话过程中的音视频同步问题，解决很大部分强势终端厂家不开放视频能力的限制，同时也极大程度提高用户volte和ims的使用体验。

实施例二

图3为本发明实施例提出的基于ntp的时间同步的流程图，如图3所示，包括以下步骤：

步骤101、app从ims收到指示，表示远端终端(媒体流接受方)为音视频合一，典型的如支持音视频的volte终端；

步骤102、音频源一侧volte功能模块向ntp服务器发送请求ntp时间的请求；

步骤103、volte功能模块收到ntp服务器返回ntp时间的响应，并按此时间校准自身的时间；

步骤104、音频源一侧app向ntp服务器发送请求ntp时间的请求；

步骤105、app收到ntp服务器返回ntp时间的响应，并按此时间校准自身的时间；

步骤106、volte功能模块发送音频流，并根据ntp校准后的时间，加上时间戳；

步骤107、app发送视频流，并根据ntp校准后的时间，加上时间戳；

步骤108、接受方根据音视频流的ntp时间戳进行同步播放。

一般将音频流作为主流，视频流作为从流，根据视频流的时间戳与音频流的时间戳的偏移进行视频流的同步播放。

实施例三

图4本发明实施例提出的使用校准流的时间同步的流程图，本实施例中，远端终端(媒体流接受方)为音视频分离，即远端终端没有一个统一的软件程序将音视频按照时间戳同步，则app需要引入一个新的音频流作为视频流的校准流，来辅助视频流的同步。如图4所示，包括以下步骤：

步骤201、app从ims收到指示，表示远端终端(媒体流接受方)为音视频分离；

步骤202、volte功能模块发送音频流；

步骤203、app发送校准音频流+时间戳(可以是app本地的时间戳，也可以是基于某个ntp服务器)；

步骤204、接收方的app，从输出通道中获取volte功能模块将要播放的音频流，并与校准音频流进行比较(比较波形)，获得两个音频流的时间偏移t1；

步骤205、app发送视频流+时间戳(可以是app本地的时间戳，也可以是基于某个ntp服务器)；

步骤206、接收方的app根据校准音频流与视频流的时间戳，获得视频流相对校准音频流的时间偏移t2；视频流的时间同步偏移则为t1+t2，app按此偏移播放视频流。从接受方用户的角度，可以获得volte音频流与app视频流，两者同步播放的用户体验。

实施例四

图5为本发明实施例的使用校准流的时间同步流程图，本实施例中，ims未给指示(ims为非融合通信增强型)，而app无法获得与volte功能一致的ntp时间，表示不论远端终端(媒体流接受方)是否为音视频分离，都无法基于ntp进行同步，此时app也需要启用校准音频流。如图5所示，包括以下步骤：

步骤301、app无法获得与volte功能模块一致的ntp时间；

步骤302、volte功能模块发送音频流；

步骤303、app发送校准音频流+时间戳(可以是app本地的时间戳，也可以是基于某个ntp服务器)；

步骤304、接收方的app从输出通道中获取volte功能模块将要播放的音频流，并与校准音频流进行比较(比较波形)，获得两个音频流的时间偏移t1；

步骤305、app发送视频流+时间戳(可以是app本地的时间戳，也可以是基于某个ntp服务器)；

步骤306、app根据校准音频流与视频流的时间戳，获得视频流相对校准音频流的时间偏移t2；视频流的时间同步偏移则为t1+t2，app按此偏移播放视频流。从接受方用户的角度，可以获得volte音频流与app视频流，两者同步播放的用户体验。

实施例五

图6为本发明实施例提出的校准流间隔采样流程图，如图6所示，本实施例的方法包括以下步骤：

步骤401、app从ims收到指示，表示远端终端(媒体流接受方)为音视频分离；

步骤402、volte功能模块发送音频流；

步骤403、app按时间间隔采样音频流，可以减小校准音频流的码率；

步骤404、app发送校准音频流+时间戳(可以是app本地的时间戳，也可以是基于某个ntp服务器)；

步骤405、接收方的app，从输出通道中获取volte功能模块将要播放的音频流，并与校准音频流进行比较(比较波形)，获得两个音频流的时间偏移t1；

步骤406、app发送视频流+时间戳(可以是app本地的时间戳，也可以是基于某个ntp服务器)；

步骤407、接收方的app根据校准音频流与视频流的时间戳，获得视频流相对校准音频流的时间偏移t2；视频流的时间同步偏移则为t1+t2，app按此偏移播放视频流。从接受方用户的角度，可以获得volte音频流与app视频流，两者同步播放的用户体验。

实施例六

图7为本发明实施例提出的校准流使用超声波脉冲校准同步的流程图。

对于目前主流的终端操作系统，都向app开放了获取和修改音频输入通道的机制，所以app可以在音频输入通道中加入超声波脉冲，以此作为校准的波形特征，可以优化校准流与正常音频流的对比性能消耗。

对于无法修改输入通道的情况，可以控制音频输出通道增加超声波脉冲，并由麦克风采集回来，达到相同的目的。

具体实施过程如图7所示，包括以下步骤：

步骤501、app从ims收到指示，远端终端(媒体流接受方)为音视频分离；

步骤502、在音频输入通道中按时间间隔加入超声波脉冲；

步骤503、volte功能模块发送音频流；

步骤504、app发送校准音频流+时间戳(可以是app本地的时间戳，也可以是基于某个ntp服务器)；

步骤505、接收方的app，从输出通道中获取volte功能模块将要播放的音频流，并与校准音频流进行比较(比较超声波脉冲)，获得两个音频流的时间偏移t1；

步骤506、app发送视频流+时间戳(可以是app本地的时间戳，也可以是基于某个ntp服务器)；

步骤507、接收方的app根据校准音频流与视频流的时间戳，获得视频流相对校准音频流的时间偏移t2；视频流的时间同步偏移则为t1+t2，app按此偏移播放视频流。从接受方用户的角度，可以获得volte音频流与app视频流，两者同步播放的用户体验。

实施例七

图8为本发明实施例提出的校准流过滤非脉冲部分的流程图，如图8所示，本实施例的方法包括以下步骤：

步骤601、终端的app从ims收到指示，表示远端终端(媒体流接受方)为音视频分离；

步骤602、在音频输入通道中按时间间隔加入超声波脉冲；

步骤603、volte功能模块发送音频流；

步骤604、app在发送校准音频流之前，将其中的非脉冲部分过滤，减少码率；

步骤605、app发送校准音频流+时间戳(可以是app本地的时间戳，也可以是基于某个ntp服务器)；

步骤606、接收方的app，从输出通道中获取volte功能模块将要播放的音频流，并与校准音频流进行比较(比较超声波脉冲)，获得两个音频流的时间偏移t1；

步骤607、app发送视频流+时间戳(可以是app本地的时间戳，也可以是基于某个ntp服务器)；

步骤608、接收方的app根据校准音频流与视频流的时间戳，获得视频流相对校准音频流的时间偏移t2；视频流的时间同步偏移则为t1+t2，app按此偏移播放视频流。从接受方用户的角度，可以获得volte音频流与app视频流，两者同步播放的用户体验。

本发明实施例还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述音视频同步的方法。

实施例八

图9为本发明实施例的终端的示意图，如图9所示，本实施例的终端包括：

确定模块，用于在发起视频呼叫后，确定所述终端的音频功能模块和应用软件无法基于网络时间协议进行同步或者呼叫接受终端为音视频分离；

所述音频功能模块，用于向所述呼叫接收终端发送音频流；

所述应用软件，用于向所述呼叫接收终端发送校准音频流和所述校准音频流的时间戳，发送视频流和所述视频流的时间戳。

可选地，所述应用软件，发送的校准音频流为按第一时间间隔采样的音频流。

可选地，本实施例的终端还可以包括：

加入模块，用于在音频输入通道中按第二时间间隔加入超声波脉冲；

所述终端的音频功能模块发送的音频流包括所述超声波脉冲，所述终端的应用软件发送的校准音频流包括所述超声波脉冲。

可选地，所述终端的应用软件，发送校准音频流之前还包括：过滤所述校准音频流中的非脉冲部分。

实施例九

图10为本发明实施例的终端的示意图，如图10所示，本实施例的终端包括：

接收模块，用于接受视频呼叫后，接收音频流、校准音频流和所述校准音频流的时间戳、视频流和所述视频流的时间戳；

同步模块，用于根据所述第一时间偏移和所述第二时间偏移进行音频流和视频流的同步处理。

在一可选实施例中，所述获取模块，如所述音频流和所述校准音频流中包括超声波脉冲，则通过比所述音频流和所述校准音频流中的超声波脉冲来获得所述第一时间偏移。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

以上仅为本发明的优选实施例，当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高扬
技术所有人：中兴通讯股份有限公司
我是此专利的发明人

上一篇：墨水、印刷装置、印刷方法以及造形物的制造方法与流程
上一篇：一种提高油墨高温耐受性能的方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。