基于公网的带解说音频回传的直播系统及其直播方法

文档序号：7986780阅读：162来源：国知局

基于公网的带解说音频回传的直播系统及其直播方法
【专利摘要】一种基于公网的带解说音频回传的直播系统，C/S结构，包括服务器端及客户端两部分；服务器端与客户端公网连接。服务器端由视频编码器、收发服务器及音视频合成器组成；视频编码器分别与收发服务器及音视频合成器连接，将原始高码率视频SDI信号转换成适用网络传输的低码率IP数据流输出；收发服务器连接视频编码器及音视频合成器，作为服务器端及客户端的通信接口；音视频合成器将原始高码率视频数据与解说回传的音频数据合成后输出。客户端设有音频输入设备及屏幕。本发明使解说员能在有网络的地方解说，根据网络情况自动选择合适的视频码率，达到最佳收看效果；直播延时控制在最小范围内，保证最终输出音视频同步，达到广播级标准。
【专利说明】基于公网的带解说音频回传的直播系统及其直播方法
【技术领域】
[0001]本发明涉及一种直播系统，具体涉及一种基于公网的带解说音频回传的直播系统及其直播方法。
【背景技术】
[0002]随着有线和无线宽带网络技术的高速发展，人们可以通过互联网快速高效地获得视频音频的信息，于是流媒体应运而生，满足了用户在互联网上对高质量多媒体信息的需求。相比于传统的媒体播出应用，流媒体具有更灵活、更多样化应用模式，可以满足不同的用户体验。正因为流媒体技术具备的巨大潜力，它必将广泛的应用于多媒体新闻在线，直播、视频点播、远程教育等网络信息服务。
[0003]以传统的体育赛事直播为例，其主要其形式分为现场直播和演播室访谈式直播，这就必须要求解说在指定的地点边收看比赛边进行解说。此情况对解说方或是播出方的要求都比较苛刻，第一解说必须在场；第二直播的成本较高。现在若能做到不管解说身处何方都能收看到比赛并进行解说，那么这将是对传统赛事直播的一种创新，之后可能孕育出新的直播模式，例如普通老百姓在家就能实现自己的解说梦。
[0004]为了实现上述功能要求，此时，信号的传输只能借助网络流媒体。虽说如今市面上的网络视频客户端软件不在少数，但因为此类软件都只支持单方面的数据传输即服务端向客户端发送媒体数据，无法满足上述的需求，且成本高、效率低、耗时长。
[0005]鉴于上述问题，本发明公开了一种基于公网的带解说音频回传的直播系统及其直播方法。其具有如下文所述之技术特征，以解决现有的问题。

【发明内容】

[0006]本发明的目的是提供一种基于公网的带解说音频回传的直播系统及其直播方法，它能通过客户端从网络接收原始视频信号，并采集解说的音频回传到服务器端，将视音频合成后输出，同时保证达到广播级的直播标准。
[0007]本发明基于公网的带解说音频回传的直播系统及其直播方法的目的是通过以下技术方案实现的:一种基于公网的带解说音频回传的直播系统，所述的基于公网的带解说音频回传的直播系统为C/S结构，包括:设有TCP监听端口的服务器端及客户端两部分；其特征在于，所述的服务器端与所述的客户端通过公网连接。
[0008]所述的服务器端由视频编码器、收发服务器及音视频合成器组成；所述的视频编码器分别与所述的收发服务器及音视频合成器连接，将输入的原始高码率视频SDI信号转换成适用于网络传输的低码率IP数据流输出；所述的收发服务器用于连接所述的视频编码器及音视频合成器，并作为所述的服务器端及客户端的通信接口；所述的音视频合成器将原始的高码率视频数据与解说回传的音频数据合成后输出。
[0009]所述的客户端是PC机，且所述的客户端内设有音频输入设备及屏幕。
[0010]上述的基于公网的带解说音频回传的直播系统，其中，所述的音视频合成器内设有视频缓存区域，所述的视频缓存区域的大小保持不变，用于判断视频数据及音频数据的时间戳，并缓存高码率视频。
[0011]上述的基于公网的带解说音频回传的直播系统的直播方法，其中，该方法至少包括以下步骤:
步骤1，所述的服务器端打开TCP监听端口，循环等待来自所述的客户端的连接，所述的客户端通过TCP/IP协议向所述的服务器端发送连接请求。
[0012]服务器端会有三种情况:1、无响应；2、连接数已满；3、连接成功；所述的服务器端无连接，则继续等待；所述的服务器端判断此时服务器端达到的最大连接数，若大于最大连接数则拒绝此连接，若小于最大连接数则连接成功。
[0013]步骤2，所述的服务器端与客户端连接成功后，所述的客户端获取本地网络的带宽以及与服务器端之间存在的网络延时，网络延时的数据通过发送到收发服务器传递给音视频合成器。
[0014]步骤3，用户选择频道后，所述的客户端将用户选择的频道发送指令到所述的服务器端，此时所述的服务器端无法主动发送数据到所述的客户端，服务器端根据客户端的指令打开相应的视频编码器以选择合适的输出视频码率。
[0015]步骤4，所述的客户端实现现有的NAT穿越技术，待客户端发送UDP打洞信息后，与所述的服务器端建立UDP连接通道建立，所述的服务器端向所述的客户端发送低码率IP数据流。
[0016]步骤5，所述的客户端将低码率IP数据流解码后输出到屏幕。
[0017]步骤6，当解说员准备开始解说时，打开所述的音频输入设备，便可通过音频输入设备采集解说声音，采集到的音频数据经过编码封装成TS音频包。
[0018]步骤7，在所述的客户端为所述的TS音频数据上打上时间戳信息PTS。
[0019]第一个所述的TS音频数据的时间戳信息PTS的值可以根据用户当时所看到的某一帧视频画面的时间戳信息PTS’的值而定，即第一帧TS音频包的PTStl=PTS’，之后的TS音频数据的时间戳信息PTSn保持连续增长。PTS’的值应与原始高码率视频时间戳信息保持严格一致。
[0020]步骤8，将完整的TS音频包通过UDP连接通道回传到所述的服务器端。
[0021]所述的步骤4中低码率IP数据流的传输与步骤8中TS音频包的传输在两个新线程上同步传输。
[0022]步骤9，所述的音视频合成器将收到的高码率视频与TS音频数据合成，依次循环，直到直播结束后待所述的客户端断开连接。
[0023]在正常情况下，即无延时的情况下，音视频合成器将完整的TS音频包平均交织到高码率视频中去。
[0024]在延时的情况下，所述的服务器端计算延时的预估值，设所述的服务器端与所述的客户端两处的程序固定延时为t，所述的服务器端与所述的客户端的网络延时为T，则预估值为T+t，这个预估值同时也是直播系统的最小延时，也是现有同类技术中延时最小的。
[0025]所述的视频缓存区域缓存的高码率视频对应的时间长度t’即为所述的直播系统延时T+t。
[0026]在失去同步的情况下，当收到的高码率视频超过视频缓存区域的大小后，高码率视频数据还没有收到与之对应的TS音频数据时，则认为没有TS音频数据，则在输出的高码率视频数据对应帧中插入静音包来保证视频信号正常的播出；之后在接收音频包的同时需要通过时间戳信息判断此TS音频数据是否已落后于当时的高码率视频播出进度，若落后一律丢弃该数据，直到TS音频数据的时间戳赶上此时高码率视频的时间戳，如无延时的情况中TS音频数据与原始的高码率视频交织输出。
[0027]本发明基于公网的带解说音频回传的直播系统及其直播方法由于采用了上述方案，使之与现有技术相比，具有以下的优点和积极效果:
1、本发明基于公网的带解说音频回传的直播系统能使解说员无论身处何方，只要在有网络的地方便能进行解说，且能根据解说员所在地的网络情况自动选择合适的视频码率，达到最好的收看效果。
[0028]2、本发明基于公网的带解说音频回传的直播系统的直播方法中采用了延时情况下的处理方法，能使直播的延时控制在最小的范围内，是现有同类技术中延时最小的；采用了失同步情况下的处理方法，保证了最终输出信号音视频的同步和稳定，达到了广播级的标准。
[0029]以下，将通过具体的实施例做进一步的说明，然而实施例仅是本发明可选实施方式的举例，其所公开的特征仅用于说明及阐述本发明的技术方案，并不用于限定本发明的保护范围。
【专利附图】

【附图说明】
[0030]为了更好的理解本发明，可参照本说明书援引的以供参考的附图，附图中:
图1是本发明基于公网的带解说音频回传的直播系统的结构示意图。
[0031]图2是本发明基于公网的带解说音频回传的直播系统的直播方法的流程图。
[0032]图3是本发明基于公网的带解说音频回传的直播系统的直播方法的服务器端的分解流程图。
[0033]图4是本发明基于公网的带解说音频回传的直播系统的直播方法的客户端的分解流程图。
[0034]图5是本发明基于公网的带解说音频回传的直播系统的TS音频包打包流程图。
[0035]图6是本发明基于公网的带解说音频回传的直播系统的音、视频帧结构图。
[0036]图7是本发明基于公网的带解说音频回传的直播系统的音视频合成器输出的交织在一起的TS音频包和原始的高码率视频的帧结构示意图。
[0037]图8是本发明基于公网的带解说音频回传的直播系统延时后音视频合成器输出的交织在一起的TS音频包和原始的高码率视频的帧结构示意图。
[0038]图9是本发明基于公网的带解说音频回传的直播系失同步时音视频合成器输出的交织在一起的TS音频包和原始的高码率视频的帧结构示意图。
[0039]【具体实施方式】
[0040]根据本发明的权利要求和
【发明内容】
所公开的内容,本发明的技术方案具体如下所述。[0041]请参见附图1所示，本发明基于公网的带解说音频回传的直播系统采用C/S结构，包括设有TCP监听端口的服务器端I及客户端2两部分，所述的服务器端I与所述的客户端2通过公网连接；所述的服务器端I由视频编码器11、收发服务器12及音视频合成器13组成；所述的视频编码器11分别与所述的收发服务器12及音视频合成器13连接，将输入的原始高码率视频SDI信号转换成适用于网络传输的低码率IP数据流输出；所述的收发服务器12用于连接所述的视频编码器11及音视频合成器13，并作为所述的服务器端I及客户端2的通信接口；所述的音视频合成器13将原始的高码率视频数据与解说回传的音频数据合成后输出；所述的客户端2是PC机，且所述的客户端2内设有音频输入设备21及屏幕22。
[0042]所述的音视频合成器13内设有视频缓存区域14，所述的视频缓存区域14的大小保持不变，判断视频数据及音频数据的时间戳，并缓存高码率视频；当视频缓存区域14满时，每收到一帧新来的高码率视频，就输出最早的一帧已缓存的高码率视频。
[0043]请参见附图2至附图5所示，本发明基于公网的带解说音频回传的直播系统的直播方法，该直播系统包括服务器端I及客户端2，该直播方法至少包括如下步骤:
步骤I，所述的服务器端I打开TCP监听端口，循环等待来自所述的客户端2的连接，所述的客户端2通过TCP/IP协议向所述的服务器端I发送连接请求。
[0044]此时会有三种情况:1、无响应；2、连接数已满；3、连接成功。所述的服务器端I无连接，则继续等待；所述的服务器端I判断此时服务器端I达到的最大连接数，若大于最大连接数则拒绝此连接，若小于最大连接数则连接成功。
[0045]步骤2，所述的服务器端I与客户端2连接成功后，所述的客户端2获取本地网络的带宽以及与服务器端I之间存在的网络延时，网络延时的数据通过发送到收发服务器12传递给音视频合成器13。
[0046]网络延时会用作之后最终信号输出延时和TS音频包和原始的高码率视频同步的依据发送到所述的服务器端I。
[0047]步骤3，用户选择频道后，所述的客户端2将用户选择的频道发送指令到所述的服务器端1，此时所述的服务器端I无法主动发送数据到所述的客户端2，服务器端I根据客户端2的指令打开相应的视频编码器11以选择合适的输出视频码率，保证了客户端2达到最佳的播放效果。
[0048]所述的视频编码器11的输出格式为H.264 TS，输出码率则根据客户端2所在的网络带宽而定。
[0049]步骤4,所述的客户端2实现现有的网络地址转换(Network AddressTranslation,简称NAT)穿越，待客户端2发送用户数据报协议(简称UDP)打洞信息后，与所述的服务器端I建立用户数据报协议(简称UDP)连接通道建立，所述的服务器端I向所述的客户端2发送低码率IP数据流。
[0050]步骤5，所述的客户端2将低码率IP数据流解码后输出到屏幕22。
[0051]步骤6，当解说员准备开始解说时，打开所述的音频输入设备21，便可通过音频输入设备21采集解说声音，采集到的音频数据经过编码封装成TS音频包。
[0052]步骤7，为了保证最终输出的TS音频数据与原始高码率视频的同步，在所述的客户端2为所述的TS音频数据上打上时间戳信息PTS。[0053]请参见附图6所示，第一个所述的TS音频数据的时间戳信息PTS的值可以根据用户当时所看到的某一帧视频画面的时间戳信息PTS’的值而定，即第一帧TS音频包的PTS0=PTS?，之后的TS音频数据的时间戳信息PTSn保持连续增长。PTS’的值应与原始高码率视频时间戳信息保持严格一致。
[0054]音视频合成器13的输入视频流信号为经过延时的高码率视频流，此高码率视频的时间戳信息必须与客户端2收到的低码率IP数据流的时间戳信号严格的保持一致才能完成最终的同步。根据回传的TS音频数据包上的时间戳信息，便可以将TS音频数据包平均的交织到原始的高码率视频流数据中去，从而达到声画的同步，即解说的开始录音点就是当时他所看到的那一帧画面。
[0055]步骤8，将完整的TS音频包通过UDP连接通道回传到所述的服务器端I。
[0056]所述的步骤4中低码率IP数据流的传输与步骤8中TS音频包的传输在两个新线程上同步传输。
[0057]步骤9，所述的音视频合成器13将收到的高码率视频与TS音频数据合成，依次循环，直到直播结束后待所述的客户端2断开连接。
[0058]请参见附图7所示，在正常情况下，即无延时的情况下，音视频合成器13将完整的TS音频包平均交织到高码率视频中去。
[0059]由于音频数据是基于公网传输，这样就存在着各种各样的不确定因素，所以对原始视频数据进行缓存是十分有必要的。但是缓存的大小关系到了直播的延时时间大小，缓存过大会导致直播延时过大；缓存过小则会发生当网络延时过大时视频和音频时间戳一直无法对齐从而导致无法播出。在延时的情况下，所述的服务器端I计算延时的预估值，设所述的服务器端I与所述的客户端2两处的程序固定延时为t，所述的服务器端I与所述的客户端2的网络延时为T，则预估值为T+t，这个预估值同时也是本发明的直播系统的最小延时，也是现有同类技术中延时最小的。但是实际运用时预估值会发生抖动，所以直播延时应该留有一定的富余量，这样才能有效的控制直播的流畅稳定。
[0060]所述的视频缓存区域14缓存的高码率视频对应的时间长度t’即为所述的直播系统延时T+t。
[0061]当T =延时阈值T’后，即视频缓存区域14满时，视频缓存区域14每收到一帧新来的视频数据，就从视频缓存区域14中输出最早的一帧已缓存的视频数据，以保持视频缓存区域14的大小不变；同时判断音视频的时间戳PTS，找到视频所对应的TS音频包后将TS音频包插到视频输出流中。比如，视频第二帧数据对应的是音频的第一帧数据，那么音视频输出流如附图8所示。
[0062]请参见附图9所示，由于网络的不确定因素，UDP会发生延时、丢包等情况，遇到这种情况若不作处理，系统将会发生不可预计的后果，最终导致直播信号异常。比如，UDP发生延时，此时收到的音频数据所对应的视频数据有可能已经向外输出，此时若不做处理则会出现声画不同步或者画面顿卡等现象；又比如网络出现丢包，此情况则可能直接导致视频信号的中断。以上情况在直播中都是致命的，也是绝对不允许发生的。
[0063]在失去同步的情况下，当收到的高码率视频超过视频缓存区域14的大小后，高码率视频数据还没有收到与之对应的TS音频数据时，则认为没有TS音频数据，则在输出的高码率视频数据对应帧中插入静音包来保证视频信号正常的播出，之后在接收音频包的同时需要通过时间戳信息判断此TS音频数据是否已落后于当时的高码率视频播出进度，如果落后一律丢弃该数据，直到TS音频数据的时间戳赶上此时高码率视频的时间戳，随后如之前一样TS音频数据与原始的高码率视频交织输出。
[0064]综上所述，本发明基于公网的带解说音频回传的直播系统能使解说员无论身处何方，只要在有网络的地方便能进行解说，且能根据解说员所在地的网络情况自动选择合适的视频码率，达到最好的收看效果；本发明基于公网的带解说音频回传的直播系统的直播方法中采用了延时情况下的处理方法，能使直播的延时控制在最小的范围内，是现有同类技术中延时最小的；采用了失同步情况下的处理方法，保证了最终输出信号音视频的同步和稳定，达到了广播级的标准。
[0065]上述内容为本发明基于公网的带解说音频回传的直播系统及其直播方法的具体实施例的例举，对于其中未详尽描述的设备和结构，应当理解为采取本领域已有的通用设备及通用方法来予以实施。
【权利要求】
1.一种基于公网的带解说音频回传的直播系统，所述的基于公网的带解说音频回传的直播系统为C/S结构，包括:设有TCP监听端口的服务器端(I)及客户端(2)两部分；其特征在于，所述的服务器端(I)与所述的客户端(2)通过公网连接；所述的服务器端(I)由视频编码器(11)、收发服务器(12)及音视频合成器(13)组成；所述的视频编码器(11)分别与所述的收发服务器(12)及音视频合成器(13)连接，将输入的原始高码率视频SDI信号转换成适用于网络传输的低码率IP数据流输出；所述的收发服务器(12)用于连接所述的视频编码器(11)及音视频合成器(13)，并作为所述的服务器端(I)及客户端(2)的通信接口；所述的音视频合成器(13)将原始的高码率视频数据与解说回传的音频数据合成后输出；所述的客户端(2)是PC机，且所述的客户端(2)内设有音频输入设备(21)及屏幕(22)。
2.根据权利要求1所述的基于公网的带解说音频回传的直播系统，其特征在于:所述的音视频合成器(13)内设有视频缓存区域(14)，所述的视频缓存区域(14)的大小保持不变，用于判断视频数据及音频数据的时间戳，并缓存高码率视频。
3.根据权利要求1所述的基于公网的带解说音频回传的直播系统的直播方法，其特征在于:该方法至少包括以下步骤: 步骤I，所述的服务器端(I)打开TCP监听端口，循环等待来自所述的客户端(2)的连接，所述的客户端(2)通过TCP/IP协议向所述的服务器端(I)发送连接请求；步骤2，所述的服务器端(I)与客户端(2)连接成功后，所述的客户端(2)获取本地网络的带宽以及与服务器端(I)之间存在的网络延时，网络延时的数据通过发送到收发服务器(12)传递给音视频合成器(1·3); 步骤3，用户选择频道后，所述的客户端(2)将用户选择的频道发送指令到所述的服务器端(I )，此时所述的服务器端(I)无法主动发送数据到所述的客户端(2)，服务器端(I)根据客户端(2)的指令打开相应的视频编码器(11)以选择合适的输出视频码率；步骤4，所述的客户端(2)实现NAT穿越，待客户端(2)发送UDP打洞信息后，与所述的服务器端(I)建立UDP连接通道建立，所述的服务器端(I)向所述的客户端(2)发送低码率IP数据流；步骤5，所述的客户端(2)将低码率IP数据流解码后输出到屏幕(22)；步骤6，当解说员准备开始解说时，打开所述的音频输入设备(21)，便可通过音频输入设备(21)采集解说声音，采集到的音频数据经过编码封装成TS音频包；步骤7，在所述的客户端(2)为所述的TS音频数据上打上时间戳信息PTS ；步骤8，将完整的TS音频包通过UDP连接通道回传到所述的服务器端(I)；步骤9，所述的音视频合成器(13)将收到的高码率视频与TS音频数据合成，依次循环，直到直播结束后待所述的客户端(2)断开连接。
4.根据权利要求3所述的基于公网的带解说音频回传的直播系统的直播方法，其特征在于:所述的步骤I中，服务器端(I)有三种情况:1、无响应；2、连接数已满；3、连接成功；若所述的服务器端(I)无连接，则继续等待；所述的服务器端(I)判断此时服务器端(I)达到的最大连接数，若大于最大连接数则拒绝此连接，若小于最大连接数则连接成功。
5.根据权利要求3所述的基于公网的带解说音频回传的直播系统的直播方法，其特征在于:所述的步骤7中，第一个所述的TS音频数据的时间戳信息PTS的值可以根据用户当时所看到的某一帧视频画面的时间戳信息PTS’的值而定，即第一帧TS音频包的PTS0=PTS?，之后的TS音频数据的时间戳信息PTSn保持连续增长；PTS’的值应与原始高码率视频时间戳信息保持严格一致。
6.根据权利要求3所述的基于公网的带解说音频回传的直播系统的直播方法，其特征在于:所述的步骤4中低码率IP数据流的传输与步骤8中TS音频包的传输在两个新线程上同步传输。
7.根据权利要求3所述的基于公网的带解说音频回传的直播系统的直播方法，其特征在于:所述的步骤9中，在正常情况下，即无延时的情况下，音视频合成器(13)将完整的TS音频包平均交织到高码率视频中去。
8.根据权利要求3所述的基于公网的带解说音频回传的直播系统的直播方法，其特征在于:所述的步骤9中，在延时的情况下，所述的服务器端(I)计算延时的预估值，设所述的服务器端(I)与所述的客户端(2)两处的程序固定延时为t，所述的服务器端(I)与所述的客户端(2)的网络延时为T，则预估值为T+t，这个预估值同时也是直播系统的最小延时。
9.根据权利要求2或8所述的基于公网的带解说音频回传的直播系统的直播方法，其特征在于:所述的视频缓存区域(14)缓存的高码率视频对应的时间长度t’即为所述的直播系统延时T+t。
10.根据权利要求3所述的基于公网的带解说音频回传的直播系统的直播方法，其特征在于:所述的步骤9中，在失去同步的情况下，当收到的高码率视频超过视频缓存区域(14)的大小后，高码率视频数据还没有收到与之对应的TS音频数据时，则认为没有TS音频数据，则在输出的高码率视频数据对应帧中插入静音包来保证视频信号正常的播出；之后在接收音频包的同时需要通过时间戳信息判断此TS音频数据是否已落后于当时的高码率视频播出进度，若落后一律丢弃该数据，直到TS音频数据的时间戳赶上此时高码率视频的时间戳，如无延时的情况中TS音频数据与原始的高码率视频交织输出。
【文档编号】H04N21/24GK103856787SQ201210511265
【公开日】2014年6月11日申请日期:2012年12月4日优先权日:2012年12月4日
【发明者】陈璟远, 范艳华, 苏浩翔申请人:上海文广科技（集团）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈璟远;范艳华;苏浩翔
技术所有人：上海文广科技（集团）有限公司
我是此专利的发明人

上一篇：演进分组系统的寻呼方法与系统的制作方法
上一篇：总线信号监测装置及方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。