一种音视频数据的处理方法及装置的制作方法

文档序号：7550512阅读：179来源：国知局

专利名称：一种音视频数据的处理方法及装置的制作方法
技术领域：
本发明涉及编解码技术，尤其涉及一种音视频数据的处理方法及装置。
背景技术：
可视电话技术，是一种基于音视频编解码技术，以网络为载体实现多用户即时在线通信的技术。常见的即时在线通信软件有QQ、MSN和Skype等。而机顶盒上的可视电话业务，主要是利用机顶盒这一现代数字家庭的媒体中心，以家庭为单位，实现端到端的音视频通话的业务。由于可视电话业务本身的特点，在进行端到端的数据传输时，数据的传输通路较长。以视频为例，通常要经过视频图像采集、编码、网络打包、发送到对端、对端接收、解包、视频解码、显示到对端的屏幕上这些过程。由此可以看出，在上述过程中间经历的环节多且复杂，因而不可避免的产生了视频延时。如何有效的降低端到端的音视频延时，是即时在线通信产品的一个重要研究方向。在现有技术中，为减少端到端的音视频时延,可通过减少可视电话业务中音视频数据流通路上的内存复制次数的方法来实现，或者还可通过减少帧数据在缓冲区内的停留的时间的方法来实现。但是，在实现本发明的过程中，发明人发现:虽然在机顶盒中利用硬件进行解码，但是硬件解码器只有在收到下一帧码流的起始码时才能将前一帧码流的信息配置给硬件解码器，这时，硬件解码器才开始对前一帧码流进行解码，从而引起了音视频延时。

发明内容
有鉴于此，本发明提供一种音视频数据的处理方法及装置，以减少音视频延时。为达到上述目的，本发明采用如下技术方案:第一方面，本发明提供了一种音视频数据的处理方法，包括:采集音视频数据；对所述音视频数据进行编码，形成音视频码流；将所述音视频码流进行码流打包，形成音视频编码码流网络包，其中在进行码流打包的过程中，为至少一帧音视频码流添加码流结束标识符，其中所述码流结束标识符用于标识所述至少一帧音视频码流的结束；将所述音视频编码码流网络包发送给解码端。在第一方面的第一种可能实现方式中，在进行码流打包的过程中，在所述至少一帧音视频码流的结束位置上添加码流结束标识符。结合第一方面或第一方面的第一种可能实现方式，在第一方面的第二种可能实现方式中，所述码流结束标识符包括伪起始码。结合第一方面的第二种可能实现方式，所述伪起始码为0x000001。第二方面，本发明提供了一种音视频数据的处理方法，包括:
接收编码端发送的音视频编码码流网络包；将所述音视频编码码流网络包进行解包，获得音视频码流，其中所述音视频码流中的至少一帧音视频码流包括码流结束标识符，其中所述码流结束标识符用于标识所述至少一帧音视频码流的结束；对所述音视频码流进行解码，获得音视频数据，其中在解码过程中，在收到所述至少一帧音视频码流的码流结束标识符时，对所述至少一帧音视频码流进行解码。在第二方面的第一种可能实现方式中，所述码流结束标识符位于所述至少一帧音视频码流的结束位置上；其中在解码过程中，在收到位于所述至少一帧音视频码流的结束位置上的所述至少一帧音视频码流的码流结束标识符时，对所述至少一帧音视频码流进行解码。结合第二方面或第二方面的第一种可能实现方式，在第二方面的第二种可能实现方式中，所述码流结束标识符包括伪起始码。结合第二方面的第二种可能实现方式，所述伪起始码为0x000001。第三方面，本发明提供了一种音视频数据的处理装置，包括:数据采集单元，用于采集音视频数据；编码单元，用于对所述数据采集单元采集的音视频数据进行编码，形成音视频码流；网络包生成单元，用于将所述编码单元生成的音视频码流进行码流打包，形成音视频编码码流网络包，其中在进行码流打包的过程中，为至少一帧音视频码流添加码流结束标识符，其中所述码流结束标识符用于标识所述至少一帧音视频码流的结束；发送单元，用于将所述网络包生成单元生成的音视频编码码流网络包发送给解码端。在第三方面的第一种可能实现方式中，所述网络包生成单元具体用于，将所述编码单元生成的音视频码流进行码流打包，形成音视频编码码流网络包，其中在进行码流打包的过程中，在所述至少一帧音视频码流的结束位置上为所述至少一帧音视频码流添加码流结束标识符。结合第三方面或第三方面的第一种可能实现方式，在第三方面的第二种可能实现方式中，所述码流结束标识符包括伪起始码。第四方面，本发明提供了一种音视频数据的处理装置，包括:接收单元，用于接收编码端发送的音视频编码码流网络包；解包单元，用于将所述接收单元接收的音视频编码码流网络包进行解包，获得音视频码流，其中所述音视频码流中的至少一帧音视频码流包括码流结束标识符，其中所述码流结束标识符用于标识所述至少一帧音视频码流的结束；解码单元，用于对所述解包单元获得的音视频码流进行解码，获得音视频数据，其中在解码过程中，在收到所述至少一帧音视频码流的码流结束标识符时，对所述至少一帧音视频码流进行解码。在第四方面的第一种可能实现方式中，所述码流结束标识符位于所述至少一帧音视频码流的结束位置上；所述解码单元在解码过程中，在收到位于所述至少一帧音视频码流的结束位置上的所述至少一帧音视频码流的码流结束标识符时，对所述至少一帧音视频码流进行解码。结合第四方面或第四方面的第一种可能实现方式，在第四方面的第二种可能实现方式中，所述码流结束标识符包括伪起始码。结合第四方面或第四方面的第一种可能实现方式，在第四方面的第三种可能实现方式中，还包括:显示单元，用于显示所述解码单元获得的音视频数据。本发明提供的音视频数据的处理方法及装置，在编码端，对采集的音视频数据进行编码、打包形成音视频编码码流网络包，而在进行码流打包的过程中，为至少一帧音视频码流添加码流结束标识符，其中所述码流结束标识符用于标识所述至少一帧音视频码流的结束。因此，在将音视频编码码流网络包发送给解码端后，解码端将所述音视频编码码流网络包进行解包，获得音视频码流。由于编码端在进行码流打包时为至少一帧音视频码流添加了码流结束标识符，因此，解码端对所述音视频码流进行解码时，在收到所述至少一帧音视频码流的码流结束标识符时，即可对所述至少一帧音视频码流进行解码。因此，由上可以看出，与现有技术中只有在收到下一帧码流的起始码才能对当前帧码流进行解码相比，利用本发明的技术方案可以在收到当前帧码流的码流结束标识符后就对当前帧码流进行解码，从而减少了音视频延时。

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。图1为本发明实施例一的音视频数据的处理方法的流程图；图2为本发明实施例二的音视频数据的处理方法的流程图；图3为本发明实施例三的音视频数据的处理装置的示意图；图4为本发明实施例四的音视频数据的处理装置的示意图；图5为本发明实施例四的音视频数据的处理装置的结构图。
具体实施例方式下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。如图1所示，本发明实施例一的音视频数据的处理方法包括:步骤11、采集音视频数据。在此步骤中，可通过音视频采集卡采集音视频数据，或者还可分别通过音频数据采集装置(如录音笔等)和视频数据采集装置(如摄像头等)音频数据和视频数据。此步骤的具体实现过程与现有技术中的相同，在此不再赘述。步骤12、对所述音视频数据进行编码，形成音视频码流。对于视频数据而言，常用的编解码标准有国际电信联盟(InternationalTe lecommuni cat ion Union, ITU)制定的 H.261、Η.263、Η.264 等标准，动态图像专家组(Moving Pictures Experts Group, MPEG)制定的 MEPG-1, MPEG-2, MPEG-4,以及中国数字音视频编解码技术标准(AVS)工作组制定的AVS标准等。对于音频数据而言，常用的编码方式有PCM(Pulse Code Modulations,脉冲编码调制)等。在此步骤中，对于音视频数据的编解码可以采用现有技术中的任何一种编码方式实现，以形成音视频码流。步骤13、将所述音视频码流进行码流打包，形成音视频编码码流网络包，其中在进行码流打包的过程中，为至少一帧音视频码流添加码流结束标识符，其中所述码流结束标识符用于标识所述至少一帧音视频码流的结束。对步骤12中形成的音视频码流，在此步骤中对其进行码流打包。在进行码流打包的过程中，为至少一帧音视频码流添加码流结束标识符，而后将该码流结束标识符和该帧音视频码流的数据一起打包。其中所述码流结束标识符用于标识所述至少一帧音视频码流的结束。为了能够更加准确的表示该帧码流结束的位置，可将码流结束标识符添加在该帧的结束位置上。当然，为了能够进一步减小音视频时延，可为每一帧音视频码流添加码流结束标识符，并且该添加码流结束标识符添加在每一帧音视频码流的结束位置上。该码流结束标识符可以是任意的用于表示一帧音视频码流结束的标识。例如，可用在某一帧音视频码流的结束位置上添加一个标志位，例如“ I ”，以表示一帧音视频码流的结束。在现有技术的视频编码协议中，利用“起始码”标识一帧码流的起始位置。起始码一般为一组短小二进制数字，不同的协议所采用的起始码各不相同，但其长度一般在4个字节以内。套用上述起始码的概念，在本发明实施例中引入“伪起始码”的概念。“伪起始码”与“起始码”的格式相同，不同的是“伪起始码”是位于一帧音视频码流的结束位置上，用于标识一帧音视频码流的结束。以H.264协议为例，使用的伪起始码为0x000001，是一个3字节的固定值序列。当然，根据不同的协议的特点，还可对伪起始码的具体形式做不同的定义。步骤14、将所述音视频编码码流网络包发送给解码端。由上可以看出，在编码端，对采集的音视频数据进行编码、打包形成音视频编码码流网络包，而在进行码流打包的过程中，为至少一帧音视频码流添加码流结束标识符，其中所述码流结束标识符用于标识所述至少一帧音视频码流的结束。因此，在将音视频编码码流网络包发送给解码端后，解码端将所述音视频编码码流网络包进行解包，获得音视频码流。由于编码端在进行码流打包时为至少一帧音视频码流添加了码流结束标识符，因此，解码端对所述音视频码流进行解码时，在收到所述至少一帧音视频码流的码流结束标识符时，即可对所述至少一帧音视频码流进行解码。因此，由上可以看出，与现有技术中只有在收到下一帧码流的起始码才能对当前帧码流进行解码相比，利用本发明实施例一的技术方案可以在收到当前帧码流的码流结束标识符后就对当前帧码流进行解码，从而减少了音视频延时。如图2所示，本发明实施例二音视频数据的处理方法，包括:步骤21、接收编码端发送的音视频编码码流网络包。步骤22、将所述音视频编码码流网络包进行解包，获得音视频码流，其中所述音视频码流中的至少一帧音视频码流包括码流结束标识符，其中所述码流结束标识符用于标识所述至少一帧音视频码流的结束。
在此步骤中，将获得的音视频编码码流网络包进行解包。根据前述实施例一的描述，由于在码流打包的过程中对至少一帧音视频码流添加有码流结束标识符，因此，在此获得的至少一帧音视频码流中包括码流结束标识符。步骤23、对所述音视频码流进行解码，获得音视频数据，其中在解码过程中，在收到所述至少一帧音视频码流的码流结束标识符时，对所述至少一帧音视频码流进行解码。在此步骤中，采用现有技术中的任一解码方法将获得的音视频码流进行解码。由于编码端的处理，在对当前帧音视频码流进行解码的时候，如果该当前帧音视频码流中包括码流结束标识符，例如在当前帧音视频码流的结束位置上包括码流结束标识符，则会在收到码流结束标识符后，即对当前帧码流进行解码，而不是像现有技术中的那样，只有在收到下一帧的起始码时才对当前帧音视频码流进行解码。其中，码流结束标识符的含义可参考实施例一的描述。此外，在实施例二的基础上，还可显示所述音视频数据。由上可以看出，由于编码端在进行码流打包时为至少一帧音视频码流添加了码流结束标识符，因此，解码端对所述音视频码流进行解码时，在收到所述至少一帧音视频码流的码流结束标识符时，即可对所述至少一帧音视频码流进行解码。因此，由上可以看出，与现有技术中只有在收到下一帧码流的起始码才能对当前帧码流进行解码相比，利用本发明实施例二的技术方案可以在收到当前帧码流的码流结束标识符后就对当前帧码流进行解码，从而减少了音视频延时。如图3所示，本发明实施例三的音视频数据的处理装置包括:数据采集单元31，用于采集音视频数据；编码单元32，用于对所述数据采集单元31采集的音视频数据进行编码，形成音视频码流；网络包生成单元33，用于将所述编码单元32生成的音视频码流进行码流打包，形成音视频编码码流网络包，其中在进行码流打包的过程中，为至少一帧音视频码流添加码流结束标识符，其中所述码流结束标识符用于标识所述至少一帧音视频码流的结束；发送单元34，用于将所述网络包生成单元33生成的音视频编码码流网络包发送给解码端。其中，所述网络包生成单元33具体用于，将所述编码单元生成的音视频码流进行码流打包，形成音视频编码码流网络包，其中在进行码流打包的过程中，在所述至少一帧音视频码流的结束位置上为所述至少一帧音视频码流添加码流结束标识符。其中，码流结束标识符与前述实施例描述的相同，在此不再赘述。其中，本发明实施例三的装置的工作原理可参考前述实施例的描述，该装置可位于编码端。由上可以看出，在编码端，对采集的音视频数据进行编码、打包形成音视频编码码流网络包，而在进行码流打包的过程中，为至少一帧音视频码流添加码流结束标识符，其中所述码流结束标识符用于标识所述至少一帧音视频码流的结束。因此，在将音视频编码码流网络包发送给解码端后，解码端将所述音视频编码码流网络包进行解包，获得音视频码流。由于编码端在进行码流打包时为至少一帧音视频码流添加了码流结束标识符，因此，解码端对所述音视频码流进行解码时，在收到所述至少一帧音视频码流的码流结束标识符时，即可对所述至少一帧音视频码流进行解码。因此，由上可以看出，与现有技术中只有在收到下一帧码流的起始码才能对当前帧码流进行解码相比，利用本发明实施例三的技术方案可以在收到当前帧码流的码流结束标识符后就对当前帧码流进行解码，从而减少了音视频延时。如图4所示，本发明实施例四的音视频数据的处理装置包括:接收单元41，用于接收编码端发送的音视频编码码流网络包；解包单元42，用于将所述接收单元41接收的音视频编码码流网络包进行解包，获得音视频码流，其中所述音视频码流中的至少一帧音视频码流包括码流结束标识符，其中所述码流结束标识符用于标识所述至少一帧音视频码流的结束；解码单元43，用于对所述解包单元42获得的音视频码流进行解码，获得音视频数据，其中在解码过程中，在收到所述至少一帧音视频码流的码流结束标识符时，对所述至少一帧音视频码流进行解码。其中，所述码流结束标识符位于所述至少一帧音视频码流的结束位置上。因此，解码单元43所述解码单元在解码过程中，在收到位于所述至少一帧音视频码流的结束位置上的所述至少一帧音视频码流的码流结束标识符时，对所述至少一帧音视频码流进行解码。其中，码流结束标识符与前述实施例描述的相同，在此不再赘述。此外，如图5所示，本发明实施例四的装置还可包括:显示单元44，用于显示所述解码单元43获得的音视频数据。其中，本发明实施例四的装置的工作原理可参考前述实施例的描述，该装置可位于解码端。由上可以看出，由于编码端在进行码流打包时为至少一帧音视频码流添加了码流结束标识符，因此，解码端对所述音视频码流进行解码时，在收到所述至少一帧音视频码流的码流结束标识符时，即可对所述至少一帧音视频码流进行解码。因此，由上可以看出，与现有技术中只有在收到下一帧码流的起始码才能对当前帧码流进行解码相比，利用本发明实施例四的技术方案可以在收到当前帧码流的码流结束标识符后就对当前帧码流进行解码，从而减少了音视频延时。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(Random AccessMemory, RAM)等。以上所述，仅为本发明的具体实施方式
，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。
权利要求
1.一种音视频数据的处理方法，其特征在于，包括: 采集音视频数据；对所述音视频数据进行编码，形成音视频码流；将所述音视频码流进行码流打包，形成音视频编码码流网络包，其中在进行码流打包的过程中，为至少一帧音视频码流添加码流结束标识符，其中所述码流结束标识符用于标识所述至少一帧音视频码流的结束；将所述音视频编码码流网络包发送给解码端。
2.根据权利要求1所述的方法，其特征在于，在进行码流打包的过程中，在所述至少一帧音视频码流的结束位置上添加码流结束标识符。
3.根据权利要求1或2所述的方法，其特征在于，所述码流结束标识符包括伪起始码。
4.根据权利要求3所述的方法，其特征在于，所述伪起始码为0x000001。
5.一种音视频数据的处理方法，其特征在于，包括: 接收编码端发送的音视频编码码流网络包；将所述音视频编码码流网络包进行解包，获得音视频码流，其中所述音视频码流中的至少一帧音视频码流包括码流结束标识符，其中所述码流结束标识符用于标识所述至少一帧音视频码流的结束；对所述音视频码流进行解码，获得音视频数据，其中在解码过程中，在收到所述至少一帧音视频码流的码流结束标识符时，对所述至少一帧音视频码流进行解码。
6.根据权利要求5所述的方法，其特征在于，所述码流结束标识符位于所述至少一帧音视频码流的结束位置上；其中在解码过程中，在收到位于所述至少一帧音视频码流的结束位置上的所述至少一帧音视频码流的码流结束标识符时，对所述至少一帧音视频码流进行解码。
7.根据权利要求5或6所述的方法，其特征在于，所述码流结束标识符包括伪起始码。
8.根据权利要求7所述的方法，其特征在于，所述伪起始码为0x000001。
9.根据权利要求5或6所述的方法，其特征在于，所述方法还包括: 显示所述音视频数据。
10.一种音视频数据的处理装置，其特征在于，包括: 数据采集单元，用于采集音视频数据；编码单元，用于对所述数据采集单元采集的音视频数据进行编码，形成音视频码流；网络包生成单元，用于将所述编码单元生成的音视频码流进行码流打包，形成音视频编码码流网络包，其中在进行码流打包的过程中，为至少一帧音视频码流添加码流结束标识符，其中所述码流结束标识符用于标识所述至少一帧音视频码流的结束；发送单元，用于将所述网络包生成单元生成的音视频编码码流网络包发送给解码端。
11.根据权利要求10所述的装置，其特征在于，所述网络包生成单元具体用于，将所述编码单元生成的音视频码流进行码流打包，形成音视频编码码流网络包，其中在进行码流打包的过程中，在所述至少一帧音视频码流的结束位置上为所述至少一帧音视频码流添加码流结束标识符。
12.根据权利要求10或11所述的装置，其特征在于，所述码流结束标识符包括伪起始码。
13.一种音视频数据的处理装置，其特征在于，包括: 接收单元，用于接收编码端发送的音视频编码码流网络包；解包单元，用于将所述接收单元接收的音视频编码码流网络包进行解包，获得音视频码流，其中所述音视频码流中的至少一帧音视频码流包括码流结束标识符，其中所述码流结束标识符用于标识所述至少一帧音视频码流的结束；解码单元，用于对所述解包单元获得的音视频码流进行解码，获得音视频数据，其中在解码过程中，在收到所述至少一帧音视频码流的码流结束标识符时，对所述至少一帧音视频码流进行解码。
14.根据权利要求13所述的装置，其特征在于，所述码流结束标识符位于所述至少一帧音视频码流的结束位置上；所述解码单元在解码过程中，在收到位于所述至少一帧音视频码流的结束位置上的所述至少一帧音视频码流的码流结束标识符时，对所述至少一帧音视频码流进行解码。
15.根据权利要求13或14所述的装置，其特征在于，所述码流结束标识符包括伪起始码。
16.根据权利要求13或14所述的装置，其特征在于，所述装置还包括: 显示单元，用于显示所述解码单元获得的音视频数据。
全文摘要
本发明公开了一种音视频数据的处理方法及装置，涉及编解码技术，为减少音视频延时而发明。一种音视频数据的处理方法，包括采集音视频数据；对所述音视频数据进行编码，形成音视频码流；将所述音视频码流进行码流打包，形成音视频编码码流网络包，其中在进行码流打包的过程中，为至少一帧音视频码流添加码流结束标识符，其中所述码流结束标识符用于标识所述至少一帧音视频码流的结束；将所述音视频编码码流网络包发送给解码端。
文档编号H04N7/14GK103139528SQ201310016278
公开日2013年6月5日申请日期2013年1月17日优先权日2013年1月17日
发明者周海林, 屈亚新, 张家卓申请人:华为技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周海林;屈亚新;张家卓
技术所有人：华为技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。