一种基于hevc的音频信息嵌入方法及提取和重构方法

文档序号:9330962阅读:580来源:国知局
一种基于hevc的音频信息嵌入方法及提取和重构方法
【技术领域】
[0001] 本发明涉及一种基于HEVC的音频信息嵌入方法及提取和重构方法。
【背景技术】
[0002] 随着数字多媒体通信与传输技术的发展,视频会议、远程教学、视频点播等多媒体 服务已经广泛应用于我们生活的各个方面。然而由于网络传输中的延迟、抖动和网络拥塞 等,以及发送端的发送速度与接收端的接收速度不匹配等问题,导致多媒体出现不同步的 现象,而音视频同步作为其中的一个关键性技术越来越多的受到人们的关注。为了解决音 视频同步问题,目前有两类方法,一种是非嵌入式的音视频同步方法,另一种是嵌入式的方 法。
[0003] 传统的非嵌入式的音视频同步方案有基于时间戳和同步标记来实现的,即在解码 端恢复出与编码端一致的时钟,将相同时间标记的单元同时播放从而实现同步,然而该方 案对解码器有较高要求,且对接收端缓冲区域的容量要求比较大,不能满足多个发送端的 应用需求;也有借助多线程和多路复用思想,只需在接收端把音视频流分开即可,但该方案 对复用后的音视频流解码会使得音视频流的质量严重下降;国际上,针对视频会议和可视 电话等应用中的唇同步问题,相关学者提出了包括语音辅助视频插补、交叉模式预测编码 及同步视频帧自动生成等方法,但该类算法中人的嘴部定位较难,需要人参与,且算法复杂 度很高。
[0004] 上述提及的几种非嵌入式的音视频同步方案对解码器要求较高,且算法复杂度较 高,针对这些问题,近几年有很多学者借鉴基于H. 264的信息隐藏和视频水印的思想,将音 频信息嵌入视频中进行同步编码,在解码端提取音频编码数据并重构音频,最终实现同步。 如通过修改变换域DCT系数实现音频嵌入,但该方案没有充分考虑嵌入开销和视频比特率 的变化,视频码率失真较大。为了解决这个问题,有提出在H. 264运动估计的过程中利用 1/4像素精度的运动搜索点与音频信息之间的对应关系,通过调整最优匹配点将音频信息 嵌入视频中,从而降低对视频质量的影响,但是这种方案会引起帧间失真漂移;也有通过修 改CAVLC熵编码高频拖尾系数和非零系数将音频嵌入其中,该方法可以保持码率稳定,但 仍会因误差累计而造成视频质量下降,导致音频信息无法正确提取。为避免对视频质量造 成较大影响,基于帧间预测模式嵌入音频的算法被提出,但该算法嵌入数据容量较小,平均 每个宏块只有2比特。为此,最近又提出一种可变尺寸块嵌入音频编码数据的方法,平均每 个宏块嵌入2. 67bit数据量,提升了嵌入容量,也保证了音频数据准确性。
[0005] 以上方法主要针对标清视频而言,但随着人们对高清、超高清视频需求的增加, H.264/AVC标准已无法得到满意的压缩性能,现有的这些方法对高清以及超高清视频的音 视频同步处理效果不佳。HEVC(英文全拼为:HighEfficiencyVideoCoding)是由国际信 息组织和移动视频专家组制定的新一代视频压缩编码标准,旨在H. 264/AVC的基础上提高 编码效率,尤其在处理高清视频时具有显著优势,高效的压缩性能和并行化处理能力,将使 其在高清、超高清等视频应用领域发挥重要作用,故基于ffiVC的音视频同步方法的研究具 有理论价值和现实意义,而HEVC的音视频同步方法中最主要的就是音频信息的嵌入方法 及提取和重构方法。

【发明内容】

[0006] 本发明所要解决的第一个技术问题是针对上述现有技术提供一种基于HEVC的音 频fg息嵌入方法。
[0007] 本发明所要解决的第二个技术问题是针对上述现有技术提供一种基于HEVC的音 频f目息彳目息提取和重构方法。
[0008] 本发明解决上述第一个技术问题所采用的技术方案为:一种基于HEVC的音频信 息嵌入方法,其特征在于:包括以下步骤:
[0009] 步骤1-1、将待嵌音频信息进行G. 729压缩编码,将压缩编码后的待嵌音频信息转 化为二进制音频数据流,用Ai^表示,其中1 <i<Len,i的初始值为l,Len表示二进制音 频数据流的长度;
[0010] 步骤1-2、在编码端,将待嵌音频信息的原始HEVC视频当前待编码帧定义为当前 编码帧,当前编码帧进行帧内预测时,将当前编码帧中正在处理的第m个预测单元定义为 当前预测单元,其中1 <m<I,m的初始值为1,I表示当前编码帧帧内预测时包含的预测 单元的总个数;
[0011] 步骤1-3、判断当前预测单元的尺寸是否为4X4,如果是,则执行步骤1-4 ;否则, 对当前预测单元不处理,然后令m=m+1,再执行步骤1-11,其中m=m+1中的"="为赋值 符号;
[0012] 步骤1-4、利用拉格朗日率失真优化函数计算出当前4X4预测单元的最优预测模 式,用Best_Mj表示,j= (0, 1,2~34)表示预测模式编号;
[0013] 步骤1-5、在帧内预测模式相关性分析的基础上,统计在最优预测模式BesU^确 定的情况下,次优预测模式的概率分布,次优预测模式用Sub_opt_Mn(n= 0, 1,2,表 示,然后选取次优预测模式出现概率在50%以上的四个模式,用Sub_opt_M。,Sut^opi^Mi, Sub_opt_M2,Sub_opt_M3表不,然后将Sub_opt_M。,Sut^opi^Mi,Sub_opt_M2,Sub_opt_M3与 当前最优预测模式Best_Mj构成一个集合S(j= 0, 1,2,…34),由于最优预测模式Best_M」 有 35 种可选值,因此Sub_opt_M。,Sut^opi^Mi,Sub_opt_M2,Sub_opt_M3与当前最优预测模 式BesLMj构成的集合也存在35个,根据集合的运算规则,将这35个集合中的任意4个集 合之间进行相与得到共同元素,如果任意4个集合之间进行相与后得到的集合中的预测模 式达到4个时,就将此4个具有相近预测效果的预测模式Na(a= 0, 1,2, 3)划分为一个预测 模式组Classb= {N。,tN2,N3},最后根据预测模式相关性将35种帧内预测模式分为11个 预测模式组,其中预测模式组用Classb= {N。,&,N2,N3}表示,b= 1,2, 3……11 ;N。,&,N2,N3 为预测模式组中4个预测效果相近的预测模式编号;
[0014] 步骤1-6、将步骤1-4中得到的最优预测模式BesUlj,对照步骤1-5中得到的预 测模式组,确定该最优预测模式BesH,所在的预测模式分组Classb= {N。,&,N2,N3},即式 Best_MjGClassb={N〇,N1;N2,N3};
[0015] 步骤1-7、依次读取二进制音频数据流Ail;,其中1彡i彡L,L表示二进制音频数 据流长度,读取的规则为:首先读取3比特音频数据,然后根据读取音频信息的长度标志位 flag值的变换读取2比特或3比特音频数据,当flag= 0时读取2比特音频数据用 示,当flag= 1时读取3比特音频数据用%表示,当最后剩下二进制音频数据长度等于1 时,即音频只剩下单比特数据,将读取位置向前移动1位后停止读取,然后输出一个音频读 取结束标志fin= 0并将其传给解码端;当剩下音频数据长度Len= 0时,停止读取二进制 音频数据,此时所有二进制音频数据读取完毕;本步骤中提及的读取音频信息的长度标志 位flag值取值为0或1 ;当所有二进制音频数据读取完毕后,将读取音频信息的长度标志 位flag值顺序发送给接收端;在后续对二进制音频数据进行嵌入时,按照前述读取顺序, 一组一组依次嵌入;
[0016] 步骤1-8、建立待嵌音频信息与预测模式之间的映射规则,进而根据映射规则判断 当前待嵌音频信息与最优预测模式BesH,是否匹配,如果匹配则不对预测模式进行修改, 然后利用最优预测模式BesH,将当前待嵌音频信息嵌入进当前预测单元;否则,用预测模 式组Classb= {N。,&,N2,N3}中满足映射规则的次优预测模式替换当前最优预测模式Best_ M,,然后利用替代后的次优预测模式将当前待嵌音频信息嵌入进当前预测单元;
[0017] 步骤1-9、按照步骤1-4到步骤1-8的方式,将待嵌音频信息依次嵌入进分割后包 含当前4X4预测单元的一个8X8编码单元中其余三个连续的4X4预测单元中;
[0018] 步骤1-10、判断已经嵌入过音频信息的4个连续的4X4预测单元的率失真代价值 总和J(CU4)与包含该4个连续4X4块的一个8X8编码单元的率失真代价值J(CU3)进行 比较,如果J(CU4)〈J(CU3),则保留嵌入的四组音频信息,否则不保留,在下一个分割成四个 连续的4X4预测单元的编码单元内重新嵌入前述四组音频信息;
[0019] 步骤1-11、读取下一个4X4预测单元,并将读取的第m+1预测单元作为当前预测 单元,然后返回步骤1-4继续执行,直至当前编码帧中的所有预测单元处理完毕;
[0020] 步骤1-12、将原始HEVC视频的下一帧待编码的帧作为当前编码帧,然后返回步骤 1-2继续执行,当读取到音频数据结尾时,如果余下单比特数据,则根据预测模式的奇偶对 应关系进行映射,当结尾数据为〇时,预测模式为偶模式,则将结尾数据〇直接嵌入;预测模 式为奇模式,则选取预测模式组Classb中为偶的次优预测模式替换,然后利用替代后的次 优预测模式将结尾数据〇嵌入进当前编码单元;当结尾数据为1时,预测模式为奇模式,则 将结尾数据1直接嵌入,预测模式为
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1