音视频处理方法和系统的制作方法

文档序号：7806627阅读：164来源：国知局

音视频处理方法和系统的制作方法
【专利摘要】本发明公开了一种音视频处理方法和系统，其方法包括步骤：获取音频数据对应的音频参数和视频数据对应的视频参数；根据所述音频参数和所述视频参数确定像素点填充量，其中，所述像素点填充量为每一视频数据帧中需要填充音频数据的像素点数量；根据所述像素点填充量将所述音频数据填充到所述视频数据的各视频数据帧中。采用本发明方案，可以保证音频、视频的同步性，同时又可以降低物力成本、人力成本。
【专利说明】音视频处理方法和系统

【技术领域】
[0001]本发明涉及多媒体【技术领域】，特别是涉及一种音视频处理方法和系统。

【背景技术】
[0002]目前在多媒体处理中，对音频和视频一般是分开处理的；对视频做叠加、缩放和降噪等处理；对音频做滤波、延迟等处理；由于视频处理较音频处理的数据量大，两种数据经过处理后，视频一般会慢于音频输出，具体时间差需要根据视频处理的复杂度来衡量。
[0003]为了使音频、视频同步输出，一般处理方式是采用音频专用设备，设备成本较高，而且需要根据时间差手动调节音频的输出时间，操作复杂，人力成本较高。

【发明内容】

[0004]本发明的目的在于提供一种音视频处理方法和系统，可以保证音频、视频的同步性，同时又可以降低物力成本、人力成本。
[0005]本发明的目的通过如下技术方案实现:
[0006]一种音视频处理方法，包括如下步骤:
[0007]获取音频数据对应的音频参数和视频数据对应的视频参数；
[0008]根据所述音频参数和所述视频参数确定每一帧视频数据中需要填充音频数据的像素点填充量；
[0009]根据所述像素点填充量将所述音频数据填充到所述视频数据的各视频数据帧中。
[0010]一种音视频处理系统,包括:
[0011]获取模块，用于获取音频数据对应的音频参数和视频数据对应的视频参数；
[0012]处理模块，用于根据所述音频参数和所述视频参数确定每一帧视频数据中需要填充音频数据的像素点填充量；
[0013]填充模块，用于根据所述像素点填充量将所述音频数据填充到所述视频数据的各视频数据帧中。
[0014]根据上述本发明的方案，其是在获取音频数据对应的音频参数和视频数据对应的视频参数后，根据该音频参数和视频参数确定像素点填充量，并基于该像素点填充量将音频数据填充到视频数据的各视频数据帧中，由于是将音频数据基于像素点填充量填充到各视频数据帧中，每一帧视频数据帧中填充的音频数据的数据量是相同的，即实现了均匀地音频数据填充到各视频数据帧中，因此，在音视频传输过程中，音频数据和视频数据是同步传输的，音频数据和视频数据保证了很好的同步性，同时，由于本发明方案，无需要复杂的算法即可实现，也降低了物力成本和人力成本。

【专利附图】

【附图说明】
[0015]图1为本发明的音视频处理方法实施例的流程示意图；
[0016]图2为图1中的步骤S103在其中一个实施例中的细化流程示意图；
[0017]图3为其中一个实施例中的奇数帧的填充方式示意图；
[0018]图4为其中一个实施例中的偶数帧的填充方式示意图；
[0019]图5为本发明的音视频处理系统的一个实施例的结构不意图；
[0020]图6为图1中的填充模块在其中一个实施例中的细化结构示意图；
[0021]图7为本发明的首视频处理系统的另一个实施例的结构不意图；
[0022]图8为本发明的音视频处理系统的第三个实施例的结构示意图。

【具体实施方式】
[0023]为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的【具体实施方式】仅仅用以解释本发明，并不限定本发明的保护范围。
[0024]在下述说明中，首先针对本发明的音视频处理方法的实施例进行说明，再对本发明的音视频处理系统的各实施例进行说明。
[0025]参见图1所示，为本发明的音视频处理方法实施例的流程示意图。如图1所示，本实施例中的音视频处理方法包括如下步骤:
[0026]步骤SlOl:获取音频数据对应的音频参数和视频数据对应的视频参数；
[0027]本实施例中的音频参数可以包括音频的采样率、通道数、采样位宽，视频参数可以包括视频的分辨率、帧率、视频色深，也可以根据需要只包括其中一部分的参数，例如，音频参数可以包括音频的采样率、通道数，视频参数可以包括视频的帧率；
[0028]同时，本实施例中的音频参数也可以为能用于确定音频数据的数据量的参数，视频参数可以为能用于确定视频数据的帧数的参数，其中，所确定的音频数据的数据量可以是指单位时间的数据量，也可以是任意时间段的音频数据的数据量，或者是音频数据的总数据量，所确定的帧数可以是指单位时间的帧数，也可以是任意时间段的视频数据的帧数，或者是视频数据的总帧数；
[0029]但以音频参数包括音频的采样率、通道数、采样位宽，视频参数包括视频的分辨率、帧率、视频色深为佳，这主要是考虑到，音频数据、视频数据在传输时，都包括这些相应的参数，可以从音频采样芯片或者控制数据流中获取各音频参数，可以从视频处理器中获取各视频参数，参数的获取实时而便捷，可以提闻首视频的处理效率；
[0030]步骤S102:根据所述音频参数和所述视频参数确定像素点填充量，其中，所述像素点填充量为每一视频数据帧中需要填充音频数据的像素点数量;
[0031]可以根据P = (kXn)/f确定每一帧视频中需要填充音频数据的像素点填充量，其中，P指每一帧视频数据中需要填充音频数据的像素点填充量，k指音频的采样率，η指音频的通道数，f指视频的帧率，但本发明确定每一帧视频中需要填充音频数据的像素点填充量也不限于这种方式，例如，还可以通过音频数据的总数据量与视频数据的总帧数的比值乘以视频色深与采样位宽的比值的方式确定；
[0032]步骤S103:根据所述像素点填充量将所述音频数据填充到所述视频数据的各视频数据帧中；
[0033]将所述音频数据按照单位数据量大小填充到视频数据的各视频数据帧中的像素点，单位数据量大小为一个像素点能填充的音频数据量，一般指音频的采样位宽；
[0034]在当前视频数据帧中已有和所述像素点填充量相同的像素点填充了音频数据后，则紧接着在下一视频数据帧中填充剩下的音频数据，也需要有和所述像素点填充量相同的像素点填充音频数据。以此类推，这样每一帧视频数据中都有和所述像素点填充量相同的像素点填充了音频数据，是按顺序填充的，即将音频数据均匀填充到了所述视频数据的各视频数据帧中；
[0035]一般音频的采样位宽是小于视频的视频色深的，因此，可以将音频数据也类似于视频数中的像素点，例如，采样位宽为16位(比特)，视频色深为24比特，则可以将16比特的音频数据放入到24比特的视频数据(即一个像素点对应的数据)中，剩下的8比特视频数据在音频数据填充到视频数据中的时候直接丢弃，同时又由于一个像素点填充了 16比特的音频数据，因此，填充了音频数据的像素点的视频数据是全部丢失的，填充上述的确定每一帧视频中需要填充音频数据的像素点填充量的方式也是基于采样位宽小于视频色深且剩余比特数据丢弃处理的情况的。
[0036]本实施例中方案之所以对音频进行无损处理，将音频数据均匀地嵌入在视频数据帧内，对视频数据做有损处理，主要是考虑到:在音频数据量统计公式中，每秒数据量(比特)=采样频率X采样位数X声道数，以44.1KHZ的采样率、立体声、16位的数字音频为例，每秒的数据量=44.1kX 16X2 = 1411.2kb,大约是1.4Mbps。而视频的数据量相对于音频数据却是非常巨大的，以分辨率为1920X1080、帧率为60HZ，色深24比特的视频数据为例，每秒的数据量=1920 X 1080X24X60 = 2.78Gbps。把每秒的音频数据和视频数据对It, 1.4Mbps/2.78Gbps = 0.0005036,可知，每秒的音频数据大概是视频数据的万分之五左右。从这些数据分析可以知道，一般情况下每秒钟的音频数据对比起视频数据来，基本可以忽略不计。而从我们人体感官角度来看，视频数据中有若干像素点的失真基本对视觉没有影响，但是，人体的听觉却非常灵敏，瞬间的音域变化耳朵都可以感觉得到。
[0037]据此，依据上述本实施例的方案，其是其是在获取音频数据对应的音频参数和视频数据对应的视频参数后，根据该音频参数和视频参数确定像素点填充量，并基于该像素点填充量将音频数据填充到视频数据的各视频数据帧中，由于是将音频数据基于像素点填充量填充到各视频数据帧中，每一帧视频数据帧中填充的音频数据的数据量是相同的，即实现了均匀地音频数据填充到各视频数据帧中，因此，在音视频传输过程中，音频数据和视频数据是同步传输的，音频数据和视频数据保证了很好的同步性，同时，由于本发明方案，无需要复杂的算法即可实现，也降低了物力成本和人力成本，此外，由于是对音频进行无损失处理，而对视频数据做有损处理，也就是说，采用本发明方案，可以在不增加带宽的情况下实现音视频的混合传输，可以解决传输介质带宽受限的问题。
[0038]此外，由于填充了音频数据的像素点的视频数据会丢失，若在视频数据帧里边，一直往一个特定的位置填充音频数据，会导致这一行的视频数据完全丢失，而且不可以还原，例如，都嵌入到第一行，这样会导致这一行的视频数据不可还原，为此，在其中一个实施例中，在将音频数据填充到视频数据的各视频数据帧中时，相邻两视频数据帧填充音频数据的像素点对应的位置不同，例如，可以将音频数据按照第一位置、第二位置、第一位置、第二位置......均匀地填充到视频数据的各视频数据帧中，即，需要填充到第一视频数据帧中的音频数据填充到第一位置，需要填充到第二视频数据帧中的音频数据填充到第二位置，需要填充到第三视频数据帧中的音频数据填充到第一位置，以此类推，第一位置和第二位置均可以视频数据帧中的任意行或者任意列或者任意一包括X行I列的块，其中，X和I均为整数，但第一位置和第二位置是不同的两个位置，当然，也不限于按照第一位置、第二位置、第一位置、第二位置......的顺序进行填充的方式，如还可以是第一位置、第二位置、
第三位置、第一位置......的顺序，或者还可以是第一位置、第一位置、第二位置、第二位置、第一位置......的顺序，在此不予穷举；
[0039]采用本实施例中的填充方式，即时在后端显示的时候，不对视频数据做任何处理，在视觉上，也都可以看到完整的视频图像。
[0040]但考虑到，由于视频数据的读取顺序是按照行成蛇形的顺序读取的，若填充数据也按照这样的顺序，可以避免找填充位置，为此，在其中一个实施例中，如图2所示，所述根据所述像素点填充量将所述音频数据填充到所述视频数据的各视频数据帧中可以包括步骤:
[0041]步骤S1031:将所述视频数据按顺序分为奇数帧和偶数帧；
[0042]可以通过设置标识的方式将所述视频数据分为奇数帧和偶数帧，也可以按照视频数据帧的读取顺序将将所述视频数据分为奇数帧和偶数帧；
[0043]步骤S1032:在将所述音频参数填充到视频数据的各视频数据帧中时，若当前填充音频数据的视频数据帧为奇数帧，则从第一行开始填充，若当前填充音频数据的视频数据帧为偶数帧，则从最后一行开始填充；
[0044]其中，对于奇数帧从第一行开始填充，第一行可以填充bXN比特的音频数据，其中，b是音频的采样位宽，如图3所示，N为一行的像素点的个数，该行从左向右填充，若填充完第一行还有音频数据未填充，即N小于所述像素点填充量，则再填充第二行，第二行从右向左填充，即按蛇形顺序填充，如前所述，由于音频数据相对于视频数据的数据量是很小的，因此，一般只需要一两行就可以填充完一帧的视频数据需要填充的音频数据；
[0045]对于偶数帧，如图4，也是按蛇形顺序填充，在此不予赘述。
[0046]采用本实施例中方案，要么在刚开始读取一帧视频数据时将音频数据填充进去，要么在读完一帧视频数据时将音频数据填充进去，填充更加便捷且易于实现，同时，在后端显示的时候，也可以不对视频数据做任何处理。
[0047]为了保证每个像素点是有足够容量放置音频数据的，在其中一个实施例中，所述音频参数可以包括采样位宽，所述视频参数可以包括视频色深，本发明的音视频处理方法，还可以包括步骤:判断所述视频色深是否小于所述采样位宽，若是，则生成提示信息。
[0048]此外，显示端接收到前述的填充了音频数据的视频数据，即二者的混合数据，一般包括两个处理过程，一是将音频数据从混合数据中提取出来，二是(如需要)将填充音频数据的像素点的视频数据进行还原；其中，只需要从存取音频数据的像素点中提取出音频数据，并将提取出来的数据存储于DDR(Double Data Rate双倍速率同步动态随机存储器)中，并在每一秒的音频数据打上一个时间戳，即完成了视频数据的提取。在音频数据提取的同时，也可以完成视频数据的还原，由于为了防止视频数彻底丢失，一般相邻两视频数据帧填充音频数据的像素点对应的位置是不同，因此，当前视频数据帧在某一位置的像素点中填充了音频数据，则该将当前视频数据帧的前一帧和后一帧的同一位置的像素点中是没有填充音频数据的，因此，可以将当前视频数据帧的前一帧和后一帧的视频数据求平均值确定当前视频数据帧中用于填充音频数据的像素点的视频数据，采用本实施例中方案，实现了对填充音频数据的像素点的视频数据的还原。
[0049]例如，若音频数据是按照前述的在当前填充音频数据的视频数据帧为奇数帧时从第一行开始填充、在当前填充音频数据的视频数据帧为偶数帧时从最后一行开始填充的方式，首先把混合数据进行串并转换，解出视频参数和音频数据参数，将这些参数进行简单运算后，可以得到奇、偶视频数据帧里边插入的音频数据占用的像素点个数。由于每个奇数帧视频数据插入音频数据的位置都是一样的，下一帧即偶数帧在同样的位置却是真实的视频数据，并且，一行或者2行的视频数据即使无效，对于视频观看的效果影响也不大，所以可以采用前后帧视频数据填充的方式进行视频数据还原。具体过程为:对应第一个奇数帧，其填充音频数据的像素点的视频数据直接为第一个偶数帧同一位置的视频数据，从第二个奇数帧数据开始，采用前后两帧偶数帧的数据相加取平均值的方式确定填充音频数据的像素点的视频数据；对于最后一个偶数帧，其填充音频数据的像素点的视频数据直接为最后一个奇数帧同一位置的视频数据，从第一个偶数帧开始，采用前后两帧奇数帧的数据相加取平均值定填充音频数据的像素点的视频数据。
[0050]本发明实施例的音视频处理方法，是在音视频传输前，将音频数据填充到视频数据得到混合数据，而将该混合数据传输到显示端的传输过程采用的方式不限制，可以是高速并串行与串并行转换器的串行传输，也可以是通过网络压缩方法进行传输等。
[0051]根据上述本发明的音视频处理维护方法，本发明还提供一种音视频处理维护系统，以下就本发明的音视频处理维护系统的实施例进行详细说明。图5中示出了本发明的音视频处理维护系统的实施例的结构示意图。为了便于说明，在图5中只示出了与本发明相关的部分。
[0052]如图5所示,本实施例中的音视频处理系统,包括:
[0053]获取模块201，用于获取音频数据对应的音频参数和视频数据对应的视频参数；
[0054]处理模块202，用于根据所述音频参数和所述视频参数确定像素点填充量，其中，所述像素点填充量为每一视频数据帧中需要填充音频数据的像素点数量；
[0055]填充模块203，用于根据所述像素点填充量将所述音频数据填充到所述视频数据的各视频数据帧中。
[0056]在其中一个实施例中，填充模块203在将音频数据填充到视频数据的各视频数据帧中时，相邻两视频数据帧填充音频数据的像素点对应的位置可以是不同的。
[0057]在其中一个实施例中，如图6所示，填充模块203可以包括:
[0058]划分单元2031，用于将所述视频数据按顺序分为奇数帧和偶数帧；
[0059]填充单元2032，用于在将音频数据填充到视频数据的各视频数据帧中时，若当前填充音频数据的视频数据帧为奇数帧，则从第一行开始填充，若当前填充音频数据的视频数据帧为偶数帧，则从最后一行开始填。
[0060]在其中一个实施例中，所述音频参数可以包括采样位宽,所述视频参数可以包括视频色深，如图7所示，本实施例的音视频处理系统还可以包括提示模块204,该提示模块204用于判断所述视频色深是否小于所述采样位宽，若是，则生成提示信息。
[0061]在其中一个实施例中，本实施例的音视频处理系统还可以包括还原模块205，该还原模块205用于将当前视频数据帧的前一帧和后一帧的视频数据求平均值确定当前视频数据帧中用于填充音频数据的像素点的视频数据。
[0062]本发明的音视频处理维护系统与本发明的音视频处理维护方法一一对应，在上述音视频处理维护方法的实施例阐述的技术特征及其有益效果均适用于音视频处理维护系统的实施例中，特此声明。
[0063]以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。
【权利要求】
1.一种音视频处理方法，其特征在于，包括如下步骤: 获取音频数据对应的音频参数和视频数据对应的视频参数；根据所述音频参数和所述视频参数确定像素点填充量，其中，所述像素点填充量为每一视频数据帧中需要填充音频数据的像素点数量；根据所述像素点填充量将所述音频数据填充到所述视频数据的各视频数据帧中。
2.根据权利要求1所述的音视频处理方法，其特征在于，相邻两视频数据帧填充音频数据的像素点对应的位置不同。
3.根据权利要求1所述的音视频处理方法，其特征在于，所述根据所述像素点填充量将所述音频数据填充到所述视频数据的各视频数据帧中包括步骤: 将所述视频数据按顺序分为奇数帧和偶数帧；在将所述音频数据填充到所述视频数据的各视频数据帧中时，若当前填充音频数据的视频数据帧为奇数帧，则从第一行开始填充，若当前填充音频数据的视频数据帧为偶数帧，则从最后一行开始填充。
4.根据权利要求1所述的音视频处理方法，其特征在于: 所述音频参数包括采样位宽，所述视频参数包括视频色深；还包括步骤:判断所述视频色深是否小于所述采样位宽，若是，则生成提示信息。
5.根据权利要求2至4之一所述的音视频处理方法，其特征在于，还包括步骤: 将当前视频数据帧的前一帧和后一帧的视频数据求平均值确定当前视频数据帧中用于填充音频数据的像素点的视频数据。
6.一种音视频处理系统，其特征在于，包括如下步骤: 获取模块，用于获取音频数据对应的音频参数和视频数据对应的视频参数；处理模块，用于根据所述音频参数和所述视频参数确定像素点填充量，其中，所述像素点填充量为每一视频数据帧中需要填充音频数据的像素点数量；填充模块，用于根据所述像素点填充量将所述音频数据填充到所述视频数据的各视频数据帧中。
7.根据权利要求6所述的音视频处理系统，其特征在于，所述填充模块在将音频数据填充到视频数据的各视频数据帧中时，相邻两视频数据帧填充音频数据的像素点对应的位置不同。
8.根据权利要求6所述的音视频处理系统，其特征在于，所述填充模块包括: 划分单元，用于将所述视频数据按顺序分为奇数帧和偶数帧；填充单元，用于在将音频数据填充到视频数据的各视频数据帧中时，若当前填充音频数据的视频数据帧为奇数帧，则从第一行开始填充，若当前填充音频数据的视频数据帧为偶数帧，则从最后一行开始填。
9.根据权利要求6所述的音视频处理系统，其特征在于: 所述音频参数包括采样位宽，所述视频参数包括视频色深；还包括提示模块，所述提示模块用于判断所述视频色深是否小于所述采样位宽，若是，则生成提示信息。
10.根据权利要求7至9之一所述的音视频处理系统，其特征在于，还包括: 还原模块，用于将当前视频数据帧的前一帧和后一帧的视频数据求平均值确定当前视频数据帧中用于填充音频数据的像素点的视频数据。
【文档编号】H04N21/439GK104079974SQ201410277025
【公开日】2014年10月1日申请日期:2014年6月19日优先权日:2014年6月19日
【发明者】林文富, 黄晓东申请人:广东威创视讯科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林文富;黄晓东
技术所有人：广东威创视讯科技股份有限公司
我是此专利的发明人

上一篇：通信方法及装置制造方法
上一篇：实现环境设备监控系统报警与视频监控系统联动的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。