一种影音数据的处理方法及设备与流程

文档序号:14993726发布日期:2018-07-20 23:06阅读:207来源:国知局

本申请涉及信息技术领域,尤其涉及一种影音数据的处理方法及设备。



背景技术:

随着智能设备以及音视频技术的发展,例如电影、电视剧等包含音频内容以及视频内容的影音数据对象产生和传播的速度大大加快,但是这些影音数据对象普遍独立存在,对于其中的内容缺乏统一识别及应用的方法与渠道。而目前的技术主要是技术通过视频/音频指纹以及对应的音频/视频库来进行视频/音频的识别,很难确定影音数据对象中具体包含的内容极其之间的关联关系,进而无法有效应用影音数据对象中的音视频内容。

申请内容

本申请的一个目的是提供一种影音数据的处理方法及设备,用以解决现有技术中难以确定影音数据对象中具体包含的内容极其之间的关联关系的问题。

为实现上述目的,本申请提供了一种影音数据的处理方法,该方法包括:

将影音数据对象分割为多个子对象;

提取所述子对象中关于视频内容的视频特征信息、以及所述子对象中关于音频内容的音频特征信息;

根据所述视频特征信息和音频特征信息,确定每个子对象的内容标签。

基于本申请的另一方面,还提供了一种影音数据的处理设备,该设备包括:

分割模块,用于将影音数据对象分割为多个子对象;

特征提取模块,用于提取所述子对象中关于视频内容的视频特征信息、以及所述子对象中关于音频内容的音频特征信息;

归类匹配模块,用于根据所述视频特征信息和音频特征信息,确定每个子对象的内容标签。

此外,本申请还提供了一种影音数据的处理设备,其中,该设备包括:

处理器;以及

存储有机器可读指令的一个或多个机器可读介质,当所述处理器执行所述机器可读指令时,使得所述设备执行前述的影音数据的处理方法。

本申请提供的影音数据的处理方案中,首先将影音数据对象分割为多个子对象,然后提取所述子对象中关于视频内容的视频特征信息、以及所述子对象中关于音频内容的音频特征信息,再根据所述视频特征信息和音频特征信息,确定每个子对象的内容标签,通过内容标签可以确定影音数据对象中各个子对象包含的具体内容,同时内容标签之间的关联也可以用于表示各部分内容之间的关联关系,进而可以有效地应用影音数据对象中的音视频内容,实现视音频资料的统一调度使用。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1示出了本申请实施例提供的一种影音数据的处理方法的处理流程图;

图2示出了采用本申请实施例提供的方法对影音数据对象进行处理时的整体流程示意图;

图3示出了本申请实施例提供的一种影音数据的处理设备的结构示意图;

图4示出了本申请实施例提供的另一种影音数据的处理设备的结构示意图;

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中,终端、服务网络的设备均包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。

本申请实施例提供了一种影音数据的处理方法,该方法可以对确定影音数据对象中各个子对象包含的具体内容,可以有效地应用影音数据对象中的音视频内容,实现视音频资料的统一调度使用。该方法的执行主体可以是用户设备、网络设备或用户设备与网络设备通过网络相集成所构成的设备,或者也可以是运行于上述设备的应用程序。所述用户设备包括但不限于计算机、手机、平板电脑等各类终端设备;所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现。在此,云由基于云计算(cloudcomputing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟计算机。

图1示出了本申请实施例提供的一种影音数据的处理方法,该方法包括如下步骤:

步骤s101,将影音数据对象分割为多个子对象。本申请实施例中的所述影音数据对象是指包含音视频数据的文件或者数据流,其具体内容可以是一部电影、电视剧等。所述子对象是指影音数据对象的其中一部分内容,例如对于一部时长120分钟的电影为例,可以根据时长平均分割为多个片段,每个片段即为一个子对象。

在本申请的一些实施例中,对影音数据对象进行分割时可以通过时空切片(spatio-temporalslice)聚类的方式,即根据影音数据对象中的视频内容,对所述影音数据对象进行时空切片聚类,并基于聚类结果,确定多个子对象。所述时空切片是指由视频图像序列的连续帧中相同位置的像素条带按照时序组成的图像,由于类似内容的画面在视觉上会有一定的相似性,通过时空切片聚类的方式对影音数据对象进行分割可以使得分割出每个子对象中的影音数据都属于类似的内容。

例如,一段视频中的画面包含3部分内容,第一部分为室内场景中两个人物对话的画面,第二部分为室外场景中关于园林景色的画面,第三部分则是室外场景发生爆炸的画面。由于这三部分画面在视觉上会有很大差别,因此通过时空切片聚类的方式可以准确的将所述该段视频划分为三个部分,每个部分所包含的视频帧即为一个聚类结果,其所对应的视频及音频即为一个子对象。

在实际场景中,由于每个画面的实际情况会更加复杂,基于时空切片的聚类结果也可能会出现误差,例如第一部分关于室内场景中两个人物对话的画面可能会由于人物的移动,导致其中某一部分的画面内容发生较大改变,使得该第一部分被划分为两个聚类结果,或者也有可能第二部分和第三部分的画面被划分为一个聚类结果。由此,在基于聚类结果,确定多个子对象时,可以根据所述聚类结果之间的相似度,对所述聚类结果进行动态调整,确定多个子对象。例如,通过设定动态阈值,使得进行聚类时的相似度阈值可以动态调整,从而对初步的聚类结果进行合并或者继续拆分,使得最终的聚类结果更加准确。

步骤s102,提取所述子对象中关于视频内容的视频特征信息、以及所述子对象中关于音频内容的音频特征信息。

在处理关于视频的部分时,基于每个子对象中的视频内容进行处理,例如对于一部电影,在分割为多个片段之后,对每个片段中的视频内容进行特征提取,即可获取其特征信息。在本申请的一些实施例中,可以先从所述子对象的视频内容中提取关键帧,然后对关键帧进行处理,获取所述关键帧的视频特征信息,作为所述子对象中关于视频内容的视频特征信息。

其中,关键帧指图像运动或变化中的关键动作所处的帧,能够反映视频图像序列实际表达的内容,例如对于一个关于爆炸的视频内容,其关键帧可以是表示爆炸起因(例如撞击发生时)帧、爆炸火焰生成时的帧、爆炸火焰最大时的帧、以及爆炸火焰消失时的帧等等。由于关键帧已经能够较好地反映视频内容的实际含义,因此通过将关键帧的视频特征信息作为所述子对象中关于视频内容的视频特征信息,可以减少处理运算量,提高处理速度。

所述视频特征信息可以是纹理、色彩、形状或者空间关系等图像特征,在实际场景中,可以根据场景需要选取适用于当前场景的一种或多种图像特征来作为视频特征信息,以提高处理的准确性。对于获取到的视频特征信息可以采用多维向量集的形式来记录。

而处理关于音频的部分时,则可以基于每个子对象中的音频内容进行处理。例如对于一部电影,在分割为多个片段之后,对每个片段中的音频内容进行特征提取,即可获取其特征信息。对于一般的影音数据对象,其音频内容包含多种类型,例如人物的声音、音效、环境音、背景音乐等等。以室内场景中两个人物对话的视频内容为例,其对应的音频内容可能包含两个人物的说话声、两个人物在走动时的脚步声、房间外车辆开过的声音、以及背景音乐等,这些音频内容会对应于不同波段的不同波形。由此本申请的一些实施例中,在提取音频特征时,可以在不同的波段进行波形识别,从所述子对象的音频内容中提取出不同类型的音频集,这些音频集可以是人声/音效集、环境音集或者背景音乐集等等。对于这些音频集,可以分别提取其中的音频特征信息,作为所述子对象中关于音频内容的音频特征信息。对于获取到的音频特征信息可以采用多维向量集的形式来记录。

在实际场景中,对子对象中的音频内容进行处理时,可以先将音频内容从所述子对象中分离出来。同时,为提高音频特征提取时的准确性,在不同的波段进行波形识别之前,可以先对所述子对象的音频内容进行降噪处理。

步骤s103,根据所述视频特征信息和音频特征信息,确定每个子对象的内容标签。所述内容标签是用于表示子对象实际所包含的影音内容的信息,可以根据用户的需求从各个调度描述影音内容,例如用于描述包含的内容、所处的场景或者对应的情感等。

在本申请的一些实施例中,可以采用深度学习的方式来完成内容标签的识别,在进行影音数据的处理之前,可以构建一深度学习模型,通过标注过内容标签的音频内容和视频内容作为训练集,对深度学习模型进行训练,使其可以用于子对象内容标签的识别。例如,若需要使得本申请实施例提供的方案可以识别某一电影中的片段是否有关于爆炸的内容,则可以提供各类关于爆炸的视频和音频作为训练集,该训练集中包含关于这些视频的视频特征信息和关于这些音频的音频特征信息,且已经标注其内容标签为爆炸。在训练样本足够的前提下,深度学习模型可以对输入的未标注过内容标签的视频特征信息或音频特征信息进行识别,确定其内容标签是否可以是爆炸,从而确定该电影片段所对应的内容。

本申请的另一实施例中,在确定子对象的内容标签之后,可以根据所述子对象的内容标签,对所述影音数据对象中的子对象进行归类,生成分类对象集。例如,对于一部电影,可以将所有关于爆炸的片段归类为爆炸片段的集合,将所有关于人物打斗的片段也可以单独归类为一个集合。

实际场景中,在对子对象进行归类时,可以基于外部输入或者预设的归类条件,例如可以获取用户输入的关键词,根据关键词来选取匹配的内容标签,进而得到合适的内容集合。以电影为例,若需要生成该电影的预告片,则可以将采用本申请实施例提供的方案将该电影分割为多个片段,然后生成每个片段对应的内容标签。用户可以根据实际的需要输入相应的关键词,来选取生成预告片需要的片段,例如用户需要生成风格比较温情的预告片,则可以选取符合该风格的内容标签所对应的片段,作为用于生成预告片的素材,形成一个片段集合。同理,若用户需要生成打斗内容比较多的预告片,也可以选取对应内容标签的片段。

对于音频内容和视频内容,可以单独设定其标签,即可以分为视频内容标签和音频内容标签,两者相互对应,均关联于分割获得的影音数据对象的子对象。由此,在基于内容标签进行归类时,可以单独根据音频或者视频,也可以同时结合音频和视频来进行分类,从而生成用户需要的集合,集可以根据所述子对象的视频内容标签和/或音频内容标签,对所述影音数据对象中子对象的视频内容和/或音频内容进行归类,获取视频内容集和/或音频内容集。

图2示出了采用本申请实施例提供的方法对影音数据对象进行处理时的整体流程示意图,该整体流程包括如下处理步骤:

s201,首先基于视频内容进行分割,分割为多个子对象。

s202,对于分割后的视频内容进行视频特征提取,得到视频特征信息。

s203,同时对音视频进行分离,得到分割后的视频所对应的音频内容。

s204,对音频内容进行降噪,消除噪声。

s205,在不同波段识别波形,分离出不同类型的音频,例如分离人声/音效等。

s206,对不同类型的音频进行音频特特征提取,得到音频特征信息。

s207,将视频特征信息和音频特征信息输入深度学习模型进行处理。

s208,根据深度学习的处理结果,识别内容标签,归类为多个视频内容集和音频内容集。

基于同一发明构思,本申请实施例中还提供了影音数据的处理设备,所述设备对应的方法是前述实施例中的方法,并且其解决问题的原理与该方法相似。

本申请实施例提供了一种影音数据的处理设备,该设备可以对确定影音数据对象中各个子对象包含的具体内容,可以有效地应用影音数据对象中的音视频内容,实现视音频资料的统一调度使用。该设备的具体实现可以是用户设备、网络设备或用户设备与网络设备通过网络相集成所构成的设备,或者也可以是运行于上述设备的应用程序。所述用户设备包括但不限于计算机、手机、平板电脑等各类终端设备;所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现。在此,云由基于云计算(cloudcomputing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟计算机。

图3示出了本申请实施例提供的一种影音数据的处理设备,该设备包括分割模块310、特征提取模块320和归类匹配模块330。所述分割模块310用于将影音数据对象分割为多个子对象。本申请实施例中的所述影音数据对象是指包含音视频数据的文件或者数据流,其具体内容可以是一部电影、电视剧等。所述子对象是指影音数据对象的其中一部分内容,例如对于一部时长120分钟的电影为例,可以根据时长平均分割为多个片段,每个片段即为一个子对象。

在本申请的一些实施例中,分割模块310对影音数据对象进行分割时可以通过时空切片(spatio-temporalslice)聚类的方式,即根据影音数据对象中的视频内容,对所述影音数据对象进行时空切片聚类,并基于聚类结果,确定多个子对象。所述时空切片是指由视频图像序列的连续帧中相同位置的像素条带按照时序组成的图像,由于类似内容的画面在视觉上会有一定的相似性,通过时空切片聚类的方式对影音数据对象进行分割可以使得分割出每个子对象中的影音数据都属于类似的内容。

例如,一段视频中的画面包含3部分内容,第一部分为室内场景中两个人物对话的画面,第二部分为室外场景中关于园林景色的画面,第三部分则是室外场景发生爆炸的画面。由于这三部分画面在视觉上会有很大差别,因此通过时空切片聚类的方式可以准确的将所述该段视频划分为三个部分,每个部分所包含的视频帧即为一个聚类结果,其所对应的视频及音频即为一个子对象。

在实际场景中,由于每个画面的实际情况会更加复杂,基于时空切片的聚类结果也可能会出现误差,例如第一部分关于室内场景中两个人物对话的画面可能会由于人物的移动,导致其中某一部分的画面内容发生较大改变,使得该第一部分被划分为两个聚类结果,或者也有可能第二部分和第三部分的画面被划分为一个聚类结果。由此,在基于聚类结果,确定多个子对象时,可以根据所述聚类结果之间的相似度,对所述聚类结果进行动态调整,确定多个子对象。例如,通过设定动态阈值,使得进行聚类时的相似度阈值可以动态调整,从而对初步的聚类结果进行合并或者继续拆分,使得最终的聚类结果更加准确。

特征提取模块320用于提取所述子对象中关于视频内容的视频特征信息、以及所述子对象中关于音频内容的音频特征信息。由于涉及视频和音频的处理,所述特征提取模块可以包含视频特征提取子模块和音频特征提取子模块。

在处理关于视频的部分时,基于每个子对象中的视频内容进行处理,例如对于一部电影,在分割为多个片段之后,对每个片段中的视频内容进行特征提取,即可获取其特征信息。在本申请的一些实施例中,可以先从所述子对象的视频内容中提取关键帧,然后对关键帧进行处理,获取所述关键帧的视频特征信息,作为所述子对象中关于视频内容的视频特征信息。

其中,关键帧指图像运动或变化中的关键动作所处的帧,能够反映视频图像序列实际表达的内容,例如对于一个关于爆炸的视频内容,其关键帧可以是表示爆炸起因(例如撞击发生时)帧、爆炸火焰生成时的帧、爆炸火焰最大时的帧、以及爆炸火焰消失时的帧等等。由于关键帧已经能够较好地反映视频内容的实际含义,因此通过将关键帧的视频特征信息作为所述子对象中关于视频内容的视频特征信息,可以减少处理运算量,提高处理速度。

所述视频特征信息可以是纹理、色彩、形状或者空间关系等图像特征,在实际场景中,可以根据场景需要选取适用于当前场景的一种或多种图像特征来作为视频特征信息,以提高处理的准确性。对于获取到的视频特征信息可以采用多维向量集的形式来记录。

而处理关于音频的部分时,则可以基于每个子对象中的音频内容进行处理。例如对于一部电影,在分割为多个片段之后,对每个片段中的音频内容进行特征提取,即可获取其特征信息。对于一般的影音数据对象,其音频内容包含多种类型,例如人物的声音、音效、环境音、背景音乐等等。以室内场景中两个人物对话的视频内容为例,其对应的音频内容可能包含两个人物的说话声、两个人物在走动时的脚步声、房间外车辆开过的声音、以及背景音乐等,这些音频内容会对应于不同波段的不同波形。由此本申请的一些实施例中,在提取音频特征时,可以在不同的波段进行波形识别,从所述子对象的音频内容中提取出不同类型的音频集,这些音频集可以是人声/音效集、环境音集或者背景音乐集等等。对于这些音频集,可以分别提取其中的音频特征信息,作为所述子对象中关于音频内容的音频特征信息。对于获取到的音频特征信息可以采用多维向量集的形式来记录。

在实际场景中,本申请实施例提供的设备还可以包括降噪模块、音视频分离模块等,其中降噪模块用于对子对象中的音频内容进行处理时,可以先将音频内容从所述子对象中分离出来。同时,为提高音频特征提取时的准确性,在不同的波段进行波形识别之前,音视频分离模块可以先对所述子对象的音频内容进行降噪处理。

归类匹配模块330根据所述视频特征信息和音频特征信息,确定每个子对象的内容标签。所述内容标签是用于表示子对象实际所包含的影音内容的信息,可以根据用户的需求从各个调度描述影音内容,例如用于描述包含的内容、所处的场景或者对应的情感等。

在本申请的一些实施例中,归类匹配模块330可以采用深度学习的方式来完成内容标签的识别,在进行影音数据的处理之前,可以构建一深度学习模型,通过标注过内容标签的音频内容和视频内容作为训练集,对深度学习模型进行训练,使其可以用于子对象内容标签的识别。例如,若需要使得本申请实施例提供的方案可以识别某一电影中的片段是否有关于爆炸的内容,则可以提供各类关于爆炸的视频和音频作为训练集,该训练集中包含关于这些视频的视频特征信息和关于这些音频的音频特征信息,且已经标注其内容标签为爆炸。在训练样本足够的前提下,深度学习模型可以对输入的未标注过内容标签的视频特征信息或音频特征信息进行识别,确定其内容标签是否可以是爆炸,从而确定该电影片段所对应的内容。

本申请的另一实施例中,归类匹配模块330在确定子对象的内容标签之后,可以根据所述子对象的内容标签,对所述影音数据对象中的子对象进行归类,生成分类对象集。例如,对于一部电影,可以将所有关于爆炸的片段归类为爆炸片段的集合,将所有关于人物打斗的片段也可以单独归类为一个集合。

实际场景中,在对子对象进行归类时,可以基于外部输入或者预设的归类条件,例如可以获取用户输入的关键词,根据关键词来选取匹配的内容标签,进而得到合适的内容集合。以电影为例,若需要生成该电影的预告片,则可以将采用本申请实施例提供的方案将该电影分割为多个片段,然后生成每个片段对应的内容标签。用户可以根据实际的需要输入相应的关键词,来选取生成预告片需要的片段,例如用户需要生成风格比较温情的预告片,则可以选取符合该风格的内容标签所对应的片段,作为用于生成预告片的素材,形成一个片段集合。同理,若用户需要生成打斗内容比较多的预告片,也可以选取对应内容标签的片段。

对于音频内容和视频内容,可以单独设定其标签,即可以分为视频内容标签和音频内容标签,两者相互对应,均关联于分割获得的影音数据对象的子对象。由此,在基于内容标签进行归类时,可以单独根据音频或者视频,也可以同时结合音频和视频来进行分类,从而生成用户需要的集合,集可以根据所述子对象的视频内容标签和/或音频内容标签,对所述影音数据对象中子对象的视频内容和/或音频内容进行归类,获取视频内容集和/或音频内容集。

综上所述,本申请提供的影音数据的处理方案中,首先将影音数据对象分割为多个子对象,然后提取所述子对象中关于视频内容的视频特征信息、以及所述子对象中关于音频内容的音频特征信息,再根据所述视频特征信息和音频特征信息,确定每个子对象的内容标签,通过内容标签可以确定影音数据对象中各个子对象包含的具体内容,同时内容标签之间的关联也可以用于表示各部分内容之间的关联关系,进而可以有效地应用影音数据对象中的音视频内容,实现视音频资料的统一调度使用。

另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个如图4所示的设备,该设备包括存储有机器可读指令的一个或多个机器可读介质410和用于执行机器可读指令的处理器420,其中,当该机器可读指令被该处理器执行时,使得所述设备执行基于前述根据本申请的多个实施例的方法和/或技术方案。

需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(asic)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,ram存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。

对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1