音视频匹配剪辑方法及装置与流程

文档序号：13213333阅读：522来源：国知局

本发明涉及多媒体数据处理技术领域，具体而言，涉及一种音视频匹配剪辑方法及装置。

背景技术：

随着通常在对音频或视频进行剪辑时，全程需要手工完成。具体操作过程，比如，操作人员利用视频剪辑软件将多个段视频合成一个视频，然后剪辑该视频的背景音乐，使背景音乐的时长和该视频的时长相同，最后将该背景音乐载入视频中，得到新的视频。在现有技术中，剪辑操作复杂，对剪辑音频和视频的操作人员的技术要求高，不然剪辑得到的视频容易出现视频内容和音乐节奏不搭的情况，影响视频的质量。因此，如何提供一种操作简单且可提高剪辑视频的质量的方法及装置，已成为本领域技术人员亟需解决的技术问题。

技术实现要素：

为了克服上述现有技术中的不足，本发明提供一种音视频匹配剪辑方法及装置，以解决上述问题。

为了实现上述目的，本发明较佳实施例所提供的技术方案如下所示：

本发明较佳实施例提供一种音视频匹配剪辑方法，所述方法包括：

获取预先标注有多个切割点的目标音乐，所述目标音乐被所述切割点标记为多个音乐片段；

根据所述音乐片段的时长，将获得过的至少一个目标视频切分为多个视频片段；

从多个视频片段中选取预设个数的视频片段作为目标视频片段；

采用填充算法，根据所述目标视频片段的权重及填充位置计算该目标视频片段的填充价值，并根据各个目标视频片段的填充价值，将所述目标视频片段填入所述目标音乐相对应的切割点之间，使填入的目标视频片段与音乐片段匹配组成整体价值最大的新的视频文件。

在本发明的较佳实施例中，上述整体价值为各个目标视频片段的填充价值之和，所述目标视频片段的填充价值包括自身价值和离散价值；

计算所述自身价值的方式，包括：

分析各目标视频片段的特征信息，所述特征信息包括人脸信息、多人场景信息、人脸中的微笑信息以及人为标记信息；

根据所述特征信息，赋予各视频片段对应的权值作为该目标视频片段的自身价值；

计算所述离散价值的方式，包括：

若存在至少两个目标视频片段在同一目标视频中时，所述离散价值与所述目标视频片段对应在目标视频中的视频片段与其他目标视频片段在目标视频中的视频片段之间的距离相关联；

若目标视频片段在不在同一目标视频中时，所述离散价值为预设值。

在本发明的较佳实施例中，上述根据所述目标视频片段的权重及填充位置计算该目标视频片段的填充价值，并根据各个目标视频片段的填充价值，将所述目标视频片段填入所述目标音乐相对应的切割点之间的步骤，包括：

采用贪心近似算法，迭代计算各个视频片段作为所述目标视频片段的自身价值和离散价值，以得到多个对应的视频文件的整体价值；

从多个整体价值中选取最大整体价值所对应的视频文件作为新的视频文件。

在本发明的较佳实施例中，上述所述目标音乐相对应的切割点之间的视频片段在满足离散性的条件下，按照权值递减的顺序填充。

在本发明的较佳实施例中，上述获取预先标注有多个切割点的目标音乐的步骤之前，所述方法还包括：

从所述目标音乐中提取预设频域的声音振幅信息；

选取所述预设频域中振幅激增的时间点作为所述切割点，使相邻切割点之间的间隔时长超过预设时长。

在本发明的较佳实施例中，上述根据所述音乐片段的时长，将获得过的至少一个目标视频切分为多个视频片段的步骤，包括：

选取所述音乐片段中时长最长的时段作为切割的视频片段的时长。

在本发明的较佳实施例中，填入所述目标音乐的视频片段数等于所述目标音乐的音乐片段数。

在本发明的较佳实施例中，上述将所述目标视频片段填入所述目标音乐相对应的切割点之间的步骤，包括：

修正每段目标视频片段的长度，以使目标视频片段的长度等于所述目标音乐中对应的音乐片段的长度。

本发明的较佳实施例还提供一种音视频匹配剪辑装置，包括：

获取单元，用于获取预先标注有多个切割点的目标音乐，所述目标音乐被所述切割点标记为多个音乐片段；

剪切单元，用于根据所述音乐片段的时长，将获得过的至少一个目标视频切分为多个视频片段；

选取单元，用于从多个视频片段中选取预设个数的视频片段作为目标视频片段；

视频合成单元，用于采用填充算法，根据所述目标视频片段的权重及填充位置计算该目标视频片段的填充价值，并根据各个目标视频片段的填充价值，将所述目标视频片段填入所述目标音乐相对应的切割点之间，使填入的目标视频片段与音乐片段匹配组成整体价值最大的新的视频文件。

在本发明的较佳实施例中，上述整体价值为各个目标视频片段的填充价值之和，所述目标视频片段的填充价值包括自身价值和离散价值；

所述视频合成单元计算所述自身价值的方式，包括：

分析各目标视频片段的特征信息，所述特征信息包括人脸信息、多人场景信息、人脸中的微笑信息以及人为标记信息；

根据所述特征信息，赋予各视频片段对应的权值作为该目标视频片段的自身价值；

所述视频合成单元计算所述离散价值的方式，包括：

若目标视频片段在不在同一目标视频中时，所述离散价值为预设值。

相对于现有技术而言，本发明提供的音视频匹配剪辑方法及装置至少具有以下有益效果：所述方法通过将切分的多个视频片段填入被标注有多个切割点的目标音乐中，得到视频文件，并选整体取价值最大的作为新的视频文件，简化了音视频的剪辑操作，同时还提高了剪辑的视频的质量。具体地，该方法采用填充算法，根据目标视频片段的权重及填充位置计算该视频片段的填充价值，并根据各个视频片段的填充价值，将所述目标视频片段填入所述目标音乐相对应的切割点之间，使填入的目标视频片段与音乐片段匹配组成整体价值最大的新的视频文件。所述方法及装置可使剪辑的视频文件中的视频片段和目标音乐对应的音乐节奏相匹配，在提升了剪辑视频的质量的同时，还有助于提升用户的体验感。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举本发明较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明较佳实施例提供的终端设备的方框示意图。

图2为本发明较佳实施例提供的音视频匹配剪辑方法的流程示意图。

图3为图2中所示步骤s240的子步骤的流程示意图。

图4为本发明较佳实施例提供的音视频匹配剪辑装置的方框示意图。

图标：10-终端设备；11-处理器；12-存储器；13-显示单元；100-音视频匹配剪辑装置；110-获取单元；120-剪切单元；130-选取单元；140-视频合成单元。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，是本发明较佳实施例提供的终端设备10的方框示意图。在本实施例中，所述终端设备10可以作为剪辑视频和音频的操作平台，以供用户使用。所述终端设备10可以包括处理器11、存储器12以及音视频匹配剪辑装置100。用户可利用终端设备10中的音视频匹配剪辑装置100，实现音频和视频的剪切、编辑以及合成等操作，以得到剪辑后的视频文件，简化了剪辑音视频的操作流程。

进一步地，所述终端设备10概况与包括其他元件，比如显示单元13。所述处理器11、存储器12以及现代单元各个元件之间直接或间接地电性连接，以实现数据的传输和交互。所述音视频匹配剪辑装置100包括至少一个可以软件或固件(firmware)的形式存储于所述存储器12中或固化在所述终端设备10的操作系统(operatingsystem，os)中的软件功能模块。所述存储器12可以存储音频数据、视频数据等数据。所述处理器11用于执行所述存储器12中存储的可执行模块，例如音视频匹配剪辑装置100所包括的软件功能模块及计算机程序等。

进一步地，所述存储器12可以是，但不限于，随机存取存储器(randomaccessmemory，ram)，只读存储器(readonlymemory，rom)，可编程只读存储器(programmableread-onlymemory，prom)，可擦除只读存储器(erasableprogrammableread-onlymemory，eprom)，电可擦除只读存储器(electricerasableprogrammableread-onlymemory，eeprom)等。其中，存储器12用于存储程序，所述处理器11在接收到执行指令后，执行所述程序。所述处理器11以及其他可能的组件对存储器12的访问可在所述存储控制器的控制下进行。

所述处理器11可以是通用处理器，包括中央处理器(centralprocessingunit，cpu)、网络处理器(networkprocessor，np)等；还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器11也可以是任何常规的处理器等。

在本实施例中，所述显示单元13用于播放所述终端设备10剪辑的视频、音频(比如，目标音乐)。所述显示单元13还可以用于显示音频或视频的历史使用记录。另外，所述显示单元13还可以显示用户根据自己的剪辑习惯而设置的剪辑工具栏，便于用户操作使用。所述显示单元13可以是，但不限于触控显示屏、普通液晶显示屏等，这里不作具体限定。

可以理解的是，图1所示的结构仅为终端设备10的一种结构示意图，所述终端设备10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

在本实施例中，所述终端设备10可以是，但不限于，智能手机、个人电脑(personalcomputer，pc)、平板电脑、个人数字助理(personaldigitalassistant，pda)等，优选地，所述终端设备10为智能手机。

请参照图2，是本发明较佳实施例提供的音视频匹配剪辑方法的流程示意图。在本实施例中，所述音视频匹配剪辑方法应用于图1中所示的终端设备10。所述方法通过将剪切的视频片段填充在标记有切割点的目标音乐中，以形成新的视频文件，进而简化了剪辑音频和视频的操作步骤。下面对图2中所述的音视频匹配剪辑方法的具体流程和步骤进行详细阐述。

在本发明实施例中，所述音视频匹配剪辑方法包括以下步骤：

步骤s210，获取预先标注有多个切割点的目标音乐，所述目标音乐被所述切割点标记为多个音乐片段。

在本实施例中，所获取的目标音乐预先设置有多个切割点，其切割点用于作为填入视频片段的填入点，以使填入的视频片段和对应的音乐片段相配合。另外，用户可根据具体情况设置切割点的数量，这里不作具体限定。

在步骤s210之前，存储器12可以预先存储有一首或多首音乐，用户可根据自身喜好选择其中一首作为待剪辑视频的背景音乐，也就是所述目标音乐。当然，也可以随机选取其中一首音乐作为所述目标音乐。然后可根据提取的目标音乐的音乐特征对目标音乐设置切割点。可理解地，目标音乐被切割点标记划分为多个音乐片段，每个切分的视频片段与对应的音乐片段相配合，即，相配合的视频片段便填入对应的音乐片段中。

在本实施中，所述音乐特征包括节拍特征，所述节拍特征包括所述目标音乐的声音振幅信息。上述根据提取的目标音乐的音乐特征对目标音乐设置切割点的步骤可以理解为：从所述目标音乐中提取预设频域的声音振幅信息；选取所述预设频域中振幅激增的时间点作为所述切割点，使相邻切割点之间的间隔时长超过预设时长。

一般地，音乐中包括了和声分量和节奏分量。可理解地，和声分量为有音调的乐器所演奏的音乐，例如，管弦乐器。节奏分量为没有音调的乐器所演奏的音乐，例如，鼓类乐器。所述音乐特征可以为节奏分量中的节拍信息，比如振幅突然增大的节点信息。在提取目标音乐的音乐特征时，可将目标音乐中的和声分量和节奏分量进行分离，以得到节奏分量。然后从节奏分量中提取声音振幅信息作为该目标音乐的音乐特征。

进一步地，若将节奏分量对应的声音分离为声谱图，所述振幅激增的时间点可以理解为在预设频域中，振幅从减小到增大的时间拐点。可选地，该拐点对应的振幅不小于预设的振幅阈值。

进一步地，所述切割点配合切分的视频片段，可以用于作为载入视频片段的切入点。且相邻切割点之间的间隔时长超过预设时长，以避免相邻切割点之间的间隔时长过短，而使填入视频片段也段，进而影响剪辑后的视频的播放效果。

在本实施例中，所述振幅阈值、预设时长、预设频域可以根据具体情况进行设置，这里不作具体限定。

步骤s220，根据所述音乐片段的时长，将获得过的至少一个目标视频切分为多个视频片段。

在本实施例中，所述方法可以选取所述音乐片段中时长最长的时段作为切割的视频片段的时长，然后将预先获得的一个或多个目标视频切分为同一固定时长的多个视频片段。可理解地，所述固定时长为相邻标记点之间的间隔时长最长的时段，以便目标音乐中的相邻两个标记点能填满所述视频片段，避免剪辑后的视频出现播放音乐时，无视频内容展现的情况发生。

步骤s230，从多个视频片段中选取预设个数的视频片段作为目标视频片段。

在本实施例中，选取的目标视频片段数与被划分的音乐片段数可以相等，以使每段目标视频片段与音乐片段一一对应。

步骤s240，采用填充算法，根据所述目标视频片段的权重及填充位置计算该目标视频片段的填充价值，并根据各个目标视频片段的填充价值，将所述目标视频片段填入所述目标音乐相对应的切割点之间，使填入的目标视频片段与音乐片段匹配组成整体价值最大的新的视频文件。

在本实施例中，所述填充算法为剪辑填充算法。可以理解地，所述剪辑填充算法为寻求一种最优匹配策略，将目标视频片段填入目标音乐的标记点之间，以使整体价值最大。其中，所述整体价值可理解为剪辑所得到的视频的质量，比如，视频片段与音乐片段之间的匹配程度、视频片段之间的连续性等。

进一步地，所述整体价值可以为各个目标视频片段的填充价值之和，所述目标视频片段的填充价值包括自身价值和离散价值。所述自身价值与对应的目标视频片段的权值相关联。具体地，计算所述自身价值的方式可以包括分析各目标视频片段的特征信息，所述特征信息包括人脸信息、多人场景信息、人脸中的微笑信息以及人为标记信息；根据所述特征信息，赋予各视频片段对应的权值作为该目标视频片段的自身价值。

在本实施例中，在赋予权值之前，各个特征信息预先设置有对应的权值。具体地，例如，若分析视频片段得到人脸中的微笑信息，则调用预先存储的微笑信息对应的权值，以作为该视频片段的权值。当然，在其他实施方式中，也可以人为设置视频片段的权值。权值的大小可以根据实际情况进行设置，这里对权值的大小不作具体限定。

进一步地，所述特征信息还可以包括其他信息，以丰富视频片段的类型。比如，所述特征信息还可以包括动物图像信息，比如，猫、狗等动物的图像信息，这里不再具体阐述。

在本实施例中，所述离散价值可以包括两种不同情况下的价值。例如，若存在至少两个目标视频片段在同一目标视频中时，所述离散价值与所述目标视频片段对应在目标视频中的视频片段与其他目标视频片段在目标视频中的视频片段之间的距离相关联；若目标视频片段不在同一目标视频中时，所述离散价值为预设值。其预设值可以根据具体情况进行设置，这里不作具体限定。

可选地，可以使设置不在同一目标视频中的目标视频片段的最小离散价值大于最大的自身价值，以避免填入在音乐片段中相邻的两个目标视频片段在原目标视频中也相邻。即，基于上述设计，可提高形成的视频文件的视觉效果。

进一步地，步骤s240还可以包括一个或多个子步骤。例如，请参照图3为图2中所示步骤s240的子步骤的流程示意图。在本实施例中，所述步骤s240可以包括子步骤s241和子步骤s242。

子步骤s241，采用贪心近似算法，迭代计算各个视频片段作为所述目标视频片段的自身价值和离散价值，以得到多个对应的视频文件的整体价值。

子步骤s242，从多个整体价值中选取最大整体价值所对应的视频文件作为新的视频文件。

在本实施例中，可采用解决0-1背包问题的动态规划算法得到整体价值最大的填充方式；然后可采用贪心近似算法，迭代计算，并与上次计算结果比较，舍去整体价值较小的，并以整体价值较大的视频文件作为本次计算的结果。通过迭代计算的方式，可选出最终最大整体价值所对应填充方式，以及得到整体价值最大的视频文件。

进一步地，填入所述目标音乐相对应的切割点之间的视频片段在满足离散性的条件下，按照权值递减的顺序填充。可理解地，在满足填入在目标音乐中相邻的视频片段在原目标视频片段中不相邻的条件下，可以按照目标视频片段的权值递减顺序填充目标视频。

进一步地，在填入目标视频片段之前，所述方法还可以包括修正每段目标视频片段的长度，以使目标视频片段的长度等于所述目标音乐中对应的音乐片段的长度。

进一步地，可通过对目标视频片段进行剪切，以使目标视频片段的长度等于对应的相邻标记点之间的音乐片段的长度。也可以通过对目标视频片段进行快速或慢速处理，以使该目标视频片段长度等于所述音乐片段的长度。基于上述设计，可使所剪辑后得到的视频文件在目标音乐连续的同时，还能使视频的播放具有连续性，提升观看视频文件的用户的体验感，也就提高了该视频文件的质量。

请参照图4，是本发明较佳实施例提供的音视频匹配剪辑装置100的方框示意图。本发明较佳实施例还提供一种音视频匹配剪辑装置100，所述装置可以包括获取单元110、剪切单元120、选取单元130以及视频合成单元140。

所述获取单元110，用于获取预先标注有多个切割点的目标音乐，所述目标音乐被所述切割点标记为多个音乐片段。具体地，所述获取单元110可以用于执行图2中所示的步骤s210，具体的操作方法可参照对步骤s210的详细描述。

所述剪切单元120，用于根据所述音乐片段的时长，将获得过的至少一个目标视频切分为多个视频片段。具体地，所述剪切单元120可以用于执行图2所示的步骤s220，具体的操作方法可参照对步骤s220的详细描述。

所述选取单元130，从多个视频片段中选取预设个数的视频片段作为目标视频片段。具体地，所述选取单元130可以用于执行图2所示的步骤s230，具体的操作方法可参照对步骤s230的详细描述。

所述视频合成单元140，用于采用填充算法，根据所述目标视频片段的权重及填充位置计算该目标视频片段的填充价值，并根据各个目标视频片段的填充价值，将所述目标视频片段填入所述目标音乐相对应的切割点之间，使填入的目标视频片段与音乐片段匹配组成整体价值最大的新的视频文件。具体地，所述视频合成单元140可以用于执行图2所示的步骤s240，具体的操作方法可参照对步骤s240的详细描述。

进一步地，所述视频合成单元140还可以用于执行图3中所示的子步骤s241和子步骤s242，具体的操作方法可参照对子步骤s241和子步骤s242的详细描述，这里不再赘述。

综上所述，本发明提供一种音视频匹配剪辑方法及装置。所述方法通过将切分的多个视频片段填入被标注有多个切割点的目标音乐中，得到视频文件，并选整体取价值最大的作为新的视频文件，简化了音视频的剪辑操作，同时还提高了剪辑的视频的质量。所述方法根据目标视频片段的权重及填充位置计算该视频片段的填充价值，并根据各个视频片段的填充价值，选取整体价值最大的填充方式以将所述目标视频片段填入所述目标音乐相对应的切割点之间，使填入的目标视频片段与音乐片段匹配组成整体价值最大的新的视频文件。所述方法及装置可使剪辑的视频文件中的视频片段和目标音乐对应的音乐节奏相匹配，在提升了剪辑视频的质量的同时，还有助于提升用户的体验感。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈杰;徐滢
技术所有人：成都品果科技有限公司
我是此专利的发明人

上一篇：一种图像处理的方法和设备与流程
上一篇：一种包含环境场的液压系统元器件可靠性试验装置及方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。