视频的生成方法、电子设备及其介质与流程

文档序号：33192584发布日期：2023-02-04 09:14阅读：36来源：国知局

1.本技术属于电子技术领域，尤其涉及一种视频的生成方法、电子设备及其介质。

背景技术：

2.目前各大视频应用平台，影视剧、电影发行方或广告商为了能够吸引用户，推出了动态海报图像(dynamic posters)、裸眼3d(dimension)等特效海报图像，相对于形式单一的静态海报图像，动态海报图像、裸眼3d等海报图像能够在视觉上吸引用户，给用户带来良好的沉浸感。
3.但目前在播放动态海报图像时，动态海报图像的背景音乐与动态海报图像的主题题材没有联系起来，无法让用户产生视听上的联动。例如，有些题材比较温和的动态海报图像，它的背景音乐节奏却比较激烈，或者有些动态海报图像前景对象运动范围比较大，但是它的背景音乐节奏却比较缓和，这种视听上的反差会引起用户不适，降低用户体验。

技术实现要素：

4.有鉴于此，本技术实施例提供了一种视频的生成方法。在本技术的视频的生成方法中，电子设备将根据每个海报图像的主题内容为每个海报图像添加海报图像主题标签，并利用图像前景分割算法、景深估计算法，确定每个海报图像中前景对象的运动范围；同时，检测背景音乐中节奏发生变化时刻的时间节点，并根据该段时间内音频变化的速率值确定该音频区间对应的主题，以及根据该音频区间的主题为段音频区间添加音频主题标签，然后根据该音频区间的时长以及上述音频变化速率值确定该音频区间的运动范围；之后，将该音频区间与和该音频区间主题标签的相似、运动范围相似的动态海报关联起来，并按照音频区间的播放顺序进行播放以形成动态海报图像卡点视频。通过前述方法使动态海报图像与背景音乐在主题内容上相契合，此外本方法还将动态海报图像的前景对象的运动范围与音频区间的运动范围关联起来，以使当动态海报图像的前景对象结束运动后，该段音频区间也正好结束播放，使用户在观看动态海报图像卡点视频时，能够产生视听上的联动，提高了用户体验。
5.下面介绍本技术的视频的生成方法。
6.第一方面，本技术实施例提供了一种视频的生成方法，该方法可应用于电子设备，该方法包括：将用于生成视频的背景音乐划分为n个连续的音频区间，其中，n为正整数；根据各音频区间的音频节奏变化和n个图像之间的匹配度，将n个图像匹配给对应的音频区间，以生成视频，其中，在视频的播放过程中，在播放到各音频区间时显示与各音频区间所匹配的图像。
7.可以理解，为了实现上述动态海报图像的卡点视频，以使每个动态海报图像与对应的音频区间不仅在主题内容上相适应，而且使得动态海报图像的前景对象的运动范围与对应的音频区间的运动范围也相适应，电子设备需要首先根据背景音乐的音频节奏变化，将背景音乐划分为多个连续的音频区间，然后根据每个音频区间的节奏变化与图像的匹配
度，将图像匹配给对应的音频区间，以生成动态海报图像的卡点视频。并且，不难理解，在动态海报图像的卡点视频的播放过程中，每当播放某个音频区间时，就会显示与该音频区间的节奏变化相匹配的图像。
8.由于音频区间的节奏变化不仅可以反映音频区间的内容，还在一定程度上反映了音频区间的运动范围，所以在一些实施例中，每个音频区间的节奏变化与图像的匹配度就包括了每个音频区间的节奏变化与图像内容之间的第一匹配度和/或每个音频区间的节奏变化与图像中前景对象的动态运动范围之间的第二匹配度。其中，第一匹配度可以通过计算反映音频区间节奏变化的节奏标签与反映图像内容的内容标签之间的匹配度得到，第二匹配度可以通过计算反映音频区间节奏变化以及播放时长的运动范围与图像中前景对象的运动范围之间的匹配度得到。
9.具体地，在一些实施例中，可以通过以下方式计算第一匹配度：利用内容识别神经网络模型对图像进行内容识别，根据识别出的内容，为图像添加反映图像内容的内容标签，以及根据音频区间的音频节奏变化为音频区间添加反映音频节奏变化的节奏标签；计算内容标签与节奏标签的匹配度，得到第一匹配度。在一些实施例中，可以通过以下方式计算第二匹配度：根据音频节奏变化以及音频区间的时长计算音频区间的运动范围；计算音频区间的运动范围与图像中前景对象的动态运动范围之间的匹配度，得到第二匹配度。其中，反映音频区间的节奏变化的节奏标签对应于下文具体实施例部分的音频区间的主题标签，反映图像内容的内容标签对应于下文具体实施例部分的图像的主题标签。
10.结合第一方面以及上述可能的实现方式，在第一方面的另一种可能的实现方式中，可以通过以下方式计算图像的前景对象的动态范围：利用前景分割神经网络模型对图像进行前景分割，得到图像的前景对象以及背景对象，并根据前景对象相对于背景对象的位置关系，得到图像中前景对象的动态运动范围。可以理解，前景对象相对于背景对象的位置关系指的是，前景对象各个方向上，最外端侧轮廓距离图像边缘的距离，前景对象各个方向上最外端侧轮廓距离图像边缘的距离即为前景对象的动态运动范围。例如，图像前景对象的最左端侧距离图像左侧边缘为2像素，前景对象的最右端侧距离图像右侧边缘为3像素，前景对象最上端侧距离图像上方边缘为2像素，前景对象最下端侧距离图像下方边缘1像素，那么此时，前景对象的动态运动范围即为：向左运动范围为2像素，向右运动范围为 3像素，向上运动范围为2像素，向下运动范围为1像素。其中，具体如何对图像进行前景分割并确定图像前景对象的运动范围的方式将在下文具体实施例部分进行介绍，此处不展开描述。
11.结合上文，在一些实施例中，根据各音频区间的节奏变化为各音频区间匹配适合的图像的方式可以包括如下几种：1)首先按照第一顺序将n个图像分别分配给n个连续的音频区间，然后判断各个音频区间与图像之间的第一匹配度以及第二匹配度是否符合要求，在各个音频区间与图像之间的第一匹配度以及第二匹配度均符合要求的情况下，再判断全部音频区间与图像的第一匹配度以及第二匹配度之和是否满足要求，在全部音频区间与图像的第一匹配度以及第二匹配度之和满足要求的情况下，按照第一顺序将为n个连续的音频区间匹配n个图像，以生成视频。
12.具体地，将n个图像按照第一顺序分别分配给n个连续的音频区间，并利用上述方法计算各音频区间与分配的图像之间的多个第一匹配度和多个第二匹配度；在多个第一匹
配度均大于第一匹配度阈值，和多个第二匹配度均大于第二匹配度阈值的情况下，计算多个第一匹配度以及多个第二匹配度之和；并且，在多个第一匹配度以及多个第二匹配度之和大于总匹配度阈值的情况下，按照第一顺序，将n个图像匹配给对应的音频区间。其中，第一匹配度阈值可以根据n个图像整体的风格与背景音乐的整体风格进行设置，例如，如果背景音乐整体风格为“燃情”，图像的整体风格也为“燃情”，说明图像与背景音乐很容易达到相匹配的程度，所以第一匹配度阈值可以设置的高一些，如果背景音乐整体风格为“紧急”，而图像的整个风格为“燃情”，说明图像与背景音乐不是很容易达到相匹配的程度，所以第一匹配度阈值可以设置的低一些。其中，第二匹配度阈值的设置方式与第一匹配度阈值的设置方式原理类似，此处不再赘述。但是，应理解，第一匹配度阈值与第二匹配度阈值均不可以过低，如果需要将第一匹配度阈值以及第二匹配度阈值设置过才可以将n个图像匹配给n个音频区间，则说明背景音乐与n个图像不适合生成视频，此时可以更换背景音乐。
13.进一步地，为了避免某个音频区间与分配的图像的第一匹配度以及第二匹配度满足条件，但是该音频区间与分配的图像的第一匹配度与第二匹配度之和没有满足条件的情况发生，例如，以音频区间1与图像1之间的第一匹配度为1.1，第二匹配度为1.1为例，假设第一匹配度阈值为1，第二匹配度阈值也为1，显然，音频区间1与图像1的第一匹配度和第二匹配度均满足要求，但是音频区间1与图像1的第一匹配度和第二匹配度之和仅为2.2，说明音频区间1与图像1仍然不是特别匹配。在一些实施例中，还需计算各音频区间与图像的第一匹配度与第二匹配度之和是否满足条件。具体地，在多个第一匹配度均大于第一匹配度阈值，和多个第二匹配度均大于第二匹配度阈值的情况下，计算多个第一匹配度以及多个第二匹配度之和，包括：分别计算各音频区间与分配的图像之间第一匹配度与第二匹配度之和，并且，在各音频区间与分配的图像之间的第一匹配度与第二匹配度之和均大于第三匹配度阈值的情况下，计算多个第一匹配度以及多个第二匹配度之和。其中，第三匹配度阈值对应与下文具体实施例部分的第一预设值，关于第一预设值的设置可以参考下文具体实施例部分，此处不作过多描述。
14.2)由于1)中的方式需要大量的计算，不利于节约电子设备的功耗，所以，在一些实施例中，电子设备可以在按照第一顺序将n个图像分别分配给n个连续的音频区间后，直接计算全部音频区间与图像的第一匹配度以及第二匹配度之和是否满足要求，在全部音频区间与图像的第一匹配度以及第二匹配度之和满足要求的情况下，按照第一顺序将为n个连续的音频区间匹配n个图像，以生成视频。通过这种方式，在节省电子设备功耗的同时，最大程度上生成能够满足用户观影需求的动态海报图像的卡点视频。
15.具体地，在一些实施例中，根据各音频区间的音频节奏变化和n个图像之间的匹配度，将n个图像匹配给对应的音频区间，包括：将n个图像按照第一顺序分别分配给n个连续的音频区间，并计算各音频区间与分配的图像之间的多个第一匹配度与第二匹配度；计算多个第一匹配度以及多个第二匹配度之和，并且，在多个第一匹配度以及多个第二匹配度之和大于总匹配度阈值的情况下，按照第一顺序，将n个图像匹配给对应的音频区间。其中，总匹配度阈值对应于下文的第二预设值，关于第二预设值的设置可以参考下文具体实施例部分，此处不再赘述。
16.进一步地，为了避免总匹配度达到要求，但是各个音频区间与图像的第一匹配度之和以及第二匹配度之和没有达到要求，例如，第一顺序下，全部音频区间与图像的第一匹
配度以及第二匹配度之和为4，大于总匹配度阈值3，但是某个音频区间与图像的第一匹配度与第二匹配度之和非常小(例如为0.1)，这种情况下生成的视频一样会存在视听上不协调的问题，所以，在一些实施例中，在计算多个第一匹配度以及多个第二匹配度之和之前，可以分别计算各音频区间与分配的图像之间第一匹配度与第二匹配度之和，在各音频区间与分配的图像之间的第一匹配度与第二匹配度之和均大于第三匹配度阈值的情况下，再计算多个第一匹配度以及多个第二匹配度之和，然后在多个第一匹配度以及多个第二匹配度之和大于总匹配度阈值的情况下，按照第一顺序，将n个图像匹配给对应的音频区间，以生成符合要求的视频。
17.结合第一方面以及上述可能的实现方式，在第一方面的另一种可能的实现方式中，将用于生成视频的背景音乐划分为n个连续的音频区间，包括：根据背景音乐的节奏变化，将背景音乐划分为n个连续的音频区间。可以理解，背景音乐的节奏发生变化时对应有时间节点，也即音频节点，各个音频节点之间即构成音频区间，由于音频区间是按照背景音乐的节奏变化划分的，所以音频区间可以反映背景音乐中某段音频的风格或者主题内容。在得到背景音乐的多个连续的音频区间后，即可按照音频区间的风格或主题内容，以及该音频区间的节奏变化，按照上述方法，为该音频区间匹配适合的图像，以生成动态海报图像的卡点视频。
18.第二方面，本技术实施例还提供了一种电子设备，该电子设备包括存储器，存储有计算机程序指令；处理器，所述处理器和存储器耦合，当所述存储器存储的计算机程序指令被所述处理器执行时使得所述电子设备实现上述第一方面中任一项所述的视频的生成方法。
19.第三方面，本技术实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述第一方面中任一项所述的视频的生成方法。
20.第四方面，本技术实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行上述第一方面中任一项所述的视频的生成方法。
21.可以理解的是，上述第二方面至第四方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。
附图说明
22.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
23.图1是一些实施例提供的一例视频的生成方法的应用场景图；
24.图2是一些实施例提供的一例动态海报显示示意图；
25.图3是一些实施例提供的又一例动态海报显示示意图；
26.图4是一些实施例提供的一例视频的生成方法流程示意图；
27.图5是一些实施例提供的一例计算海报前景运动范围的示意图；
28.图6是一些实施例提供的一例检测音频节点中节奏变化的时间节点示意图；
29.图7是一些实施例提供的一例利用本技术的视频的生成方法调整海报播放顺序的方法示意图；
30.图8是一些实施例提供的一例智能电视的硬件结构示意图；
31.图9是一些实施例提供的一例智能电视的软件结构示意图；
32.图10是一些实施例提供的一例视频的生成方法流程示意图；
33.图11是一些实施例提供的一例服务器的结构示意图。
具体实施方式
34.下面将使用本领域技术人员通常采用的术语来描述说明性实施例的各个方面。可以理解，本技术的说明性实施例包括但不限于视频的生成方法及电子设备、存储介质等。
35.图1根据本技术实施例提供了一种动态海报的应用场景图。
36.如图1所示，智能电视100的显示界面分为动态海报图像展示区域110和电影简介区域120，动态海报图像展示区域110用于将近期上线电影或电视剧等视频资讯以动态海报图像的方式呈现给用户，以此吸引用户点击观看某个视频。电影简介区域120将各种电影以如图1所示的布局方式罗列出来，以便于用户通过电影简介区域120中各种视频的简介，结合自身喜好选择某个视频观看。其中，动态海报图像是电子设备通过对海报图像进行景深估计(depth estimation)后得到海报图像的景深估计图，然后根据景深估计图，按照指定的运动模式(运动范围和时长)对海报图像各个像素的深度(depth)值与颜色(rgb) 值进行转换，形成的海报图像前景对像发生运动的视频。例如，假设海报图像中前景对象向左运动，当前景对象向左运动的时候，前景对象经过的区域中的像素值会转变为与前景对象像素深度值以及颜色一致的像素值，当该运动过程变得连续起来，即可在视觉上带给用户一种前景对象向左运动的感觉，也即形成了动态海报图像。
37.应理解，本技术的动态海报图像可以通过上述景深估计的方式形成，也可以通过其他方式形成，例如通过视角模拟(view synthesis)、光照模拟(light field synthesis)等对海报图像进行处理，模拟海报图像内容发生变动以形成动态海报图像，本技术对形成动态海报图像的方式不作限制。
38.还应理解，本技术的视频的生成方法可以应用于各种电子设备，例如，平板电脑、手机、服务器、便携式游戏机、便携式音乐播放器、阅读器设备、或能够访问网络的其他电子设备。本技术对视频的生成方法可应用的电子设备的类型不作限制。为了便于描述，下文将继续以智能电视100为例进行说明。
39.目前各大视频应用平台提供的动态海报图像的背景音乐与海报图像的主题题材、海报图像前景对象的运动模式之间没有关联，无法让用户产生视听上的联动。例如图2所示电影1动态海报图像和电影2动态海报图像，这两张动态海报图像的背景音乐均为背景音乐1 的音频区间1。假设电影1的主题为“舒心”，电影2的主题是“燃情”，而背景音乐1的音频区间1的主题或者说风格是“紧急”，那么，当用户在观看由电影1动态海报图像和电影 2动态海报图像构成的视频时，会发现背景音乐和图像很不协调；而且，电影1动态海报图像的前景对象101的运动方式比较缓和(绕中心旋转)，电影2动态海报图像的前景对象201 的运动方式也比较缓和(沿着电影2动态海报图像右对角线方向运动)但是背景音乐1的音频区间1的节奏比较激烈，这种反差同样会显得视频的画面和背景音乐不协调。
40.为了改善动态海报图像的播放方式，使用户获得更好的视听体验，本技术一些实施例提供了一种视频的生成方法。该方法通过检测背景音乐中的音频节奏发生变化的音频节点，将背景音乐划分为多个音频区间，并且将视频也划分多个视频片段，其中视频片段的数量与音频区间的数量是相等的，然后在不同的音频区间，匹配不同的视频片段，并调整各个音频区间与与其对应的视频片段的播放时长，使二者的播放时长相等，之后按照音频区间的播放顺序播放视频片段，以生成卡点视频。例如，以背景音乐1和视频1为例，假设背景音乐1检测到5个音频节点，那么背景音乐1将被划分为6个音频区间，同样，视频1 也将被划分为6个视频片段，并且每个视频片段和与其匹配的音频区间的播放时长相等，具体地，背景音乐1的各个音频区间与视频1的各个视频片段的对应关系如下表1所示：
41.表1
[0042][0043]
由上表1可以看出，上述方式虽然可以在一定程度上使视频与背景音乐关联起来，即每个音频区间对应一个视频片段，并且每个音频区间的播放时长与该音频区间对应的视频片段的播放时长相等，但是这种方式只能针对已有的图片或视频素材进行编辑，而且为了保证每个音频区间与视频片段的播放时长相等，所以很难同时使得每个音频区间的主题与各个视频片段的主题相对应。例如，假设视频片段1的主题为“燃情”，播放时长为3秒；视频片段2的主题为“紧急”，播放时长为7秒；音频区间1的播放时长原本为5秒，主题为“燃情”，音频区间2的播放时长原本是是5秒，主题为“紧急”，为了使得音频区间1的播放时长与视频片段1播放时长、以及音频区间2与视频片段2的播放时长相等，需要调整音频区间1的播放时长(或视频片段1的播放时长)，最终音频区间1的播放时长调整为3秒，音频区间2的播放时长变为为7秒，但是可以理解，此时音频区间2的主题就变为：前2秒的主题为“燃情”，后5秒主题为“紧急”，在音频区间2播放主题为“紧急”的视频片段2的时，在最开始的前2秒，视频的画面和背景音乐仍然存在不协调的问题。
[0044]
为了解决上述技术问题，本技术另外一些实施例提供了一种视频的生成方法。具体地，在该方法中，智能电视100将根据m张海报中每张海报图像所要表达的主题内容，为每
张海报图像添加海报图像主题标签，并利用图像前景分割算法、景深估计算法等，确定每张海报图像中前景对象的运动范围。
[0045]
同时，智能电视100将检测音乐库中至少一个音乐x中节奏发生变化的n个音频节点，然后根据n个音频节点将音乐x划分为(n+1)个连续的音频区间，并根据各个音频区间内的音频变化速率值确定各段音频区间对应的主题及对应的主题标签，然后根据各段音频区间的播放时长以及上述各段音频区间内音频变化速率值确定各段音频区间的运动范围。
[0046]
之后，智能电视100将计算音乐x的每个音频区间的主题标签、运动范围和各张动态海报图像的匹配度，得到m*n组动态海报图像与音频区间的匹配度，计算出每种动态海报图像与各个音频区间的组合方式的总匹配度，然后从多种组合方式中确定出总匹配度最高且高于预设值的一种动态海报和音频区间的组合方式，以得到动态海报卡点视频。例如，以动态海报图像1(下称“图像1”)，动态海报图像2(下称“图像2”)，音乐1的音频区间1(下称“区间1”)，音乐1的音频区间2(下称“区间2”)，假设前述动态海报图像与背景音乐1各音频区间的匹配度如下表2所示：
[0047]
表2
[0048] 图像1图像2区间11.251.20区间21.221.24
[0049]
从表2可知，图像1与区间1的匹配度为1.25，图像2与区间1的匹配度为1.20，图像1与区间2的匹配度为1.22，图像2与区间2的匹配度为1.24。那么，动态海报图像与音乐1各音频区间的2种组合中每种组合的总匹配度如下表3所示：
[0050]
表3
[0051][0052]
从表3中可以看出，组合1{区间1-图像1，区间2-图像2}的总匹配度为2.49，组合2{区间1-图像2，区间2-图像1}的总匹配为2.42，组合1的总匹配度最高且假设高于预设值，那么智能电视100将按照组合1的方式，即在音乐1的音频区间1播放动态海报图像1，音乐2的音频区间2播放动态海报图像2，并以此生成动态海报图像卡点视频。其中，关于动态海报图像与音频区间的匹配度计算、动态海报图像与音频区间的组合方式等将在下文进行详细介绍，此处不再赘述。
[0053]
可以理解，在上述方法中，可能存在上述m张动态海报图像与音乐x所有音频区间的各种组合方式的总匹配得分均为小于预设值，即音乐x不满足生成包括m张动态海报图像组成的动态海报图像卡点视频的条件。在这种情况下，智能电视100可以更换音乐x，即将音乐 x更换为音乐y，并按照上述方式重新确定音乐y的各个音频区间与上述m张动态海报图像的总匹配度最高且高于预设值的组合方式，以得到新的动态海报图像卡点视频。其中，智能电视100更换音乐的方式将在下文进行详细介绍，此处不再赘述。
[0054]
还可以理解，在上述方法中，也可能存在在m张动态海报图像中新增张动态海报图
像或者更换张动态海报图像中某一张动态海报图像的情况，在这种情况下，智能电视100将按照新的全部动态海报图像，通过上述方式，重新确定音乐x的各个音频区间与新的全部动态海报图像的各种组合方式的总匹配度最高且高于预设值的组合方式，以得到新的动态海报图像卡点视频。
[0055]
需要说明的是，动态海报图像的数量一般与音频区间的数量相同，即假设有m张动态海报图像，那么对应的，智能电视100将从音乐x的(n+1)个音频区间中，先随机选择m 个连续的音频区间，然后当m个音频区间与m张动态海报图像的所有组合方式的总匹配度均小于预设值时，智能电视100将在m个音频区间中任意一个音频区间的前一个音频区间或者后一个音频区间开始，重新获取m个音频区间，然后重复上述方法，直至确定满足条件的m个音频区间，并以该m个音频区间构成的音频作为生成动态海报图像卡点视频的背景音乐。应理解，在一些实施例中，动态海报图像的数量也可以大于音频区间的数量，此时智能电视100将为多出的动态海报图像重新确定新的背景音乐，以形成多出的动态海报图像的卡点视频。其中，具体实施细节将在下文进行介绍，此处不再赘述。
[0056]
通过上述方法形成的动态海报图像卡点视频，不仅使动态海报图像与背景音乐在主题内容上相契合，而且还将动态海报图像前景对象的运动范围和背景音乐各段音频区间的运动范围关联起来，解决了动态海报图像前景对象运动范围与背景音乐不协调的问题，为用户提供视听上的联动，提高用户体验。例如，假设图3所示的电影1动态海报图像的主题标签为“舒心”，电影2动态海报图像的主题标签为“燃情”，背景音乐1的音频区间1的主题标签为“紧急”，背景音乐1的音频区间2的主题标签为“缓和”，智能电视100通过本技术的动态海报卡点视频生成的方法，将主题标签一致或近似并且运动范围一致或近似的电影1动态海报图像和背景音乐1的音频区间1关联起来，并将主题标签一致的或近似以及运动范围一致或近似的电影2动态海报图像和背景音乐1的音频区间2关联起来，然后按照音频播放顺序(音频区间1—音频区间2)播放电影1动态海报图像以及电影2动态海报图像，如此，电影1动态海报图像以及与电影1动态海报图像相关联的背景音乐1的音频区间1，或电影2动态海报图像以及与电影2动态海报图像相关联的背景音乐1的音频区间2能够给用户带来视听上的联动，不仅能提高用户的体验，还可以引起用户对与动态海报图像相对应的电影的兴趣。
[0057]
可以理解，在本技术实施例中，上述背景音乐和海报图像可以是在智能电视100联网后，智能电视100从云端或其他服务器下载并存储在本地的音乐和海报图像，例如智能电视100联网后从各大视频应用平台下载最新推出的各个影视剧的海报图像、音乐等后，将下载的音乐和海报图像存储在本地；或者，智能电视100根据用户喜好，从用户存储在智能电视100的音乐库、图像库中获取上述背景音乐以及海报图像。
[0058]
为了更好地理解上述视频的生成方法的实现过程，下面将结合图4至11详细介绍本技术视频的生成方法的实施细节。需要说明的是，下述方法可以由智能电视100的处理器执行，也可以由安装在智能电视100上的应用程序，例如是安装在智能电视100上的视频应用程序、图库应用程序等执行，本技术对此不作限制，为了便于描述，下面以智能电视 100的处理器为执行主体介绍下述方法。
[0059]
还应理解，上述方法可以针对确定的m张海报图像，然后为m张海报图像选择合适的背景音乐，可以针对选定的n首背景音乐，然后为n首背景音乐分别匹配适应背景音乐的海报图像，两种方式的原理和实现过程类似。下面以为确定的m张海报图像选择合适的背景
音乐为例，介绍本技术的方法。
[0060]
具体地，图4是一些实施例提供的一例视频的生成方法的方法流程示意图。如图4 所示，方法400包括：
[0061]
步骤402，获取m张海报图像，确定每张海报图像的主题标签。
[0062]
可以理解，为使m海报图像能够匹配到与海报图像内容、主题相适应的背景音乐，首先需要根据海报图像的内容，确定出每张海报图像的主题标签，然后根据每张海报图像的主题标签为全部海报图像匹配合适的背景音乐。在一些实施例中，上述m张海报图像可以是智能电视100从获取安装在智能电视100上的视频应用程序或其他应用程序中存储的海报图像中获取的，例如智能电视100从安装在智能电视100的图库中获取m张海报图像。其中，m张海报图像可以是视频应用程序根据用户的喜好推送的视频的海报图像，也可以是近期上线的视频的海报图像，本技术对此不作限制。
[0063]
具体地，在一些实施例中，智能电视100可以利用图像识别方法对每张海报图像的内容进行识别，并且根据识别出的海报图像内容，确定每张海报图像的主题，并为每张海报图像添加与海报图像主题相适应的主题标签。例如，假设智能电视100利用图像识别方法识别出某张海报图像内容中包含动作、汽车等元素，则该海报图像的主题为动作片，智能电视100为该海报图像添加的主题标签为“紧急”；如果智能电视100利用图像识别方法识别出某张海报图像内容中包含桌子、房间等元素，则该海报图像的主题为亲情片，智能电视100为该海报图像添加的主题标签为“温情”。在一些实施例中，智能电视100可以预先训练图像识别模型，然后利用训练好的图像识别模型，对所获取的m海报图像进行内容是被，并根据识别出的内容为每张海报图像添加主题标签。其中，智能电视100训练图像识别模型的方法以及为海报图像添加主题标签的方法将在下文进行详细介绍。
[0064]
步骤404，确定每张海报图像前景对象的运动范围。
[0065]
可以理解，如果仅根据海报图像的主题标签为海报图像匹配背景音乐，有可能会匹配到与海报图像主题相近或一致，但是音乐时长较短或较长的音乐，此时如果对音乐进行截取等操作，可能会导致整个动态海报图像卡点视频在播放时，背景音乐的不连续，同样会存在视听上不协调的问题，所以，在本技术的一些实施例中，还需要确定海报图像前景对象的运动范围，进而依据海报图像前景对象的运动范围以及海报图像的主题，为海报图像匹配合适的背景音乐，以使背景音乐不但与海报图像主题相适应，而且在播放时长、音频振幅变化上，也能与海报图像的前景运动范围相适应。
[0066]
具体地，在一些实施例中，智能电视100对每张海报图像内容进行前景分割(foregroundsegmentation)，得到海报图像的前景对象，然后智能电视100根据海报图像的前景对象在海报图像中的位置能够初步确定前景对象相对于海报图像的背景对象的运动范围，即前景对象各个方向上的轮廓最外端距离海报图像边缘(上下左右)的距离即为前景对象相对于海报图像背景对象的运动范围。例如，海报图像前景对象的最左端侧距离海报图像左侧边缘为2像素，前景对象的最右端侧距离海报图像右侧边缘为3像素，前景对象最上端侧距离海报图像上方边缘为2像素，前景对象最下端侧距离海报图像下方边缘1像素，那么此时，前景对象相对于海报图像背景对象的运动范围即为：向左运动范围为2像素，向右运动范围为3像素，向上运动范围为2像素，向下运动范围为1像素。其中，智能电视100 对海报图像进行前景分割以及确定海报图像前景对象的运动范围的具体实施细节将在下
文介绍，此处不再赘述。
[0067]
步骤406，获取音乐作为待匹配背景音乐，对待匹配背景音乐进行音频区间划分，并确定待匹配背景音乐每个音频区间的主题标签。
[0068]
可以理解，在为特定的某一张海报图像匹配合适的背景音乐时，首先需要确定背景音乐的风格或主题与海报图像是否相适应，然后以主题与海报图像相适应的音乐作为该海报图像的背景音乐。同理，在同时为多张海报图像选取适合的背景音乐时，也需要确定背景音乐与多张海报图像中全部或大部分海报图像的主题是相适应的，如此形成的动态海报图像卡点视频才能在视听效果上实现初步的一致，故在获取到音乐作为待匹配背景音乐后，需要对背景音乐进行音频区间划分，然后根据各个音频区间的主题标签，对音频区间与海报图像进行初步的匹配。
[0069]
具体地，在一些实施例中，智能电视100可以先从音乐库中获取至少一首音乐作为待选的背景音乐，然后对待选的背景音乐、根据其音乐节奏的变化，检测出音乐节奏变化对应的n个时间节点，并按照n个时间节点将背景音乐划分为(n+1)个连续的音频区间，然后根据各个音频区间音频变化确定各音频区间的主题标签，并为各个音频区间添加主题标签。其中，智能电视100检测待匹配背景音乐的音频节点以及为各个音频区间添加主题标签的具体实施细节将在下文进行介绍，此处不再赘述。
[0070]
步骤408，确定上述待匹配背景音乐中每个音频区间的运动范围。
[0071]
如步骤404中所述，仅根据海报图像的主题标签为海报图像匹配背景音乐，有可能会匹配到与海报图像主题相近或一致，但是音乐时长较短或较长的音乐，进而出现视听上不协调的问题，所以在为海报图像匹配背景音乐的时候还要考虑背景音乐与海报图像的运动范围是否相适应。故在本技术的一些实施例中，还需计算上述待选背景音乐的各个音频区间的运动范围，然后在根据海报图像主题标签与各个音频区间的主题标签对海报图像与音频区间进行初步匹配的基础上，再根据海报图像的运动范围与音频区间的运动范围进行匹配，进而得到上文所述的，不仅在主题上与海报图像的主题相适应，而且在运动范围上与海报图像前景对象的运动范围相适应的背景音乐。
[0072]
具体地，在一些实施例中，智能电视100可以根据音频区间的音频区间时长(即音频区间播放时长)和音频变化速率值确定该音频区间的运动范围。
[0073]
例如，智能电视100通过式(1)计算某一音频区间的运动范围：
[0074]
音频区间的运动范围＝音频变化速率值
×
音频区间时长
ꢀꢀꢀꢀꢀ
(1)
[0075]
以计算音频变化速率值为7，音频区间时长为6的音频区间2的运动范围为例，音频区间2的运动范围＝7
×
6＝42。
[0076]
假设音乐id号为“000012”中部分音频区间的区间时长以及音频变化速率值为：音频区间1的音频区间时长为3秒，音频变化速率值为4，主题标签为“燃情”；音频区间 2的音频区间时长为6秒，音频变化速率值为7，主题标签为“紧急”；音频区间3的区间时长为4秒，音频变化速率值为1，主题标签为“舒心”，那么智能电视100利用式(1) 计算出音乐id号为“000012”中部分音频区间的运动范围以及各音频区间对应的主题标签如下表4所示：
[0077]
表4
[0078][0079]
从上表6可以看出，音频区间1的运动范围为12；音频区间2的运动范围为42；音频区间3的运动范围为4。
[0080]
步骤410，计算上述每张海报图像与待匹配背景音乐各个音频区间的匹配度。
[0081]
可以理解，在为特定的某一张海报图像匹配的适合的背景音乐时，只需该海报图像与背景音乐的某一个音频区间的相适应即可，但是在为上述m张海报图像同时匹配适合的背景音乐时，则需要分别对每张海报图像与每个音频区间进行匹配，然后从中确定出最适合的组合方式。如此，就需要计算每张海报图像与每个音频区间的匹配度，然后根据每张海报图像与每个音频区间的匹配度，进而确定出m张海报图像与每个音频区间的每一种组合方式的总匹配度。
[0082]
具体地，在一些实施例中，智能电视100首先计算每张海报图像与每个音频区间的主题标签的匹配度，然后计算每张海报图像与每个音频区间的运动范围的匹配度，最后将每张海报图像与每个音频区间主题标签的匹配度与每张图像与每个音频区间的运动范围的匹配度相加，得到每张海报图像与每个音频区间的匹配度。
[0083]
示例性的，以计算一张海报图像与一个音频区间的匹配度为例，智能电视100首先计算该海报图像与该音频区间的主题标签的匹配度，例如是0.8，然后计算该海报图像与该音频区间的运动范围的匹配度，例如是0.9，之后将该海报图像与该音频区间的主题标签的匹配度与该海报图像与该音频区间的运动范围的匹配度相加，得到该海报图像与该音频区间的匹配度：0.8+0.9(1.7)。其中，该步骤的其他具体实施细节将在下文进行介绍，此处不再赘述。
[0084]
步骤412，对上述m张海报图像与待匹配背景音乐各个音频区间进行排列组合，并计算每一种组合方式下海报图像与待匹配音乐的总匹配度。
[0085]
可以理解，上述m张海报图像与各个音频区间存在多种组合方式，每一种组合方式中，每张海报图像与对应的音频区间均有对应的匹配度，为了均衡考虑各个海报图像与音频区间之间的匹配度，智能电视100需要计算每种组合方式下海报图像与待匹配背景音乐的总匹配度，可以理解，总匹配度可以在一定程度上表示各张海报图像与各个音频区间之间最优的匹配方式。例如，继续以表2所示的图像1、2以及音频区间1、2为例，假设图像1、 2与音频区间1、2之间的匹配度为下表5：
[0086]
表5
[0087] 图像1图像2区间11.301.20区间21.251.10
[0088]
从表5可知，图像1与区间1的匹配度为1.30，图像2与区间1的匹配度为1.20，图像1与区间2的匹配度为1.25，图像2与区间2的匹配度为1.10。那么，图像与音乐1 各音频区间
的2种组合中每种组合的总匹配如下表6所示：
[0089]
表6
[0090][0091]
从表6中可以看出，组合1{区间1-图像1，区间2-图像2}的总匹配度为2.40，组合 2{区间1-图像2，区间2-图像1}的总匹配为2.45，可以看出，组合1中，虽然图像1与区间1的匹配度很高，但是这种组合方式下，图像2与区间2的匹配度较低，为1.10，而组合2中，虽然图像1、2与区间1、2的匹配度均未大于组合1中图像1与区间1的匹配度，但是，组合2中海报图像与音频区间的匹配度都比较接近，并且总匹配度也大于组合 1，显然，使用组合2的组合方式更能够综合考虑到海报图像与音频区间之间的匹配。。
[0092]
可以理解，如果仅考虑总匹配是否满足条件，可能出现尽管总匹配度满足条件，但是单个的某几张张海报图像与音频区间特别不匹配，比如，继续以上表5所示的海报图像与区间为例，假设组合1{区间1-图像1，区间2-图像2}的总匹配度为2.40，组合2{区间 1-图像2，区间2-图像1}的总匹配为2.30，组合1的总匹配度大于组合2的总匹配度，但是组合1中区间1与图像1的匹配度为0.10，区间2与图像2的总匹配度为2.30，明显，此时组合1中区间1与图像1的匹配度太低。为了避免这种情况发生，在一些实施例中，智能电视100可以只在每种组合方式下，每张海报图像与音频区间的匹配度大于第一预设值时，再计算这种组合方式下的总匹配度，也即只有当每张海报图像与音频区间均满足条件时，再考虑该种组合方式是否满足条件。
[0093]
具体地，在一些实施例中，智能电视100可以对上述m张海报图像与各个音频区间进行排列组合，然后利用下式(2)计算海报图像与音频区间的排列组合数量：
[0094][0095]
其中，i表示海报图像的数量，j表示音频区间的数量，a(i,j)表示i张海报图像数量与j个音频区间的排列组合数量。之后，智能电视100再分别计算每种组合方式下，海报图像与待匹配背景音乐的总匹配度，然后执行步骤414。其中，步骤412中的具体实施细节，将在下文进行详细介绍。
[0096]
步骤414，从上述各种组合方式中确定出最高的总匹配度，然后判断最高的总匹配度是否大于或等于第二预设值。
[0097]
可以理解，步骤412中确定出的最高的总匹配度的组合方式未必也符合要求，比如，按照步骤412确定出的最高总匹配度仅为0.21，所以智能电视100还需要将按照步骤412 确定的最高匹配度与第二预设值进行比较，只有在最高总匹配度大于第二预设值的情况下，才将对应组合方式作为可以形成动态海报图像卡点视频的组合方式，如果最高的总匹配度都小于第二预设值，那么说明作为待匹配的背景音乐不合适，智能电视100将更换待匹配的背景音乐。具体地，在一些实施例中，智能电视100需要从多种组合方式中，确定出总匹配度最高的组合方式，并且将最高的总匹配度与预设值进行比较，在最高的总匹配度大于或等于第二预设值的情况下，执行步骤416，即按照总匹配度最高的组合方式生成动态海报
图像的卡点视频；在最高的总匹配度小于预设值，执行步骤406，即重新获取待匹配背景音乐。
[0098]
步骤416，按照总匹配度最高的组合方式，生成动态海报图像的卡点视频。
[0099]
智能电视100按照上述总匹配度最高的组合方式，按照音频区间播放的顺序，生成m 张海报图像的动态海报图像的卡点视频。
[0100]
步骤418，播放上述动态海报图像的卡点视频。
[0101]
在生成动态海报图像卡点视频后，智能电视100在图1所示的视频应用首页上播放该动态海报图像卡点视频。在一些实施例中，动态海报图像的卡点视频，可以在用户打开智能电视100，并进入智能电视100的主界面期间播放，即作为智能电视100的启动视频；也可以在用户打开智能电视100，并进入智能电视100主界面后，在智能电视100的主界面播放；还可以是在用户打开安装于智能电视100上的某一视频应用程序后，在该视频应用程序的主界面播放，本技术对此不作限制。
[0102]
上文介绍了本技术视频的生成方法的大致流程，下面结合附图，介绍上述方法400中各个步骤的具体实施细节。
[0103]
在一些实施例中，对应于步骤404，以图5所示的海报图像1、海报图像2、海报图像 3为例，智能电视100确定海报图像1、海报图像2、海报图像3的运动范围的方法包括：
[0104]
智能电视100对海报图像进行前景分割，并确定的海报图像的前景对象运动范围的方法如下：智能电视100对图5所示的海报图像1、海报图像2、海报图像3分别进行前景分割后，得到海报图像的二值图，其中白色区域为前景对象，黑色区域为背景对象，故海报图像1的前景对象为p1，背景对象为p1
′
，海报图像2的前景对象为p2，背景对象为 p2
′
，海报图像3的前景对象为p3，背景对象为p3
′
。之后，智能电视100可初步确定的海报图像1的前景对象p1，海报图像2的前景对象p2，海报图像3的前景对象p3相对于各自的背景对象的运动范围可如下表7所示：
[0105]
表7
[0106][0107]
上表7中，“id号”代表海报图像的id编号，左右(横向)上下(纵向)运动范围表示海报图像前景对象的相对于背景对象，在左右上下可以运动的范围；其中，x_l表示前景对象相对于背景对象朝左边可运动的范围，x_r表示前景对象相对于背景对象朝右可运动的范围，y_t表示前景对象相对于背景对象朝上可运动的范围，y_d表示前景对象相对于背景对象朝左可运动的范围；运动范围表示海报图像前景对象相对于海报图像背景对象在横向运动范围以及纵向运动范围中的最大值，例如海报图像1的横向运动范围为：x_l+x_r＝4+3＝7像素(pixel)，海报图像1的纵向运动范围为：y_t+y+d＝1+0＝1p，海报图像 1的横向运动范围大于海报图像1的纵向运动范围，故海报图像1的运动范围为7p；主题标签表示海报图
像的主题。
[0108]
可选地，海报图像前景对象相对于背景对象的运动方式包括但不限于左右上下运动，前景对象也可以相对背景对象做旋转运动，例如图2中电影1动态海报图像中前景对象相对于背景对象的运动方式，或者前景对象相对于背景对象做斜上或斜下运动，例如图2中电影2动态海报图像中前景对象相对于背景对象的运动方式，本技术对海报图像前景对象相对于背景对象做相对运动的运动方式不作限制。
[0109]
结合图5，从上表7可以看出，海报图像1的主题标签为“燃情”，前景对象p1的运动范围为7，海报图像2的主题标签为“舒心”，前景对象p2的运动范围为1p，海报图像3的主题标签为“紧急”，前景对象p3的运动范围为7p。
[0110]
然后由智能电视100对海报图像做景深估计(depth estimation)，得到海报图像的景深估计图，其中景深估计图一般为灰度图，并且像素灰度越深，灰度值越大，代表深度值越小，像素灰度越浅，灰度值越小，代表深度值越大，白色则代表深度值最大。智能电视 100获得海报图像景深估计图后，将利用前文所述的景深估计方法，结合前景对象的运动范围将海报图像转换为动态海报图像。
[0111]
由于某些海报图像前景对象的运动范围较大，而且这些海报图像中背景对象中有部分图像像素值与前景对象像素值近似，所以当前景对象按照较大的运动范围运动，背景对象中与前景对象像素值近似的部分图像也跟随前景对象运动时，背景对象就会出现一部分空缺，如果这部分空缺周围没有其他可参考的海报图像内容，智能电视100对该部分空缺进行颜色填充时，会形成与海报图像其他内容不适应的区域，影响用户的视觉体验。例如，以图5所示的海报图像1为例，海报图像1中与前景对象p1相似的背景对象p1
′
中的部分图像为p1
″
，由于海报图像1的前景对象p1的运动范围为横向的7个像素(朝左可运动4个像素，朝右可运动3个像素)，所以当前景对象p1与图像p1
″
一起朝右运动3个像素时，背景对象中会出现p1
″′
的空缺部分，此时由于海报图像1的左侧没有其他可参考的图像内容，所以智能电视100为该p1
″′
填充后，形成的图像色彩和内容与海报图像 1其他部分不是特别匹配，会影响用户的视觉体验。可以理解，上述7个像素、4个像素、 3个像素仅为示例性的，并不构成对本技术中海报图像前景对象运动范围的限定。在一些实施例中，当海报图像大小比较大时，例如1920像素*1080像素，上述运动范围会适应性变大，比如为50个像素、100像素等等，本技术对此不作限制。
[0112]
故在一些实施例中，智能电视100利用海报图像的景深估计图，得到海报图像中各个像素的景深值，也即海报图像的像素灰度值，并根据海报图像中各个像素的像素灰度值确定与前景对象像素灰度值接近的背景对象部分，然后根据与前景对象像素灰度值接近的背景对象部分所在的位置，进一步调整前景对象的运动范围，使在不影响动态海报图像为观众呈现的视觉效果的同时，海报图像的前景对象可以做尽可能大范围的运动。例如，假设与前景对象像素灰度值接近的背景对象部分的中心所在位置在海报图像的图像中心，由于海报图像的图像中心周围均有可供参考的图像内容，所以智能电视100可以不对前景对象的运动范围做调整，或者做较小调整。
[0113]
具体地，继续以图5所示的海报图像1为例，可以将海报图像朝右的运动范围从3p 调整为1p,此时区域p1
″′
将从3p变窄为1p，可以理解，此时前景对象p1仍然可以相对于背景对象p1
′
在横向做1p范围运动，并且1像素的颜色填充并不会带给用户太大的视觉上的不
相适应的音乐作为待选的背景音乐，例如主题标签为“紧急”的电影一般的配乐或者插曲类型为摇滚或者重金属，所以智能电视100将选择风格标签为“摇滚”的音乐 2以及风格标签为“重金属”的音乐3作为待选的背景音乐参与下文中与动态海报图像匹配度的计算，并确定其中一首作为背景音乐。
[0121]
然后智能电视100将根据整段音乐的音频节奏分布检测出音频节奏变化时对应的n个时间节点，即n个音频节点，并按照n个音频节点将前述音乐划分为(n+1)个连续的音频区间，音频区间的时长即为该区间音频的播放时长。
[0122]
在一些实施例中，智能电视100在得到某一首待匹配背景音乐的(n+1)个音频区间后，例如智能电视100得到id号为“000012”的待匹配背景音乐的(n+1)个音频区间后，智能电视100将从(n+1)个音频区间中，先随机选取与海报图像数量相同的音频区间作为待匹配的音频区间，参与下文音频区间与海波图像的匹配度的计算，以确定符合条件的音频区间。例如，以上表8所示的海报图像为例，智能电视100将从id号为“000012”的待匹配背景音乐的(n+1)个区间中，随机选择3个音频区间作为待匹配的音频区间，然后参与海报图像1、2、3的匹配度计算。在另一些实施例中，智能电视100也可以从某一首待选音乐的第一个音频区间开始，依次选取与海报图像数量相同的待匹配音频区间；或者间隔选取与海报图像数量相同的待匹配音频区间；又或者，从某一首待选音乐的任意一个音频区间开始，依次选取与海报图像数量相同的待匹配音频区间，本技术对此不作限制。以智能电视100选取与海报图像1、2、3数量相同的音频区间为例，图6是一些实施例提供的一例音频区间的示意图。如图6所示，智能电视100通过音频检测算法能够检测出id号为“000012”的音乐的音频节点：a、b、
…
、e、f、
…
、j、k，音频节点a与音频节点b之间为音频区间1(00:01:20-00:01:23)，其音频播放时长为3秒；音频节点e 与音频节点f之间为音频区间2(00:01:32-00:01:38)，其音频播放时长为6秒；音频节点 j与音频节点k之间为音频区间3(00:02:11-00:02:15)，其音频播放时长为4秒。其中，智能电视100利用节点检测算法检测背景音乐音频节点的方式将在下文进行介绍，此处不作过多描述。
[0123]
在确定出id号为“000012”的背景音乐中各个音频区间后，智能电视100将根据音频区间中音频振幅变化的方差确定出各个音频区间的音频变化速率值，例如，音频区间中各个时刻均对应有该时刻的音频振幅，智能电视100可以通过计算该音频区间中全部的音频振幅的方差得到该音频区间的音频变化速率值。
[0124]
然后根据音频变化速率值确定各个音频区间的主题并为各个音频区间添加主题标签。在一些实施例中，每个音频变化速率值都对应一个主题标签，这些主题标签可以是智能电视100根据大数据统计得到一般的影视剧海报的种类而得到主题标签种类，比如一般的电影主题标签包括“紧急
”…“
燃情”、“温情”、“轻快
”…“
舒心”等，又由于音频速率变化值可表示某一音频区间内音频节奏的激烈程度，某一音频区间的音频速率值越高表明该音频区间的音频节奏越激烈，所以，智能电视100可以为音频变化速率值，按照音频速率变化值从大到小的顺序添加前述主题标签{“紧急
”…“
燃情”、“温情”、“轻快
”…“
舒心”}。例如，智能电视100为音频变化速率值以及音频区间添加的音频主题标签可以如下表9所示：
[0125]
表9
[0126][0127]
其中，背景音乐id号表示当前检测的背景音乐的编号；音频区间是按照音频变化节奏划分的，所以音频区间能够反映音频节点的分布情况，区间时长表示某一音频区间的播放时长。
[0128]
结合图6，从表9中可以看出，音频区间1的区间时长为3秒，音频变化速率值为4，主题标签为“燃情”；音频区间2的区间时长为7秒，音频变化速率值为7秒，主题标签为“紧急”；音频区间3的区间时长为4秒，音频变化速率值为1，主题标签为“舒心”。
[0129]
在一些实施例中，对应上述步骤410，智能电视100计算每张海报图像与待匹配各个音频区间的匹配度的方法包括：
[0130]
继续以表8所示的海报图像以及表9所示的音频区间为例，在一些实施例中，智能电视100根据3张海报图像的主题标签以及id号为“000012”的音乐中音频区间1、2、3 的主题标签计算每张海报图像与音频区间之间的主题标签的匹配度。在一些实施例中，智能电视100可以利用匹配度计算公式计算某张海报图像与某个音频区间的主题标签的匹配度，可选地，匹配度计算公式可以是欧几里得距离公式、曼哈顿距离计算公式、明可夫斯基距离公式、皮尔森相关系数计算公式，应理解本技术对计算海报图像主题标签与音频区间主题标签的方式不作任何限制。例如，在一些实施例中，智能电视100利用以下欧几里得距离公式(3)计算海报图像主题标签与音频区间主题标签的匹配度：
[0131][0132]
其中，dn(p，q)表示海报图像主题标签与音频区间主题标签的匹配度，p表示每张海报图像主题标签，n表示每张海报图像主题标签或音频区间的主题标签的特征值的数量， pi表示每张海报图像主题标签的各个特征值，q表示每个音频区间的主题标签，qi表示每个音频区间主题标签的各个特征值，可以理解，主题标签如果表示为文字，则该文字具有可以用文本特征来表示，例如，文字的字符串长度、编码等等，本技术对主题标签的特征的数量不作限制。
[0133]
由于音频区间的运动范围与海报图像的前景对象的运动范围可能并不适应，如前文所述的，音频区间的运动范围与音频区间时长以及音频的变化速率值相关，海报图像的前景对象的运动范围表示前景对象横向或纵向的最大运动范围，如果仅计算出海报图像与音频区间的主题标签是否匹配，然后仅将主题标签匹配度高于预设主题标签匹配度的海报图像与该段音频区间关联起来，则可能出现海报图像的前景对象已经在最大运动范围内结束运动，但是该段音频区间还未播放完，或者该段音频区间已经播放完，但是海报图像前景对象还没有在最大运动范围结束运动。可以理解，这种视听上的不协调同样会影响用户体验。
[0134]
故在一些实施例中，智能电视100不仅计算海报图像的主题标签与音频区间主题标签的匹配度，还会计算海报图像的运动范围与音频区间的运动范围的运动范围的匹配度。在一些实施例中，智能电视100可以利用式(4)计算海报图像前景对象运动范围与音频区间的运动范围：
[0135]
运动范围匹配度＝音频区间运动范围/海报图像区间运动范围
ꢀꢀꢀꢀꢀꢀꢀ
(4)
[0136]
以海报图像1前景对象的运动范围以及待选的背景音乐的音频区间2的运动范围为例，从上表8可知，海报图像1前景对象的运动范围为5，从上表4可知，音频区间2的运动范围为42，则海报图像1与音频区间2的运动范围匹配度为：5/42＝0.11。
[0137]
进一步地，从上文待选的背景音乐音频区间的运动范围以及海报图像前景对象的运动范围可以看出，海报图像前景对象的运动范围一般为个位数，而待选的背景音乐音频区间的运动范围一般为两位数，待选的背景音乐音频区间的运动范围以及海报图像前景对象的运动范围在数值上相差过大，直接使用式(4)将二者进行比较，每次得到的匹配度结果都相对较小，不利用后续的计算。
[0138]
故在一些实施例中，智能电视100可将海报图像的前景对象运动范围乘以预设系数，使海报图像的前景对象的运动范围与待选的背景音乐的音频区间的运动范围的数值处于同一数量级，例如，继续以海报图像1前景对象运动范围以及待选的背景音乐的音频区间 2的运动范围为例，智能电视100将海报图像1前景对象运动范围乘以预设系数8，得到海报图像1前景对象的运动范围为5
×
8＝40，然后智能电视利用式(5)计算海报图像1前景对象运动范围与音频区间2的运动范围：
[0139]
运动范围匹配度＝1-|海报图像前景对象运动范围-音频区间运动范围|/海报图像区间运动范围(5)
[0140]
则海报图像1前景对象运动范围与音频区间运动范围的匹配度＝1-|40-42|/40＝1-0.5＝0.95
[0141]
最后，智能电视100将海报图像前景对象运动范围与音频区间运动范围的匹配度与海报图像主题标签与音频区间主题标签的匹配度进行关联，得到海报图像与音频区间的匹配度。在一些实施例中，智能电视100可以通过式(6)计算海报图像与音频区间的匹配度：
[0142]
海报图像与音频区间的匹配度＝海报图像主题标签与音频区间主题标签的匹配度+海报图像前景运动范围与背景音乐区间运动范围的匹配度(6)
[0143]
例如，智能电视100将海报图像1前景对象运动范围与音频区间2运动范围的匹配度与海报图像1主题标签与音频区间2主题标签的匹配度相加得到海报图像1与音频区间2 的总匹配得分＝0.95+0.3＝1.25。
[0144]
在另一些实施例中，智能电视100也可以为运动范围匹配度以及主题标签匹配度分别设置权重，例如，海报图像与音频区间的主题标签是否匹配的重要性要比运动范围是否匹配的重要性要高，故海报图像与音频区间的主题标签的匹配度的权重可以设置的高一些，例如智能电视100将海报图像与音频区间的主题标签的匹配度的权重设置为80％，然后将海报图像与音频区间的运动范围的匹配度的权重设置为20％，然后利用式(7)计算海报图像与音频区间的匹配度：
[0145]
海报图像与音频区间的匹配度＝80％
×
海报图像主题标签与音频区间主题标签的匹配度+20％
×
海报图像前景运动范围与音频区间运动范围的匹配度
ꢀꢀꢀꢀꢀꢀ
(7)
[0146]
例如，智能电视100将海报图像1前景对象运动范围与音频区间2运动范围的匹配度乘以80％，将海报图像1主题标签与音频区间2主题标签的匹配度乘以20％后，相加得到海报图像1与音频区间2的匹配度＝20％
×
0.95+80％
×
0.3＝0.43。应理解，本技术对智能电视100根据海报图像与音频区间的运动范围匹配度以及海报图像与音频区间的主题标签匹配度计算海报图像与音频区间的匹配度的方式不作限制。
[0147]
在一些实施例中，对应于步骤412，智能电视100计算各海报图像与各个音频区间的组合方式，以及每种组合方式下海报图像与待匹配背景音乐的总匹配度的方式包括：
[0148]
继续以上表8所示海报图像以及表9所示音频区间为例，智能电视100对上述3张海报图像与音乐的id号为“000012”的音乐的3个音频区间进行排列组合时，上式(2) 中的i＝3,j＝3，所以a(3,3)＝6，所以上述海报图像1、海报图像2、海报图像3与音频区间1、音频区间2、音频区间3有6中组合方式。假设智能电视100通过上述步骤410计算的得到海报图像1、海报图像2、海报图像3与id号为“000012”音频区间1、音频区间2、音频区间3的匹配度如下表10所示：
[0149]
表10
[0150] 海报图像1海报图像2海报图像3音频区间11.261.231.10音频区间21.151.161.81音频区间31.261.351.38
[0151]
则智能电视100计算得到的海报图像与音频区间的6种排列组合方式中，每一种组合方式中海报图像与id号为“000012”的音乐的总匹配度如下表11所示：
[0152]
表11
[0153][0154][0155]
由表11可知，组合1{音频区间1-海报图像1，音频区间2-海报图像2，音频区间3
‑ꢀ
海报图像3}的总匹配度为3.59，组合2{音频区间1-海报图像1，音频区间2-海报图像3，音频
区间3-海报图像2}的总匹配度为4.42，组合3{音频区间1-海报图像2，音频区间2
‑ꢀ
海报图像1，音频区间3-海报图像2}的总匹配度为4.19，组合4{音频区间1-海报图像2，音频区间2-海报图像2，音频区间3-海报图像1}的总匹配度为3.41，组合5{音频区间1
‑ꢀ
海报图像3，音频区间2-海报图像1，音频区间3-海报图像2}的总匹配度为4.30，组合 6{音频区间1-海报图像1，音频区间2-海报图像2，音频区间3-海报图像1}的总匹配度为3.52。
[0156]
在一些实施例中，智能电视100可以先判断每种组合方式中，每张海报图像与音频区间的匹配度是否大于或等于第一预设值，然后，在每张海报图像与音频区间的匹配度大于或等于第一预设值的情况下，再计算该种组合方式下的总匹配度。例如，继续以上表10 以及上表11为例，假设第一预设值为1.15，由于组合1、组合3、组合4、组合6中存在海报图像与音频区间的匹配度小于1.15，所以智能电视100将直接计算组合2、组合5中的总匹配度。其中，第一预设值为研发人员利用大数据统计设置的值，第一预设值可以取每种组合方式下的各海报图像与音频区间的匹配度的平均值。通过这种方式，能够排除掉每种组合方式中，存在的少数海报图像与音频区间的匹配度过低的情况。
[0157]
继续以上表10以及表11为例，在一些实施例中，对应于步骤414，从上述各种组合方式中确定出最高的总匹配度，判断最高的总匹配度是否大于或等于第二预设值包括：智能电视100从上述组合中确定组合2{音频区间1-海报图像1，音频区间2-海报图像3，音频区间3-海报图像2}的总匹配度为4.42最高，故智能电视100将组合2的总匹配度与第二预设值进行比较。其中，第二预设值是研发人员利用大数据统计预设的值。
[0158]
假设第二预设值为4，则组合2的总匹配度高于第二预设值，智能电视100即按照组合2的方式，生成动态海报图像卡点视频。即，智能电视100将截取id号为“000012”的音乐的音频区间1至音频区间3作为海报图像1、2、3的背景音乐，并按照海报图像1、海报图像3、海报图像2的顺序播放海报图像。
[0159]
假设第二预设值为5，则组合2的总匹配度也小于第二预设值，智能电视100将在id 号为“000012”的其他音频区间中重新选取三个音频区间，重复上述步骤410至步骤412 的方法，直至确定出符合上述条件的音频区间。例如，如图7所示，智能电视100将从音频区间1的前一个音频区间x开始，重新选取三个音频区间，音频区间x、音频区间1、音频区间2作为新的待匹配音频区间，然后计算音频区间x、音频区间1、音频区间2与海报图像1、海报图像2、海报图像3的全部组合方式中总匹配，并从中确定总匹配度最高且高于第二预设值5的一组组合方式，以形成动态海报卡点视频。在一些实施例中，智能电视100会将通过上述步骤402至410获取的各张海报图像的前景对象、背景对象、主题标签、运动范围以及每首背景音乐的各个音频区间、音频区间主题标签、音频区间的速率变化值，还有各张海报图像与每首背景音乐的各个音频区间的匹配度存储在智能电视 100的存储器中，所以在确定计算新的音频区间与海报图像的各种组合方式的总匹配度时，智能电视100可以从存储器中直接获取已经得到的海报图像与某个音频区间的匹配度，以提高计算效率。例如，以确定音频区间x、音频区间1、音频区间2与海报图像1、2、3 的各种组合方式中最高匹配度为例，智能电视100只需重新计算音频区间x与海报图像1、 2、3的匹配度，而无需再计算音频区间1、音频区间2与海报图像1、2、3的匹配度。
[0160]
假设id号为“000012”的待匹配背景音乐中，所有音频区间与海报图像的组合方式的总高匹配度均小于第二预设值，则智能电视100将更换待匹配背景音乐，将重复上述步骤
406至步骤410，直至得到符合条件的音乐，并以该音乐作为背景音乐生成动态海报图像卡点视频，具体实施细节可参考上述相关描述，此处不再赘述。
[0161]
在一些实施例中，当用户点击了动态海报图像卡点视频中的某一个海报图像并观看了该海报图像对应的视频后，智能电视100将更换被用户点击后的海报图像，并确定与新的海报图像以及原有动态海报图像都匹配的背景音乐。
[0162]
例如，以表2所示的海报图像1,2，3以及id号为“000012”的背景音乐构成的动态海报卡点视频为例，假设用户点击了海报图像1并观看了海报图像1对应的视频，智能电视100将利用上述步骤402所述的方式重新获取新的海报图像y，并按照上述步骤402至 414的方式，重新判断该新的海报图像y与动态海报卡点视频对应的id号为“000012”的背景音乐的各个音频区间1,2,3的匹配度，当新的海报图像y与id号为“000012”的背景音乐的各个音频区间1,2,3时，为了能够在同一首背景音乐下播放新的海报图像y和原海报图像2，海报图像3，智能电视100将通过步骤406所述的方式重新更换背景音乐，并计算新的待匹配背景音乐的各个音频区间与海报图像y和原海报图像2，海报图像3的全部组合方式中最高匹配度，并确定新的待匹配背景音乐是否符合上述条件。
[0163]
在上述实施例中，为了使得新的海报图像y和原海报图像2，3在同一首背景音乐下播放，所以需要重新更换背景音乐。可以理解，智能电视100也可以单独为新的海报图像 y选择一首新的背景音乐，然后在新的背景音乐下播放海报图像y。
[0164]
例如，在另一些实施例中，继续以表8所示的海报图像1,2，3以及id号为“000012”的背景音乐构成的动态海报卡点视频为例，假设用户点击了海报图像1并观看了海报图像 1对应的视频，智能电视100利用上述步骤402所述的方式重新获取新的海报图像y，并重复上述步骤402至414的方式，为新的海报图像y选择了新的背景音乐，其中具体实施细节可参考上文相关描述，此处不再赘述。
[0165]
上文介绍了本技术视频的生成方法的实现过程，通过上述视频的生成方法，即可得到动态海报图像的卡点视频，并且，如前文所述的，由于该动态海报图像卡点视频将动态海报图像的主题与音频区间的主题、动态海报图像前景对象的运动范围与音频区间的运动范围联系起来，所以在播放动态海报图像卡点视频时，能够带给用户如图3所示的视听体验。下面简要介绍上述步骤中关于模型训练以及利用训练好的模型为海报图像添加主题标签、对海报图像进行前景分割以及音频节点的检测方法。应理解，下面各实施方法均为示例性的，并不构成对本技术视频的生成方法具体实施细节的限制，在其他实施例中，为实现本技术视频的生成方法的技术效果，还可以适用其他可替代的手段实现以下方法，在此不再赘述。
[0166]
在一些实施例中，对应于步骤402，智能电视100训练图像识别模型的方法以及为海报图像添加主题标签的方法包括：
[0167]
(1)智能电视100训练图像识别模型。
[0168]
智能电视100基于已有的语义分割数据集中带有像素级标签的图像对上述图像识别模型进行训练，使得训练好的图像识别模型能够识别出海报图像中的内容，例如图像识别模型能够识别出海报图像中的人物、房间、汽车、建筑物等。其中，带有像素级标签的图像指的是该图像中每个像素都有其对应的类型标签，例如部分像素对应的是人物，那么这些像素的标签就为人物、部分像素对应的是房间，那么这些像素的标签就为房间、部分像素对
应的是汽车，那么这些像素的标签就是汽车等。
[0169]
具体地，智能电视100将带有预设像素级类别标签的数据集中的图像作为目标数据；然后智能电视100将目标数据输入至待训练的图像识别模型中，得到目标数据的图像识别结果，并根据目标数据的图像识别结果计算图像识别模型的损失函数。
[0170]
在一些实施例中，智能电视100可以通过式(8)计算损失函数：
[0171]
l
seg
＝-y(t)logf(x
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0172]
其中，f(x
t
)为通过图像识别模型识别后的结果，y(t)为目标数据的预设像素级类别标签，l
seg
为图像识别模型的损失函数。
[0173]
然后智能电视100根据损失函数的结果调整图像识别模型中的参数，比如图像识别模型所用的神经网络中每一层神经网络的权重值，来降低损失函数的结果，以使图像识别模型的输出结果与输入结果(也即预设像素级类别标签)相同或相似，当图像识别模型的输出结果与输入结果相同或相似，则认为图像识别模型训练完成。
[0174]
在一些实施例中，上述用于训练图像识别模型的数据集可以是voc(pascal visualobject classes)、ms coco(cityscapes micro soft common objects in context)等2d数据集；或者是nyu-d v2、sun-3d、sun rgb-d等2.5d数据集；还可以是stanford 2d-3d、 shape-net core等3d数据集，本技术对训练图像识别模型所采用的数据集不作限制。
[0175]
在一些实施例中，上述用于训练图像识别模型可以基于全卷积网络(fully convolutionnetworks，fcns)、seg-net、u-net、deep-lab v1-v3等神经网络模型架构。本技术对图像识别模型训练所使用的神经网络模型的架构种类不作限制。
[0176]
(2)智能电视100利用训练好的图像识别模型识别海报图像内容，并为海报图像添加主题标签。
[0177]
智能电视100利用训练好的图像识别模型识别海报图像内容，当识别出符合某主题a 的内容时，就为该海报图像添加主题标签“a”。
[0178]
例如，如果智能电视100利用训练好图像识别模型识别出海报图像2中包括人物、房间、沙发等元素，假设这些元素属于主题为“舒心”，则智能电视100将为海报图像2添加主题标签“舒心”。应理解，当智能电视100识别出的某一个海报图像中包括多种主题下的元素内容，智能电视100将根据某一个主题下元素内容的占比为该海报图像进行分类。例如，继续以海报图像2为例，智能电视100识别出海报图像2中包括人物、房间、沙发、窗户等元素，假设房间、沙发、窗户等元素属于主题为“舒心”的元素内容，而人物则属于主题为“动作”的元素内容，由于主题为“舒心”的元素内容的数量(3个)占比大于主题为“动作”的元素内容的数量(1个)占比，所以智能电视100将为该海报图像2添加主题标签“舒心”。
[0179]
上述仅为示例性的说明，并不构成对本技术训练图像识别模型以及利用图像识别模型为海报图像添加主题标签方法的限定，在其他实施例中，智能电视100还可以通过其他方式来训练图像识别模型或利用图像识别模型为海报图像添加主题标签，例如智能电视100 在训练图像识别模型时，将已经带有预设主题标签的海报图像作为目标数据，如此，当图像识别模型训练完成后，智能电视100可以通过图像识别模型直接识别海报图像内容，并同时为海报图像添加主题标签，也即通过这种方式训练好的图像识别模型具有自动识别海报图像内容并未海报图像添加主题标签的能力。
[0180]
在一些实施例中，对应于步骤404，智能电视100对海报图像做前景分割方法如下：
[0181]
(1)智能电视100训练图像分割模型。
[0182]
其中，智能电视100训练图像分割模型与上述步骤402中智能电视100训练图像识别模型的方式原理一致，具体可参照上述步骤402中训练图像识别模型的方式，此处不再赘述。
[0183]
(2)智能电视100利用训练好的图像分割模型对海报图像做前景分割。
[0184]
智能电视100利用训练好的图像分割模型对海报图像做前景分割，例如假设海报图像中包含桌子、狗、杯子及人这四类彼此不同的目标物体，当智能电视100利用上述训练号的图像分割模型对海报图像进行前景分割时，能够得到的包括桌子、杯子、狗以及人这四类区域分割图像。然后智能电视100将根据预先设定的条件，将具体的某一区域分割图像作为海报图像的前景对象，以确定动态海报图像中的前景对象的运动范围。在一些实施例中，智能电视100可以根据海报图像主题确定某一区域分割图像为海报图像的前景对象，例如，假设海报图像主题为“紧急”，海报图像被图像分割模型处理后得到的区域分割图像包括人、汽车、建筑物、窗户等，为了与海报图像主题“紧急”相契合，智能电视100 可以将汽车、建筑物对应的区域分割图像作为该海报图像的前景对象。在另一些实施例中，智能电视100可以根据海报图像欲传达的信息，确定某一区域分割图像为海报图像的前景对象，例如，假设海报图像为定档海报图像，海报图像经图像分割模型处理后得到的区域分割图像包括时钟、人、动物等，由于海报图像欲传达的信息为定档日期，所以可以将时钟作为海报图像的前景对象。
[0185]
在一些实施例中，对应于步骤406，智能电视100检测背景音乐音频节点以及根据音频节点为背景音乐划分音频区间的方法如下：
[0186]
为理解音频节点检测的实现过程，首先介绍音频节点检测的原理。
[0187]
通常，用于背景音乐的音频的频率一般在70赫兹到4000赫兹之间，而对于一些具有多乐器和弦等多频率信号的复合音频，由于无法通过简单的时域信号峰值提取来检测出音频节点，所以会先将该音频的时域信号转换为频域信号，然后将转换为频域信号的音频信号划分为若干窗口，并对相邻窗口的音频信号做差分处理，得到相邻音频窗口之间的差值数据，其中差值数据用于表示前一窗口音频信号与当前窗口音频信号之间振幅的差值，可以理解，当差值数据超出预设差值时，则说明前一窗口音频信号到当前窗口音频信号之间发生了突变，也即当前窗口音频信号可能为下一节奏的起始节点，然后利用相同的方式分析各个相邻窗口音频信号之间的差值数据，即可得到该段音频的音频节点。
[0188]
具体地，假设id号为0000x的音频f(x)的时长为t秒，采样率fs＝44100赫兹，采样个数k＝fs·
t，智能电视100检测音频节点的方法可分为以下几个步骤：
[0189]
(1)利用傅里叶变换将音频的时域信号转换为频域信号。
[0190]
将f(k)分割成n个大小相等的窗口碎片fi(k)，其中，1＜＜i＜＜n，每个窗口的长度为 l＝1024，每个窗口的音频时长为以及第i个窗口对应的时刻这一时刻是窗口中点相对的音频开始的时刻。
[0191]
然后对于每一个窗口fi(k),求得其傅里叶变换fi(w),形成傅里叶变换窗口序列 f＝{f1(k)，f2(k)，
…
，fn(k)}，其中f表示音频在每一个窗口对应的频域特征，例如振幅。
[0192]
(2)对音频信号做差分处理，得到差分窗口序列(差值数据序列)。
[0193]
智能电视100利用式(9)对傅里叶窗口序列f进行差分处理：
[0194][0195]
其中，di表示相邻傅里叶窗口的差值数据，k表示采样个数，fi(k)表示音频在第i 个窗口对应的频域特征，2＜＜i＜＜n。
[0196]
然后智能电视100根据式(9)的计算结果，得到差分窗口序列d＝{d1，d2，
…
，dn}。其中，当di的值为正值，且绝对值较大时，表明ti时刻fi(k)的振幅比前一时刻t
i-1
的f
i-1
(k)的振幅更强，即音频信号在增强，也即表明ti时刻可能是下一强节奏音频的开始节点，相应地，当di的值为负值，且绝对值较大时，表明ti时刻fi(k)的振幅比前一时刻t
i-1
的f
i-1
(k)的振幅更小，即音频信号在减弱，也即表明ti时刻可能是下一弱节奏音频的开始节点。
[0197]
(3)将上述差分窗口序列与预设差值比较，将大于预设差值的差值数据所对应的傅里叶窗口的时间节点作为音频节点，得到音频节点序列。
[0198]
在一些实施例中，智能电视100将上述差值数据与预设差值比较，如果某一差值数据大于预设差值，则该差值数据对应的傅里叶窗口的时间节点即为音频节点，例如，假设 di大于预设差值，则智能电视100将fi(k)视为一个节奏点窗口，也即ti将作为音频节点。利用同样的方式，既可得到上述音频的音频节点序列t＝{t1,t2,
…
，tm}，并且m小于n。
[0199]
可选地，预设差值可以为智能电视100利用式(10)计算上述差分窗口序列 d＝{d1，d2，
…
，dn}中每一个窗口的振幅差值的平均值：
[0200][0201]
其中，w为窗口均值的大小，位置i的均值ri，是以其领域w的均值来计算的。
[0202]
智能电视100通过式(7)可以与差分窗口序列对应的振幅差值的平均值序列 r＝{r1，r2，
…
，rn}，然后对于d中的任意元素di，仅当di》ri时，智能电视100将fi(k)视为一个节奏点窗口，也即ti为音频节点，并最后得到上述音频节点序列t＝{t1,t2,
…
，tm,}。
[0203]
图8示出了一种智能电视100的硬件结构示意图。
[0204]
如图8所示，智能电视100可以包括处理器10，存储器20，显示屏30，摄像头40，扬声器50，其中处理器10用于对上述海报图像进行前景分割、景深估计等处理，以及处理器10还用于对上述音频进行音频节点检测，存储器20用于存储计算机程序指令，当该计算机程序指令被智能电视100运动时，智能电视100的处理器10将实现上述步骤402 至步骤418的所述的视频的生成方法，显示屏30用于显示通过上述视频的生成方法得到的动态海报图像卡点视频，并接收在其上的点击、滑动等触控操作，以形成与前述触控操作意图相适应的显示内容，例如，在一些实施例中，用户在显示屏30上点击动态海报图像卡点视频中播放的某一个动态海报图像，那么该动态海报图像对应的电影或者电视剧等视频就会在显示屏30上进行播放，摄像头40用于用户的隔空手势，例如，用户隔空摆手，摄像头40获取用户隔空摆手的动作的图像，并将包含该隔空手势的图像发送至处理器10 进行识别处理，得到与摆手对应的触控指令，智能电视100响应该触控指令，形成对应的显示内容在显示屏30显示，例如隔空手势摆手对应的触控指令表示“翻页”，那么当用户做出摆手的隔空手势后，显示屏30显示的内容会从当前页面翻转到下一页面，扬声器 50用于播放上述实施例中所述的音频，以及扬声器50还用于播放动态海报图像对应的电影或电视剧等具体的视频内容的音频内
容。
[0205]
应理解，上述图8所示的智能电视100的硬件结构仅为示例性的，在其他实施例中，上述智能电视100还可以包括更多的结构，例如，用于与其他电子设备进行通信的天线、用于接收用户触控指令的触摸传感器等等，本技术对智能电视100的硬件结构的组成不作限制。
[0206]
图9是本发明实施例的智能电视100的软件结构框图。
[0207]
如图9所示，智能电视100可以分为应用程序层，应用程序框架层，安卓运行时 (android runtime)和系统库，以及内核层。
[0208]
其中，应用程序层可以包括一系列应用程序包。
[0209]
如图9所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，wlan，蓝牙，音乐，视频，短信息等应用程序。在本技术的实施例中，应用程序包可以包括图库应用等。
[0210]
应用程序框架层可以包括视图系统，手势识别系统等。
[0211]
在本技术的实施例中，手势识别系统用于识别用户在智能电视100的屏幕上对图库应用执行的用户操作。
[0212]
视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用的显示界面。显示界面可以由一个或多个显示元素组成的，这里显示元素是指在电子设备的屏幕中，应用的显示界面中的元素。例如，显示元素可以包括按钮、文本、图片、弹窗、菜单、标题栏、列表或者搜索框等。应用的显示界面可以包括至少一个显示元素。在本技术的实施例中，视图系统可以用于实现本技术的应用的显示界面的布局方案，例如，在应用启动时，视图系统可以基于应用的显示界面在智能电视100的屏幕中的显示区域的大小，动态地调整显示界面中显示元素的位置；同时，视图系统还可以对应用的显示界面配置显示风格模型，并在应用启动时，视图系统使用应用的显示风格参数通过显示风格模型计算出显示界面中显示元素的显示效果。
[0213]
android runtime包括核心库和虚拟机。android runtime负责安卓系统的调度和管理。
[0214]
核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。
[0215]
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。
[0216]
系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(medialibraries)，三维图形处理库(例如：opengl es)，2d图形引擎(例如：sgl)等。
[0217]
表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2d和3d图层的融合。
[0218]
媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:mpeg4，h.264，mp3，aac，amr，jpg，png等。
[0219]
三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。
[0220]
2d图形引擎是2d绘图的绘图引擎。
[0221]
内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱
动，传感器驱动。
[0222]
上文介绍了在智能电视100上实现视频的生成方法的流程示意图，应理解，本技术的视频的生成方法也可以在具体的视频应用平台上实现，也即本技术的视频的生成方法可以在服务器上实现，当智能电视100安装该视频应用程序后，用户只需点击该视频应用程序，即可看到上述动态海报图像卡点视频。应理解，在服务器200上实现本技术的视频的生成方法与在智能电视100上实现本技术的视频的生成方法的原理是一致的，下面将简单介绍在服务器200上实现本技术视频的生成方法的流程，其中各个步骤的具体实现方式与上述步骤402至418中的方式一致，就不再赘述。
[0223]
图10示出了在服务器200上实现上述视频的生成方法的方法流程示意图。如图10 所示，方法1000包括：
[0224]
步骤1002，获取m张海报图像，确定每张海报的主题标签
[0225]
步骤1004，确定每张海报图像前景对象的运动范围
[0226]
步骤1006，获取音乐作为待选背景音乐，对背景音乐进行音频区间划分，并确定背景音乐的每个音频区间的主题标签。
[0227]
步骤1008，确定上述待选背景音乐中每个音频区间的运动范围。
[0228]
步骤1010，计算上述每张海报图像与待选背景音乐各个音频区间的匹配度。
[0229]
步骤1012，对上述每张海报图像与待选背景音乐各个音频区间的进行排列组合，并计算每一种组合方式下海报图像与待选背景音乐的总匹配度。
[0230]
步骤1014，从上述各种组合方式中确定出最高的总匹配度，
[0231]
判断最高的总匹配度是否大于或等于第二预设值，当最高的总匹配度大于或等于第二预设值时，执行步骤1016；当最高的总匹配度小于第二预设值时，执行步骤1006。
[0232]
步骤1016，按照总匹配度最高的组合方式，生成动态海报图像的卡点视频。
[0233]
步骤1018，向智能电视100发送上述动态海报图像的卡点视频，由智能电视100播放上述动态海报图像的卡点视频。
[0234]
其中，上述方法1000中与方法400相同的执行步骤可参考方法400中的相关描述，此处不再赘述。
[0235]
在一些实施例中，服务器200与智能电视100建立通信连接，当用户在智能电视100 打开如图8所示的视频应用程序(或视频应用)300后，智能电视100的显示屏30上会显示如图1所示的界面图，并在图1所示的电影海报图像显示区域110处显示该动态海报图像卡点视频。
[0236]
图11示出一种服务器200的硬件结构示意框图。
[0237]
如图11所示，服务器200可以包括处理器210，外部存储器接口220，内部存储器 221，sim卡接口295、通用串行总线(universal serial bus，usb)接口230，充电管理模块 240，电源管理模块241，电池242，天线1，天线2，移动通信模块250，无线通信模块 260等。
[0238]
可以理解的是，本发明实施例示意的结构并不构成对服务器200的具体限定。在本技术另一些实施例中，服务器200可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。
[0239]
在组成服务器200的上述结构中，处理器210可以包括一个或多个处理单元，例如：
local areanetworks，wlan)(如无线保真(wireless fidelity，wi-fi)网络)，蓝牙(blue tooth，bt)，全球导航卫星系统(global navigation satellite system，gnss)，调频(frequency modulation， fm)，近距离无线通信技术(near field communication，nfc)，红外技术(infrared，ir)等无线通信的解决方案。
[0250]
按键(图中未示出)包括开机键(图中未示出)，音量键(图中未示出)等。服务器 200可以接收按键输入，产生与服务器200的用户设置以及功能控制有关的键信号输入。
[0251]
本技术实施例还提供了一种电子设备，该电子设备包括：至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。
[0252]
本技术实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
[0253]
本技术实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述各个方法实施例中的步骤。
[0254]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(read-only memory，rom)、随机存取存储器(random accessmemory，ram)、电载波信号、电信信号以及软件分发介质。例如u盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。
[0255]
在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。
[0256]
本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
[0257]
在本技术所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。
[0258]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显
示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0259]
以上描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本技术实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本技术。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本技术的描述。
[0260]
应当理解，当在本技术说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0261]
还应当理解，在本技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。
[0262]
如在本技术说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0263]
另外，在本技术说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
[0264]
在本技术说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本技术的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。
[0265]
以上所述实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围，均应包含在本技术的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐高
技术所有人：花瓣云科技有限公司
我是此专利的发明人

上一篇：一种用于不均匀沉降的监测装置及安装方法与流程
上一篇：一种旅游酒店用消毒设备

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。