视频的图像概要的制作方法_2

文档序号：9383089阅读：来源：国知局

2.主要角色的出现频率：
[0051] a. Crank[j]，j = 1，2, 3, . . .，N，Crank[j]是视频中第j个角色的出现频率，其中N是视频中角色的总数。
[0052] b. Crank[j] = AN[j]/TOTAL，其中AN[j]是第j个角色的出现数量，并且 = H ,/i/viyi。出现数量（角色出现）是角色处于视频中的次数。因此，Crank[j]的值是0和1之间的数量，并且CMnk[j]的值基于所有角色在视频中出现的次数来提供所有角色的排名。
[0053] 可以以各种方式（诸如例如通过搜索脚本）来确定角色出现。例如，在图2的场景中，名字"汤姆"在场景描述220中出现2次，并且在说话角色230中出现2次。通过计数名字"汤姆"的发生，我们可以积累例如⑴正如由脚本中的词语"汤姆"的任意出现所确定的一个发生，以反映汤姆在场景中出现的事实，（ii)正如例如由"汤姆"在说话角色230 文本中出现的次数所确定的两个发生，以反映没有另一角色介入独白的独白的数量，（iii) 两个发生，以反映"汤姆"在场景描述220文本中出现的次数，或者（iv)四个发生，以反映 "汤姆"作为场景描述220文本或说话角色230文本的部分出现的次数。
[0054] c.将Crank[j]按降序排序。因此，Crank[l]是最频繁发生的角色的出现频率。
[0055] 3.场景的长度
[0056] a. LEN[i]，i = 1，2, . . .，M是第i个场景的长度，典型地按图像的数量来测量，其中 M是在脚本中定义的场景的总数。
[0057] b.可以在稍后参考图4描述的同步单元410中计算LEN[i]。将在脚本中描述的每一个场景映射到视频中的一时段的图像。场景的长度可以被定义为例如与场景对应的图像的数量。其它实现方式将场景的长度定义为例如与场景对应的时间的长度。
[0058] c.在各种实现方式中，通过以下公式将每个场景的长度标准化：
[0059] SLEN[i] = LEN[i]/Video_Len, i = I, 2,. . . Μ,
[0060] 其中 = 2]二 L￡W[/]。
[0061] 4.场景中突出动作或对象的级别：
[0062] a. Lhlgh[i]，i = 1，2, . . .，Μ被定义为第i个场景中突出动作或对象的级别，其中M 是在脚本中定义的场景的总数。
[0063] b.可以通过例如脚本中的突出词语检测来检测具有突出动作或对象的场景。例如，通过检测诸如例如看、转向、跑、爬、吻等各种突出动作词语（或词语的分组），或者通过检测诸如例如门、桌、水、汽车、枪、办公室等各种突出对象词语。
[0064] c.在至少一个实施例中，可以由例如在第i个场景的场景描述中出现的突出词语的数量来简单定义Lhlgh[i]，由以下公式缩放L hlgh[i]:
[0065] Lhigh[i] = Lhigh[i]/maximum(Lhigh[i]，i = 1，2,…，M) 〇
[0066] 在至少一个实现方式中，除了开始场景和结束场景，通过以下公式计算（如场景 "i"的权重所示的）所有其它场景权重：
[0067]
[0068] 其中：
[0069] -SH0W[j] [i]是对于场景"i"，视频的第j个主要角色的出现数量。这是在场景 "i"中发生的AN[j]的一部分。可以通过扫描场景并且执行与为了确定AN[j]所进行的相同类型的计数来计算SH0W[j] [i]。
[0070] _W[j]，j = 1，2, · · ·，Ν，α和β是权重参数。可以经由根据基准数据集的数据训练来定义这些参数，使得能够取得所期望的结果。可替换地，可以由用户来设置权重参数。在一个特定实施例中：
[0071] ff[l] = 5, W[2] = 3,以及 W[j] = 0, j = 3, · · ·，Ν，以及
[0072] α = 〇· 5,以及
[0073] β = 0. 1〇
[0074] 在各种这样的实现方式中，为了增加在图像概要中开始场景和结束场景的表示， Sstart和Send被给定最高权重。这么做是因为在视频的叙述中开始场景和结束场景通常很重要。对于一种这样的实现方式，如下计算开始场景和结束场景的权重：
[0075] SCEfeight [1] - SCEfeight [M]
[0076] = max imum(SCEfeight [i], i = 2, 3,. . . ,M-1)+1
[0077] 过程300包括在视频的场景之中对图像概要图像做预算（340)。各种实现方式允许用户在用户输入操作310中配置根据视频（例如，电影内容）生成的图像概要的最大长度（即，最大页面数量，被称为PAGES)。使用以下公式将变量PAGES转换成图像概要突出图像的最大数Thlghl ight:
[0078] Thlghllght= PAGES*NUMFp，
[0079] 其中，NUMFp是被分配给图像概要的每一页的（经常被称为帧的）图像的平均数，在至少一个实施例中NUMF p被设置为5,并且还可以由用户交互操作（例如，在用户输入操作310中）来设置NUMFp。
[0080] 通过使用此输入，至少一个实现方式根据以下公式（为图像概要的突出图像选择）确定将要被分配给第i个场景的图像预算：
[0081]
[0082] 此公总I乂重的场京的分数米分K η」用图傢的分数，并且然后使用上限函数来向上取整。可以预料的是接近预算操作的结束时，可能不能够在不超过Thlghllght的情况下对所有场景预算进行向上取整。在这样的情况下，例如超过T hlghllght的各种实现方式和其它实现方式例如开始向下取整。
[0083] 回顾一下，各种实现方式将视频的部分而不是场景进行加权。在许多这样的实现方式中，经常用在视频的加权部分（不一定是场景）之中对图像概要图像做预算的操作来代替操作340。
[0084] 过程300包括评价场景中或者更一般地视频中的图像（350)。在各种实现方式中，对于每个场景"i"，如下为场景中的每个图像计算吸引质量：
[0085] I. AQ[k]，k = 1，2, . . .，T1指示第i个场景中每个影像的吸引质量，其中T i是第i 个场景中图像的总数。
[0086] 2.可以基于影像质量因素来计算吸引质量，所述图像质量因素诸如例如PSNR(峰值信噪比）、清晰度级别、颜色协调级别（例如，主观分析以评估图像的颜色是否彼此协调）、和/或审美级别（例如，颜色、布局等的主观评价）。
[0087] 3.在至少一个实施例中，AQ[k]被定义为例如使用以下函数计算的图像的清晰度级别：
[0088] AQ [k] = PIXedges/PIXtotal
[0089] 其中：
[0090] -PIX^3是图像中的边缘像素的数量，以及
[0091] -PI Xt。tal是图像中的像素的总数。
[0092] 过程300包括为图像概要选择图像（360)。此操作（360)通常被称为选择突出图像。在各种实现方式中，对于每个场景"i"，执行以下操作：
[0093] -将AQ[k]，k = 1，2, ···，T1按降序排序，并且选择顶端FBug[i]图像作为将要被包含在最后的图像概要中的对于场景" i "的突出图像。
[0094] -如果⑴AQ [m] =AQ [η]，或者更一般地，如果AQ [m]在AQ [η]的阈值内，并且（ii) 图像m和图像η在同一镜头中，则仅选择图像m和图像η中的一个用于最后的图像概要。这有助于确保具有相似质量的来自同一镜头的图像不会都被包含在最后的图像概要中。相反，则选择另一图像。通常，对于该场景，包含的附加图像（即，包含的最后图像）将来自不同镜头。例如，如果⑴对场景做出三个图像的预算，图像和"3"，并且（ii)AQ[l] 在AQ[2]的阈值内，并且因此（iii)不包含图像"2"但包含图像"4"，然后（iv)通常将会是图像4来自于与图像2不同的镜头的情况。
[0095] 其它实现方式执行各种方法的任一种来确定来自场景（或已经应用预算的视频的其它部分）的哪些图像要包含在图像概要中。一种实现方式从每个镜头取走具有最高吸引质量（即，AQ[1])的图片，并且如果在FBug[i]中存在剩余图像，则不管镜头而选择具有最高吸引质量的剩余图像。
[0096] 过程300包括提供图像概要（370)。在各种实现方式中，提供（370)包括：在屏幕上显示图像概要。其它实现方式提供用于存储和/或传输的图像概要。
[0097] 参考图4,提供了系统400的框图。系统400是用于生成图像概要的系统的示例。可以使用系统400例如来执行过程300。
[0098] 系统400接受视频404、脚本406和用户输入408作为输入。这些输入的供应可以例如对应于用户输入操作310。
[0099] 视频404和脚本406彼此对应。例如，在典型实现方式中，视频404和脚本406都用于单一电影。如下面所解释的，用户输入408包括用于各种单元的一个或多个的输入。
[0100] 系统400包括将脚本406与视频404同步的同步单元410。同步单元的至少一个实现方式执行同步操作320。
[0101] 同步单元410提供同步的视频作为输出。同步的视频包括原始视频404,以及以某种方式指示与脚本406的同步的附加信息。正如前面所描述的，各种实现方式通过例如为与脚本的各个部分对应的图像确定视频时间戳，然后将这些视频时间戳插入到脚本的对应部分来使用视频时间戳。其它实现方式为场景或镜头而不是图像确定并且插入视频时间戳。例如可以⑴以本领域已知的各种方式、（ii)本申请中描述的各种方式、或者（iii)阅读脚本并且观看视频的人类操作员来执行确定脚本的部分与视频的部分之间的对应关系。
[0102] 在各种实现方式中，来自同步单元410的输出是未经改变（例如，注释）的原始视频以及例如如上所述的带注释的脚本。其它实现方式不是改变脚本而是改变视频，或者除了改变脚本之外还改变视频。还有其它实现方式既不改变视频也不改变脚本，但分别提供同步信息。然而，另外的实现方式甚至不执行同步。正如应当清楚的，取决于来自同步单元 410的输出的类型，各种实现方式不需要向系统400的其它单元（诸如例如，下面描述的加权单元420)提供原始脚本406。
[0103] 系统400包括从同步单元410接收⑴脚本406、（ii)视频404和同步信息，以及 (iii)用户输入408作为输入的加权单元420。加权单元420使用这些输入来执行例如加权操作330。各种实现方式允许用户例如使用用户输入408来指定第一个和最后一个场景是否具有最高权重。
[0104] 加权单元420提供对于正在被分析的每个场景的场景权重作为输出。注意到，在一些实现方式中，用户可能期望准备电影的仅一部分的图像概要，诸如例如，电影的仅第一个十分钟。因此，不必要在每个视频中分析所有场景。
[0105] 系统400包括⑴从加权单元420接收场景权重、以及接收（ii)用户输入408作为输入的预算单元430。预算单元430使用这些输入来执行例如预算操作340。各种实现方式允许用户使用用户输入408来例如指定在预算操作340的预算计算中是否使用上限函

完整全部详细技术资料下载

当前第2页1 2 3 4 5 6