创建和链接视频文档的方法与设备的制作方法

文档序号：6490636阅读：298来源：国知局

专利名称：创建和链接视频文档的方法与设备的制作方法
背景1.技术领域本公开涉及创建(authoring)、提取和链接视频物体，更具体地说，就是通过定义视频中的受关注物体来创建视频。
2.相关领域描述多媒体信息经常十分复杂，涉及大量的资源，包含大量的数据。为了使得多媒体信息可用，较好的方法是通过应用所有存在的资源，比如借助于链接，来创建相关并且合适的题材。这就给用户提供了一条基于当前需要，浏览多媒体文档的途径。这样，用户无需真正地查看存在的所有信息，就能够提取并观看相关信息。这对那些变得非常热门的视频尤其适用，各种资源正以不断递增的速率产生这些视频，比如防御/民用卫星、科学试验、生物医学图像，工业调查、家庭娱乐系统等等。这些应用中，视频片断通常须要和其它媒体形式一道使用，比如音频、文本、图像等。比如，一个电子手册，当描述某个机器零件的时，适合允许用户观看相关子部件的视频片断。在该片断中，子部件可以为高亮，被点击后把用户带到其它相关的信息资源，或者回到原来的正文部分。
有利的做法是在视频物体和其它相关信息间创建链接，该物体在视频的某段持续时间里可见。而且，一段视频片断的持续时间里，可能同时存在几个有链接的物理，或者存在于不同的时间窗口，基于其内容链接到不同的目标。为了结合所有其它的媒体类型，即文本、图像、音频等，以有效的方式使用视频信息，对视频进行分割和组织是很重要的，并且在视频不同部分的物体及其它媒体形式的恰当信息之间创建合适的链接。
在概念上，这与超文本有关。根据用户的兴趣和视频的内容，它给用户提供了一条可跟踪的路径。正如网页，在任意情况下，视频空间可以同时存在几个静态和动态的链接，不同与网页的是，链接机会仅仅在一段固定时间的窗口中存在，它随着关注物体的消失而消失，当然除非用户暂停视频播放、倒带和重播，在这种情况下，链接机会再次出现。换句话说，这种情况下，链接便多了一个维数，即时间。
如上面提到的，超链接视频或超视频的概念源自于超链接文本，或超文本。早期的这类工作包括，比如，故事空间，出自J.D.Bolter，“Writing SpaceThe Computer，Hypertext and the Historyof Writing，Lawrence Earlbaum and Associates，Hillsddale，N.J.1991”，一种来自Eastgate系统的超文本书写环境，在链接和节点的显示上采用了空间的比喻。用户创建书写空间，或文本和图像的容器，他们再链接到其它的书写空间。书写空间形成分层结构，用户能够可视化地操作和重组。综合法，出自C.Potts，等人的“Cdlaborativepre-writing with a video based group working memory，Tech-Report，Graphics Usability and Visualization Center，Georgia Instituteof Technology，pp.93-95，1993”，是一种基于故事空间的工具，允许为那些相关于书写空间中文本的同类视频内容做索引和浏览。综合法可以应用在超视频开发的设计和原型阶段。它提供了从文本到视频链接的早期示范。视频到视频的链接第一次使用在多媒体杂志Elastic Charles中，出自H.P.Brondmo等人的“Creating and Viewingthe Elastic Charles-A Hypermedia Journal in HypertextStateof the Art，Intellect，Oxford，UK，1991”，由MIT媒体实验室的交互电影组开发。微小机器或小型化的电影循环短暂地出现，以提示链接。这种原型依赖于同类的视频和激光影碟技术，需要两个银屏。今天，数字视频允许复杂得多的处理。
交互的Kon-Tiki博物馆，出自G.Liestol，“Aesthetic andrhetorical aspects of linking video in hypermedia，Proc.Hypertext-94，ACM Press，New York，pp.217-223，1994”，其中，借助于媒体类型间的基本特性交换，存在从视频到文本和从视频到视频的持续链接。在文本中加入了时间相关，在视频中加入了空间同步性。
视频书籍，出自R.Ogawa等人的“Design strategies forscenario-based hypermediadescription of its structure，dynamics and style，Proc.Hypertext-92，ACM Press，New York，pp.71-80，1992”，演示了基于时间的、面向场景的超媒体。这里，用节点表示来组织多媒体内容，时间驱动链接依据时间属性，自动激活来呈现内容。参考L.Hardman等人的“The Amsterdam hypermedia modelAdding time and content to the dexter model，Communications ofthe ACM，3750-62，1995”，其中，当跟随链接时，他们使用定时显式地指明源和目标内容。参考M.C.Buchanen等人的“Spedfyingtemporal behavior in hypermedia documents，Proc.Hypertext-92，ACM Press，New York，pages 71-80，1992”，作者通过在较高层次上操作媒体成分之间的时间关系，来创建多媒体文档，而不是定时。
来自Ephyx Technologies的VactiveTM和来自InternationalBusiness Machines的HotVideoTM，允许有限集合的链接，这样用户交互时，本视频的另一个部分或是另一个视频开始播放，或者网页浏览器被指定某个URL地址。它提供了基本跟踪，因此可以跟踪简单运动的物体，该物体并不改变形状。可是，用户必须看完视频，来为跟踪找出开始和结束帧，如果有了错误，用户不得不重复这一工作。这些系统没有提供任何半自动的方法来组织视频，为用户提供的链接也是有限的。创建这些链接须要手动完成。这就限制了这些系统的灵活性和使用。
在概念上，超文本和超视频之间有相似性，对于真正的实现，有一些想法须要重新表述，以适应视频的动态特征。这样，链接必须既是时间的也是空间的。而且，创建须要对信息进行编码。定位这些链接的情况是相似的。因此，需要一种系统和方法，来简化为超链接而创建视频，其中用户无需为标识关注物体而浏览整个视频。还须要提供在起始与结束帧之间，对关注物体的位置进行插值的能力，避免过多的计算开销。再就是需要有运动分析，来把镜头进一步分割为子镜头，以及使用自动超链接，把视频片断和其中的物体链接到文件系统的不同部分。
发明概述一种创建视频文件的方法包括以下步骤输入待处理视频数据，通过识别镜头间的间隔把视频数据分割成镜头，使用运动分析把镜头进一步分割为子镜头，为受关注的运动物体提供定位信息，给视频数据中的关注物体描绘边界，这样关注物体就由镜头中的边界代表，以及创建基于关注物体边界的可锚定信息单元文件，这样受关注物体可以用于标识视频数据的部分。
本发明的另一方法中，分割视频数据包括以下步骤为视频数据定义时间段，为时间段计算一些量作为时间序列数据，比较时间段之间的视频数据，以及找出视频数据的时间段之间的突发和渐进变化以定义镜头。使用运动分析将镜头进一步分割为子镜头的步骤包括通过计算光流估计关注物体的运动，观察关注物体的运动，计算估计运动与观察运动之间的误差，以及如果误差超出某一阈值，则创建一个额外的节点来进一步定义关注物体的运动。运动分析可能包括仿射变换。给关注物体描绘边界包括以下步骤为每一镜头的关注物体指定物体类型，物体类型包括顶点，在镜头的帧之间对物体类型的相应顶点进行插值，从而定义一种样条和直线，这样该样条和直线定义关注物体在帧之间的运动。该方法还可以包括把关注物体链接到其它物体上，提供一种交互的视频文档的步骤。将关注物体链接到其它物体以提供一种交互的文档的步骤包括提供视频文档和其它文档之间的自动超链接。自动超链接由超链接器提供，并进一步包括提供链接说明处理、模式匹配，以及源和目标资源之间的链接。这一方法进一步包括提供关键帧，来表示视频数据的镜头和子镜头，这样关键帧表示就用于标识镜头和子镜头中的关注物体。视频适合采用视频AIU标准语言来说明，它遵从SGML语法，并且进一步包括为视频标准定义语法。
另一种创建视频文档的方法包括以下步骤提供播放视频的视频设备，把视频与可锚定信息单元(AIU)文件相连，AIU文件包括了与视频中关注物体相关的物体类型，关注物体能够超链接到浏览器中的其它物体，在帧之间对物体类型的边界进行插值，以定义关注物体的运动，以及播放视频和显示相关与视频中物体类型的可锚定信息单元文件，来提供交互的关注物体，一旦选择某一关注物体和其它媒体的物体后，把关注物体链接到其它媒体。
在其它方法中，其它媒体包括音频、超文本，存储的信息和视频。插值步骤包括借助运动分析把所标识的视频镜头细分为子镜头，运动分析包含以下步骤通过计算光流估计关注物体的运动，观察关注物体的运动，计算估计运动与观察运动之间的误差，以及如果误差超过某个阈值，创建额外的节点来进一步定义关注物体的运动。运动分析可以包括仿射变换。插值步骤包含如下步骤为关注物体指定物体类型，物体类型包括顶点，以及在视频镜头的帧之间对物体类型的对应顶点进行插值以定义样条，这样该样条定义了帧之间关注物体的运动。这一方法还包括以下步骤将关注物体链接到其它物体上，以提供交互视频文档，链接适合包含在视频的关注物体与其它媒体的物体之间提供自动超链接。自动超链接可以由超链接器提供，并进一步包括以下步骤提供链接说明处理、模式匹配，以及在源和目标之间建立链接。这一方法可以包括提供代表视频数据中镜头和子镜头的关键帧，这样关键帧表示可以用于标识镜头和子镜头中的关注物体。视频的说明适合采用视频AIU标准语言，它遵循SGML语法，并进一步包含为视频标准定义语法。
一种创建和观看视频的系统包含一个视频编辑器，用于为视频中的关注物体创建可锚定信息单元(AIU)文件，以及一个播放视频的视频设备，视频具有与之相关的可定位文件，AIU文件包括了对应于视频中关注物体的物体类型。还包括一个浏览器，用于在视频播放过程中与关注物体进行交互，并显示与视频相关的AIU，一旦某个关注物体和其它媒体类型的物体被选中，浏览器为把关注物体链接到其它媒体提供交互的关注物体，其它媒体类型比如其它视频、图像、文本文档等。视频编辑器包含了在帧之间对物体顶点进行插值的装置，从而定义关注物体的运动，这样在视频播放过程中就可以跟踪关注物体。视频的说明适合采用视频AIU标准语言，它遵从SGML语法。
在其它的实施方案里，其它媒体可以包括视频、超文本、存储信息和视频中的一种。插值装置可以进一步包括使用运动分析把标识的视频镜头细分为子镜头的处理器，该处理器最好包含通过计算光流估计关注物体运动的装置，观察关注物体运动的装置，计算估计运动与观察运动之间误差的装置，以及如果误差超出某一阈值，创建额外节点进一步定义关注物体运动的装置。运动分析可以包括仿射变换。插值装置进一步包含给关注物体指定物体类型的方法，物体类型包括顶点，视频镜头各帧之间的顶点定义样条，这样该样条定义了帧之间关注物体的运动。换句话说，每个物体是一种类型，物体由它们的顶点来定义。该系统最好包含自动超链接器，用于自动地把视频中的关注物体超链接到其它媒体的物体。自动超链接器可以提供链接说明处理、模式匹配，以及在源和目标资源间建立链接。视频设备可以包括磁盘播放器、处理器和磁带播放器中的一个。该系统还可以包含输入设备，用于选择视频中的关注物体。浏览器最好具有处理器。该系统还可以提供关键帧，用于代表每个镜头；子镜头可以由边界帧定义，这样镜头和子镜头都可以被系统独立的标识。关键帧可以用于创建视频文档，无须浏览整个视频。
本发明的这些以及其它物体、特征和优点，将在以下结合

的示例性方案的详细说明中变得更清楚。
附图描述这里的内容详细地描述了首选方案，并参考如下附图，其中图1是一种用于创建交互视频文档的系统/方法的流程/方块图，对应于本发明；图2是用于探测视频文件中场景变化的流程/方块图，对应于本发明；图3是用作镜头细分的流程/方块图，对应于本发明；图4是用于手动/自动超链接的流程/方块图，对应于本发明；图5是一种用于与视频文件进行交互的系统/方法的流程/方块图，对应于本发明；以及图6显示了一种用于和视频文件交互的系统的方块图，对应于本发明。
首选方案的详细描述描述内容涉及为视频及相关信息创建和链接视频物体。根据本发明，视频被分解为几个段。视频用语中的镜头指一个或多个视频帧的连续记录，它描绘了在时间和空间上连续的动作。在镜头中，摄影机可以保持不动，或者可以进行某个典型运动，即摇动、变焦、倾斜，或跟踪。把视频分割为一系列镜头通常并不简单，现代编辑机器带来了镜头之间的多种过渡，使得分割变得复杂。辨识那些包含主要是视觉突变和停机的镜头过渡，要相对容易一些。这样的过渡，也叫做直接剪切，通过考察象素层次上帧与帧之间亮度变化，可以相对容易地探测到。可是在很多情况下，为了达到视觉的舒适效果，采用特殊的编辑机器，以渐进的方式来处理两个镜头之间的过渡。这些渐进的变化类型也称作视觉剪切。视觉剪切有几种，比如淡入、淡出、渐渐消隐、擦去、翻转、叠加、放大、缩小，等等。借助基于时间的链接完成对超视频场景的穿过或贯穿，也就是说穿过的机会仅仅在短时间内存在。传统上，链接意味着一直对用户存在地静态关联，而机会意味着当关联可以被激活时的一段时间或空间的窗口。依据当前内容，这样的机会动态出现，并提供通往相关信息的导航路径。正如传统超文本的情况，对于超视频，也可以同时存在几个基于文本或图像的链接。事实上，也有视频链接。而且这些链接可以同时出现。不管是用户使用这些链接中的一个，并通过链接，或者当时间窗口过去后这些链接消失，先前暂停地视频序列都继续播放。
有时还会有解释性文本叙述出现，作为对镜头的说明性叙述文本，这种出现可以是，也可以不是用户触发的，也就是说，在相关镜头的播放时间段里，一些相关文本出现在屏幕的某一位置，很像正常在闭路的带标题电视记录中看到的那样。然而，用户也可以触发它，在这种情况下，用户点击某个物体，关于物体的详细说明就出现了。链接也可以看作空间-时间的机会。原因是随着时间的流失屏幕上的物体可能移动。但是，既然是同一个物体，很可能物体链接具有相同的目标。这与传统的超文本不一样。
本发明的优势之一是采用了一种场景变化探测方法，把视频划分为几个单元或镜头。既探测渐进变化也探测突然变化。这样，超链接视频的创建就大大简化了，用户也没有必要浏览整个视频来标识关注物体。而是仅仅预览视频浏览器中的关键帧，从这里找到需要编辑的视频镜头。
本发明包含一种运动分析法，用于把镜头分解为子镜头。镜头被分解以后，使用一种样条插值器，在起始和结束帧之间对关注物体的位置进行插值。这样无需过多的计算开销就给出了精确的定位信息。关注物体没有必要存在于镜头的整个持续时间。物体信息的存储使用视频AIU(可锚定信息单元)标准语言，它遵从SGML(标准的通用标记语言)语法。链接编码也使用链接标准语言(或语法)，同样遵从SGML语法。自动超链接用于把视频片断或其中的物体链接到文件系统的其它部分。
创建和播放超链接视频，可以通过对视频恰当地组织来实现。本发明提供了一种严格的基于内容的结构处理，并给出来一种使用SGML语法对视频文件中的结构进行说明的方法。场景变化探测策略和运动分析的结果，被用于以半自动方式分解视频。然后把这些信息组织在镜头和子镜头中，正如上面所描述的那样。这些信息还用于标识每个镜头或子镜头的开始和结束帧。在创建过程中，用户可以选择标识重要的结构，在每个子部分或子镜头的开始和结束帧中勾出它们的轮廓。用户还可以选择精确勾画这些边界，或者只是给出粗略轮廓，然后让系统使用它那复杂的边界发现机制来寻找确切边界。对于其间的所有视频帧，基于它的复杂性，采用曲线拟合技术进行插值，比如线性的、样条的，等等。链接到同一或不同视频的其它部分，或者到其它不同的媒体形式，是采用自动超链接技术来完成的。这样，对于几个要做的链接，并不是非得痛苦地手动完成所有工作，用户可以选择将它们自动输入。这些信息的编码适合采用SGML结构来完成。同时也提供了手动定义链接的能力。当播放时，适当的链接可以被激活。
现在详细地参考附图，需要明白的是图1-6中显示的成分可以用不同形式的硬件、软件或它们的组合来实现。推荐的做法是，在一台或多台恰当编程的通用数字计算机上，用软件实现这些成分，该计算机具有处理器和内存，以及输入/输出接口。详细参看这些图，几张图中相似的索引数字代表相似的或相同的成分，从图1开始，显示的是一种方法/系统的流程/方块图，对应于本发明。方块10中视频以压缩或非压缩形式输入。本发明的一个方面就是能够把视频分割成有意义的连续单元或镜头。方块12中，实现镜头的标识。一个大型视频，通常是几个镜头的串联，因此可以通过适当地辨识镜头或段之间的间断将它分解。这些间隔可以是短暂的突变，或者可以是经历几个帧渐变。使用本发明开发的一整套场景探测法，从视频中抽取时间序列形式的各种信息，这些信息结合起来指明视频中的间隔。
图2中的流程图具体描述了方块12。从方块20开始，输入系统的可以是压缩的或者是非压缩的视频。根据所要求的精度决定在时间和空间上，算法需要达到的分辨率。方块22中，从方块20来的视频资源数据经过数据获取系统的预处理，得到压缩的或非压缩的视频图像。方块24中，计算出三种不同的量，作为视频时间持续的时间序列数据。计算出的三种不同的量包括帧之间的区别、亮度直方图和每一帧的亮度变化。这些时间序列数据用于分析那些预先确定的时间窗口，以探测场景的变化。紧接着的一步确认可能的场景(或镜头)是否是真正的独立镜头，这一步属于方块26。一旦确定为镜头，每一镜头的起始和结束帧就被提取出来，方块28是进一步的确认工作，检查每一帧，看看相邻的关键帧是否足够地不同。关键帧是指定为包含了贴切或所需信息的帧，用它来定义或代表一个镜头。如果不是，这些镜头就合并起来，并从中提取新的关键帧，该帧再和邻近的关键帧比较。关键帧是整个镜头的代表。当不再有变化时，该过程结束，如果需要，得到待手动编辑帧的最终列表。这样，在这个过程的最后，输出的镜头列表文件包括不同视频子部分的起始、结束和关键帧的列表。
再次回到图1，方块14包含了镜头的进一步分割。一旦把视频分解成全局单元的工作完成后，方块14的目标是进一步分割镜头。对于那些可能链接到其它信息资源的关注物体，较好的做法是建立这些物体边界的简要描述。这就避免了须要保存不同关注物体在所有帧上的边界位置。实际上是在每一子镜头(物体在其上可见)的起始/结束帧上保存了每一物体的边界位置，然后存储了插值模型。这样不仅节约了存储空间，也使得播放过程中算法更加有效，因为一旦知道了边界值和插值模型，插值很容易计算出来。
参考图3，这里方块14得到详细的显示。一旦知道边界值和插值模型，这一点可以通过运动分析实现，插值便可以计算出来。方块32中，对于镜头中的每一帧，通过计算光流，完成局部运动的估计。可以使用一种通用换算的方法粗略地实现。比如，通用换算法，出自B.Lucas等人的“An iterative image registration technique withan application to stereo vision，Proc.Image UnderstandingWorkshop，pp.121-130，1981”，在这里作为参考。对于两个连续的帧，图像中每一点的运动可以描述为It(x-Vx(x，y)，y-Vy(x，y))＝It+1(x，y) (等式1)运动的解，(Vx(x，y)，Vy(x，y))T给出如下
其中Ix、Iy和It分别是图像中点(x，y)处的亮度对于x，y(位置)和t(时间)的偏微分。求和在点(x，y)周围的小邻域进行。通用换算处理可以估计大的运动。到这里，可以采用仿射变化来粗略地评价这种运动估计的符合程度，这一步属于方块34。一个假设是，如果仿射近似还不够，则很可能帧之间的运动很大，这种情况下就适合及时地引入一个节点来分解镜头。镜头或子镜头包含很多的帧。这些帧包括一对起始、结束帧和中间帧。起始和结束帧之间的关注物体的运动，可以通过具有位置的物体的点或顶点来定义。随着物体的移动，它们的位置发生改变。如果运动是这样的，则须要进一步定义关注物体，在中间帧中加入节点，以进一步定义运动，比如，使用点或顶点之间的样条，它从起始到结束帧并经过中间帧的节点。
某一特定区域的仿射参数可以采用标准回归技术来估计。回归可以分别应用在每一个速度分量上，即x仿射参数仅仅依赖速度分量x，分量y也是如此。假定，仿射参数给定为axT＝[ax0，axx，axy]和ayT＝[ay0，ayx，ayy]以及回归数＝[1，x，y]，则运动域为Vx(x，y)＝Tax以及Vy(x，y)＝Tay(等式3)运动的线性最小方差估计为[ax，ay]＝[ΣφφT]-1Σ(φ[Vx(x，y)Vy(x，y)])(等式4)其中在每一个区域内求和，接着使用畸变函数，给出如下其中V(x，y)＝(Vx(x，y)，Vy(x，y))T。方块36中，根据等式3、4和5，确定预计运动和观察运动之间的误差。方块38中，如果预计运动和观察运动之间的误差超出预定的阈值，则得出结论，在此点镜头须要细分，在方块39中须要加入一个节点，从而带来一个关键帧的出现。如果镜头无须细分，则存在一个关键帧代表该镜头，它位于起始和结束帧之间。关键帧代表了整个镜头，可以从帧中随意选出，比如中间的一帧。关于此过程须要注意的是，不是使用图像上的所有点，而是选择一定数量的点，选择主要依据它们对光流计算的合适程度。可以看到，如果等式1左边的2×2对称矩阵超出图像的干扰并且具有好的条件数，则可以较好地跟踪该点。这就意味着矩阵地特征值很大，相互比例接近于1。
再次回到图1，方块16包含了为视频物体定义边界。正如上面提到的，边界的定义仅仅是在那些具有关注结构的镜头中，而且以后这些结构可能有超链接。对于那些有关注物体的镜头，引导用户进入它们，并提示用户为起始和结束帧以及节点帧勾出关注物体的轮廓，如上所述，这些帧是采用运动分析计算出来的。在一种方案里，用户使用同一物体类型勾画某一物体。这样，如果物体在起始帧的轮廓为椭圆，则在其它所有的边界帧和结束帧中，它的轮廓也是椭圆，可能大小和位置不同。所允许的其它物体类型包括长方形。椭圆(圆)和/或多边形。
在单个镜头中可能存在不止一个关注物体，也就是说，可能有多个物体在单个帧中。可是，并不须要所有那些物体出现在镜头的整个时间持续里。这些轮廓存储在AIU文件(将在下面描述)里，其中每条记录对应一个物体。一旦物体在起始、结束和中间边界帧里勾画了轮廓，运行中便进行插值，这里建议采用样条插值。一个样条插值的例子出自“W.Pres s等人的Numerical Recipes in C，CambridgeUniversity Press，1995”，在这里作为参考。对于长方形，在它的对角点的对等点上进行插值。对于椭圆(圆)，在定义的边界框长方形的对等点上插值。可是对于多边形，更复杂一些。把多边形重新取样成同样数目的顶。为了简单起见，所有用于插值的对等点都描述成顶点，即长方形的对角点等。这样就把多边形注册了，顶点之间的确切对应也已知。然后插值就在这些顶点的对应点上进行。这样就定义了样条/直线端点之间所有帧上的多边形，样条/直线连接了帧(和镜头)间的多边形。
方块18中，视频文档结构的定义适合使用SGML(标准的通用标记语言)，来获取从视频中得到的信息。其它的编程语言也可以使用。从视频中提取的物体成为可锚定信息单元(AIUs)。这样视频文档可表示成视频AIU文档类型定义(DTD)的实例。由于利用SGML较好地组织了视频文档，根据本发明，可以实现视频文档和所有其它类型文档的自动超链接。完成超链接后，当播放过程中用户点击一个物体，相应的链接就发生，并到达正确的目标。处理后，每一个视频文件都对应于一个AIU文件，那里包含了从视频文件提取的所有相关信息。所有的多媒体文档工具，比如视频播放器和浏览器，借助于对应的AIU文件操作视频文件。
AIU文件以一种分级方式定义，如下所示。在AIU文件根部，存在一个AIUDoc定义，包括首部、尾部和VideoDocX域中的提取信息，示例性地显示如下<！ELEMENT AIUDoc --(DocHeader，VideoDocX，DocFooter)>
<！ATTLIST AIUDocId CDATA #IMPLIEDTypeCDATA #IMPLIEDNameCDATA #IMPLIED>
DocHeader定义如下<！ELEMENT DocHeader --(DocType，DocDesc)>
<！ATTLISTDocHeaderId CDATA #IMPLIEDTypeCDATA #IMPLIEDNameCDATA #IMPLIEDFileCDATA #IMPLIED>
VideoDocX的域如下所示(这些域将在下面定义)<！ELEMENT VideoDocX --((VideoSeg | VideoAIU)*)>
<！ATTLIST VieoDocXId CDATA #IMPLIEDRateCDATA #IMPLIEDAxisCDATA #IMPLIEDDimSpec CDATA #IMPLIEDSchedAttrName CDATA #IMPLIED>
VideoSeg域描述了场景的特征，定义如下<！ELEMENT VideoSeg --((VideoSeg2 | VideoAIU)*)>
<！ATTLIST VideoSegId CDATA #IMPLIED>
VideoSeg2域定义当前场景中的段，如下所示
<！ELEMENT VideoSeg2 --(V ideoAIU*)>
<！ATTLIST VideoSeg2Id CDATA #IMPLIEDStartFrame CDATA #IMPLIEDEndFrameCDATA #IMPLIEDKeyFrameCDATA #IMPLIEDSchedAttrName CDATA#IMPLIED>
最后，AIU的定义可以使用如下域<！ELEMENT VideoAIU--((BoundaryList | Link)*)>
<！ATTLIST VideoAIUIdCDATA #IMPLIEDType CDATA #IMPLIEDName CDATA #IMPLIEDBoundaryFrames CDATA #IMPLIED>
<！ELEMENT BoundaryList --(Boundary*)>
<！ELEMENT Boundary --((#PCDATA)+)>
AIU文件是一个或多个可进行语法分析的字符数据列。这里，很明显它是ASCII字符和数字的串。关于SGML语法的更多的细节，请参考ISO.SGML，ISO88791986文字与办公系统-标准的通用标记语言。
以上列出的视频AIU还可以包含其它属性，适用于那些和其它媒体类型相关的AIU。此外，以上代码中示例性地显示的属性列表，可以包含其它的属性类型或更少的属性类型。正如前面提到的，视频文档以一种分级的方式来组织。根部为整个的视频。然后划分为所谓的场景，场景又进一步分割成段，其中段包括了场景帧集合的一个子集。AIU文件开始于对应媒体类型的描述，在本例中为视频，其它媒体，比如音频、文本等，都可以使用。文档首部适合包含四个不同的域，包括对应的视频文件名，整个视频唯一的标识，文档类型定义(DTD)，它说明视频的内容，以及更详细的文档描述，同样说明视频的内容。从视频中提取的信息建议存储在VideoDocX结构中。VideoDocX结构具有一个由视频文件本身Id导出的唯一Id，该结构包含速率信息，以及对视频进行时间划分的依据，比如，代表帧序号的数字。
场景的整个时间持续由DimSpec域给出，包含起始和结束帧。SchedAttrName涉及调度属性，在本例中包括边界帧。借助于场景和段，以一种分级方式组织视频。段具有如下属性。同样，每个段具有唯一的Id。段的起始和接束帧定义了段的范围。关键帧定义了段的代表帧。用于快速预览视频。换句话说，查看关键帧，来了解镜头或场景的大致内容。AideoAIUs也具有一个唯一的Id。VideoAIUs适合为如下类型长方形、椭圆和多边形。同时也考虑了其它类型。每一个AIU还具有一个唯一的名字。
BoundaryFrame域指明在哪一帧定义了该关注物体的对等点。BoundaryList在每一BoundaryFrame定义该关注物体的对等点。因此，有多少边界帧，BoundaryList定义中就有多少边界定义。边界定义了边界帧中相应物体的x和y坐标。对于长方形和椭圆的情况，只定义边界框的左上和右下角。对于多边形，须要定义所有的节点。一个视频AIU文件的解释性例子如下所示。该例的链接定义在下面描述。
<AIUDoc Type＝“Wideo”>
<DocHeader File＝“v942ovw.mjg”Id＝“Nv942ovw”>
<DocType>Training</DocType>
<DocDesc>Overview of V94.2 Gas Turbing</DocDesc>
</DocHeader>
<VideoDocX Id＝”IDV942”Rate＝“15”Axis＝“FrameNumber”DimSpec＝“1 1209”SchedAttrName＝“BoundaryFrames”>
<VideoSeg Id＝“SCENE1”>
<VideoSeg2 Id＝“EDV942P1”StartFrame＝“66”KeyFrame＝“180”EndFrame＝“261”>
</VideoSeg2>
<VideoSeg2 Id＝“IDV942P2”StartFrame＝“270”KeyFrame＝“320”EndFrame＝“373”>
</VideoSeg2>
</VideoSeg>
<VideoSeg Id＝“SCENE2”>
<VideoSeg2 Id＝“IDV942P3”StartFrame＝“424”KeyFrame＝“430”EndFrame＝“444”>
</VideoSeg2><VideoSeg2 Id＝“IDV942P4”StartFrame＝“620”KeyFrame＝“800”EndFrame＝“1209”>
</VideoSeg2>
</VideoSeg>
<VideoAIU Id＝“VAIU01”Type＝“rectangle”Name＝“180object1”BoundaryFrames＝“66 100 156 240”>
<BoundaryList>
<Boundary>254 161 370 270</Boundary>
<Boundary>224 145 336 255</Boundary>
<Boundary>201 130 315 241</Boundary>
<Boundary>160 99 275 205</Boundary>
</BoundaryList>
</VideoAIU>
<VideoAIU Id＝“VAIU02”Type＝“ellipse”Name＝“180Object2”BoundaryFrames＝“100 156 240 261”>
<BoundaryList>
<Boundary>211 17 365 103</Boundary>
<Boundary>250 70 400 150</Boundary>
<Boundary>300 93 445 180</Boundary>
<Boundary>358 101 501 193</Boundary>
</BoundaryList>
</VideoAIU>
<VideoAIU Id＝“VAIU03”Type＝“ellipse”Name＝“320object1”BoundaryFrames＝“300 350”>
<BoundaryList>
<Boundary>65 139 171 245</Boundary>
<Boundary>42 180 145 290</Boundary>
</BoundaryList>
</VideoAIU>
<VideoAIU Id＝“VAIU04”Type＝“ellipse”Name＝“320Object2”BoundaryFrames＝“270 320 373”>
<BoundaryList>
<Boundary>444 140 553 243</Boundary>
<Boundary>400 160 520 220</Boundary>
<Boundary>320 191 450 258</Boundary>
</BoundaryList>
</VideoAIU>
<VideoAIU Id＝“VAIU05”Type＝“polygon”Name＝“420object1”BoundaryFrames＝“424 444”>
<BoundaryList>
<Boundary>438 81 411 88 397 102 383 138 406 185 480 175 493 122 46589 438 81</Boundary>
<Boundary>450 90 420 97 405 115 400 150 420 190 188 501 131 480 95450 90</Boundary>
</BoundaryList>
</VideoAIU>
</VideoDocX>
<DocFooter></DocFooter>
</AIUDoc>
上面列出的视频AIU文件详细内容解释如下视频文件名为“v942ovw.mjg”，正如File参数所示。DocType和DocDesc参数显示，这是一段培训视频，给出了汽油涡轮机的概要介绍。Rate参数表明视频速率15帧/秒，DimSpec参数显示共有1209帧。
视频共分两个场景。每个场景都包含两个镜头。第一个场景，SCENE1具有两个镜头，第一个开始于66，结束于261，它的关键帧在180。第一个镜头开始于270，结束于373，它的关键帧在320。两个镜头之间的262到269为镜头变换。
与此类似，第二个场景SCENE2具有两个镜头，一个开始于424，结束于444，关键帧在430，另一个开始于620，结束于1209，关键帧在800。
视频中共有五个AIU。第一个AIU为长方形物体。它开始于66帧，结束于240帧。具有4个边界(节点)帧66，100，156和240。在所有这些节点帧中定义了长方形。该长方形在帧之间改变了形状。帧66中左上(x，y)坐标为(254，161)，右下为(370，270)。其它3个节点帧与此相似。在实际的视频中，它跟踪一个燃烧炉的大致外形，经历174帧。
下一个AIU为椭圆物体，从100帧到261帧跟踪一个环形的机器零件。它同样具有4个边界(节点)帧。椭圆由它的边界框定义，因此可以采用和长方形类似的方法来定义它。显示时，视频播放器知道物体的形状，会给出恰当的显示。我们需要多个节点帧的原因是，相应的物体改变位置和形状，在第一(起始)和最末帧之间的简单线性插值就不够精确。为了理解这一点，想想正弦函数的情况。如果有两点，相距大于半个时间周期(经过时间周期后函数具有同样的值)，为了近似重构两点之间的值，我们必须知道轨道上几点的值。或者考虑以抛物线运动的物体的情况，只知道端点我们不可能估计端点之间其它点的位置(除非模型已知)。这里，我们的问题中，物体不仅改变位置，它们还确实改变了形状，比如，由于不同的视角。
第三个AIU为椭圆。它只有两个边界帧，起始和结束帧。换句话说，之间的改变是线性的，因此我们只需要2个节点。
第四个AIU也是椭圆，它是一条对着汽油涡轮机开口的管道，由3个边界帧描述270，320和373。随着摄像机的远离，它确实改变了形状(变小了)和位置。
最后一个AIU显示了对于任意形状描述AIU的能力。它采用具有多个顶点多边形描述。这里，物体存在于424帧444帧，并且只在这两帧内定义。在此之间，为简单的插值。AIU文件的最后几行定义了结束句。
如前所述，AIU可以有或没有相关的链接。如果有链接，则对应用户的交互存在导航。在本例中，第一、第四和第五个AIU具有链接。这样，当这些物体被显示时，如果用户点击它们，适当的链接便产生，否则没有任何反应。
在图1的方块18中进行视频文档的超链接。视频AIU的超链接可以手动完成，也可以以自动方式实现。手动链接可以加入AIU的勾画轮廓部分，如上面描述的那样。然而，对于本发明，既然从视频中提取的信息被存储在良好组织的AIU文件里，发明者变开发了一种自动链接器，基于超链接标准，自动地超链接视频AIU与其它所有类型的文档。也就是，超链接器处理链接说明，执行文档内容和结构的匹配，以及在源和目标之间建立链接。
本发明的一个重要方面是链接信息如何在AIU文件中编码。每一个编码的关注物体都可能具有链接。在一种方案里，为AIU文件采用SGML结构，链接为文件中的实体，因此链接的定义也使用类似SGML的结构。定义和域示例性地给出如下<！ELEMENT Link--((#PCDATA)+)>
<！ATTLIST LinkLinkId CDATA#IMPLIEDType CDATA#IMPLIEDSubTypeCDATA#IMPLIEDLinkend CDATA#IMPLIEDBook CDATA#IMPLIEDFocus CDATA#IMPLIEDLinkRuleId CDATA#IMPLIED...
>
Type定义了目标的类型，即是文本还是图像，或者视频等。Focus定义了链接目标中高亮的文字。Book代表目标所在的书。由于一个应用就是一个超链接手册，这些域组织成分级树的形式，其中每一个手册表示成一本书。Lindend，一个重要的属性，包含了目标信息。如果目标指向数据库，则LinkId为数据库中的索引。LinkruleId指明建立此链接的规则。最后，SubType类似于上面AIU标准中的Type定义。Labels给出了链接目标的描述。还可以有其它可选的属性。当链接类型为“Jump”时，意味着目标为同一视频的另一点，LinkId的内容给出位置(即帧序号)。
下面，给出了一个超链接AIU文件示例的SGML代码。也就是说，链接成分被手动地或自动地加入VideoAIUs中，播放中这些VideoAIUs超链接到它们的目标。
<AIUDoc Type＝“Video”>
...
<VideoDocX Id＝“IDV942”Rate＝“15”Axis＝“rameNumber”DimSpec＝“1 1209”SchedAttrName＝“BoundaryFrames”>
<VideoSeg Id＝“SCENE1”>
</VideoSeg>
...
<VideoAIU Id＝“VAIU01”Type＝“rectangle”Name＝“180object1”BoundaryFrames＝“66 100 156 240”>
...
<Link Type＝“Text”Subtype＝“ID”LinkId＝“7001”Linkend＝“N13509426”Book＝“31”Labels＝“Text Document in Vol 3.1”>
</Link>
</VideoAIU>
...
<VideoAIU Id＝“VAIU04”Type＝“polygon”Name＝”430objece1”Boundaryframes＝“424 444”>
<Link Type＝“Text”Subtype＝“ID”LinkId＝“7003”Linkend＝“HL233”Book＝”31”Labels＝”Text Document in Vol 3.1”>
</Link>
</VideoAIU>
</VideoDocX>
<DocFooter></DocFooter>
</AIUDoc>
图4显示了图1的方块18的详细内容。在方块40中形式创建AIU文件，如上面所描述的那样。方块42中，使用SGML索引器为SGML文档(包括AIU文件)作预先索引。这里包括了每个SGML成分的列表词典，以及在词典中的序号，各成分的以它们在文档中出现的先后为序。根据用户定义的链接说明，方块44中，采用这些词典文件上的模式匹配来创建链接。对于视频AIU，方块44中创建从视频AIUs到视频AIUs的链接。关于用于实现超链接的超链接器，详细内容请参阅“P.Liu，等人的Towards automa ting the creation of hypermedia servicemanuals by compiling specifications，Proc.IEEE Multimedia，pages 203-212，1994”，这里作为参考。
根据本发明，如上面那样借助于AIU标准语言来组织视频信息，超链接器可以直接应用在视频AIU的创建系统中，这是很有利的一点。这样就可以使用超链接管理系统，它能递增地更新链接规则。这一工作也可以由链接管理软件实现，它借助于时间标记采用链接数据库来跟踪链接规则的变化。通过改变现存的链接说明或者通过增加额外的链接说明，来实现递增超链接。当增加新的链接说明时，超链接器在所有文档上执行新的链接说明，增加新的链接，而不毁坏旧的链接。当一个链接失效时，依据旧链接的Id把它去除。增加新链接时也采用相似的过程。
再次回到图1，在方块19中可以选择进行播放。当超链接完成后，播放过程中可以测试其功能。在一种方案里，把普通视频播放器进行修改，并使用特定用途的软件，借助于链接管理器来实现各处理之间的通信。参看图5，方块50中，当播放器，比如，收到载入某一视频的命令，方块51中，载入视频的同时，播放器查看有无对应该视频的AIU文件。如果有，方块52中把它随源文件一同载入。方块53中，对于AIU文件的每一个记录，载入开始、结束帧以及关键帧的边界文件。接着，为边界定义(对应于视频中的关注物体)计算出插值系数这样，播放过程中，就无须做计算插值系数的运算性费力工作，由于已经完成。播放开始于方块54。播放过程中，每一帧都要查看本帧是否是那些具有超链接物体的镜头的一部分，这些物体需要高亮显示。如果是那样，则把对应的镜头标识出来，并在方块55中计算出那些需要轮廓的各个物体的边界。然后把这些边界覆盖到帧上。事实上，为了加速这一过程，使用一个简单的标志数组，它来识别帧上是否具有关注物体(AIUs)，这一步属于方块56。这些信息在AIU文件中编码，方块57中把它显示出来。如此下来，在方块58中如果用户点击任意物体，并且方块59中链接信息存在，播放器便在方块60里暂停视频，并在方块61中使用恰当地Link Id来和链接管理器通信。然后链接管理器执行链接目标。通常，在多媒体文档环境里，意味着跳转到文本的特定位置，或者显示当前物体的详细图像。在本例中，SGML浏览器跳转到SGML文档的那一点。当遇到跳转命令时，指导播放器跳转到该位置，那一帧变为可见。如果用户选择继续播放，播放器从此位置继续。如果不是跳转命令，播放器从当初暂停的地方继续播放。这样一直继续到视频结束或用户停止播放。
本发明提供一种自带的场景变化探测方法，来把视频划分成几个单元或镜头。好的是，该方法既能探测渐变也能探测突变。这样，创建超链接视频的工作就大大简化了，用户不需要浏览整个视频来标识关注物体。相反，只有查看视频浏览器中的关键帧，并从中找出需要编辑的镜头。运动分析被用于把镜头进一步分解为子镜头。把子镜头/镜头分解后，采用样条或线性插值器，在起始和结束帧之间对关注物体的位置进行插值。这样就给出了精确的定位信息，无需过多的计算开销。借助于视频，用AIU标准语言存储物体信息，该语言遵从SGML语法。链接的编码也采用这里提出的链接标准语言，并同样遵从SGML语法。所提供的自动超链接把视频片断或其中的物体链接到文档系统的不同部分。
图6显示的是，超链接视频播放和创建视频的系统100，对应于本发明。系统100包含视频设备102，比如视频磁带播放器、光盘播放器、个人电脑或其它任意的视频播放设备。输入设备或输入系统104包括，比如，鼠标键盘、触摸屏或者类似的设备，用于“点击”或在视频设备播放的视频中选择关注物体，这一部分为视频编辑器105的一部分，视频编辑器105用于依据本发明创建视频。视频编辑器105可以包含一个处理器，比如个人电脑。显示设备106，比如显示器、电视等，用于观看视频。
系统100用于创建交互视频文件和/或播放具有超链接的视频文件。在一种方案里，系统100的所有功能可以在一台处理器或计算机上实现。根据本发明，视频文件103输入到视频编辑器105，供创建用。视频编辑器输出AIU文件。超链接器108用于创建到关注物体的链接，这些物体具有AIU文件。链接可以是到其它的文档，比如超文本、视频片断、音频曲目、其它媒体等，或者是到同一文档。超链接器108适合借助于和视频相关的可锚定信息单元文件，把视频中的关注物体链接到其它物体，如上面所描述的那样。该系统可以提供浏览器110，它可以具有一个处理器，比如个人计算机。浏览器110用于与视频(和AIU文件)交互，提供对代表整个镜头的关键帧的访问，以允许对镜头、子镜头等的编辑，而无须预览大部分视频。超链接AIU文件可以为视频播放设备102所用，或者浏览器110和视频设备或播放器102共同使用。当共同使用时，视频浏览器110，根据用户的激活，要求视频设备102仅仅播放特定的镜头或部分，以及相应的AIUs物体。通过这一方法，用户可以参考和/或预览视频，而无须观看整个视频。通过根据本发明分解视频，并标识关键帧，有效地“概述”了视频，使得视频文档的创建更加容易，对用户更友好。本发明提供了一种操作，无须预览整个视频，用户便能够把视频片断链接到视频手册，再比如，或是提供了在显示器106上仅仅查看包含关注物体的镜头的能力。
系统100提供了一种方法，使得视频片断容易访问，从而为链接物体所用。特定镜头或子镜头的关键帧，可以用于代表视频镜头，还可以在编辑视频、创建网页等中用于操作镜头或场景。
根据本发明，视频编辑器105采用一种标准语言来创建视频。该语言(适合遵从SGML语言)提供了一种基于内容的结构，它包括镜头和分解的子镜头，用于描述视频内容。而且，还包含了一种语法或链接描述，允许同一视频、其它视频或不同媒体之间的链接能力。借助视频浏览器110可以找出关键帧，从而更容易地找到关注物体。这就提供了更容易的途径，来访问具有超链接的关注物体，而无须查看整个视频。视频编辑器105还进行边界辨识、运动分析(样条插值)等，如上面所描述的那样。好的是，通过借助于浏览器110选择关键帧或关注物体，本发明允许查看那些包含关注物体的镜头或子镜头，而无须为了获得用户所需的内容查看整个视频。
这里描述了创建和链接视频文档的方法和系统的首选方案(是示例性的，而不是限定性的)，需要注意的是，那些在该领域具有熟练技能人，可以根据以上描述作出修改和变动。因此需要知道，可以在所描述的特定发明方案里作些修改，但不应偏离本发明的范围和精髓，正如附加权利要求所说明的那样。在此，根据专利法的要求，描述了发明的细节和具体内容，并在附加权利要求中提出了希望得到专利特许证保护的权利。
权利要求
1.一种创建视频文档的方法包括以下步骤输入待处理的视频数据；通过辨识镜头之间的间断把视频数据分割为镜头；借助运动分析把镜头细分为子镜头，提供关注物体的定位信息；给视频数据中的关注物体描绘边界，使得边界可以代表镜头中受关注物体；以及根据关注物体的边界创建可锚定信息单元文件，使得关注物体可以用于表示视频数据的一些部分。
2.如权利要求1所述的方法，其中分割视频数据的步骤包括以下步骤给视频数据定义时间段；为时间段计算一些量作为时间序列数据；比较时间段之间的视频数据；以及找出视频数据时间段之间的突变和渐变，以定义镜头。
3.如权利要求1所述的方法，其中借助运动分析把镜头细分为子镜头的步骤包括以下步骤通过计算光流估计关注物体的运动；观察受关注物体的运动；计算估计运动和观察运动之间的误差；以及如果误差超出某个阈值，创建额外的节点来进一步定义关注物体的运动。
4.如权利要求1中所述的方法，其中运动分析包括仿射变换。
5.如权利要求1中所述的方法，其中描绘关注物体的边界的步骤包括以下步骤给每一镜头的关注物体指定类型，物体类型包括顶点；在镜头帧之间，对物体类型的对应顶点进行插值，以定义样条和直线中的一种，使得样条和直线便定义了帧之间关注物体的运动。
6.如权利要求1中所述的方法，进一步包括把关注物体链接到其它物体的以提供交互的视频文档的步骤。
7.如权利要求6中所述的方法，其中把关注物体链接到其它物体的步骤提供交互的视频文档，包括在视频文档和其它物体之间提供自动超链接。
8.如权利要求7中所述的方法，其中提供自动超链接由超链接器提供，并进一步包括提供链接标准处理、模式匹配，以及在源和目标之间建立链接。
9.如权利要求1中所述的方法，进一步包括提供代表视频数据中镜头和子镜头的关键帧的步骤，这样关键帧标识可以用于表示镜头和子镜头中的关注物体。
10.如权利要求1中所述的方法，其中视频的说明采用视频AIU标准语言，它遵从标准的通用标记语言(SGML)语法，并进一步包括为视频标准定义语法。
11.一种创建视频文档的方法，包括以下步骤提供一种播放视频的视频设备；把视频和可锚定信息单元(AIU)文件关联，AIU文件包含视频中关注物体所对应的物体类型，能够超链接到其它物体的关注物体包含在浏览器中；在帧之间对物体类型的边界进行插值，以定义关注物体的运动；以及播放视频，并显示和视频中的物体类型相关的可锚定信息单元，从而将关注物体链接到其它媒体提供交互的关注物体，当选中某一关注物体和其它媒体的物体后进行这种链接。
12.如权利要求11中所述的方法，其中其它的媒体包括音频、图像、超文本、存储的信息和视频中的一种。
13.如权利要求11中所述的方法，其中插值的步骤包括借助于运动分析，把辨识出的视频镜头细分为子镜头，运动分析包括以下步骤通过计算光流估计关注物体的运动；观察关注物体的运动；计算估计运动和观察运动的误差；以及如果误差超出某个阈值，则创建额外的节点来进一步定义关注物体的运动。
14.如权利要求11中所述的方法，其中运动分析包括仿射变换。
15.如权利要求11中所述的方法，其中插值的步骤包含以下步骤为关注物体指定类型，物体类型包括顶点；在视频镜头的帧之间，对物体类型的对等顶点进行插值，定义样条，这样该样条便定义了帧之间关注物体的运动。
16.如权利要求11中所述的方法，进一步包括把关注物体链接到其它物体，提供交互的视频文档，其中包括在视频的关注物体和其它媒体的表示信息之间提供自动超链接的步骤。
17.如权利要求16所述的方法，其中自动超链接由超链接器提供，并进一步包括提供链接标准处理、模式匹配，以及在源和目标之间建立链接。
18.如权利要求11中所述的方法，进一步包括以下步骤提供代表视频数据镜头和子镜头的关键帧，这样关键帧标识可以用于表示镜头和子镜头中的关注物体。
19.如权利要求11中所示的方法，其中视频的说明采用视频AIU标准语言，它遵从标准的通用标记语言(SGML)语法，并进一步包含为视频标准定义语法。
20.一种创建和观看视频的系统，包括视频编辑器，用于为视频中的关注物体创建可锚定信息单元(AIU)文件；视频设备，用于播放视频，视频具有相应的可锚定信息单元文件，AIU文件包括和视频中关注物体相关的物体类型；浏览器，用于交互关注物体和视频中播放的物体，并且显示与视频中物体类型对应的AIU文件，将关注物体和其它媒体的链接提供了交互的关注物体，当选中一个关注物体和其它媒体的物体时进行这种链接；以及视频编辑器包括在帧之间对物体类型的顶点进行插值的装置，通过插值定义关注物体的运动，这样视频播放过程中就可以跟踪关注物体的运动。
21.如权利要求20中所述的系统，其中其它媒体包括音频、图像、超文本，存储信息和视频的一种。
22.如权利要求20中所述的系统，其中插值装置进一步包括借助于运动分析把所辨识的视频镜头细分为子镜头的处理器，该处理器包括通过计算光流为关注物体估计运动的装置；观察关注物体运动的装置；计算估计运动与观察运动之间误差的装置；以及如果误差超出某一阈值，创建额外节点进一步定义关注物体运动的方法。
23.如权利要求20中所述的系统，其中运动分析包括仿射变换。
24.如权利要求20中所述的系统，其中插值的方法进一步包括为关注物体指定物体类型的装置，物体类型包括顶点，对视频镜头各帧之间的这些顶点定义样条，这样该样条便定义了帧之间关注物体的运动。
25.如权利要求20中所述的方法，进一步包括一个自动超链接器，用于自动地链接视频中的关注物体和其它媒体的有关信息。
26.如权利要求25中所述的系统，其中自动超链接器提供链接标准处理、模式匹配，以及在源和目标之间建立链接。
27.如权利要求20中所述的系统，其中视频设备包括磁盘播放器、处理器和磁带播放器中的一种。
28.如权利要求20中所述的系统，进一步包括输入设备，用于选择视频中的关注物体。
29.如权利要求20中所述的系统，其中浏览器包含一个处理器。
30.如权利要求20中所述的系统，进一步包含代表每一镜头的关键帧；子镜头由边界帧来定义，这样镜头和自镜头都可以被系统独立确认。
31.如权利要求30中所述的系统，其中关键帧用于创建视频文档，而无须查看整个视频。
32.如权利要求20中所述的系统，其中视频的说明采用视频AIU标准语言，它遵从标准的通用标记语言(SGML)语法。
全文摘要
一种创建视频文件的方法包括以下步骤:输入待处理视频数据,通过识别镜头间的间隔把视频数据分割成镜头,使用运动分析把镜头进一步分割为子镜头,来为受关注物体的运动提供定位信息,给视频数据中的关注物体描绘边界,这样关注物体就由镜头中的边界代表,以及创建基于关注物体边界的可锚定信息单元文件,这样受关注物体可以用来标识视频数据的部分。此外还包括一种系统。
文档编号G06F17/30GK1360699SQ00806540
公开日2002年7月24日申请日期2000年2月22日优先权日1999年2月22日
发明者A·查克拉波尔蒂, P·刘, L·芬申请人:西门子共同研究公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：A.查克拉波尔蒂;P.刘;L.芬
技术所有人：西门子共同研究公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。