复合新闻报导的合成的制作方法

文档序号:6776452阅读:290来源:国知局
专利名称:复合新闻报导的合成的制作方法
技术领域
本发明涉及视频图像处理领域,特别涉及用于分析来自各种来源 的视频新闻报导以识别共同报导,并创建来自各种来源的复合视频报 导的系统和方法。
背景技术
不同的新闻来源通常从不同视角呈现相同的新闻报导。这些不同 的视角可能基于不同的政治观点或其他因素。例如,相同的事件可以 由一个来源以赞成的方式呈现,而由另一个来源以不赞成的方式呈 现,这取决于事件的结果对于特定的政治团体是有利的还是不利的。 类似地,所呈现的事件的特定方面可以在基于学术的新闻来源和基于 大众兴趣的新闻来源之间有所区别。以类似的方式,来自相同来源的 相同报导可能以不同的方式呈现,这例如取决于该报导是在新闻节目 的"娱乐新闻"时段期间播放还是在"财经新闻"时段播放。有一些方法和系统可用于区别各个新闻报道,识别并将这些报道 分类,并且基于用户的偏好过滤这些报道以呈现给用户。然而,报导 的每次呈现通常都是对具有其自己特定视角的已经记录的报导的回 放,如同它被接收到时一样。寻找同一报导的多种呈现可能是一个非常耗时的过程。如果用户 使用常规的系统来访问多个来源以基于用户的 一般偏好来找到报导, 结果通常是来自所有来源的混合报导的"洪水,,。当用户找到特定兴 趣所在的报导时,用户识别与该报导相关的关键词或短语,然后使用 所关注报导的该关键词或短语提交对于来自各种来源的新闻报导的另 一个搜索。由于这一来自所有来源的报导的混合,用户也许难以过滤 所有选择,从而将所关注的报导从不关注的报导中区分开来,尤其是 不清楚可获得的选择中哪些仅仅是来自不同来源的相同报导(不关注 的)的选择。此外,根据用户的技巧和/或搜索引擎的质量,基于用户 定义的关鍵词和短语的搜索可能导致对可获得报导的过度过滤或过滤 不足,以使得可能无法为用户呈现他所期望的某些视角,或者为用户短语相匹配的不同报导。 发明内容本发明的目的是提供一种从各种报导来源中有效地识别共同报导 的方法和系统。本发明的另一目的是根据不同版本的相同报导合成一 种复合新闻报导。本发明的另一目的是有效地构造复合新闻报导以易 于理解。这些和其他目的是通过这样的方法和系统实现的,即,将单独的 新闻报导特征化并基于该特征化从各种报导中识别共同的新闻报导。 优选地使用基于不同版本报导的共同结构的结构,为这种共同新闻报 导创建复合报导。从不同版本的报导中选择用于包含在该复合报导中 的片段,该选择是基于该片段的视频和音频内容的已确定的等级进行 的。


参考附图,进一步详细地并通过示例的方式来解释本发明,其中 图1示出了根据本发明的报导合成系统的示例框图。 图2示出了根据本发明的报导合成系统的示例流程图。 在通篇附图中,相同的附图标记表示相同的元件,或执行基本相同功能的元件。所包含的附图仅用于说明,而并非意图限制本发明的范围。
具体实施方式
图1示出了根据本发明的报导合成系统的框图。通过读取器120 访问多个视频片段110。在本发明的典型实施例中,视频片段110对应 于所记录的新闻剪辑。可选的是,这些片段110可以位于包含连续视 频记录的磁盘驱动上,该视频记录诸如"TiVo"记录,使用本领域中 常见的技术可以从中区分单独的视频片段110。视频片段110也可以存储在跨越多个设备延伸的分布式存储器系统或数据库中。例如, 一些 或所有片段110可以位于因特网站点上,而读取器120包括访问因特 网的能力。通常,视频片段110包括图像和声音,为了便于引用将图 像和声音称为视频内容和音频内容,然而,根据内容,某些视频片段110可以仅包含图像或仅包含声音。本文中使用的术语视频片段110 —般意义上包括图像或声音或两者都包括。将特征化器130配置用于分析视频片段110,以便将每个片段特征 化,并且可选的是将每个片段内的子片段特征化。该特征化包括为报 导片段创建呈现项目,包括如下的这些项日期、新闻来源、主题、 姓名、地点、组织、关键字、演讲者的姓名/头衔等等。此外,该特征 化可以包括视觉内容的特征化表示,诸如颜色的柱状图、形状的位置、 情景的类型等等,和/或音频内容的特征化表示,诸如音频是否包括语 音、沉默、音乐、噪声等等。将比较器140配置用于基于每个片段110的特征化表示,来识别 与相同报导的不同版本相对应的片段110。例如,包含共同情景、和/ 或引用共同地点名称、和/或包括共同关键词或短语等等的来自不同新 闻来源的片段110很可能是涉及共同报导的片段110,并且将被识别为 一组报导片段。因为片段110可能与多个报导相关联,所以在涉及一 个报导的组中包含片段110并不排除将它包含在涉及另一报导的组 中。将编写器150配置用于组织涉及每个报导的片段的组,以形成反 映各种片段的报导的呈现。编写器150的这些性能和特征将取决于本 发明的特定实施例。在本发明直接的实施例中,编写器150采用例如从该组中的一个 或多个片段导出的标题以及有助于访问该组中的片段的索引,来创建报导的标识符。优选地,使用连接到片段iio的链接来形成这种索引,以便用户可以容易地"点击并查看,,每个片段。在本发明更综合的实施例中,将编写器150配置用于由该组的片 段110来创建复合视频,如下详细所述。典型地,从报导的引言到更 详细情景的呈现,进而到报导的结束语,来自各种来源的新闻报导的 片段对于片段110中的材料呈现而言不仅展现出共同的内容,还展现 出共同的结构。单纯的连接来自各种来源的片段110将会导致来自每 个来源的每个"引言报导的情景结束语"序列的重复,这种结构 重复可能是脱节的,并且可能缺乏聚合性。在本发明该方面的优选实 施例中,将编写器150配置用于选择和组织来自组的片段110,以便形 成符合源材料的通用结构的复合视频。这就是说,使用上述示例的结构,复合视频将包含引言,接着是详细的情景,随后是结束语。这三 个结构性部分(引言、情景、结束语)中的每一个将基于该组中的各种部分110的相应子部分,如下进一步详述。本领域普通技术人员将认识到,可以将编写器150配置用于创建 位于上述讨论的示例性直接和综合实施例中的特征范围之间或特征范 围之外的呈现,以及这种特征的任选组合。例如,也可以将创建聚合 性复合报导的编写器150的实施例配置用于独立地或者在呈现该复合 报导的同时借助交互式提供对单个片段的索引化的访问。以类似方 式,其中编写器150仅提供对于片段的索引化访问的这种系统的实施例可以包括与介质播放器的链接,该介质播放器配置用于顺序地呈现 来自给定片段列表的视频。将呈现器150配置用于接收来自编写器150的呈现,并将其呈现 给用户。呈现器150可以是常规的介质回放设备,或者可以将它与该 系统集成以有助于访问各种特征以及系统的选项,特别是由编写器l50 提供的交互式选项。图1的系统优选还包括通常用于视频处理和选择系统的其他部件 和性能,但为了易于理解本发明的显著方面而并未示出。例如,可以 将该系统配置用于管理为该系统提供片段110的来源的选择,和/或可以将该系统配置用于管理呈现给用户的报导选择的呈现。以类似方 式,该系统优选地包括配置用于基于用户的偏好、基于片段的特征化 和/或每个报导的复合特征化来过滤片段或报导的一个或多个过滤器。图2示出了根据本发明的报导合成系统的示例流程图。如上所述, 本发明包括多个方面,并且可以使用各种特征和性能来体现。图2以 及下面的描述并非想要意味着要求包括,也不表示将其他排除在外, 并且并非想要限制本发明的精神或范围。在210,使用各种技术中的任意技术来识别与报导相关联的视频片 段110。于2002年3月26日颁发给Nevenka Dimotrova的美国专利 6,363,380 "MULTIMEDIA COMPUTER SYSTEM WITH STORY SEGMENTATION CAPABILITY AND OPERATING PROGRAM THEREFOR INCLUDING FINITE VIDEO PARSER"(在本文中引入 作为参考)教导了一种用于将连续视频分段的技术,该技术将视频分 割成为"视频镜头,,,这些"视频镜头,,由视频中断或者不连续性进行区分,然后基于镜头中的视觉和音频内容将有关的镜头分组。基于这些镜头的确定序列,诸如"开始主持人嘉宾主持人结束", 将有关镜头的集合进行分组以形成报导片段。在220,使用可用于识别视频片段中的区分特征的各种技术中的任 意技术,通常基于视觉内容(颜色、独特形状、面貌数目、特定情景 等等)、音频内容(声音的类型、语音等等)以及其他信息,诸如字 幕文本、与每个片段相关联的元数据等等,将片段特征化。该特征的 特征化或标识可以与210中的报导片段的识别相组合或一体化。例如, Radu S、 Jasinschi和Nevenka Dimitrova于2002年l月9曰提交的序 列号为10/042,891的美国/i^开专利申请2003/0131362 "A METHOD AND APPARATUS FOR MULTIMODAL STORY SEGMENTATION FOR LINKING MULTIMEDIA CONTENT"(在本文中引入作为参 考)教导了一种系统,其基于片段内容的共同特性或特征将新闻节目 划分为主题上接近的片段。在225,任选地将片段过滤,主要是为了去除一些不值得进一步考 虑的,可能是当前用户不感兴趣的片段。该过滤可以与上述报导分段 210和特征化220的过程相结合。序列号为10/932,460的美国公开专利 申请"PERSONALIZED NEWS RETRIEVAL SYSTEM",作为Jan H. Elenbaas等人于1998年12月23日提交的09/220,277的分案申请(在 本文中引入作为参考)教导了一种分段、特征化和过滤系统,其基于 用户表示的和暗示的偏好,识别并呈现用户可能感兴趣的新闻报导。在230,将特征化的且任选过滤了的片段彼此相比较,以确定哪些 片段可能与相同的报导有关。优选地,该匹配是基于在220中确定的 片段的特征中的一些或全部;然而,尤其值得注意的是,在确定两个 片段是否与共同的报导有关的过程中,这些特征中每一个的重要性似 乎不同于在确定哪些视频镜头或序列在如上所述的过程210和220中 形成了片段的过程中每个特征的重要性。在本发明的优选实施例中,如果下面的匹配参数M超过给定阈值 的话,则确定两个片段A、 B对应于相同的报导
其中VA是片段A的特征向量,VB是片段B的特征向量,Wi是赋予向 量中每个特征i的权重。由于用于区分报导的名称的强度,因此例如赋 予用于标识共同报导的名称特征的权重W通常显著大于赋予主题特征 的权重。比较器函数Fi取决于特定特征,并且通常返回一个在O到l 之间变化的相似度测度。例如,用于比较名字的函数F可以在名字匹 配时返回"1",反之则返回"0";或者如果姓和名匹配则返回1.0, 如果头衔和姓匹配则返回0.9,如果仅姓匹配则返回0.75,以此类推。 在另一个示例中,用于比较颜色柱状图的函数F可以返回一个用数学 方法确定的测度,诸如柱状图向量的归一化的点积。确定对应于共同报导的每组片段是基于成对片段之间的匹配参数 M的组合。在简单的实施例中,具有至少一个共同匹配的所有片段被 定义为对应于共同报导的一组片段。例如,如果A和B匹配,且B和 C匹配,则(A, B, C)被定义为一组共同报导的片段,而不考虑A是否 和C匹配。在严格性的实施例中,可以将一组定义为仅仅是其中每个 片段与每个所有其他的片段相匹配的那些片段。即,(A,B,C)定义了当 且仅当A和B匹配、B和C匹配且C和A匹配时的一组。其他实施例 可以j吏用不同的组定义规则。例如,如果A和B匹配且B和C匹配, 如果A和C之间的匹配参数至少超过某些第二、较低的阈值,则C可 以被定义为包括在该组中。以类似的方式,可以使用动态阈值规则, 其中最初时组设定规则并不严格,但如果所产生的组过大,则可以将 组定义规则或匹配阈值水平或这两者的参数制定为更严格。基于双向 比较的用于形成组的这些和其他技术在本领域中是常见的。可选的是,可以使用其他技术来找到具有共同特征的片段,包括 但不限于集群技术和其他技术,以及可训练的系统,诸如神经网络等 等。如上所述,在定义对应于共同报导的每组片段时,可以提供报导 的标识和片段的索引作为本发明的输出。然而优选地,本发明的系统 还包括复合视频的合成,如图2的过程240-290所示。在240,将对应于单一报导的片段进行划分或者再次划分为子片段 以用于进一步处理。子片段包括音频子片段242和视频子片段246.这 些子片段优选本身是完整的,使得通过这种子片段的组合形成的合成 复合视频不会显示出较大的不连续性,诸如半句、不完全的镜头等等。
通常,视频子片段之间的中断将会与原始视频源中的中断相重合,并 且音频子片段之间的中断将会与自然语言中断相重合。在优选实施例 中,确定片段的音频部分是否直接对应于视频图像,或者该音频部分 是否为非关联的声音,诸如"结束语"。如果音频和视频直接相关,则为音频242和视频246子片段定义共同的中断点。在250,分析原始片段的结构以确定用于呈现复合报导的优选结 构。该确定最初是基于可以由视频子部分246推导出的结构,然而音 频子部分242的结构也可能也影响该决定。如上所述,美国专利 6,363,380解决了典型的呈现结构的建模问题,诸如"开始主持人 嘉宾主持人结束"。新闻报导的常见结构包括"锚记者情景 记者锚",其中第一锚子片段对应于引子或标题,最后的锚子片段 对应于结束或解说词。类似地,财经新闻的常见结构包括"锚图表 评论员情景锚,,。在本发明的典型实施例中,结构性分析250和片段划分240将作 为一个整体的过程或反复的过程来执行,这是因为基于原始视频划 分,在结构性分析250中整体结构的确定可以对用于基于该整体结构创建复合视频的每个片段的最终视频和音频划分有影响。在280,选择子部分设置用于形成对应于报导的复合视频。这些子部分的选择优选地基于视频246和音频242子部分的排名,或这种排名的组合,或基于视频和音频子部分的组合的排名。各种技术中的任何技术都可用于在270、 260中对音频242和视频246子部分进行排名。在本发明的优选实施例中,每个的排名采取以下形式<formula>formula see original document page 10</formula>其中I(i)是子部分i的音频或视频内容的内在重要性,例如基于视频中 的文字、图形、面貌和其他项,以及音频中的名称、地点和其他项的 出现。"j"排名项目Rij中的每一个基于用于排名子部分的不同音频或 视频测度。例如,在排名视频子部分的过程中,其中一个排名可以基 于出现在该视频子部分中的对象,而另一个排名可以基于视觉相似 度,诸如视频子部分中帧的一般色彩方案。类似地,在排名音频子部 分的过程中,其中一个排名可以基于出现在该音频子部分中的词,而另一个排名可以基于音频相似度,诸如由同一人讲出的句子。其他排 名方案对于本领域技术人员而言,在考虑本公开的情况下都是显而易见的。Wj项对应于赋予每个排名方案的权重。为了有助于每个子部分的排名,使用例如k平均数集群算法将片段进行集群。在每个集群中的是多个片段; 一个集群中的片段总数提 供了对该集群重要性的指示。随后,子部分的排名基于在其中出现子 部分的片段的该集群的重要性。如上所述,基于复合视频的确定的优选结构,选择和组织子部分 以用于呈现。通常,仅有对应于报导引言的子片段之一将被选中以包 含在内,该选择优选地基于与原始部分中的引言相对应的子部分的音 频内容的排名。之后,该结构的"详细"部分通常基于子片段的视频 内容的排名,尽管高评分的音频子片段也可能也影响该选择过程。如 果将音频和视频子部分识别为直接相关,如上所讨论的,则一个的选 择优选地影响其他的选择,以至于相关地呈现该子部分。来自280的复合视频在290处被呈现给用户。该呈现可以包括交 互式性能,以及提高或指导交互的特征。例如,如果报导中的一个特 定方面或事件基于它来自各种来源的覆盖率而被确定为尤其重要的, 则可以呈现该重要性的指示,同时为相应的子部分提供对与该重要方面或事件有关的其他音频或视频子片段的交互式访问。前面仅仅描述了本发明的原理。应当理解的是,尽管本文中没有 明确地描述或示出,但是本领域技术人员能够设计出体现本发明原理 并且由此包含在其精神和范围内的各种方案。例如,本发明体现在观 看不同版本的相同新闻报导的环境中。本领域普通技术人员将认识 到,这一与新闻有关的应用可以结合或提供访问到其他与信息访问有 关的应用中。例如,除了能够访问其他与当前报导有关的片段110以 外,还可以将呈现器290配置用于访问与当前报导有关的其他信息源, 诸如可以基于报导的特征化特征提供背景信息的因特网站点等等。这 些和其他系统配置和最优化特征对于本领域普通技术人员而言,在考 虑本公开的情况下是显而易见的,并且包含在下述权利要求的范围之 内。在解释这些权利要求时,应当理解a)词语"包括"不排除存在有其他元件,或不仅仅是给出的权利要求中所列出的那些操作;b) 在元件之前的词语"一"或"一个"不排除存在多个这种元件;c) 权利要求中的任何附图标记并不限制它们的范围;d) 若干个"装置"可以通过相同的项或硬件或软件实现的结构或 功能来表示;e) 每个所披露的元件可以包括硬件部分(例如包括分立的和集成 的电子电路)、软件部分(例如计算机程序)及其任意组合;f) 硬件部分可以包括模拟和数字部分中的一个或两者;g) 所披露的装置或其部分中的任意可以与另外的部分组合在一起 或被分离为另外的部分,除非另有特别描述;h) 不意图要求任何特定顺序的操作,除非特别指出;以及i) 术语"多个,,元件包括两个或更多的所要求保护的元件,并且 不意味着任何特定范围数量的元件;即,多个元件可以少至两个元件。
权利要求
1.一种系统,包括读取器(120),其配置用于提供对多个视频片段(110)的访问,特征化器(130),可操作地耦合到读取器(120),其配置用于将所述多个视频片段(110)的每个片段进行特征化,比较器(140),可操作地耦合到特征化器(130),其配置用于比较每个片段的特征以识别多个版本的共同报导。
2. 权利要求l的系统,还包括呈现器(160),可操作地耦合到比较器(140)和读取器(120),其配置用于基于所述多个版本的共同报导来提供呈现。
3. 权利要求2的系统,还包括编写器(150),可操作地耦合到比较器(140)和读取器(120), 其配置用于基于所述多个版本的视频片段(110)的内容来创建该呈现。
4. 权利要求3的系统,其中将编写器(150)配置用于基于视频片段(110)的视频和音频内 容为视频片段(110)的内容进行排名(260, 270)。
5. 权利要求3的系统,其中 将编写器(150)配置用于基于所述多个版本的视频片段(110)的内容的一个或多个结构确 定(250)共同结构,以及基于该共同结构创建(280)该呈现。
6. 权利要求5的系统,其中将编写器(150)进一步配置用于基于视频片段(110)的视频内 容和音频内容至少其中之一的一个或多个排名,选择(280) —个或多 个视频片段(110)以包含在该呈现中。
7. 权利要求l的系统,其中比较器(140)包括配置用于基于用户的一个或多个偏好而有助于 识别所述多个版本的共同报导的过滤器(225)。
8. —种方法,包括将多个视频片段(110)的每个片段特征化(220),以创建多个 片段特征,将片段特征彼此进行比较(230),以识别多个版本的共同报导。
9. 权利要求8的方法,还包括基于所述多个版本的共同报导来创建(240-280)呈现。
10. 权利要求9的方法,其中 该呈现基于多个版本的视频片段(110)的内容。
11. 权利要求9的方法,其中创建(240-280)该呈现包括基于视频片段(110)的视频和音频内 容,对视频片段(110)的内容进行排名(260, 270)。
12. 权利要求9的方法,其中 创建(240-280)该呈现包括基于所述多个版本的视频片段(110)的内容的一个或多个结构, 确定(250)共同结构,以及基于该共同结构创建(280)该呈现。
13. 权利要求9的方法,其中创建(240-280)该呈现还包括基于视频片段(110)的视频内容和音频内容至少其中之一的一个或多个排名,选择一个或多个视频片段 (110)以包含在该呈现中。
14. 权利要求8的方法,还包括基于片段特征和用户的一个或多个偏好过滤(225 )该视频片段 (110),以有助于识别所述多个版本的共同报导。
全文摘要
一种将单个新闻报导特征化(220)并基于该特征从多个报导中识别(230)共同的新闻报导的方法和系统。优选使用基于不同版本报导的共同结构的一种结构,为该共同的新闻报导创建(240-280)复合报导。从不同版本的报导中选择视频片段(110)以包含在该复合报导中,其中根据该视频片段(110)的视频和音频内容的已确定的排名(260,270)来选择视频片断(110)。
文档编号G11B27/28GK101151674SQ200680010392
公开日2008年3月26日 申请日期2006年3月29日 优先权日2005年3月31日
发明者A·汉贾利克, L·阿格尼霍特里, M·巴比里, N·迪米特罗瓦 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1