识别媒体内容中的报道的制作方法_2

文档序号:9713562阅读:来源:国知局
似地,与媒体内容102的视频部分相关联的封闭式加字幕信息可以用作输入,以确定或确认对于片段的断裂。
[0019]在媒体内容102已被分段之后,各个媒体片段可以由内容分析模块130分析。内容分析模块130可以执行在一个或多个处理器(例如处理器122)上,并且可以分析媒体片段,以确定与各个片段相关联的一个或多个关键项和/或概念的集。在一些实施方式中,分析媒体片段可以包括产生媒体片段的音频部分的抄本(例如使用语音至文本处理),以及将抄本提供至概念分析引擎,其接着可以提供与媒体片段相关联的一个或多个概念的集。概念分析引擎也可以返回来自媒体片段的关键项,例如通过移除不可能添加关于特定片段的任何概念信息的任何普通项或停用字。在一些实施方式中,内容分析模块130可以配置为原生地分析媒体片段(例如不将音频、视频或多媒体信息转换为文本),以确定与媒体片段相关联的概念。
[0020]片段合并模块132可以执行在一个或多个处理器(例如处理器122)上,并且可以比较由内容分析模块130所识别的概念,以确定在一个或多个媒体片段之间的概念相似性,以及如果概念相似性指示了媒体片段足够相关,则可以将媒体片段合并为报道。例如,在一些实施方式中,片段合并模块132可以比较与第一媒体片段相关联的第一概念集和与第二媒体片段相关联的第二概念集,以确定第一概念集和第二概念集之间的概念相似性。在一些实施方式中,概念相似性可以表示为数值相似性得分,或者可以另外表示为两个片段之间的客观概念相似性。
[0021]接着,如果概念相似性超过特定的相似性阈值(例如其可以根据对于实施方式特殊的考虑被配置),则片段合并模块132可以将报道识别为包括这两个媒体片段。在一些实施方式中,片段合并模块132可以被配置为对于概念相似片段分析某一数目的附近片段(例如在前面的三个媒体片段)。在这些实施方式中待分析的附近片段的数目可以是例如由管理员可配置的。
[0022]如上所述的概念相似性和相似性阈值可以以任何合适的方式限定,以对于给定实施方式实现所需的报道识别结果。例如,概念相似性可以基于对概念和/或关键项进行匹配来确定,或者可以基于概念和/或关键项之间的概念距离来确定,或者可以基于其它合适的技术或技术组合来确定。在对概念进行匹配的情形中,相似性阈值可以是基于片段之间匹配的概念和/或项的百分比(例如25%或更大,50%或更大,等),或者可以是基于匹配或者另外重叠的概念的数目(例如一个或多个,多于一个,多于两个,等)。在概念距离的情形中,相似性阈值可以是基于最近概念距离,最远概念距离,平均概念距离,和/或其它合适的度量或者度量的组合。相似性阈值可以是例如由管理员可配置的,以实现报道内一致性的所需水平。例如,为了产生更一致的报道,可以增大相似性阈值。
[0023]在一些实施方式中,片段合并模块132不仅可以合并如上所述确定为概念上类似的片段,而且还可以合并时间上位于将要合并为报道的片段之间的中间媒体片段。继续以上示例,如果第一媒体片段和第二媒体片段被三个中间媒体片段分隔,则片段合并模块132可以合并这五个媒体片段一两端为第一和第二媒体片段并且包括三个中间媒体片段一为单个报道,即便中间媒体片段不一定被识别为概念上类似于第一或第二媒体片段的任一个。
[0024]在一些实施方式中,如果某些中间媒体片段被识别为概念上与报道不相关,则片段合并模块132可以拒绝将这些特定的中间媒体片段合并至报道中。在以上示例中,如果三个中间媒体片段中的一个被识别为不相关(与简单的并未识别为特别相关的情形相反),则片段合并模块132可以将同样地以第一和第二媒体片段为两端的五个媒体片段中的四个合并为单个报道,使得报道排除了不相关的媒体片段。这种排除例如可以确保广告或其它完全分离的媒体片段并未作为报道的一部分被包括。
[0025]在如上所述已经识别了报道之后,报道识别引擎112可以对报道执行后期识别处理。例如,报道识别引擎112可以分析任何已识别报道,以产生各个报道的摘要,或者根据报道划分媒体内容,或者执行其它合适的处理。以该方式,可以使得来自各个媒体内容的报道对于用户是更加可访问和/或可消费的。
[0026]图2是根据在此所描述的实施方式的从媒体内容中识别报道的示例性方法200的概念图。方法200可以例如由诸如图1中所示的报道识别引擎112的报道识别处理系统执行。为了清楚表示,以下说明书使用图1中所示的报道识别引擎112作为用于描述方法的示例的基准。然而,应该理解的是,其它系统或系统的组合可以用于执行方法或方法的各个部分。
[0027]在阶段210中,由报道识别引擎112接收媒体内容212。媒体内容212通常可以采用单个连续媒体块的形式,诸如在节目期间包括两个广告暂停的三十分钟新闻节目。媒体内容212示出了虚线,意在代表如上所述的听觉和/或视觉指示器。
[0028]在阶段220中,媒体内容212已经分解为多个媒体片段一片段A222、片段B 224、片段C 226、以及片段D 228。报道识别引擎112可以使用媒体内容212中所包括的听觉和/或视觉指示器,以例如根据句子或内容中其它逻辑断裂而对内容分段。
[0029]在阶段230中,已经分析了片段A222,以确定与片段A 222相关联的概念集232。类似的,已经分析了片段B 224,以确定与片段B 224相关联的概念集234,已经分析了片段C226,以确定与片段C 226相关联的概念集236,以及已经分析了片段D 228,以确定与片段D228相关联的概念集238。
[0030]在阶段240中,片段A 222和片段B 224已经合并为候选报道A 242,以及片段C 226和片段D 228已经合并为候选报道B 244。该合并可以是基于片段之间概念的比较,并且片段A 222的概念232在概念上类似于片段B 224的概念234的判定。报道识别引擎112也可以已经比较片段C 226的概念236和/或片段D 228的概念238与之前片段中的那些,并且确定了存在不足的概念相似性而无法合并片段。类似的,报道识别引擎112可以基于概念236和238概念上足够相似使得它们可能是相同报道的一部分的判定而已经合并了片段C 226和片段D 228。
[0031]在阶段250中,候选报道A 242已经被识别为非报道252,以及候选报道B 244已经被识别为报道254。可以例如在其中报道长度小于可配置的最小报道长度(例如小于三十秒)的情形中,或者在其中概念被确定为无关紧要(例如广告或报道之间的非报道间歇)的情形中,或者在其它合适的场景下,识别非报道,诸如非报道252。在同样地已经识别了例如报道254的报道之后,也可以执行后期处理。例如,在报道254的情形中,例如基于报道的内容和/或与报道相关联的所确定概念而已经摘要概括了报道。
[0032]图3是根据在此描述的实施方式的从媒体内容识别报道的示例性方法300的流程图。方法300例如可以由诸如图1所示的报道识别引擎112的报道识别处理系统执行。为了表示清楚,以下说明书使用图1所示的报道识别引擎112作为用于描述方法的示例的基准。然而,应该理解的是,可以使用其它系统或系统的组合以执行方法或方法的各个部分。
[0033]方法300开始于框310处,此时接收媒体内容。在一些实施方式中,可以向报道识别引擎112(例如由用户或内容提供者)直接地提供媒体内容。在其它实施方式中,报道识别引擎112可以主动地定位和/或请求媒体内容以进行处理。例如,报道识别引擎112可以主动地监控特定新闻提要(例如流视频内容或广播新闻频道),以收集适的媒体内容进行处理。
[0034]在框320处,基于听觉指示器、视觉指示器、或听觉和视觉指示器的组合而对媒体内容分段。例如,报道识别引擎112可以识别听觉标志、视频标志、或者在媒体内容中逻辑断裂的其它合适的指示器,并且可以因此将媒体内容分段为媒体片段。
[0035]在框330处,分析片段,以确定与各个片段相关联的概念。例如,报道识别引擎112可以包括概念分析引擎或者利用分离的概念分析引擎,来确
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1