显示控制设备、显示控制方法以及程序的制作方法

文档序号:6348033阅读:134来源:国知局
专利名称:显示控制设备、显示控制方法以及程序的制作方法
技术领域
本发明涉及一种显示控制设备、显示控制方法以及程序,并且具体地,涉及一种例 如通过其可以容易地识别内容的概述的显示控制设备、显示控制方法以及程序。
背景技术
近年来,例如,除了通过电视广播分发的内容之外,大量内容(S卩,运动图像)还已 在诸如^uTube等的互联网站点进行分发。因此,如下技术的重要性得以提高其使得用户 能够容易地识别内容(其中的)的概述,以使得观看和收听内容的用户可以确定各个内容 是否值得观看和收听。关于用于识别内容的概述的技术,存在一种用于显示内容的缩略图的方法。关于用于显示内容的缩略图的方法,例如,存在如下一种方法其用于检测内容的 图像的预定帧(诸如对于每固定间隔的帧等),通过缩小该帧生成缩略图、以及显示该缩略 图。另外,关于用于显示内容的缩略图的方法,例如,存在如下一种方法其用于检测 在商业和实际节目(在报纸的电视部分列出的节目)之间的切换、在图像中的人或物体之 间的切换等作为场景变化,通过缩小在该场景变化紧接之后的帧而生成缩略图,以及显示 该缩略图(例如,参见PTL 1)。另外,关于用于显示内容的缩略图的方法,存在如下一种方法其用于通过缩小以 题目的增量表示其题目(内容)的图像来生成缩略图,以及显示该缩略图(例如,参见PTL 2)。注意,利用用于显示对于内容图像的每固定间隔的帧的缩略图的方法,可连续地 显示相似的缩略像。另外,利用用于检测作为场景变化、以及显示在该场景变化紧接之后的帧的缩略 图的方法,需要准备一种用于针对要检测的各个场景变化来检测其场景变化的算法。具体地,例如,为了检测在商业和实际节目之间的切换作为场景变化,需要为此准 备场景变化检测算法,并且为了检测在图像中的人和物体之间的切换作为场景变化,还需 要为此准备场景变化检测算法。另外,利用用于以题目的增量显示缩略图的方法,仅通过以题目的增量形式的缩 略图可能难以识别内容的概述。引用列表专利文献PTL 1 日本未审查专利申请公布第2008-312183号PTL 2 日本未审查专利申请公布第2009-047721号

发明内容
技术问题
如上所述,关于用于显示缩略图的方法,提出了各类的方法,但是考虑到在下文中 所期望的要提供的内容的进一步增加,需要提出一种新的缩略图显示方法。本发明是在考虑到这种情形的情况下而做出的,并且提供了一种新的缩略图显示 方法,从而使得能够容易地识别内容的概述。问题的解决方案根据本发明的一方面的显示控制设备或程序是一种显示控制设备或者使得计算 机用作显示控制设备的程序,该显示控制设备包括聚类装置,其被配置用于使内容的各个 帧进行聚类成多个聚类中的任何聚类;场景分类装置,其被配置用于关于多个聚类中的各 个聚类,将属于该聚类的帧分类成作为时间上连续的一个或多个帧的组的场景;缩略图创 建装置,其被配置用于创建场景的缩略图;以及显示控制装置,其被配置用于在被配置用于 显示图像的显示设备上显示场景的缩略图。根据本发明的一方面的显示控制方法是利用显示控制设备的、包括如下步骤的 显示控制方法使内容的各个帧聚类成多个聚类中的任一聚类;关于多个聚类中的各个聚 类,将属于该聚类的帧分割成作为在时间上连续的一个或多个帧的组的场景;创建场景的 缩略图;以及在用于显示图像的显示设备上显示场景的缩略图。对于本发明的一方面,使内容的各个帧聚类成多个聚类中的任一聚类,并且关于 多个聚类中的各个聚类,将属于该聚类的帧分类成作为在时间上连续的一个或多个帧的组 的场景。随后,创建场景的缩略图,并且显示场景的缩略图。注意,显示控制设备可以是单机设备,或者可以是构成单个设备的内部块。另外,程序可通过经由传输介质进行传输来提供、或者通过记录在记录介质中来 提供。发明的有益效果根据本发明的一方面,可以容易地识别内容的概述。


图1是示出应用了本发明的记录器的实施例的配置示例的框图。 图2是示出内容模型学习单元12的配置示例的框图。 图3是示出HMM(隐马尔可夫模型)的示例的图。 图4是示出HMM的示例的图。 图5是示出HMM的示例的图。 图6是示出HMM的示例的图。
图7是用于描述通过特征量提取单元22进行的特征量提取处理的图。 图8是用于描述内容模型学习处理的流程图。 图9是示出内容结构呈现单元14的配置示例的框图。 图10是用于描述内容结构呈现处理的概述的图。 图11是示出模型图的示例的图。 图12是示出模型图的示例的图。
图13是用于描述内容结构呈现单元14进行的内容结构呈现处理的流程图。 图14是示出摘要生成单元15的配置示例的框图。
图15是示出高亮检测器学习单元51的配置示例的框图。图16是用于描述高亮标记生成单元65的处理的图。图17是用于描述通过高亮检测器学习单元51进行的高亮检测器学习处理的流程 图。图18是示出高亮检测单元53的配置示例的框图。图19是用于描述摘要内容生成单元79生成的摘要内容的示例的图。图20是用于描述通过高亮检测单元53进行的高亮检测处理的流程图。图21是用于描述高亮场景检测处理的流程图。图22是示出剪贴簿生成单元16的配置示例的框图。图23是示出初始剪贴簿生成单元101的配置示例的框图。图24是示出用于用户指定模型图上的状态的用户界面的示例的图。图25是用于描述通过初始剪贴簿生成单元101进行的初始剪贴簿生成处理的流 程图。图26是示出登记剪贴簿生成单元103的配置示例的框图。图27是用于描述通过登记剪贴簿生成单元103进行的登记剪贴簿生成处理的流 程图。图观是用于描述登记剪贴簿生成处理的图。图四是示出服务器客户机系统的第一配置示例的框图。图30是示出服务器客户机系统的第二配置示例的框图。图31是示出服务器客户机系统的第三配置示例的框图。图32是示出服务器客户机系统的第四配置示例的框图。图33是示出服务器客户机系统的第五配置示例的框图。图34是示出服务器客户机系统的第六配置示例的框图。图35是示出应用了本发明的记录器的另一实施例的配置示例的框图。图36是示出内容模型学习单元201的配置示例的框图。图37是用于描述通过音频特征量提取单元221进行的特征量提取处理的图。图38是用于描述通过音频特征量提取单元221进行的特征量提取处理的图。图39是用于描述通过对象特征量提取单元2M进行的特征量提取处理的图。图40是用于描述通过内容模型学习单元201进行的音频内容模型学习处理的流 程图。图41是用于描述通过内容模型学习单元201进行的对象内容模型学习处理的流 程图。图42是示出摘要生成单元204的配置示例的框图。图43是示出高亮检测器学习单元的配置示例的框图。图44是用于描述通过高亮检测器学习单元291进行的高亮检测器学习处理的流 程图。图45是示出高亮检测单元四3的配置示例的框图。图46是用于描述通过高亮检测单元293进行的高亮检测处理的流程图。图47是示出剪贴簿生成单元203的配置示例的框图。
图48是示出初始剪贴簿生成单元371的配置示例的框图。图49是示出用于用户指定模型图上的状态的用户界面的示例的图。图50是示出登记剪贴簿生成单元373的配置示例的框图。图51是用于描述通过登记剪贴簿生成单元373进行的登记剪贴簿生成处理的流 程图。图52是用于描述登记剪贴簿生成处理的图。图53是示出应用了本发明的显示系统的实施例的配置示例的框图。图M是用于描述缩略图显示控制处理的流程图。图55是示出聚类单元611的配置示例的框图。图56是示出2D O维)图的显示示例的图。图57是示出2D图的另一显示示例的图。图58是示出2D图的又一显示示例的图。图59是示出状态显示的显示示例的图。图60是示出状态显示的另一显示示例的图。图61是示出2窗格(pane)显示的显示示例的图。图62是示出5窗格显示的显示示例的图。图63是示出时间序列显示的显示示例的图。图64是示出平铺显示(flat display)的显示示例的图。图65是用于描述在聚类模型是HMM的情况下的聚类模型学习处理的流程图。图66是用于描述在聚类模型是HMM的情况下的聚类处理的流程图。图67是示出在HMM被采用作为聚类模型的情况下的图形模型表示聚类的图。图68是用于描述在聚类模型是新矢量量化模型的情况下的聚类模型学习处理的 流程图。图69是用于描述在聚类模型是新矢量量化模型的情况下的聚类处理的流程图。图70是示出在新矢量量化模型被采用作为聚类模型的情况下的图形模型表示聚 类的图。图71是用于描述在聚类模型是新GMM(高斯混合模型)的情况下的聚类处理的流 程图。图72是示出在新GMM被采用作为聚类模型的情况下的图形模型表示聚类的图。图73是示出应用了本发明的计算机的实施例的配置示例的框图。
具体实施例方式<用于高亮场景的信息处理设备>首先,将关于用于高亮场景的信息处理设备进行描述,该信息处理设备使得能够 容易地获得摘要,其中,在该摘要中,收集用户感兴趣的场景作为高亮场景。例如,关于用于从内容(诸如电影、电视广播节目等)检测高亮场景的高亮场景检 测技术,存在利用专家(设计者)的经验和知识的技术、利用使用学习样本的统计学习的技术等。关于利用专家的经验和知识的技术,基于专家的经验和知识,设计用于检测在高亮场景中发生的事件的检测器、以及用于检测根据该事件定义的场景(事件发生的场景) 的检测器。因此,使用这些检测器检测高亮场景。关于利用采用学习样本的统计学习的技术,需要采用学习样本的、用于检测高亮 场景的检测器(高亮检测器)以及用于检测在高亮场景中发生的事件的检测器(事件检测 器)。因此,使用这些检测器检测高亮场景。另外,关于高亮场景检测技术,提取内容的图像或音频特征量,并且使用该特征量 检测高亮场景。关于用于检测高亮场景的特征量,一般而言,采用专用于要从其检测高亮场 景的内容的类型的特征量。例如,对于Wang等人以及Duan等人的高亮场景检测技术,通过利用足球场的线、 足球轨迹、整个屏幕的运动以及音频MFCC(梅尔频率倒谱系数),从足球比赛视频提取用于 检测诸如“吹哨”、“鼓掌”等的事件的高维特征量,并且从这些特征量组合的特征量用于执 行诸如“进攻”、“犯规”等的足球比赛场景的检测。另外,例如,Wang等人提出了一种高亮场景检测技术,其中,根据足球比赛视频设 计采用色彩直方图特征量的观看型分类器、采用线检测器的比赛定位标识器、重放标志检 测器、体育广播员兴奋度检测器、吹哨检测器等,通过贝叶斯网络对这些的时间关系进行建 模,从而构成足球高亮检测器。关于高亮场景检测技术,另外,例如,对于日本未审查专利申请公布第 2008-185626号(在下文中,还称为PTL 1),提出了如下技术其中,使用用于描述声音(欢 呼)形成的特征的特征量来检测内容的高亮场景。利用以上高亮场景检测技术,可关于属于特定类型的内容检测高亮场景(或事 件),但是难以关于属于其它类型的内容检测适当的场景作为高亮场景。具体地,例如,利用根据PTL 1的高亮场景检测技术,在包括欢呼的场景是高亮场 景的规则之下检测高亮场景,但是其中包括欢呼的场景是高亮场景的内容类型受到限制。 另外,利用根据PTL 1的高亮场景检测技术,难以检测具有属于如下类型的内容的高亮场 景作为对象其中,没有欢呼的场景是高亮场景。因此,为了通过根据PTL 1的高亮场景检测技术而执行检测具有属于除特定类型 之外的类型的内容的高亮场景作为对象,需要设计特征量以便适合于其类型。另外,需要基 于专家的访谈等执行对使用特征量检测高亮场景的规则设计(或事件的定义)。因此,例如,对于日本未审查专利申请公布第2000-299829号(在下文中,还称为 PTL 2),提出了如下方法其中,设计通过其可使用通常被确定为高亮场景的场景的检测的 特征量和阈值,并且通过使用该特征量和阈值的阈值处理检测高亮场景。然而,近年来,内容变得多样化,获得要用于检测适合于高亮场景的场景而与所有 内容无关的一般规则(例如,诸如,特征量、阈值处理的规则等)是极其困难的。因此,为了检测适合于高亮场景的场景,例如,需要针对各个类型等设计用以检测 适于该类型的高亮场景的特征量和规则。然而,甚至在设计出了这样的规则的情况下,也难 以检测所谓的不遵循该规则的例外高亮场景。关于内容(例如,诸如体育比赛,诸如足球比赛的进球场景),可使用专家的知识 以高精度设计用以检测一般称为高亮场景的场景的规则。然而,用户的偏好随用户而大大不同。具体地,例如,存在分别更喜欢“总教练坐在长椅上的场景”、“棒球中投向一垒的突然传杀(Pickoff)的场景”、“问答比赛节目的问答场 景”等的个别用户。在该情况下,单独设计适于这些用户偏好的各个偏好的规则并且将这些 规则包括在用于检测高亮场景的诸如AV(音频视觉)设备的检测系统中是不切实际的。另一方面,并非是用户观看和收听摘要(其中,收集了根据包括在检测系统中的 固定规则而检测到的高亮场景),检测系统学习各个用户的偏好,检测与该偏好匹配的场景 (用户感兴趣的场景)作为高亮场景,并且提供其中收集了这样的高亮场景的摘要,从而实 现观看和收听内容的所谓的“个性化”,并且扩展了如何欣赏内容的方式。在考虑到这样的情形的情况下实现了用于高亮场景的信息处理设备,并且允许用 户容易地获得收集了用户感兴趣的场景的摘要。第一,用于高亮场景的信息处理设备是如下信息处理设备,其包括特征量提取装置,其被配置用于提取用于关注检测器学习的内容的图像的各个帧 的特征量,其中,用于关注检测器学习的内容是要用于高亮检测器的学习的内容,该高亮检 测器是用于检测用户感兴趣的场景作为高亮场景的模型;最大似然状态序列估计装置,其被配置用于估计最大似然状态序列,其中,该最大 似然状态序列是在内容模型中将观测到用于关注检测器学习的内容的特征量的似然最高 的情况下,引起发生状态转移的状态序列,该内容模型是在通过如下处理获得的所述学习 之后的状态转移概率模型提取用于学习的内容的图像的各个帧的特征量,并且使用用于 学习的内容的特征量来执行对状态概率转移模型的学习,其中,该用于学习的内容是要用 于状态转移概率模型的学习的内容,该状态转移概率模型由状态可进行的状态转移概率以 及将从状态观测到预定观测值的观测概率来规定;高亮标记生成装置,其被配置用于根据用户的操作,通过使用表示是否为高亮场 景的高亮标记对用于关注检测器学习的内容的各个帧进行标记,生成关于用于关注检测器 学习的内容的高亮标记序列;以及高亮检测器学习装置,其被配置用于使用用于学习的标记序列,执行对作为状态 转移概率模型的高亮检测器的学习,其中,该用于学习的标记序列是从用于关注检测器学 习的内容获得的最大似然状态序列、和高亮标记序列的对。第二,用于高亮场景的信息处理设备是用于高亮场景的第一信息处理设备,其还 包括高亮检测装置,其被配置用于提取用于关注高亮检测的内容的图像的各个帧的 特征量,该用于关注高亮检测的内容是要从其检测高亮场景的内容,估计最大似然状态序列,该最大似然状态序列是在内容模型中将观测到用于关注 高亮检测的内容的特征量的似然最高的情况下,引起发生状态转移的状态序列,估计最大似然状态序列,该最大似然状态序列是在将观测到检测标记序列的似然 最高的情况下,引起发生状态转移的状态序列,其中,该检测标记序列是在高亮检测器处从 用于关注高亮检测的内容获得的最大似然状态序列、和表示是高亮场景或除高亮场景之外 的场景的高亮标记的高亮标记序列的对,基于作为从检测标记序列获得的最大似然状态序列的高亮关系状态序列的各个 状态的高亮标记的观测概率,从用于关注高亮检测的内容检测高亮场景的帧,以及使用高亮场景的帧生成摘要内容,其是用于关注高亮检测的内容的摘要。
第三,用于高亮场景的信息处理设备是用于高亮场景的第二信息处理设备,其中, 对于高亮关系状态序列的预定时间点处的状态,在表示是高亮场景的高亮标记的观测概率 与表示是除高亮场景之外的场景的高亮标记的观测概率之间的差别大于预定阈值的情况 下,高亮检测装置检测与在预定时间点处的状态对应的用于关注高亮检测的内容的帧作为 高亮场景的帧。第四,用于高亮场景的信息处理设备是用于高亮场景的第一信息处理设备,其还 包括剪贴簿生成装置,其被配置用于提取内容图像的各个帧的特征量,估计最大似然状态序列,该最大似然状态序列是在内容模型中将观测到内容的特 征量的似然最高的情况下,引起发生状态转移的状态序列,从内容提取最大似然状态序列的状态中的对应于与用户指示的状态匹配的状态 的帧,以及将从内容提取出的帧登记在其上登记有高亮场景的剪贴簿上。第五,用于高亮场景的信息处理设备是用于高亮场景的第一信息处理设备,其还 包括状态间距离计算装置,其被配置用于基于从一个状态到另一个状态的状态转移概 率,获得从内容模型的一个状态到另一状态的状态间距离;坐标计算装置,其被配置用于获得作为模型图上的状态的位置坐标的状态坐标, 以便减小在作为的二维或三维图(其中布置了内容模型的状态)的模型图上的、从一个状 态到另一个状态的欧几里得距离与状态间距离之间的差别;以及显示控制装置,其被配置用于执行显示控制,用于显示如下模型图其中,彼此对 应的状态被布置在状态坐标的位置中。第六,用于高亮场景的信息处理设备是用于高亮场景的第五信息处理设备,其中, 坐标计算装置获得状态坐标,以便使得与欧几里得距离和状态间距离之间的统计误差成比 例的Sammon映射(Sammon Map)误差函数最小化,并且在从一个状态到另一个状态的欧几 里得距离大于预定阈值的情况下,将从一个状态到另一个状态的欧几里得距离设置为等于 从一个状态到另一个状态的状态间距离的距离,并且执行误差函数的计算。第七,用于高亮场景的信息处理设备是用于高亮场景的第五信息处理设备,其还 包括剪贴簿生成装置,其被配置用于提取内容图像的各个帧的特征量,估计最大似然状态序列,该最大似然状态序列是在内容模型中将观测到内容的特 征量的似然最高的情况下,引起发生状态转移的状态序列,从内容提取最大似然状态序列的状态中的对应于与用户指示的模型图上的状态 匹配的状态的帧,以及将从内容提取出的帧登记在其上登记有高亮场景的剪贴簿中。第八,用于高亮场景的信息处理设备是用于高亮场景的第一信息处理设备,其中, 通过将帧划分为作为多个小区域的子区域,提取多个子区域的各个子区域的特征量,并且 组合多个子区域的各个子区域的特征量,来获得帧的特征量。第九,用于高亮场景的信息处理设备是用于高亮场景的第一信息处理设备,其中,通过组合对应于帧的预定时间内的音频能量、过零率或谱重心的平均值和离差来获得帧的 特征量。第十,用于高亮场景的信息处理设备是用于高亮场景的第一信息处理设备,其中, 通过检测帧内的对象的显示区域,将帧划分为作为多个小区域的子区域,提取子区域中的 对象的显示区域的像素数目与多个子区域的各个子区域中的像素数目的百分比作为特征 量,并且组合多个子区域的各个子区域的特征量,来获得帧的特征量。第十一,用于高亮场景的信息处理设备是用于高亮场景的第一信息处理设备,还 包括内容模型学习装置,其被配置用于通过使用用于学习的内容的特征量执行状态转 移概率模型的学习来生成内容模型。第十二,一种用于高亮场景的信息处理设备的信息处理方法是利用信息处理设备 的、包括如下步骤的信息处理方法特征量提取步骤,其布置用于提取用于关注检测器学习的内容的图像的各个帧的 特征量,其中,该用于关注检测器学习的内容是要用于高亮检测器的学习的内容,该高亮检 测器是用于检测用户感兴趣的场景作为高亮场景的模型;最大似然状态序列估计步骤,其布置用于估计最大似然状态序列,其中,该最大似 然状态序列是在内容模型中将观测到用于关注检测器学习的内容的特征量的似然最高的 情况下,引起发生状态转移的状态序列,该内容模型是在通过如下处理获得的所述学习之 后的状态转移概率模型提取用于学习的内容的图像的各个帧的特征量,并且使用用于学 习的内容的特征量来执行状态概率转移模型的学习,其中,该用于学习的内容是要用于状 态转移概率模型的学习的内容,该状态转移概率模型由状态可进行的状态转移概率以及将 从状态观测到预定观测值的观测概率来规定;高亮标记生成步骤,其布置用于根据用户的操作,通过使用表示是否为高亮场景 的高亮标记对用于关注检测器学习的内容的各个帧进行标记,生成关于用于关注检测器学 习的内容的高亮标记序列;以及高亮检测器学习步骤,其布置用于使用用于学习的标记序列,执行作为状态转移 概率模型的高亮检测器的学习,其中,该用于学习的标记序列是从用于关注检测器学习的 内容获得的最大似然状态序列、和高亮标记序列的对。第十三,一种使得计算机用作用于高亮场景的信息处理设备的程序,该信息处理 设备包括特征量提取装置,其被配置用于提取用于关注检测器学习的内容的图像的各个帧 的特征量,该用于关注检测器学习的内容是要用于高亮检测器的学习的内容,该高亮检测 器是用于检测用户感兴趣的场景作为高亮场景的模型;最大似然状态序列估计装置,其被配置用于估计最大似然状态序列,其中,该最大 似然状态序列是在内容模型中将观测到用于关注检测器学习的内容的特征量的似然最高 的情况下,引起发生状态转移的状态序列,该内容模型是在通过如下处理获得的所述学习 之后的状态转移概率模型提取用于学习的内容的图像的各个帧的特征量,并且使用用于 学习的内容的特征量来执行状态概率转移模型的学习,其中,该用于学习的内容是要用于 状态转移概率模型的学习的内容,该状态转移概率模型由状态可进行的状态转移概率以及将从状态观测到预定观测值的观测概率来规定;高亮标记生成装置,其被配置用于根据用户的操作,通过使用表示是否为高亮场 景的高亮标记对用于关注检测器学习的内容的各个帧进行标记,生成关于用于关注检测器 学习的内容的高亮标记序列;以及高亮检测器学习装置,其被配置用于使用用于学习的标记序列,执行作为状态转 移概率模型的高亮检测器的学习,其中,该用于学习的标记序列是从用于关注检测器学习 的内容获得的最大似然状态序列、和高亮标记序列的对。第十四,用于高亮场景的信息处理设备是如下信息处理设备,其包括获得装置,其被配置用于通过如下处理获得高亮检测器估计最大似然状态序列, 该最大似然状态序列是在内容模型中将观测到用于关注检测器学习的内容的特征量的似 然最高的情况下,引起发生状态转移的状态序列;根据用户的操作,通过使用表示是否为高 亮场景的高亮标记来对用于关注检测器学习的内容的各个帧进行标记,来生成关于用于关 注检测器学习的内容的高亮标记序列;以及使用用于学习的标记序列,执行作为状态转移 概率模型的高亮检测器的学习,该用于学习的标记序列是从用于关注检测器学习的内容获 得的最大似然状态序列、和高亮标记序列的对,其中,该内容模型是在通过如下处理获得的 所述学习之后的状态转移概率模型提取用于关注检测器学习的内容的图像的各个帧的特 征量,该用于关注检测器学习的内容是要用于高亮检测器的学习的内容,该高亮检测器是 用于检测用户感兴趣的场景作为高亮场景的模型;提取用于学习的内容的图像的各个帧的 特征量,该用于学习的内容是要用于状态转移概率模型的学习的内容,该状态转移概率模 型由状态可进行的状态转移概率以及将从状态观测到预定观测值的观测概率来规定;以及 使用用于学习的内容的特征量,执行状态转移概率模型的学习;特征量提取装置,其被配置用于提取用于关注高亮检测的内容的图像的各个帧的 特征量,该用于关注高亮检测的内容是要从其检测高亮场景的内容;第一最大似然状态序列估计装置,其被配置用于估计最大似然状态序列,该最大 似然状态序列是在内容模型中将观测到用于关注高亮检测的内容的特征量的似然最高的 情况下,引起发生状态转移的状态序列;第二最大似然状态序列估计装置,其被配置用于估计最大似然状态序列,该最大 似然状态序列是在高亮检测器中将观测到检测标记序列的似然最高的情况下,引起发生状 态转移的状态序列,该检测标记序列是从用于关注高亮检测的内容获得的最大似然状态序 列与高亮标记的高亮标记序列之间的对,该高亮标记表示是高亮场景或除高亮场景之外的 场景;高亮场景检测装置,其被配置用于基于高亮关系状态序列的各个状态的高亮标记 的观测概率,从用于关注高亮检测的内容检测高亮场景的帧,该高亮关系状态序列是从检 测标记序列获得的最大似然状态序列;以及摘要内容生成装置,其被配置用于使用高亮场景的帧,生成摘要内容,其是用于关 注高亮检测的内容的摘要。第十五,用于高亮场景的信息处理设备是用于高亮场景的第十四信息处理设备, 其中,在高亮关系状态序列的预定时间点处的状态中,在表示是高亮场景的高亮标记的观 测概率与表示是除高亮场景之外的场景的高亮标记的观测概率之间的差别大于预定阈值的情况下,高亮场景检测装置检测与预定时间点处的状态对应的用于关注高亮检测的内容 的帧作为高亮场景的帧。第十六,用于高亮场景的信息处理设备是用于高亮场景的第十四信息处理设备, 其还包括剪贴簿生成装置,其被配置用于提取内容图像的各个帧的特征量,估计最大似然状态序列,该最大似然状态序列是在内容模型中将观测到内容的特 征量的似然最高的情况下,引起发生状态转移的状态序列,从内容提取最大似然状态序列的状态中的对应于与用户指示的状态匹配的状态 的帧,以及将从内容提取出的帧登记在其上登记有高亮场景的剪贴簿中。第十七,用于高亮场景的信息处理设备是用于高亮场景的第十四信息处理设备, 其还包括状态间距离计算装置,其被配置用于基于从一个状态到另一个状态的状态转移概 率,获得从内容模型的一个状态到另一状态的状态间距离;坐标计算装置,其被配置用于获得作为模型图上的状态的位置坐标的状态坐标, 以便减小在作为二维或三维图(其中布置了内容模型的状态)的模型图上、从一个状态到 另一个状态的欧几里得距离与状态间距离之间的误差;以及显示控制装置,其被配置用于执行显示控制,用于显示如下模型图其中,彼此对 应的状态被布置在状态坐标的位置中。第十八,用于高亮场景的信息处理设备是用于高亮场景的第十七信息处理设备, 其中,坐标计算装置获得状态坐标,以便使得与欧几里得距离和状态间距离之间的统计误 差成比例的Sammon映射误差函数最小化,以及在从一个状态到另一个状态的欧几里得距 离大于预定阈值的情况下,将从一个状态到另一个状态的欧几里得距离设置为等于从一个 状态到另一个状态的状态间距离的距离,并且执行误差函数的计算。第十九,用于高亮场景的信息处理设备是用于高亮场景的第十七信息处理设备, 其还包括剪贴簿生成装置,其被配置用于提取内容图像的各个帧的特征量,估计最大似然状态序列,该最大似然状态序列是在内容模型中将观测到内容的特 征量的似然最高的情况下,引起发生状态转移的状态序列,从内容提取最大似然状态序列的状态中的对应于与用户指示的模型图上的状态 匹配的状态的帧,以及将从内容提取出的帧登记在其上登记有高亮场景的剪贴簿中。第二十,用于高亮场景的信息处理设备是用于高亮场景的第十四信息处理设备, 其中,通过将帧划分为作为多个小区域的子区域,提取多个子区域的各个子区域的特征量, 并且组合多个子区域的各个子区域的特征量,来获得帧的特征量。第二十一,用于高亮场景的信息处理设备是用于高亮场景的第十四信息处理设 备,其中,通过组合对应于帧的预定时间内的音频能量、过零率或谱重心的平均值和离差来 获得帧的特征量。第二十二,用于高亮场景的信息处理设备是用于高亮场景的第十四信息处理设备,其中,通过检测帧内的对象的显示区域,将帧划分为作为多个小区域的子区域,提取子 区域中的对象的显示区域的像素数目与多个子区域的各个子区域中的像素数目的百分比 作为特征量,并且组合多个子区域的各个子区域的特征量,来获得帧的特征量。第二十三,用于高亮场景的信息处理设备的信息处理方法是利用信息处理设备 的、包括如下步骤的信息处理方法获得步骤,其布置用于通过如下处理获得高亮检测器估计最大似然状态序列,该 最大似然状态序列是在内容模型中将观测到用于关注检测器学习的内容的特征量的似然 最高的情况下,引起发生状态转移的状态序列;根据用户的操作,通过使用表示是否为高亮 场景的高亮标记对用于关注检测器学习的内容的各个帧进行标记,来生成关于用于关注检 测器学习的内容的高亮标记序列;以及使用用于学习的标记序列,执行作为状态转移概率 模型的高亮检测器的学习,该用于学习的标记序列是从用于关注检测器学习的内容获得的 最大似然状态序列、和高亮标记序列的对,其中,该内容模型是通过如下处理获得的提取 用于关注检测器学习的内容的图像的各个帧的特征量,该用于关注检测器学习的内容是要 用于高亮检测器的学习的内容,该高亮检测器是用于检测用户感兴趣的场景作为高亮场景 的模型;提取用于学习的内容的图像的各个帧的特征量,该用于学习的内容是要用于状态 转移概率模型的学习的内容,该状态转移概率模型由状态可进行的状态转移概率以及将从 状态观测到预定观测值的观测概率来规定;以及使用用于学习的内容的特征量,执行状态 转移概率模型的学习;特征量提取步骤,其布置用于提取用于关注高亮检测的内容的图像的各个帧的特 征量,该用于关注高亮检测的内容是要从其检测高亮场景的内容;第一最大似然状态序列估计步骤,其布置用于估计最大似然状态序列,该最大似 然状态序列是在内容模型中将观测到用于关注高亮检测的内容的特征量的似然最高的情 况下,引起发生状态转移的状态序列;第二最大似然状态序列估计步骤,其布置用于估计最大似然状态序列,该最大似 然状态序列是在高亮检测器中将观测到检测标记序列的似然最高的情况下,引起发生状 态转移的状态序列,该检测标记序列是从用于关注高亮检测的内容获得的最大似然状态序 列、与高亮标记的高亮标记序列之间的对,该高亮标记表示是高亮场景或除高亮场景之外 的场景;高亮场景检测步骤,其布置用于基于高亮关系状态序列的各个状态的高亮标记的 观测概率,从用于关注高亮检测的内容检测高亮场景的帧,该高亮关系状态序列是从检测 标记序列获得的最大似然状态序列;以及摘要内容生成步骤,其布置用于使用高亮场景的帧,生成摘要内容,其是用于关注 高亮检测的内容的摘要。第二十四,一种使得计算机用作用于高亮场景的信息处理设备的程序,该信息处 理设备包括获得装置,其被配置用于通过如下处理获得高亮检测器估计最大似然状态序列, 该最大似然状态序列是在内容模型中将观测到用于关注检测器学习的内容的特征量的似 然最高的情况下,引起发生状态转移的状态序列;根据用户的操作,通过使用表示是否为高 亮场景的高亮标记对用于关注检测器学习的内容的各个帧进行标记,来生成关于用于关注检测器学习的内容的高亮标记序列;以及使用用于学习的标记序列,执行作为状态转移概 率模型的高亮检测器的学习,该用于学习的标记序列是从用于关注检测器学习的内容获得 的最大似然状态序列、和高亮标记序列的对,其中,该内容模型是在通过如下处理获得的所 述学习之后的状态转移概率模型提取用于关注检测器学习的内容的图像的各个帧的特征 量,该用于关注检测器学习的内容是要用于高亮检测器的学习的内容,该高亮检测器是用 于检测用户感兴趣的场景作为高亮场景的模型;提取用于学习的内容的图像的各个帧的特 征量,该用于学习的内容是要用于状态转移概率模型的学习的内容,该状态转移概率模型 由状态可进行的状态转移概率以及将从状态观测到预定观测值的观测概率来规定;以及使 用用于学习的内容的特征量,执行状态转移概率模型的学习;特征量提取装置,其被配置用于提取用于关注高亮检测的内容的图像的各个帧的 特征量,该用于关注高亮检测的内容是要从其检测高亮场景的内容;第一最大似然状态序列估计装置,其被配置用于估计最大似然状态序列,该最大 似然状态序列是在内容模型中将观测到用于关注高亮检测的内容的特征量的似然最高的 情况下,引起发生状态转移的状态序列;第二最大似然状态序列估计装置,其被配置用于估计最大似然状态序列,该最大 似然状态序列是在高亮检测器中将观测到检测标记序列的似然最高的情况下,引起发生状 态转移的状态序列,该检测标记序列是从用于关注高亮检测的内容获得的最大似然状态序 列、与高亮标记的高亮标记序列之间的对,该高亮标记表示是高亮场景或除高亮场景之外 的场景;高亮场景检测装置,其被配置用于基于高亮关系状态序列的各个状态的高亮标记 的观测概率,从用于关注高亮检测的内容检测高亮场景的帧,该高亮关系状态序列是从检 测标记序列获得的最大似然状态序列;以及摘要内容生成装置,其被配置用于使用高亮场景的帧,生成摘要内容,其是用于关 注高亮检测的内容的摘要。[具有应用了本发明的信息处理设备的记录器的实施例]图1是示出应用了根据本发明的信息处理设备的记录器的实施例的配置示例的 框图。图1中的记录器是例如HD (硬盘)记录器等,并且可以视频记录(记录)(存储) 各类内容,诸如电视广播节目、经由诸如互联网等的网络提供的内容、通过摄像机等拍摄的 内容等。具体地,在图1中,记录器包括内容存储单元11、内容模型学习单元12、模型存储 单元13、内容结构呈现单元14、摘要生成单元15以及剪贴簿生成单元15。内容存储单元11存储(记录)例如诸如电视广播节目的内容。将内容存储到内 容存储单元11构成该内容的记录,并且例如根据用户的操作而播放视频记录的内容(存储 在内容存储单元11中的内容)。内容模型学习单元12执行学习(统计学习),用于在预定特征量空间中以自组织 方式构造存储在内容存储单元11中的内容,以获得表示内容结构(时间空间结构)的模型 (在下文中,还称为内容模型)。内容模型学习单元12将作为学习结果获得的内容模型提 供给模型存储单元13。
模型存储单元13存储从内容模型学习单元12提供的内容模型。内容结构呈现单元14使用存储在内容存储单元11中的内容以及存储在模型存储 单元13中的内容模型,来创建并呈现表示内容结构的稍后描述的模型图。摘要生成单元15使用存储在模型存储单元13中的内容模型,来从存储在内容存 储单元11中的内容检测用户感兴趣的场景作为高亮场景。随后,摘要生成单元15生成收 集了高亮场景的摘要。剪贴簿生成单元16使用存储在模型存储单元13中的内容模型来检测用户感兴趣 的场景,并且生成从该场景收集的剪贴簿。注意,通过摘要生成单元15进行的摘要生成以及通过剪贴簿生成单元16进行的 剪贴簿生成在检测用户感兴趣的场景作为结果方面是共同的,但是其检测方法(算法)不 同。另外,图1中的记录器可在不设置内容结构呈现单元14和剪贴簿生成单元16等 的情况下来配置。具体地,例如,在学习的内容模型已存储在模型存储单元13中的情况下,记录器 可在不设置内容模型学习单元12的情况下来配置。另外,例如,关于内容结构呈现单元14、摘要生成单元15以及剪贴簿生成单元16, 记录器可通过仅设置这些中的一个或两个块来配置。现在,假设要存储在内容存储单元11中的内容的数据包括图像、音频以及必要的 文本(字幕)的数据(流)。另外,现在,假设在内容的数据之中,仅图像的数据被用于内容模型学习处理以及 采用内容模型的处理。然而,对于内容模型学习处理以及采用内容模型的处理,除图像的数据外,还可采 用音频或文本的数据,并且在该情况下,可以提高处理的精度。另外,对于内容模型学习处理以及采用内容模型的处理,可仅采用音频的数据而 非图像的数据。[内容模型学习单元12的配置示例]图2是示出图1中的内容模型学习单元12的配置示例的框图。内容模型学习单元12提取用于学习的内容的图像的各个帧的特征量,该用于学 习的内容是要用于状态转移概率模型的学习的内容,该状态转移概率模型由状态可进行的 状态转移概率以及将从状态观测到预定观测值的观测概率来规定。另外,内容模型学习单 元12使用用于学习的内容的特征量来执行状态转移概率模型的学习。具体地,内容模型学习单元12包括学习内容选择单元21、特征量提取单元22、特 征量存储单元沈以及学习单元27。学习内容选择单元21从存储在内容存储单元11中的内容之中,选择要用于状态 转移概率模型的学习的内容作为用于学习的内容,并且将其提供给特征量提取单元22。这里,学习内容选择单元21从存储在内容存储单元11中的内容之中,选择例如属 于预定类别的一个或多个内容作为用于学习的内容。表述“属于预定类别的内容”指的是内容具有其中隐藏的共同结构,例如,诸如相 同类型的节目、系列节目、每周或每天或周期地广播的节目(具有相同标题的节目)等。
例如,可采用所谓的粗分类(诸如,体育节目、新闻节目等)作为类型,但是例如, 所谓的细分类(诸如,足球比赛节目、棒球比赛节目等)是优选的。另外,例如,也可将足球比赛节目分类为属于随频道(广播站)而不同的类别的内容。现在,假设已在图1的记录器中设置了采用何种类别作为内容的类别。另外,可以从例如元数据识别存储在内容存储单元11中的内容的类别,该元数据 诸如是伴随电视广播中的节目一起传送的节目的类型或标题、互联网上的站点提供的节目
的信息等。特征量提取单元22将来自学习内容选择单元21的用于学习的内容解复用成图像 数据和音频数据,提取图像的各个帧的特征量,并且将其提供给特征量存储单元26。具体地,特征量提取单元22包括帧划分单元23、子区域特征量提取单元M以及连 接单元25。来自学习内容选择单元21的、用于学习的内容的图像的各个帧被按时间序列提 供给帧划分单元23。帧划分单元23顺序取从学习内容选择单元21按时间序列提供的用于学习的内容 的帧作为关注帧。随后,帧划分单元23将关注帧划分成作为多个小区域的子区域,并且将 其提供给子区域特征量提取单元对。子区域特征量提取单元M从来自帧划分单元23的关注帧的各个子区域提取子区 域的特征量(在下文中,还称为“子区域特征量”),并且将其提供给连接单元25。连接单元25组合来自子区域特征量提取单元M的关注帧的子区域的子区域特征 量,并且将组合的结果提供给特征量存储单元沈作为关注帧的特征量。特征量存储单元沈存储从特征量提取单元22 (的连接单元2 按时间序列提供 的用于学习的内容的各个帧的特征量。学习单元27使用存储在特征量存储单元沈中的用于学习的内容的各个帧的特征 量,来执行状态转移概率模型的学习。另外,学习单元27取学习后的状态转移概率模型作 为内容模型,并且以与用于学习的内容的类别相关的方式将其提供给模型存储单元13。[状态转移概率模型]参照图3至图6,将关于图2中的学习单元27学习的状态转移概率模型进行描述。关于状态转移概率模型,例如,可采用HMM(隐马尔可夫模型)。在采用HMM作为状 态转移概率模型的情况下,例如,通过Baum-Welch (鲍姆-韦尔奇)重估计方法执行HMM的 学习。图3是示出从左到右型的HMM的示例的图。从左到右型的HMM是状态排列在从左到右方向的直线上的HMM,并且可以执行自 转移(从某一状态到该状态的转移)以及从某一状态到位于该状态右侧的状态的转移。从 左到右型的HMM用于例如音频识别等。图3中的HMM包括三个状态Sl、s2和&,并且允许执行自转移以及从某一状态到其 邻近右侧状态的转移作为状态转移。注意,HMM由状态Si的初始概率π i、状态转移概率以及将从状态Si观测到预 定观测值O的观测概率bi (O)来规定。
这里,初始概率π i是状态Si是初始状态(第一状态)的概率,并且对于从左到右 型的HMM,最左侧状态Si的初始概率η i被设置为1. 0,而另一状态Si的初始概率π i被设 置为0.0。状态转移概率是进行从状态Si转移到状态h的转移的概率。观测概率bi (ο)是在到状态Si的状态转移时将从状态Si观测到观测值ο的概率。 关于观测概率bi (O),在观测值O是离散值的情况下,采用作为概率的值(离散值),而在观 测值O是连续值的情况下,采用概率分布函数。关于概率分布函数,例如,可采用由平均值 (平均矢量)和离差(协方差矩阵)所定义的高斯分布等。图4是示出遍历(Ergodic)型HMM的示例的图。遍历型HMM是关于状态转移没有限制的HMM,即,能够进行从任意状态Si到任意状 态~的状态转移的HMM。图4中的HMM包括三个状态S1、S2和&,并且允许执行任意状态转移。遍历型HMM是其中状态转移的灵活性最高的HMM,但是在状态数目较大的情况下, 其可取决于HMM的参数(初始概率^、状态转移概率^iu以及观测概率bi (ο))的初始值而 收敛于局部最小值,这阻止了获得适当的参数。因此,我们将采用“自然界中的大部分现象以及创建视频内容的摄影技巧或节目 配置可以利用诸如小型世界网络的稀疏(sparse)连接来表示”的假设,并且采用其中状态 转移被限制为稀疏结构的HMM用以在学习单元27进行学习。这里,稀疏配置不是可以进行从某一状态到任意状态的状态转移的、诸如遍历型 HMM的密集状态转移,而是其中从某一状态可以进行状态转移而到达的状态极其有限的配 置(稀疏状态转移的结构)。现在,假设即使对于稀疏结构,也存在至少一个到另一状态的状态转移,并且还存 在自转移。图5是示出作为具有稀疏结构的HMM的二维邻近约束HMM的示例的图。对于图5的A和图5的B中的HMM,除了具有稀疏结构的HMM之外,还施加了如下 限制其中,构成HMM的状态以栅格形状布置在二维平面上。这里,对于图5的A中的HMM,到另一状态的状态转移限于水平邻近状态和垂直邻 近状态。对于图5的B中的HMM,到另一状态的状态转移限于水平邻近状态、垂直邻近状态 以及斜线邻近状态。图6是示出除了二维邻近约束HMM之外的具有稀疏结构的HMM的示例的图。具体地,图6中的A示出了根据三维栅格限制的HMM的示例。图6中的B示出了 根据二维随机重布置限制的HMM的示例。图6中的C示出了根据小型世界网络的HMM的示 例。对于图2中的学习单元27,使用存储在特征量存储单元沈中的图像的(从帧提取 的)特征量,通过Baum-Welch重估计方法来执行具有图5和图6中示出的稀疏结构的、包 括例如100至几百个状态的HMM的学习。HMM(其是作为在学习单元27处的学习结果而获得的内容模型)是通过仅使用内 容的图像(视觉)的特征量的学习而获得的,因此其可被称为视觉HMM。这里,用于HMM的学习的、存储在特征量存储单元沈中的特征量是作为连续值的矢量,并且关于HMM的观测概率bi (ο),采用概率分布函数。注意,例如,在 Laurence Rabiner 禾口 Biing-Hwang Juang 合著的 “Fundamentals of Speech Recognition (First and Second)(语音识别的基础(上、下)),NTT ADVANCED TECHNOLOGY CORPORATION (NTT先进科技公司),,以及本申请人先前提出的日本专利申请 第2008-064993号中描述了 HMM。另外,例如,在本申请人先前提出的日本专利申请第 2008-064994号中描述了具有稀疏结构的HMM或遍历型HMM的使用。[特征量的提取]图7是用于描述通过图2中的特征量提取单元22进行的特征量提取处理的图。对于特征量提取单元22,将来自学习内容选择单元21的用于学习的内容的图像 的各个帧按时间序列提供给帧划分单元23。帧划分单元23顺序取从学习内容选择单元21按时间序列提供的用于学习的内容 的帧作为关注帧,将关注帧划分为多个子区域&,并且将其提供给子区域特征量提取单元 24。这里,在图7中,关注帧被等分为16个子区域I^R2.....R16,其中水平X垂直是
4X4。注意,在将一个帧划分为子区域&时的子区域&的数目不限于16 GX 4)。具体 地,一个帧可以被划分为例如20(5X4)个子区域&、25(5乂幻个子区域&等。另外,在图7中,一个帧被划分(等分)为具有相同尺寸的子区域Rk,但是子区域 的尺寸可不相同。具体地,例如,可进行如下布置其中,帧的中心部分被划分为具有小尺寸 的子区域,而帧的周围部分(与图像帧相邻的部分等)被划分为具有大尺寸的子区域。子区域特征量提取单元M (图幻提取来自帧划分单元23的关注帧的各个子区域 Rk的子区域特征量fk = FeatExt (Rk),并且将其提供给连接单元25。具体地,子区域特征量提取单元M使用子区域&的像素值(例如,RGB分量、YUV 分量等),获得子区域&的全局特征量作为子区域特征量fk。这里,以上“子区域&的全局特征量”是指例如诸如直方图的特征量,该特征量例 如仅使用像素值而不使用构成子区域&的像素的位置信息来以相加方式计算。关于全局特征量,例如可采用称为GIST的特征量。例如,在A.Torralba, K. Murphy, W. Freeman, Μ. Rubin, "Context-based vision system for place and object recognition(用于位置和对象识别的基于上下文的视觉系统)”,IEEE Int. Conf. Computer Vision, vol. 1,no. 1,pp. 273-280,2003 中描述了 GIST 的细节。注意,全局特征量不限于GIST。具体地,全局特征量应该为关于诸如局部位置、亮 度、视点等的视觉变化健壮(robust)的(健壮)特征量(以便吸收改变)。这种特征量的 示例包括HLCA (高阶局部自动相关)、LBP (局部二进制模式)以及色彩直方图。例如,在 N. Otsu, T. Kurita, "A new scheme for practical flexible and intelligent vision systems (用于实际灵活智能视觉系统的新方案)”,IAPR Workshop on Computer Vision,pp. 431-435,1988 中描述了 HLCA 的细节。例如,在Ojala Τ, Pietikainen M 以及Maenpaa T,"Multiresolution gray-scale and rotation invariant texture classification with Local Binary Patterns (利用局部二进制模式的多分辨 率灰度禾口旋转不变纹理分类),,,IEEE Transactions on Pattern Analysis and MachineIntelligence 24(7) :971-987 (更准确地,Pietikainen 和 Maenpaa 中的“a”是在“a”上添 加了 “..,,的字符)中描述了 LBP的细节。这里,诸如以上GIST、LBP、HLCA、色彩直方图等的全局特征量具有维数较大的倾 向,并且还具有维度之间的相关性较高的倾向。因此,子区域特征量提取单元24 (图幻可在从子区域&提取GIST等之后,执行诸 如GIST等的基本分量分析(PCA(基本分量分析))。随后,对于子区域特征量提取单元M, 压缩(限制)诸如GIST等的维数,以使得累积贡献率基于PCA的结果而变成一定程度的高 值(例如等于或大于95%等的值),并且可把压缩结果视为子区域特征量。在此情况下,投射到诸如GIST等的维数被压缩的PCA空间中的投射矢量变为诸如 GIST等的维数被压缩的压缩结果。连接单元25(图幻连接来自子区域特征量提取单元M的关注帧的子区域R1至 R16的子区域特征量至f16,并且将连接结果提供给特征量存储单元沈作为关注帧的特征
Mo具体地,连接单元25通过连接来自子区域特征量提取单元M的子区域特征量 至f16,来生成具有子区域特征量至f16作为分量的矢量,并且将该矢量提供给特征量存储 单元沈作为关注帧的特征量Ft。这里,在图7中,时间点t处的帧(帧t)是关注帧。“时间点t”是例如以内容的 前端作为参考的时间点,并且对于该实施例,时间点t处的帧指的是从内容的前端起的第t 帧。对于图2中的特征量提取单元22,从前端开始顺序取用于学习的内容的各个帧作 为关注帧,并且如上所述,获得特征量Ft。随后,将用于学习的内容的各个帧的特征量Ft按 时间序列(在保持时间前后关系的状态下)从特征量提取单元22提供并存储到特征量存 储单元洸。如上所述,对于特征量提取单元22,获得子区域&的全局特征量作为子区域特征 量fk,并且获得具有子区域特征量fk作为分量的矢量作为帧的特征量Ft。因此,帧的特征量Ft相对于局部变化(在子区域内发生的变化)是健壮的,但相对 于作为整个帧的模式布局中的变化成为可辨别的(用于敏锐地区分差别的特性)特征量。根据这样的特征量Ft,可适当地确定帧之间的场景(内容)的相似性。例如,只要 场景包括在帧的上侧的“天空”、在中间的“大海”、以及在屏幕的下侧的“海滩”,就满足“海 滩”的场景,因此,人存在于“海滩”的什么部分、云存在于“天空”的什么部分等与场景是否 是“海滩”的场景无关。从这样的观点来看,特征量Ft适合于确定场景的相似性(以对场景 进行分类)。[内容模型学习处理]图8是用于描述图2中的内容模型学习单元12执行的处理(内容模型学习处理) 的流程图。在步骤S11中,学习内容选择单元21从存储在内容存储单元11中的内容之中,选 择属于预定类别的一个或多个内容作为用于学习的内容。具体地,例如,学习内容选择单元21从存储在内容存储单元11中的内容之中,选 择尚未被选择作为用于学习的内容的任意内容作为用于学习的内容。
另外,学习内容选择单元21识别被选择作为用于学习的内容的一个内容的类别, 并且在属于该类别的另一内容存储在内容存储单元11中的情况下,学习内容选择单元21 还选择该内容(另一内容)作为用于学习的内容。学习内容选择单元21将用于学习的内容提供给特征量提取单元22,并且处理从 步骤Sll进行到步骤S12。在步骤S12中,特征量提取单元22的帧划分单元23从来自学习内容选择单元21 的用于学习的内容之中,选择尚未被选择作为用于关注学习的内容(在下文中,还称为“关 注内容”)的、用于学习的内容之一作为关注内容。随后,处理从步骤S12进行到步骤S13,其中,帧划分单元23从关注内容的帧之中 选择尚未被选择作为关注帧的、时间上最在前的帧作为关注帧,并且处理进行到步骤S14。在步骤S14中,帧划分单元23将关注帧划分为多个子区域,并将其提供给子区域 特征量提取单元对,并且处理进行到步骤S15。在步骤S15中,子区域特征量提取单元M提取来自帧划分单元23的多个子区域 的各个子区域的子区域特征量,并将其提供给连接单元25,并且处理进行到步骤S16。在步骤S16中,连接单元25通过对来自子区域特征量提取单元M的、构成关注帧 的多个子区域的各个子区域的子区域特征量进行连接,来生成关注帧的特征量,并且处理 进行到步骤S17。在步骤S17中,帧划分单元23确定关注内容的所有帧是否都已被选择作为关注 帧。在步骤S17中确定在关注内容的帧中存在尚未被选择作为关注帧的帧的情况下, 处理返回至步骤S13,并且此后重复同一处理。另外,在步骤S17中确定关注内容的所有帧都已被选择作为关注帧的情况下,处 理进行到步骤S18,其中,连接单元25将关于关注内容获得的关注内容的各个帧的特征量 (的时间序列)提供并存储到特征量存储单元26。随后,处理从步骤S18进行到步骤S19,其中,帧划分单元23确定来自学习内容选 择单元21的所有用于学习的内容是否都已被选择作为关注内容。在步骤S19中确定在用于学习的内容中存在尚未被选择作为关注内容的用于学 习的内容的情况下,处理返回至步骤S12,并且此后重复同一处理。另外,在步骤S19中确定所有用于学习的内容都已被选择作为关注内容的情况 下,处理进行到步骤S20,其中,学习单元27使用存储在特征量存储单元沈中的用于学习的 内容的特征量(各个帧的特征量的时间序列)来执行HMM的学习。随后,学习单元27以与用于学习的内容的类别相关的方式,将学习后的HMM输出 (提供)给模型存储单元13作为内容模型,并且结束内容模型学习处理。注意,内容模型学习处理可在任意定时开始。根据以上内容模型学习处理,对于HMM,以自组织的方式获取隐藏在用于学习的内 容中的内容结构(例如,通过节目配置、摄影技巧等创建的配置)。结果,作为通过内容模型学习处理而获得的内容模型的HMM的各个状态对应于通 过学习获取的内容结构的元素,并且状态转移表示内容结构的元素之间的时间转移。随后,内容模型的状态以集合方式表示在特征量空间(在特征量提取单元22 (图2)处提取的特征量的空间)中具有接近的空间距离并且还具有相似的时间前后关系的帧 组(即,“相似场景”)。这里,例如,在内容为问答比赛节目的情况下,通常,设置提问、给出提示、执行者 回答以及宣布正确答案的流程被视为节目的基本流程,并且通过重复该基本流程来进行问 答比赛节目。以上节目的基本流程相当于内容结构,并且设置提问、给出提示、执行者回答以及 宣布正确答案的每个相当于内容结构的元素。另外,例如,从设置提问前进到给出提示等相当于内容结构的元素之间的时间转 移。[内容结构呈现单元14的配置示例]图9是示出图1中的内容结构呈现单元14的配置示例的框图。如上所述,内容模型获取隐藏在用于学习的内容中的内容结构,而内容结构呈现 单元14以视觉方式向用户呈现该内容结构。具体地,内容结构呈现单元14包括内容选择单元31、模型选择单元32、特征量提 取单元33、最大似然状态序列估计单元34、状态对应(state-enabled)图像信息生成单元 35、状态间距离计算单元36、坐标计算单元37、图绘制单元38以及显示控制单元39。例如,根据用户的操作等,内容选择单元31从存储在内容存储单元11中的内容之 中,选择要使其结构可视化的内容作为用于关注呈现的内容(在下文中,还简称为“关注内 容,,)。随后,内容选择单元31将关注内容提供给特征量提取单元33和状态对应图像信 息生成单元35。另外,内容选择单元31识别关注内容的类别,并将其提供给模型选择单元 32。模型选择单元32从存储在模型存储单元13中的内容模型之中,选择与来自内容 选择单元31的关注内容的类别匹配的类别的内容模型(与关注内容的类别相关的内容模 型)作为关注模型。随后,模型选择单元32将关注模型提供给最大似然状态序列估计单元34和状态 间距离计算单元36。特征量提取单元33以与图2中的特征提取单元22相同的方式,提取从内容选择 单元31提供的关注内容(的图像)的各个帧的特征量,并且将关注内容的各个帧的特征量 (的时间序列)提供给最大似然状态序列估计单元34。例如,根据维特比(Viterbi)算法,最大似然状态序列估计单元34估计最大似然 状态序列(构成所谓的维特比路径的状态序列),该最大似然状态序列是在来自模型选择 单元32的关注模型中将观测到来自特征量提取单元33的关注内容的特征量(的时间序 列)的似然最高的情况下,引起状态转移的状态序列。随后,最大似然状态序列估计单元34将在关注模型中观测到关注内容的特征量 的情况下的最大似然状态序列(在下文中,还称为“与关注内容对应的关注模型的最大似 然状态序列)提供给状态对应图像信息生成单元35。现在,假设以关于关注内容的关注模型的最大似然状态序列的前端作为参考的时 间点t的状态(从构成最大似然状态序列的顶端起的第t状态)被表示为s (t),另外关注内容的帧数被表示为T。在此情况下,关于关注内容的关注模型的最大似然状态序列是T个状态S(I)、
s (2).....s(T)的序列,并且其第t状态(时间点t处的状态)s (t)对应于关注内容的时
间点t处的帧(帧t)。另外,如果假设关注模型的状态的总数被表示为N,则在时间点t处的状态s (t)是 N 个状态 S” s2、· · ·、Sn 之一。另外,N个状态Sl、S2.....sN中的各个状态附有作为用于确定状态的索引的状态
ID (标识)。现在,如果假设关于关注内容的关注模型的最大似然状态序列的时间点t处的状 态s (t)是N个状态S1至%中的第i状态Si,则时间点t处的帧对应于状态Si。因此,关注内容的各个帧对应于N个状态S1至%之一。关于关注内容的关注模型的最大似然状态序列的实体是N个状态S1至%中的一 个状态的状态ID的序列,其对应于关注内容的各个时间点t的帧。如上所述的关于关注内容的关注模型的最大似然状态序列表示关注内容在关注 模型上引起哪种状态转移。状态对应图像信息生成单元35针对构成来自最大似然状态序列估计单元34的最 大似然状态序列(状态ID的序列)的状态的各个状态ID,从来自内容选择单元31的关注 内容之中选择与同一状态对应的帧。具体地,状态对应图像信息生成单元35顺序选择关注模型的N个状态S1至%作 为关注状态。现在,如果假设状态ID为#i的状态Si被选择作为关注状态,则状态对应图像信 息生成单元35从最大似然状态序列之中检索与关注状态(状态ID为#i的状态)匹配的 状态,并且以与关注状态的状态ID关联的方式存储与该状态对应的帧。随后,状态对应图像信息生成单元35处理与状态ID相关的帧,以生成与该状态 ID对应的图像信息(在下文中,还称为“状态对应图像信息”),并且将其提供给图绘制单元 38。这里,关于状态对应图像信息,例如,可采用其中按时间序列顺序布置与状态ID 相关的一个或多个帧的缩略图的静止图像(图像序列)、或者其中按时间序列顺序缩小并 排列与状态ID相关的一个或多个帧的运动图像(电影)等。注意,状态对应图像信息生成单元35关于在关注模型的N个状态S1至%的状态 ID之中在最大似然状态序列中未出现的状态的状态ID,不生成(无法生成)状态对应图像
fn息ο状态间距离计算单元36基于从一个状态Si到另一状态~的状态转移概率 」,获 得从来自模型选择单元32的关注模型的一个状态Si到另一状态~的状态间距离屯/。随 后,在获得从关注模型的N个状态的任意状态Si到任意状态~的状态间距离Cli/之后,状 态间距离计算单元36将具有状态间距离Cli/作为分量的、具有N行乘N列的矩阵(状态间 距离矩阵)提供给坐标计算单元37。现在,例如,假设在状态转移概率aij大于预定阈值(例如,(1/N)X10_2)的情况 下,状态间距离计算单元36将状态间距离Cli/设置为例如0. 1 (小值),并且在状态转移概率^^等于或小于预定阈值的情况下,状态间距离计算单元36将状态间距离Cli/设置为例 如1.0(大值)。坐标计算单元37获得作为模型图上的状态Si的位置坐标的状态坐标Yi,以便减 小模型图上从一个状态Si到另一状态~的欧几里得距离与来自状态间距离计算单元36 的状态间距离矩阵的状态间距离Cli/之间的误差,其中该模型图是布置了关注模型的N个 状态S1至%的二维或三维图。具体地,坐标计算单元37获得状态坐标Yi,以便使得与欧几里得距离Clij和状态 间距离Cli/之间的统计误差成比例的Sammon映射误差函数E最小化。这里,Samnon映射是多维定标方法之一,并且例如在J. W. Sammon, JR.,"A Nonlinear Mapping for Data Structure Analysis (用于数据结构分析的非线性映射)”, IEEE Transactions on Computers,卷 C-18,第 5 期,1969 年 5 月中描述了其细节。对于Sammon映射,例如,获得作为二维图的模型图上的状态坐标Yi = O^yi),以 便使得表达式(1)的误差函数E最小化。[表达式1]表达式1
P1f [dij--dij]2
cj- ――TjΧ;Σ [Clij-] iti i<j
· · (1)这里,在表达式(1)中,N表示关注模型的状态的总数,并且i和j是取1至N范 围中的整数值的状态索引(并且在该实施例中,还作为状态ID)。d,;表示状态间距离矩阵的第i行第j列的元素,并且表示从状态Si到状态~的 状态间距离。Clij表示模型图上的状态Si的位置的坐标(状态坐标)Yi与状态~的位置的 坐标Yj之间的欧几里得距离。坐标计算单元37通过重复应用梯度方法来获得状态坐标Yi (i = 1,2,. . .,N),以 便使得表达式(1)中的误差函数E最小化,并将其提供给图绘制单元38。图绘制单元38绘制其中在来自坐标计算单元37的状态坐标Yi中布置相应状态 Si (的图像)的模型图(的图形)。另外,图绘制单元38根据其状态之间的状态转移概率, 绘制在模型图上的状态之间进行连接的线段。另外,图绘制单元38将模型图上的状态Si和来自从状态对应图像信息生成单元 35的状态对应图像信息中的、与状态Si的状态ID对应的状态对应图像信息链接,并将其提 供给显示控制单元39。显示控制单元39执行显示控制,用于在未示出的显示器上显示来自图绘制单元 38的模型图。图10是用于描述图9中的内容结构呈现单元14执行的处理(内容结构呈现处 理)的概述的图。图10中的A示出了在内容选择单元31处被选择作为关注内容(用于关注呈现的 内容)的内容的帧的时间序列。图10中的B示出了在特征量提取单元33处提取的、图10的A中的帧的时间序列的特征量的时间序列。图10中的C示出了在最大似然状态序列估计单元34处估计的最大似然状态序列 (关于关注内容的关注模型的最大似然状态序列),其中,在关注模型中将观测到图10的B 中的关注内容的特征量的时间序列。这里,如上所述,关于关注内容的关注模型的最大似然状态序列的实体是状态ID 的序列。随后,从关于关注内容的关注模型的最大似然状态序列的前端起的第t状态ID是 如下状态的状态ID (对应于帧t的状态的状态ID)其中,在最大似然状态序列中将观测到 关注内容的第t帧(时间点t处的)的特征量。图10中的D示出了要在状态对应图像信息生成单元35处生成的状态对应图像信
肩、ο在图10的D中,对于图10的C中的最大似然状态序列,选择与状态ID为“1”的 状态对应的帧,并且生成作为关于该状态ID的状态对应图像信息的电影或图像序列。图11是示出要由图9中的图绘制单元38绘制的模型图的示例的图。对于图11中的模型图,椭圆表示状态,并且在椭圆之间进行连接的线段(虚线) 表示状态转移。另外,提供给椭圆的数字表示由该椭圆表示的状态的状态ID。如上所述,模型图绘制单元38绘制模型图(的图形),其中,在坐标计算单元37处 获得的状态坐标Yi的位置中布置相应状态Si (的图像(图11中的椭圆))。另外,图绘制单元38根据其状态之间的状态转移概率,绘制在模型图上的状态之 间进行连接的线段。具体地,在从模型图上的状态Si到另一状态~的状态转移概率大于预 定阈值的情况下,图绘制单元38绘制在状态Si与另一状态~之间进行连接的线段。这里,对于模型图,可用强调的方式来绘制状态等。具体地,对于图11中的模型图,状态Si可用椭圆(包括圆)等来绘制,而表示该 状态Si的椭圆等可通过根据作为概率分布函数的高斯分布的离差来改变其半径或颜色而 被绘制,该概率分布函数作为状态Si的观测概率h (O)。另外,可通过根据状态转移概率的大小改变线段的宽度或颜色,来绘制根据状态 之间的状态转移概率在模型图上的状态之间进行连接的线段。注意,用于以强调的方式绘制状态等的方法不限于如上所述的绘制。另外,不一定 需要执行状态等的强调。顺便提及,对于图9中的坐标计算单元37,在按原样采用表达式(1)中的误差函数 E、并且获得模型图上的状态坐标Yi以便使得误差函数E最小化的情况下,如图11所示,在 模型图上以圆形图案布置状态(表示该状态的椭圆)。随后,在此情况下,状态集中在模型图的圆周的附近(外部)(外缘),这阻止了用 户观看状态的布置,并因此可降低可视性。因此,对于图9中的坐标计算单元37,可获得模型图上的状态坐标Yi,以便校正表 达式(1)中的误差函数E,从而使得校正后的误差函数E最小化。具体地,坐标计算单元37确定欧几里得距离Clij是否大于预定阈值THd (例如,THd =1.0 等)。具体地,在欧几里得距离Clij不大于预定阈值THd的情况下,对于表达式(1)中的 误差函数的计算,坐标计算单元37按原样采用表达式(1)中的欧几里得距离作为欧几里得距离Clij。另一方面,在欧几里得距离Clij大于预定阈值THd的情况下,对于表达式(1)中的 误差函数的计算,坐标计算单元37采用状态间距离屯/(假设= d,;)作为欧几里得距 离Clij (欧几里得距离Clij被设置为等于状态间距离Cli/的距离)。在此情况下,对于模型图,当注意其欧几里得距离Clij接近某种程度(不大于阈值 THd)的两个状态Si和~时,改变状态坐标Yi和Yj,以便使得欧几里得距离Clij与状态间距 离Cli/匹配(以使得欧几里得距离Clij接近状态间距离Cli/)。另一方面,对于模型图,当注意其欧几里得距离Clij远离某种程度(大于阈值THd) 的两个状态Si和~时,不改变状态坐标Yi和Yj。结果,对于其欧几里得距离Clij远离某种程度的两个状态Si和Sj,欧几里得距离Cli 仍保持远离,以便如图11所示,状态集中在模型图的圆周的附近(外缘)中,从而可以防止 可视性降低。图12是示出要使用校正后的误差函数E获得的模型图的示例的图。根据图12中的模型图,可以识别状态没有集中在圆周的附近中。[内容结构呈现处理]图13是用于描述图9中的内容结构呈现单元14执行的内容结构呈现处理的流程 图。在步骤S41中,内容选择单元31根据例如用户的操作,从存储在内容存储单元11 中的内容之中选择关注内容(用于关注呈现的内容)。随后,内容选择单元31将关注内容提供给特征量提取单元33和状态对应图像信 息生成单元35。另外,内容选择单元31识别关注内容的类别,并将其提供给模型选择单元 32,并且处理从步骤S41进行到步骤S42。在步骤S42中,模型选择单元32从存储在模型存储单元13中的内容模型之中,选 择与来自内容选择单元31的关注内容的类别相关的内容模型作为关注模型。随后,模型选择单元32将关注模型提供给最大似然状态序列估计单元34和状态 间距离计算单元36,并且处理从步骤S42进行到步骤S43。在步骤S43中,特征量提取单元33提取来自内容选择单元31的关注内容的各个 帧的特征量,并且将关注内容的各个帧的特征量(的时间序列)提供给最大似然状态序列 估计单元34,并且处理进行到步骤S44。在步骤S44中,最大似然状态序列估计单元34估计最大似然状态序列(关于关注 内容的关注模型的最大似然状态序列),其中,在来自模型选择单元32的关注模型中将观 测到来自特征量提取单元33的关注内容的特征量。随后,最大似然状态序列估计单元34将关于关注内容的关注模型的最大似然状 态序列提供给状态对应图像信息生成单元35,并且处理从步骤S44进行到步骤S45。在步骤S45中,状态对应图像信息生成单元35针对构成来自最大似然状态序列估 计单元34的最大似然状态序列(状态ID的序列)的状态的各个状态ID,从来自内容选择 单元31的关注内容之中选择与同一状态对应的帧。另外,状态对应图像信息生成单元35以与状态ID相关的方式,存储与状态ID的 状态对应的帧。另外,状态对应图像信息生成单元35处理与状态ID相关的帧,从而生成状态对应图像信息。随后,状态对应图像信息生成单元35将与状态ID对应的状态对应图像信息提供 给图绘制单元38,并且处理从步骤S45进行到步骤S46。在步骤S46中,状态间距离计算单元36基于状态转移概率 」,获得从来自模型选 择单元32的关注模型的一个状态Si到另一状态~的状态间距离屯/。随后,在获得从关注 模型的N个状态的任意状态Si到任意状态~的状态间距离Cli/之后,状态间距离计算单元 36将具有状态间距离Cli/作为分量的状态间距离矩阵提供给坐标计算单元37,并且处理从 步骤S46进行到步骤S47。在步骤S47中,坐标计算单元37获得状态坐标Yi = (X^yi),以便使得表达式(1) 中的误差函数E最小化,该误差函数E是模型图上的从一个状态Si到另一状态~的欧几里 得距离Clij、与来自状态间距离计算单元36的状态间距离矩阵的状态间距离Cli/之间的统计误差。随后,坐标计算单元37将状态坐标Yi = (X^yi)提供给图绘制单元38,并且处理 从步骤S47进行到步骤S48。在步骤S48中,图绘制单元38绘制例如二维模型图(的图形),其中,在该二维模 型图中,在来自坐标计算单元37的状态坐标Yi= (X^yi)的位置中布置相应状态Si (的图 像)。另外,图绘制单元38在模型图上绘制在其状态转移概率等于或大于预定阈值的状态 之间进行连接的线段,并且处理从步骤S48进行到步骤S49。在步骤S49中,图绘制单元38将模型图上的状态Si与来自状态对应图像信息生 成单元35的状态对应图像信息中的、与状态Si的状态ID对应的状态对应图像信息进行链 接,并将其提供给显示控制单元39,并且处理进行到步骤S50。在步骤S50中,显示控制单元39执行显示控制,用于在未示出的显示器上显示来 自图绘制单元38的模型图。另外,显示控制单元39响应于通过用户的操作对模型图上的状态的指定,执行显 示控制(用于播放的回放控制),用于显示与该状态的状态ID对应的状态对应图像信息。具体地,在用户执行用于指定模型图上的状态的操作时,例如,显示控制单元39 在与模型图分离的未示出的显示器上显示链接到该状态的状态对应图像信息。因此,用户可以识别与模型图上的状态对应的帧的图像。[摘要生成单元15的配置示例]图14是示出图1中的摘要生成单元15的配置示例的框图。摘要生成单元15包括高亮检测器学习单元51、检测器存储单元52以及高亮检测 单元53。高亮检测器学习单元51使用存储在内容存储单元11中的内容以及存储在模型存 储单元13中的内容模型,来执行高亮检测器的学习,该高亮检测器是用于检测用户感兴趣 的场景作为高亮场景的模型。高亮检测器学习单元51将学习后的高亮检测器提供给检测器存储单元52。这里,关于作为高亮检测器的模型,以与内容模型相同的方式,例如,可采用作为 状态转移概率模型之一的HMM。检测器存储单元52存储来自高亮检测器学习单元51的高亮检测器。
高亮检测器53使用存储在检测器存储单元52中的高亮检测器,从存储在内容存 储单元11中的内容检测高亮场景的帧。另外,高亮检测器53使用高亮场景的帧来生成摘 要内容,其是存储在内容存储单元11中的内容的摘要。[高亮检测器学习单元51的配置示例]图15是示出图14中的高亮检测器学习单元51的配置示例的框图。在图15中,高亮检测器学习单元51包括内容选择单元61、模型选择单元62、特征 量提取单元63、最大似然状态序列估计单元64、高亮标记生成单元65、学习标记生成单元 66以及学习单元67。内容选择单元61例如根据用户的操作,从存储在内容存储单元11中的内容之中, 选择要用于高亮检测器的学习的内容作为用于关注检测器学习的内容(在下文中,简称为 “关注内容”)。具体地,内容选择单元61例如从作为存储在内容存储单元11中的内容的记录节 目之中,选择用户指定作为回放对象的内容作为关注内容。随后,内容选择单元61将关注内容提供给特征量提取单元63,并且还识别关注内 容的类别,并将其提供给模型选择单元62。模型选择单元62从存储在模型存储单元13中的内容模型之中,选择与来自内容 选择单元61的关注内容的类别相关的内容模型作为关注模型,并将其提供给最大似然状 态序列估计单元64。特征量提取单元63以与图2中的特征量提取单元22相同的方式,提取从内容选 择单元61提供的关注内容的各个帧的特征量,并且将关注内容的各个帧的特征量(的时间 序列)提供给最大似然状态序列估计单元64。最大似然状态序列估计单元64以与图9中的最大似然状态序列估计单元34相同 的方式,估计最大似然状态序列(关于关注内容的关注模型的最大似然状态序列),其中, 在来自模型选择单元62的关注模型中将观测到来自特征量提取单元63的关注内容的特征 量(的时间序列)的似然最高的情况下,该最大似然状态序列引起状态转移。随后,最大似然状态序列估计单元64将关于关注内容的关注模型的最大似然状 态序列提供给学习标记生成单元66。高亮标记生成单元65跟随用户操作,以对在内容选择单元61处选择的关注内容 的各个帧执行高亮标记的标记,从而生成关于关注内容的高亮标记序列,其中,该高亮标记 表示是否为高亮场景。具体地,内容选择单元61选择的关注内容是如上所述的、用户指定作为回放对象 的内容,并且关注内容的图像显示在未示出的显示器上(并且同时,音频从未示出的扬声 器输出)。当感兴趣场景显示在显示器上时,用户可以通过操作未示出的远程命令器等来输 入消息以实现该场景是感兴趣场景的效果,并且高亮标记生成单元65根据这样的用户操 作生成高亮标记。具体地,例如,如果假设在输入表示是感兴趣场景的消息时的用户操作是偏爱操 作,则高亮标记生成单元65关于没有执行偏爱操作的帧,生成例如表示除高亮场景之外的 场景的、值为“0”的高亮标记。
另外,高亮标记生成单元65关于执行了偏爱操作的帧,生成例如表示是高亮场景 的、值为“1”的高亮标记。随后,高亮标记生成单元65将高亮标记序列提供给学习标记生成单元66,其中, 该高亮标记序列是关于关注内容而生成的高亮标记的时间序列。学习标记生成单元66生成用于学习的标记序列,其是状态ID的序列与来自高亮 标记生成单元65的高亮标记序列的对,该状态ID的序列是来自最大似然状态序列估计单 元64的、关于关注内容的关注模型的最大似然状态序列(从关注内容获得的最大似然状态 序列)。具体地,学习标记生成单元66关于作为来自最大似然状态序列估计单元64的最 大似然状态序列的状态ID和来自高亮标记生成单元65的高亮标记序列,生成多流的用于 学习的标记序列,该多流由各个时间点t处的状态ID (对应于帧t的状态的状态ID)与高 亮标记(关于帧t的高亮标记)的对构成。随后,学习标记生成单元66将用于学习的标记序列提供给学习单元67。学习单元67使用来自学习标记生成单元66的、用于学习的标记序列,例如根据 Baum-Welch重估计方法来执行作为遍历型的多流HMM的高亮检测器的学习。随后,学习单元67以与在内容选择单元61处选择的关注内容的类别相关的方式, 将学习后的高亮检测器提供并存储到检测器存储单元52。这里,在高亮标记生成单元65处获得的高亮标记是值为“0”或“1”并且是离散值 的二进制标记(符号)。另外,在最大似然状态序列估计单元64处从关注内容获得的最大 似然状态序列是状态ID的序列,并且也是离散值。因此,在学习标记生成单元66处被生成作为这样的高亮标记与最大似然状态序 列的对的、用于学习的标记序列也是离散值(的时间序列)。以此方式,用于学习的标记序 列是离散值,因此作为在学习单元67处执行其学习的高亮检测器的HMM的观测概率bj (ο) 是本身为概率的值(离散值)。注意,对于多流HMM,关于构成多流的单个序列(流)(在下文中,还称为“组成序 列,,),可设置作为其组成序列对多流HMM的影响程度的权重(在下文中,还称为“序列权 重”)。将大的序列权重设置给要在多流HMM的学习时或者在使用多流HMM进行识别时 (在获得最大似然状态序列时)要强调的组成序列,由此可以提供先验知识,以便防止多流 HMM的学习结果落入局部解中。注意,例如,在SATOSHI TAMURA, KOJI IffANO, SADAOKI FURUI,“Multi-modal speech recognition using optical-flow analysis (使用视觉流分析的多模语音识 别),,,Acoustical Society of Japan (ASJ),2001 autumn lecture collected papers, 1-1-14,pp. 27-28(2001-10)等中描述了多流 HMM 的细节。以上文献已经介绍了在音频视觉语音识别领域中的多流HMM的使用示例。具体 地,进行了如下描述其中,当音频的SN(信噪比)比率较低时,执行学习和识别,以便通过 降低音频特征量序列的序列权重,增大图像的影响使得其大于音频的影响。多流HMM与采用除多流之外的单个序列的HMM的不同点在于,如表达式(2)所示, 关于构成多流的各个组成序列o[m]的观测概率b[mh.(0[m]),通过将预先设置的序列权重化纳入考虑来计算整个多流的观测概率bj(0[1],0[2],... , o[M])。[表达式2]表达式权利要求
1.一种显示控制设备,包括聚类装置,其被配置用于使内容的各个帧聚类成多个聚类中的任一聚类;场景分类装置,其被配置用于关于所述多个聚类的各个聚类,将属于所述聚类的帧分 类成作为在时间上连续的一个或多个帧的组的场景;缩略图创建装置,其被配置用于创建所述场景的缩略图;以及显示控制装置,其被配置用于在被配置用于显示图像的显示设备上,显示所述场景的 缩略图。
2.根据权利要求1所述的显示控制设备,其中,所述聚类装置使用包括状态和状态转 移的状态转移模型,来使得所述内容的帧聚类成与所述状态对应的聚类。
3.根据权利要求2所述的显示控制设备,其中,所述显示控制装置生成作为下述二维 图的模型图其中,在所述二维图中,状态被布置成使得所述状态转移模型中能够相互进行 状态转移的状态彼此靠近,并且所述显示控制装置执行二维图显示的显示控制,用于在所 述模型图的各个状态的位置中布置和显示场景的缩略图,其中所述场景包括属于与所述状 态对应的聚类的帧。
4.根据权利要求3所述的显示控制设备,还包括控制装置,其被配置用于控制所述内容的回放;其中,所述显示控制装置在所述模型图的、与回放对象帧所属的聚类对应的状态的位 置中,显示作为要播放的帧的所述回放对象帧。
5.根据权利要求4所述的显示控制设备,其中,所述控制装置基于用于指示所述模型 图上的状态的指令输入,将属于与所述指令输入指示的状态对应的聚类的帧作为所述回放 对象帧,来播放所述内容。
6.根据权利要求3所述的显示控制设备,其中,所述显示控制装置基于从一个状态到 另一个状态的状态转移的状态转移概率,获得从所述状态转移模型的所述一个状态到所述 另一个状态的状态间距离,获得作为所述模型图上的所述状态的位置的坐标的状态坐标, 以使得所述模型图上的、从所述一个状态到所述另一个状态的欧几里得距离与所述状态间 距离的差别较小,并且生成所述模型图,其中,在所述模型图中,彼此对应的所述状态布置 在所述状态坐标的位置中。
7.根据权利要求6所述的显示控制设备,其中,所述显示控制装置获得所述状态坐标, 以便使得与所述欧几里得距离和所述状态间距离之间的统计误差成比例的Sammon映射误 差函数最小化,并且在从所述一个状态到所述另一个状态的欧几里得距离大于预定阈值的 情况下,通过将从所述一个状态到所述另一个状态的欧几里得距离设置为等于从所述一个 状态到所述另一个状态的所述状态间距离的距离,执行所述误差函数的计算。
8.根据权利要求2所述的显示控制设备,其中,所述显示控制装置执行状态显示的显 示控制,用于布置和显示场景的缩略图,其中,所述场景包括属于通过如下处理获得的矩形 聚类区域中的相应聚类的帧根据与所述状态转移模型的状态对应的聚类,对所述显示设 备的显示屏幕进行分割。
9.根据权利要求8所述的显示控制设备,还包括控制装置,其被配置用于基于用于指示所述聚类区域的指令输入,将属于与所述指令 输入指示的聚类区域对应的聚类的帧作为回放对象帧,来播放所述内容,其中,所述回放对象帧是要播放的帧。
10.根据权利要求2所述的显示控制设备,还包括控制装置,其被配置用于控制所述内容的回放;其中,所述显示控制装置执行两窗格显示的显示控制,用于显示场景的缩略图,其中, 所述场景包括作为要播放的帧的回放对象帧、以及属于所述回放对象帧所属的聚类的帧。
11.根据权利要求10所述的显示控制设备,其中,所述控制装置基于用于指示所述缩 略图的指令输入,将所述指令输入指示的缩略图所表示的场景的帧作为所述回放对象帧, 来播放所述内容。
12.根据权利要求2所述的显示控制设备,还包括控制装置,其被配置用于控制所述内容的回放;其中,所述显示控制装置执行5窗格显示的显示控制,用于显示作为要播放的帧的回 放对象帧;场景的缩略图,所述场景包括属于所述回放对象帧所属的聚类的帧;场景的缩 略图,所述场景包括属于在包括所述回放对象帧的场景紧接之后的场景的帧所属的聚类的 帧;场景的缩略图,所述场景包括属于在包括所述回放对象帧的场景紧接之前的场景的帧 所属的聚类的帧;以及所述内容的所有场景的缩略图。
13.根据权利要求12所述的显示控制设备,其中,所述控制装置基于用于指示所述缩 略图的指令输入,将所述指令输入指示的缩略图所表示的场景的帧作为所述回放对象帧, 来播放所述内容。
14.根据权利要求2所述的显示控制设备,还包括控制装置,其被配置用于控制所述内容的回放;其中,所述显示控制装置执行时间序列显示的显示控制,用于显示作为要播放的帧的 回放对象帧,并且还通过在所述时间序列中进行排列,显示包括所述回放对象帧的场景的 缩略图、在包括所述回放对象帧的场景之后的一个或多个场景的缩略图、以及在包括所述 回放对象帧的场景之前的一个或多个场景的缩略图。
15.根据权利要求14所述的显示控制设备,其中,所述控制装置基于用于指示所述缩 略图的指令输入,将所述指令输入指示的缩略图所表示的场景的帧作为所述回放对象帧, 来播放所述内容。
16.根据权利要求2所述的显示控制设备,其中,所述显示控制装置执行平铺显示的显 示控制,用于通过在时间序列中进行排列,显示所述内容的所有场景的缩略图。
17.根据权利要求16所述的显示控制设备,还包括控制装置,其被配置用于控制所述内容的回放;其中,所述显示控制装置在包括回放对象帧的场景的缩略图的位置中,显示作为要播 放的帧的所述回放对象帧。
18.根据权利要求17所述的显示控制设备,其中,所述控制装置基于用于指示所述缩 略图的指令输入,将所述指令输入指示的缩略图所表示的场景的帧作为所述回放对象帧, 来播放所述内容。
19.一种利用显示控制设备的显示控制方法,包括以下步骤使内容的各个帧聚类成多个聚类中的任一聚类;关于所述多个聚类的各个聚类,将属于所述聚类的帧分割成作为在时间上连续的一个或多个帧的组的场景;创建所述场景的缩略图;以及在用于显示图像的显示设备上,显示所述场景的缩略图。
20. 一种使得计算机用作以下装置的程序聚类装置,其被配置用于使内容的各个帧聚类成多个聚类中的任一聚类; 场景分类装置,其被配置用于关于所述多个聚类的各个聚类,将属于所述聚类的帧分 割成作为在时间上连续的一个或多个帧的组的场景;缩略图创建装置,其被配置用于创建所述场景的缩略图;以及显示控制装置,其被配置用于在被配置用于显示图像的显示设备上,显示所述场景的 缩略图。
全文摘要
本发明涉及一种显示控制设备、显示控制方法以及程序,由此可以提供一种新的缩略图方法。聚类单元611使内容的各个帧聚类成多个聚类中的任一聚类,并且场景分类单元612关于多个聚类的各个聚类,将属于聚类的帧分类成作为在时间上连续的一个或多个帧的组的场景。缩略图创建单元613创建场景的缩略图,并且显示控制单元614在显示设备603上显示该缩略图。
文档编号G06F17/30GK102077580SQ201080001920
公开日2011年5月25日 申请日期2010年4月22日 优先权日2009年4月30日
发明者铃木洋贵 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1