信息处理设备、信息处理方法和程序的制作方法

文档序号:6361349阅读:107来源:国知局
专利名称:信息处理设备、信息处理方法和程序的制作方法
技术领域
本发明涉及信息处理设备、信息处理方法和程序,具体地,涉及例如能够容易地向内容附加注释并且提供利用注释的应用的信息处理设备、信息处理方法和程序。
背景技术
存在显示内容的概要的方法作为用户用来识别包括广播节目等的图像的内容的总结的方法(例如,专利文献1、2和3)。引用列表专利文献专利文献1:日本专利申请公开第2007-163568号专利文献2 :日本专利申请公开第2008-175994号专利文献3 :日本专利申请公开第2010-093461号

发明内容
本发明要解决的技术问题作为用户用来识别内容的总结的方法,除了显示内容的概要的方法之外,存在向内容附加注释的方法。现在,需要提出容易地向内容附加注释的技术。考虑到这样的情形而实现了本发明,并且其目标是容易地向内容附加注释并且提供利用了注释的应用。针对问题的方案根据本发明的一个方面的信息处理设备或程序是一种信息处理设备,其包括特征量提取部件,用于提取学习内容的图像的每个帧的图像特征量,并且提取与每个词在描述学习内容的图像的内容的描述文本中的出现频率有关的词频信息,作为描述文本的文本特征量;以及模型学习部件,通过使用用于注释的注释序列来学习注释模型,其中注释模型是多流HMM (隐马尔可夫模型),并且注释序列是包括图像特征量和文本特征量的多流。根据本发明的一个方面的信息处理方法是一种由信息处理设备执行的信息处理方法,其包括如下步骤提取学习内容的图像的每个帧的图像特征量,并且提取关于每个词在描述学习内容的图像的内容的描述文本中的出现频率的词频信息,作为描述文本的文本特征量;以及通过使用用于注释的注释序列来学习注释模型,其中注释模型是多流HMM (隐马尔可夫模型),并且注释序列是包括图像特征量和文本特征量的多流。在如上文所述的本发明的一个方面,提取学习内容的图像的每个帧的图像特征量并且提取与每个词在描述学习内容的图像的内容的描述文本中的出现频率有关的词频信息,作为描述文本的文本特征量吗,并且通过使用用于注释的注释序列来学习注释模型,其中注释模型是多流HMM (隐马尔可夫模型),并且注释序列是包括图像特征量和文本特征量的多流。
同时,信息处理设备可以是独立的设备或者可以是构成一个设备的内部块。而且,可以通过经由传输介质来传输或者提供记录在记录介质中来提供程序。本发明的效果根据本发明的一个方面,有可能容易地向内容附加注释并且提供利用注释的应用。


图1是图示了应用了本发明的信息处理设备的记录器的一个实施例的配置示例的框图。图2是图示了学习设备12的框图。图3是图示了特征量提取单元21的第一配置示例的框图。图4是图示了字幕CSV数据和中间数据的示例的视图。图5是图示了将中间数据转换为频率数据的方法的视图。图6是图示了文本特征量的示例的视图。图7是图示了学习设备12学习注释模型的学习处理的流程图。图8是图示了注释附加设备14的配置示例的框图。图9是图示了注释附加设备14将注释附加到目标内容的注释附加处理的流程图。图10是图示了帧搜索设备15的配置示例的框图。图11是图示了帧搜索设备15从目标内容中搜索关键词帧以生成关键词摘要的帧搜索处理的流程图。图12是图示了针对关键词KW#1、KW#2、KW#3和KW#4中的每个获取的目标内容的每个帧的关键词符合度的示例的视图。图13是图示了作为AND搜索式的运算的数字min运算的视图。图14是图示了作为OR搜索式的运算的数字max运算的视图。图15是图示了显示控制设备16的配置示例的框图。图16是图示了由显示控制器63绘制的模型映射的数量的视图。图17是图示了通过使用校正的误差函数E来获取的模型映射的显示示例的视图。图18是图示了由显示控制器63显示的、其上布置有代表性图像和注释的模型映射的显示示例的视图。图19是模型映射的部分放大的视图。图20是图示了显示控制设备16显示模型映射的显示控制处理的流程图。图21是图示了特征量提取单元21的第二配置示例的框图。图22是图示了特征量提取单元21的第三配置示例的框图。图23是图示了对LDA的学习的视图,在对LDA的学习中,基础空间学习单元161获取LDA的参数作为用于文本的基础空间的基础空间数据。图24是图示了通过使用用于文本的基础空间的基础空间数据来由降维单元163执行的文本特征量的降维的视图。图25是图示了注释附加设备14的特征量提取单元41的配置示例的框图。图26是图示了注释附加设备14的注释附加处理的流程图。
图27是图示了搜索设备15的帧搜索处理的流程图。图28是图示了显示控制设备16对模型映射的显示控制处理的流程图。图29是图示了针对每个潜在主题来显示附加到目标内容的注释的显示示例的视图。图30是图示了显示控制设备16对主题列表的显示控制处理的流程图。图31是图示了使用主题列表的注释的显示格式的示例的视图。图32是图示了使用模型映射的注释的显示格式的示例的视图。图33是图示了特征量提取单元21的第四配置示例的框图。图34是图示了注释附加设备14的特征量提取单元41的配置示例的框图。图35是图示了应用了本发明的信息处理设备的记录器的另一实施例的配置示例的框图。图36是图示了浏览记录器对注释模型的学习的概要的视图。图37是图示了通过由浏览记录器使用注释模型来从目标内容中提取场景的概要的视图。图38是图示了显示控制的概要的视图,在显示控制中,浏览记录器显示场景的代表性图像以便按显示时间的顺序来布置。图39是图示了其中显示了时间顺序概要显示图像的显示控制的概要的视图,在时间顺序概要显示图像中,按显示时间的顺序来布置仅仅角(场景)的代表性图像,角的内容是由用户输入的关键词来代表的。图40是图示了浏览控制设备314的配置示例的框图。图41是图示了由浏览记录器执行的设定成立的流程图。图42是图示了由浏览记录器执行的内容获取相关处理的流程图。图43是图示了通过浏览控制设备314使用注释模型来执行的处理(浏览控制处理)的流程图。图44是图示了当用户输入关键词时由浏览控制设备314执行的处理的流程图。图45是图示了应用了本发明的计算机的一个实施例的配置示例的框图。
具体实施例方式<第一实施例>[应用了本发明的信息处理设备的记录器的一个实施例]图1是图示了应用了本发明的信息处理设备的记录器的一个实施例的配置示例的框图。图1中的记录器是HD (硬盘)记录器等,例如,其可以记录(存储)各种内容,诸如电视广播、通过诸如因特网的网络提供的内容、以及由摄像机等拍摄的内容。就是说,在图1中,记录器包括内容存储单元11、学习设备12、注释模型存储单元
13、注释附加设备14、帧搜索设备15和显示控制设备16。同时,内容存储单元11、学习设备12、注释模型存储单元13、注释附加设备14、帧搜索设备15和显控制设备16可以构成一个设备(壳体)或者多个设备。就是说,例如,有可能将内容存储单元U、学习设备12和注释模型存储单元13构成为一个设备,诸如家庭网络上的服务器或者因特网上的服务器,并且将注释附加设备14、帧搜索设备15和显示控制设备16中的每个构成为另一设备,诸如客户端。例如,内容存储单元11存储(记录)包括图像的内容,诸如电视节目。例如,在内容存储单元11中存储内容就是记录内容,并且根据用户的操作来再现所记录的内容(存储在内容存储单元11中的内容)。同时,除此之外,由摄像机等拍摄的内容、从网络服务器下载的内容等也可以存储在内容存储单元11中。例如,学习设备12以自组织的方式来组织存储在内容存储单元11中的内容,并且执行学习(统计学习)以获取代表了内容结构(时间空间结构)的模型。就是说,学习设备12从存储在内容存储单元11中的内容当中选择可以获取其描述文本的内容作为用于稍后将描述的学习注释模型的学习内容,其中描述文本描述了该内容的图像的内容。此外,学习设备12提取学习内容的图像的每个帧的图像特征量,并且提取与描述了学习内容的图像的内容的描述文本中每个词的出现频率有关的词频信息作为描述文本的文本特征量。随后,学习设备12通过使用作为用于注释的注释序列来学习作为多流HMM (隐马尔可夫模型)的注释模型,并且将所学习的注释模型提供给注释模型存储单元13,其中注释序列是包括从学习内容提取的图像特征量和文本特征量的多流。注释模型存储单元13存储从学习设备12提供的注释模型。注释附加设备14通过使用注释模型存储单元13中存储的注释模型,将注释附加到存储在内容存储单元11中的内容当中要附加注释的目标内容。帧搜索设备15通过使用注释模型存储单元13中存储的注释模型,从存储在内容存储单元11中的内容当中的、将从中搜索到关键词帧的目标内容中搜索关键词帧,其中关键词帧是其内容与预定关键词相符合的帧。显示控制设备16通过使用注释模型存储单元13中存储的注释模型来执行显示控制,以显示要附加到存储在内容存储单元11中的内容当中要附加注释的目标内容的帧的注释。同时,此处存储在内容存储单元11中的内容的数据包括图像、音频和所需要的字幕的文本的数据(流)。然而,仅仅需要的是学习内容是至少包括图像并且其描述文本(诸如字幕的文本)可以通过特定方法获取的内容,并且需要的是将由注释附加设备14、帧搜索设备15和显示控制设备16处理的目标内容是至少包括图像的内容。学习内容和目标内容也可以是不包括图像但是包括音频的内容。[学习设备12的配置示例]图2是图示了图1中的学习设备12的配置示例的框图。学习设备12包括特征量提取单元21和模型学习单元22。特征量提取单元21从存储在内容存储单元11中的内容当中选择要与学习注释的内容作为学习内容,并且从内容存储单元11中将其获取(读取)。此处,例如,特征量提取单元21从存储在内容存储单元11中的内容当中选择可以获取其描述了内容的图像的内容的描述文本的内容(诸如包括字幕的文本的内容)作为学习内容。在内容中包括的字幕的文本之外,可以采用由用来在广播节目结束后发布元数据(诸如广播开始时间、广播结束时间、表演者、以及针对广播节目的每个角的角的内容的概要)的付费服务(以下,也称为节目元数据服务)的服务提供者提供的元数据、由用户通过键盘的操作等来输入的描述了内容等的文本等作为描述文本。而且,例如,特征量提取单元21选择属于预定分类的一条或更多条内容作为用于学习一个注释模型的学习内容。例如,属于预定分类的内容旨在意味着具有潜在于内容中的共同内容结构的内容,诸如相同类别的节目、系列、以及每周、每天或者定期广播的节目(所谓的具有相同标题的节目的系列)。作为成为分类的类别,尽管可以采用例如诸如运动节目、新闻节目和音乐节目的所谓类别划分,但是想要的是如足球比赛节目和篮球比赛节目的所谓精细划分。而且,例如,足球比赛节目可以根据频道(广播站)划分为属于不同分类的内容。同时,例如,预先在图1中的记录器中设定要采用作为内容的分类的分类。而且,例如,存储在内容存储单元11中的内容的分类可以通过元数据来识别,诸如与节目一起经由电视广播发送的节目的标题和类别以及由因特网上的站点提供的节目的格式等。此处,学习设备11学习用于每个分类的注释模型。图1中的注释附加设备14、帧搜索设备15和显示控制设备16也通过使用具有与目标内容的分类相同的分类的注释模型来处理目标内容。然而,以下适当地省略了对分类的描述。特征量提取单元21提取来自内容存储单元11的学习内容中包括的图像的每个帧的特征量,并且将其提供给模型学习单元22。此处,例如,特征量提取单元21依次将学习内容的帧设定为关注帧,并且将关注帧划分成作为多个小区域的子区域。此外,例如,特征量提取单元21提取每个子区域的字区域特征量,并且其分量是关注帧的子区域特征量的向量提供给模型学习单元22作为关注帧的图像特征量。作为子区域特征量,通过使用子区域的像素值(例如,RGB分量、YUV分量等)来获取子区域的全局特征量。此处,子区域的全局特征量旨在意味着作为例如通过仅仅使用像素值而不使用构成子区域的像素的位置的信息来以附加方式计算的直方图的特征量。例如,可以采用称为GIST的特征量来作为全局特征量。例如,在A. Torralba、K.Freeman 和 M.Rubin 的“Context-based vision system for place and objectrecognition” (IEEE 国际大会,Computer Vision,第 I 卷,第 I 号,273-280 页,2003 年)中详细描述了 GIST。同时,全局特征量不限于GIST。就是说,仅需要全局特征量是对于视觉中的局部改变(诸如位置、亮度和视点)鲁棒的特征量(使得吸收该改变)。这样的特征量包括例如HLCA(高阶局部自动相关性)、LBP (局部二值模式)、颜色直方图等。例如,在 N. Otsu、T. Kurita 的 “A new scheme for practical flexible andintelligent vision systems” (Proc.1APR Workshop on Computer Vision,431-435页,1988 年)中详细描述了 HLCA。例如,在 Ojala T.、Pietikainen M.和 Maenpaa T.的“Multiresolution gray-scale and rotation invariant texture classification withLocal Binary Patterns,,(IEEE Transactions on Pattern Analysis and MachineIntelligence24 (7) :971-987) (Pietikainen 和 Maenpaa 中的“a”准确地说是“a 的变音”)中详细描述了 LBP。作为其分量是子区域特征量的向量的上述图像特征量是对于局部改变(在子区域中出现的改变)鲁棒但是对于作为整个帧的模式的布置中的改变有辨别力(具有敏锐地辨别改变的属性)的特征量。根据这样的图像特征量,可以适当地判断场景(内容)之间的相似度。例如,在“海岸”的场景中,“天空”在帧的上侧,“海”在其中央,而“沙滩”在屏幕的下侧即可,并且人在“沙滩”中的位置和云在“天空”中的位置等于场景是否是“海岸”场景没有关系。根据这样的观点,作为其分量是子区域特征量的向量的图像特征量适于判断场景之间的相似度(划分场景),并且以下也被适当地称为场景特征量。在提取来自内容存储单元11的学习内容中包括的图像的每个帧的图像特征量(场景特征量)之外,图像特征量提取单元21提取与学习内容的描述文本中的每个词的出现频率有关的词频信息作为描述文本的文本特征量,并且将其提供给模型学习单元22。同时,当字幕的文本包括在学习内容中时,特征量提取单元21采用字幕的文本作为描述文本。例如,当从外部输入了描述文本时,就是说,当从节目元数据服务的服务提供者提供了节目的元数据时或者当由用户通过操作键盘输入了描述了学习内容的文本等时,特征量提取单元21可以采用来自服务提供者的元数据和来自用户的文本作为描述文本。在此之外,特征量提取单元21可以执行对学习内容中包括的音频的语音识别,并且采用作为语音识别的结果的文本作为描述文本。以下,采用内容中包括的字幕的文本作为描述文本,以便简化描述。模型学习单元22将包括从特征量提取单元21提供的学习内容的图像特征量和文本特征量的多流制成用于将注释附加到内容的、用于注释的注释序列,并且通过使用注释序列来学习作为多流HMM的注释模型。随后,模型学习单元22将所学习的注释模型提供给注释模型存储单元13用于存储。此处,HMM由首先位于状态Si中的初始概率Jii,从状态Si转移到状态Sj的状态转移的状态转移概率au、以及从状态Si观察到预定观察值O的输出概率分布匕(O)来定义。尽管在观察值O是尚散值时使用成为概率的尚散值(的分布)作为输出概率分布bjo)(多项分布),但是当观察值O是连续值时使用概率分布函数。例如,可以采用由平均值(平均向量)和方差(协方差矩阵)等定义的高斯分布作为概率分布函数。例如,有可能通过作为基于EM (期望最大)算法的参数估计方法的Baum-Welch重估方法来学习HMM。同时,在采用遍历HMM (在状态转移中没有限制的HMM)作为注释模型的情况下,当HMM的状态的数目大时,可能出到局部最小的收敛,使得无法根据HMM的参数的初始值(初始概率n1、状态转移概率au和输出概率分布匕(0))来获取适当的参数。因此,采用假设“大多数自然现象、创建视频内容的照相技巧和节目构成可以由诸如小世界网络的稀疏结合来代表”,并且采用其状态转移被限于稀疏结构的HMM作为注释模型。此处,稀疏结构是其中来自特定状态的状态转移有可能转移到的状态是非常有限的(状态转移是稀疏的)结构,不像其中状态转移稠密使得状态转移有可能从特定状态到任意状态的遍历HMM。同时,此处,存在到另一状态的至少一个状态转移,并且即使在稀疏结构中也存在自转移。如上所述,例如,模型学习单元22通过使用作为包括从特征量提取单元21提供的学习内容的图像特征量和文本特征量的多流的注释序列,通过Baum-Welch重估方法来学习作为多流HMM的注释模型。在多流HMM中观察到作为观察值的多个序列(流)的多流。随后,在多流HMM中,有可能针对构成多流的每个序列(流)(以下也称为分量序列)设定作为该分量序列对多流HMM的影响程度的权重(以下也称为序列权重)。

对于序列权重,通过在学习多流HMM时针对被认为是重要的分量序列设定大的权重,有可能提供先验知识,使得对多流HMM的学习结果不落入局部解中。而且,通过在通过使用多流HMM来进行识别时(当获取最大似然状态序列时)针对不被认为是重要的分量序列设定小的序列权重,有可能获取(基本上)不受分量序列的影响的识别结果。同时,例如,在田村哲嗣、岩野公司、古井贞熙的“Multimodal speechrecognition using optical-flow analysis^Acoustical Society of Japan, Annals ofAutumn Meeting2001, 1-1-14,27-28 页(2001 年 10 月))等中详细描述了多流 HMM。在上述文献中,介绍了在音频视频语音识别领域中使用多流HMM的示例。就是说,描述了当音频的SN比(信噪比)低时,使针对音频特征量的序列的序列权重低,使得图像的影响变得大于音频的影响以执行学习和识别。多流HMM与其中使用不是多流的单序列的HMM的区别在于,考虑针对构成多流的每个分量序列Om的输出概率分布b[mh_(0w)而预先设定的序列权重Wm来计算整个多流的输出概率分布bj 、0[2]、......、0tM]),如式(I )所不。[式I]
权利要求
1.一种信息处理设备,包括 特征量提取部件,用于提取学习内容的图像的每个帧的图像特征量,并且提取与每个词在描述所述学习内容的图像的内容的描述文本中的出现频率有关的词频信息,作为所述描述文本的文本特征量;以及 模型学习部件,通过使用用于注释的注释序列来学习注释模型,其中所述注释模型是多流隐马尔可夫模型HMM,并且所述注释序列是包括所述图像特征量和所述文本特征量的多流。
2.根据权利要求1所述的信息处理设备,其中 所述学习内容包括字幕文本,以及 所述描述文本是所述学习内容中包括的所述字幕文本。
3.根据权利要求2所述的信息处理设备,其中 所述特征量提取部件 在使具有预定时间长度的窗口按规律的间隔平移的同时,提取所述窗口中显示的所述字幕文本中包括的词,作为一个文档,以及 提取多项分布,作为所述文本特征量,所述多项分布表示每个词在所述文档中的出现频率。
4.根据权利要求2所述的信息处理设备,进一步包括 注释附加部件,用于通过使用所述注释模型,将注释附加到要被附加注释的对象内容。
5.根据权利要求4所述的信息处理设备,其中 所述特征量提取部件 在使具有预定时间长度的窗口按规律的间隔平移的同时,提取所述窗口中显示的所述字幕文本中包括的词,作为一个文档,以及 提取多项分布,作为所述文本特征量,所述多项分布表示每个词在所述文档中的出现频率,以及 所述注释附加部件 提取所述对象内容的图像的每个帧的图像特征量并且通过使用所述图像特征量来构成所述注释序列, 获得所述注释序列在所述注释模型中被观测到的最大似然状态序列,以及选择在与所述最大似然状态序列的状态中的、与所关注的关注帧对应的状态下观测到的所述多项分布中的具有高频率的词,作为要附加到所述关注帧的注释。
6.根据权利要求2所述的信息处理设备,进一步包括 帧搜索部件,用于从对象内容搜索关键词帧,其中通过使用所述注释模型从所述对象内容搜索所述关键词帧,并且所述关键词帧是内容符合预定关键词的帧。
7.根据权利要求6所述的信息处理设备,其中 所述特征量提取部件 在使具有预定时间长度的窗口按规律的间隔平移的同时,提取窗口中显示的所述字幕文本中包括的词,作为一个文档,以及 提取多项分布,作为所述文本特征量,所述多项分布表示每个词在所述文档中的出现频率,以及所述帧搜索部件 提取所述对象内容的图像的每个帧的图像特征量并且通过使用所述图像特征量来构成所述注释序列, 获得所述注释序列在所述注释模型中被观测到的最大似然状态序列,以及当在与所述最大似然状态序列的状态中的、与所关注的关注帧对应的状态下观测到的所述多项分布中,所述预定关键词的频率高时,选择所述关注帧作为所述关键词帧。
8.根据权利要求2所述的信息处理设备,进一步包括 显示控制部件,用于显示要附加到要被附加注释的对象内容的帧的注释,其中通过使用所述注释模型将所述注释附加到所述对象内容。
9.根据权利要求8所述的信息处理设备,其中 所述特征量提取部件 在使具有预定时间长度的窗口按规律的间隔平移的同时,提取窗口中显示的所述字幕文本中包括的词,作为一个文档,以及 提取多项分布,作为所述文本特征量,所述多项分布表示每个词在所述文档中的出现频率,以及 所述显示控制部件 提取所述对象内容的图像的每个帧的图像特征量并且通过使用所述图像特征量来构成所述注释序列, 通过获得所述注释序列在所述注释模型中被观测到的最大似然状态序列来获得与所述对象内容的每个帧对应的状态, 基于在所述状态下观测到的所述多项分布,获得要附加到与所述状态对应的帧的注释,以及 对于所述注释模型的每个状态,显示要附加到与所述状态对应的帧的注释。
10.根据权利要求9所述的信息处理设备,其中 所述显示控制部件 基于从所述注释模型的一个状态到另一状态的状态转变概率,获得从所述一个状态到所述另一状态的状态间距离, 获得作为状态在模型图上的位置的坐标的状态坐标,使得所述模型图上的从所述一个状态到所述另一状态的欧几里得距离和所述状态间距离之间的误差变小,其中所述模型图是所述注释模型的状态布置在其上的图, 在所述状态坐标的位置显示相应的状态布置在其上的所述模型图,以及在所述模型图上的状态下,显示表示与所述状态对应的帧的代表图像以及要附加到与所述状态对应的帧的注释。
11.根据权利要求2所述的信息处理设备,其中 所述特征量提取部件执行降维以减少所述图像特征量和所述文本特征量的维度,以及所述模型学习部件将包括所述降维之后的所述文本特征量和所述图像特征量的所述多流用作所述注释序列来学习所述注释模型。
12.根据权利要求11所述的信息处理设备,其中 所述特征量提取部件通过使用所述图像特征量来获得用于映射所述图像特征量的、维度低于所述图像特征量的维度的图像的基底空间的基底空间数据, 基于所述的图像的基底空间的基底空间数据来执行所述图像特征量的降维, 通过使用所述文本特征量来获得用于映射所述文本特征量的、维度低于所述文本特征量的维度的文本的基底空间的基底空间数据,以及 基于所述的文本的基底空间的基底空间数据来执行所述文本特征量的降维。
13.根据权利要求12所述的信息处理设备,其中 所述特征量提取部件 通过使用所述图像特征量来获得用于向量量化的码本,作为所述的图像的基底空间的基底空间数据,以及 通过使用所述码本来执行所述图像特征量的向量量化,获得表示质心向量的代码,作为所述降维之后的所述图像特征量。
14.根据权利要求12所述的信息处理设备,其中 所述特征量提取部件 在使具有预定时间长度的窗口按规律的间隔平移的同时,提取窗口中显示的所述字幕文本中包括的词,作为一个文档,以及 提取每个词在所述文档中的出现频率,作为所述文本特征量, 通过使用从所述学习内容获得的所述文档来学习潜在狄利克雷分配LDA,获得所述LDA的参数,作为文本的基底空间的基底空间数据,以及 使用所述LDA的参数,将从所述文档获得的所述文本特征量转换成主题似然,以获得表示主题似然最大的潜在主题的主题标志,作为所述降维之后的所述文本特征量,其中所述主题似然是所述文档的LDA的每个潜在主题的似然。
15.根据权利要求14所述的信息处理设备,进一步包括 注释附加部件,用于将注释附加到要被附加注释的对象内容,其中通过使用所述注释模型将所述注释附加到所述对象内容,其中所述特征量提取部件 通过使用从所述学习内容获得的文档来生成所述文档中出现的词的词典,并且通过使用在通过学习所述LDA获得的所述LDA的每个潜在主题中的每个词在所述词典中出现的出现概率,创建在所述LDA的潜在主题中出现频率高的词和所述词的出现频率的主题-频繁出现词表格,以及 所述注释附加部件 提取所述对象内容的图像的每个帧的图像特征量,执行所述降维并且通过使用所述降维之后的图像特征量来构成所述注释序列, 获得所述注释序列在所述注释模型中被观测到的最大似然状态序列, 选择在与所述最大似然状态序列的状态中的、与所关注的关注帧对应的状态下,由具有高输出概率的主题标志表示的潜在主题,作为表示所述关注帧的内容的帧主题,以及基于所述主题-频繁出现词表格,在所述帧主题中选择具有高出现频率的词作为要附加到所述关注帧的注释。
16.根据权利要求14所述的信息处理设备,进一步包括帧搜索部件,用于从对象内容搜索关键词帧,其中通过使用所述注释模型从所述对象内容搜索所述关键词帧,并且所述关键词帧是内容符合预定关键词的帧,其中所述特征量提取部件 通过使用从所述学习内容获得的文档来生成所述文档中出现的词的词典,并且通过使用在通过学习所述LDA获得的所述LDA的每个潜在主题中的每个词在所述词典中出现的出现概率,创建在所述LDA的潜在主题中出现频率高的词和所述词的出现频率的主题-频繁出现词表格,以及所述帧搜索部件 提取所述对象内容的图像的每个帧的图像特征量,执行所述降维并且通过使用所述降维之后的图像特征量来构成所述注释序列, 获得所述注释序列在所述注释模型中被观测到的最大似然状态序列, 选择在与所述最大似然状态序列的状态中的、与所关注的关注帧对应的状态下,由具有高输出概率的主题标志表示的潜在主题,作为表示所述关注帧的内容的帧主题,以及基于所述主题-频繁出现词表格获得所述预定关键词在所述帧主题中的出现频率,并且当所述预定关键词的出现频率高时,选择所述关注帧作为所述关键词帧。
17.根据权利要求14所述的信息处理设备,进一步包括 显示控制部件,用于显示要附加到待被附加注释的对象内容的帧的注释,其中通过使用所述注释模型将所述注释附加到所述对象内容的帧,其中所述特征量提取部件 通过使用从所述学习内容获得的文档来生成所述文档中出现的词的词典,并且通过使用在通过学习所述LDA获得的所述LDA的每个潜在主题中的每个词在所述词典中出现的出现概率,创建在所述LDA的潜在主题中出现频率高的词和所述词的出现频率的主题-频繁出现词表格,以及 所述显示控制部件 提取所述对象内容的图像的每个帧的图像特征量,执行所述降维并且通过使用所述降维之后的图像特征量来构成所述注释序列, 通过获得所述注释序列在所述注释模型中被观测到的最大似然状态序列来获得与所述对象内容的每个帧对应的状态, 选择在所述状态下由具有高输出概率的主题标志表示的潜在主题,作为表示与所述状态对应的帧的内容的帧主题, 基于所述主题-频繁出现词表格,获得在所述帧主题中出现概率高的词,作为要附加到内容由所述帧主题表示的帧的注释,以及 对于所述注释模型的每个状态,显示要附加到与所述状态对应的帧的注释。
18.根据权利要求14所述的信息处理设备,进一步包括 显示控制部件,用于显示要附加到待被附加注释的对象内容的帧的注释,其中通过使用所述注释模型将所述注释附加到所述对象内容的帧,其中所述特征量提取部件 通过使用从所述学习内容获得的文档来生成所述文档中出现的词的词典,并且通过使用在通过学习所述LDA获得的所述LDA的每个潜在主题中的每个词在所述词典中出现的出现概率,创建在所述LDA的潜在主题中出现频率高的词和所述词的出现频率的主题-频繁出现词表格,以及 所述显示控制部件 提取所述对象内容的图像的每个帧的图像特征量,执行所述降维并且通过使用所述降维之后的图像特征量来构成所述注释序列, 通过获得所述注释序列在所述注释模型中被观测到的最大似然状态序列来获得与所述对象内容的每个帧对应的状态, 选择在所述状态下由具有高输出概率的主题标志表示的潜在主题,作为表示与所述状态对应的帧的内容的帧主题, 基于所述主题-频繁出现词表格,获得在所述潜在主题中出现概率高的词,作为要附加到帧主题是所述潜在主题的帧的注释,以及 对于每个潜在主题,显示要附加到帧主题是所述潜在主题的帧的注释。
19.一种由信息处理设备执行的信息处理方法,包括如下步骤 提取学习内容的图像的每个帧的图像特征量,并且提取关于每个词在描述所述学习内容的图像的内容的描述文本中的出现频率的词频信息,作为所述描述文本的文本特征量;以及 通过使用用于注释的注释序列来学习注释模型,其中所述注释模型是多流隐马尔可夫模型HMM,并且所述注释序列是包括所述图像特征量和所述文本特征量的多流。
20.一种用于允许计算机用作如下部件的程序 特征量提取部件,用于提取学习内容的图像的每个帧的图像特征量,并且提取关于每个词在描述所述学习内容的图像的内容的描述文本中的出现频率的词频信息,作为所述描述文本的文本特征量;以及 模型学习部件,通过使用用于注释的注释序列来学习注释模型,其中所述注释模型是多流隐马尔可夫模型HMM,并且所述注释序列是包括所述图像特征量和所述文本特征量的多流。
全文摘要
本发明涉及一种能够容易地执行针对内容的注释分配的信息处理设备、信息处理方法和程序。特征值提取单元(21)提取用于学习的内容的图像的每个帧的图像特征值,并且提取与描述用于学习的内容的图像的内容的描述文本(例如,字幕文本)中的每个词的出现频率相关的词频信息,作为描述文本的文本特征值。模型学习单元(22)使用每个帧的图像特征值以及作为包含文本特征值的内容的多流的注释的注释使用序列,执行作为多流隐马尔可夫模型(HMM)的注释模型的学习。例如,当向用于电视广播的节目的内容分配注释时,可以应用本发明。
文档编号G06N3/00GK103069414SQ20118003847
公开日2013年4月24日 申请日期2011年8月2日 优先权日2010年8月11日
发明者铃木洋贵, 伊藤真人 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1