信息处理装置、特征提取方法、记录介质以及程序的制作方法

文档序号:6566362阅读:167来源:国知局
专利名称:信息处理装置、特征提取方法、记录介质以及程序的制作方法
技术领域
本发明涉及一种信息处理装置、特征提取方法、记录介质以及程序,特别是涉及能够简单且正确地提取将多个要素分类后的类的特征的信息处理装置、特征提取方法、记录介质以及程序。
背景技术
目前,提出了如下的系统观众在视听节目过程中向服务器请求与节目关联的信息,将与视听过程中的节目预先相关联存储的节目关联信息提供给观众(例如,参照专利文献1)。
另外,近年来,普及了专利文献1记载的发明那样的系统、服务,即,不仅响应于用户的要求,而且根据商品的购入、内容(例如电视节目、Web页等)的视听等过去的用户实绩,推荐符合用户爱好的商品、内容的系统、服务。
例如,提出了如下方案对构成观众所选择的节目以及未选择的节目的节目名的语句进行评价,优先显示节目名中包括评价高的语句的节目候选(例如,参照专利文献2)。
专利文献1日本特开2005-102109号公报专利文献2日本特开2001-275056号公报发明内容发明要解决的问题但是,在现有的推荐商品、内容的系统、服务中,大多使用根据用户的过去实绩,例如利用具有类似购买模式的其他用户的购买履历的强调过滤等推荐算法,但是这种情况下难以向用户呈现明确的推荐理由。
另外,例如考虑使用用来从数据集合发现规则或者知识的理论即粗集合理论,从用户过去购入的商品、视听的内容等的数据属性中,将表示用户爱好的数据属性的组合作为推荐理由而提取,但是算法复杂且庞大,计算量以及计算所需的存储介质的存储容量很庞大。因此,需要采取以下应对措施限制与商品、内容等相关联的数据属性的数量、种类,或者准备处理能力高的计算机。
另外,在专利文献2记载的发明中,从构成所选择节目的节目名的语句中,单纯地去掉构成未选择的节目名的语句,来推荐包括剩余语句的节目,它并不一定能正确地提取并反映用户的爱好。
本发明是鉴于这种状况而作出的发明,能够简单且正确地提取将多个要素分类后的类的特征。
用于解决问题的手段在本发明的一个侧面的信息处理装置中设置有特征提取单元,该特征提取单元作为将与表示各要素的特征的数据分别相关联的多个上述要素进行分类后的类的特征,在通过关于属于成为提取特征的对象的上述类的各个上述要素取出与上述要素相关联的1个以上的上述数据而求出的上述数据的全部组合之中,提取在通过关于属于其他上述类的各个上述要素取出与上述要素相关联的1个以上的上述数据而求出的上述数据的组合中不存在的上述数据的组合。
还可以设置特征呈现控制单元,该特征呈现控制单元控制上述类的特征的呈现,使得将所提取的上述数据的组合中的1个以上的组合作为上述类的特征呈现给用户。
还可以设置数据提取单元,该数据提取单元根据属于上述类的上述要素和上述数据之间的第1关联度、以及属于其他上述类的上述要素和上述数据之间的第2关联度与上述第1关联度之间的差异,在提取上述数据的组合之前,提取更明确地表示属于上述类的上述要素的特征的上述数据,上述特征提取单元提取由上述数据提取单元所提取的上述数据的组合。
在上述数据提取单元中,可根据上述第1关联度、以及上述第2关联度与上述第1关联度之间的差异,求出上述类中的上述数据的权重,提取上述权重的值是上位的规定数量的上述数据、或者上述权重的值是规定阈值以上的上述数据。
在上述数据提取单元中将tfidf(term frequency with inversedocument frequency单词频率/逆文档频率)、相互信息量、信息增益比、χ平方值、或者对数似然比中的任意一个作为上述类中的上述数据的权重而求出。
还可以设置要素提取单元,该要素提取单元根据所提取的上述数据的组合,从属于与由上述要素构成的第1组不同的第2组的要素中,提取与属于被提取了上述数据的组合的上述类的上述要素有关联的要素。
在上述要素提取单元中,提取与包含所提取的上述数据的组合的上述数据相关联的属于上述第2组的上述要素。
还可以设置要素呈现控制单元,该要素呈现控制单元控制向用户呈现所提取的上述要素。
可在上述要素呈现控制单元中进行控制,使得作为提取上述要素的依据,进一步呈现上述要素的提取中所使用的上述数据的组合。
可使上述要素是内容,上述数据是与上述内容有关的元数据。
还可以设置评价指标算出单元,该评价指标算出单元算出评价指标,该评价指标表示所提取的上述数据的组合和属于提取对象类的上述要素之间的关联度,其中,该提取对象类是被提取了上述数据的组合的上述类。
可在上述评价指标算出单元中作为上述评价指标算出F值,该F值是属于上述提取对象类的上述要素之中与包括上述数据的组合的上述数据相关联的上述要素所占的比例即再现率、以及与包括上述数据的组合的上述数据相关联的上述要素之中属于上述提取对象类的上述要素所占的比例即适合率的调和平均。
还可以设置类分类单元,该类分类单元根据对与成为分类对象的要素相关联的上述数据的组合的上述评价指标,将成为上述分类对象的要素分类到上述类。
还可以设置类分类单元,该类分类单元根据与成为分类对象的要素相关联的上述数据的组合之中与从各个上述类中提取的上述数据的组合一致的数量,将成为上述分类对象的要素分类到上述类。
还可以设置特征呈现单元,该特征呈现单元根据与成为呈现特征的对象的要素相关联的上述数据的组合之中与从各个上述类中提取的上述数据的组合一致的上述数据的组合中所包含的上述数据、以及提取了一致的上述数据的组合的上述类,呈现成为呈现上述特征的对象的要素的特征。
本发明的一个侧面的特征提取方法或者程序,包括如下步骤作为将与表示各要素的特征的数据分别相关联的多个上述要素进行分类后的类的特征,在通过关于属于成为提取特征的对象的上述类的各个上述要素取出与上述要素相关联的1个以上的上述数据而求出的上述数据的全部组合之中,提取在通过关于属于其他上述类的各个上述要素取出与上述要素相关联的1个以上的上述数据而求出的上述数据的组合中不存在的上述数据的组合。
在本发明的一个侧面中,作为将与表示各要素的特征的数据分别相关联的多个上述要素进行分类后的类的特征,在通过关于属于成为提取特征的对象的上述类的各个上述要素取出与上述要素相关联的1个以上的上述数据而求出的上述数据的全部组合之中,提取在通过关于属于其他上述类的各个上述要素取出与上述要素相关联的1个以上的上述数据而求出的上述数据的组合中不存在的上述数据的组合。
发明的效果如上所述,根据本发明的一个侧面,能够提取将多个要素分类后的类的特征。另外,根据本发明的一个侧面,能够简单且正确地提取将多个要素分类的类的特征。


图1是表示应用了本发明的信息处理系统的第1实施方式的框图。
图2是表示图2的客户端运算部的功能结构的例子的框图。
图3是表示与内容相关联的元数据的例子的图。
图4是用于说明由图1的信息处理系统执行的关键字提取处理的流程图。
图5是用于说明将内容进行分类的观点的图。
图6是用于说明元数据的提取的例子的图。
图7是用于详细说明图4的步骤S3的元数据提取处理的流程图。
图8是将提取的关键字呈现给用户的画面的例子。
图9是将提取的关键字呈现给用户的画面的其他例子。
图10是用于说明由图1的信息处理系统执行的内容推荐处理的流程图。
图11是表示应用了本发明的信息处理系统的第2实施方式的框图。
图12是表示图11的客户端运算部的功能结构的例子的框图。
图13是用于说明由图11的信息处理系统执行的内容分类处理的第1实施方式的流程图。
图14是用于说明将内容进行分类的观点的图。
图15是用于说明元数据的提取的例子的图。
图16是用于说明由图11的信息处理系统执行的内容分类处理的第2实施方式的流程图。
图17是表示个人计算机的结构的例子的框图。
附图标记说明1信息处理系统;11内容视听客户端;12上下文检测终端;13内容发布服务器;14内容推荐服务器;21用户输入部;22客户端运算部;23客户端存储部;24客户端输出部;41内容发布部;81内容分类部;82元数据提取部;83组合提取部;84关键字呈现部;85推荐内容提取部;86推荐内容呈现部;201信息处理系统;211内容视听客户端;212上下文检测终端;213内容发布服务器;214内容推荐服务器;221用户输入部;222客户端运算部;223客户端存储部;224客户端输出部;241内容发布部;281内容分类部;282元数据提取部;283组合提取部;291内容分类规则生成部;292内容自动分类部;293分类结果呈现部;901CPU;902ROM;903RAM;908存储部;910驱动器;911可移动介质。
具体实施例方式
下面参照

本发明的实施方式。
图1是表示应用了本发明的信息处理系统1的一个实施方式的框图。
信息处理系统1包括内容视听客户端11、上下文检测终端12、内容发布服务器13、以及内容推荐服务器14。
内容视听客户端11例如由客户端计算机、消费者电子设备(CE设备)、便携式信息终端等构成。内容视听客户端11将存储在客户端存储部23中的内容呈现给用户,或者接收从内容发布服务器13发布的内容并呈现给用户。
此外,在本说明书中,内容指除了一般被称为内容的例如电视节目、电影、照片、乐曲等(运动图像、静止图像、或声音、或者它们的组合等)之外,还包括所有各种信息、文件、商品(含物品)、对话等用户能够使用的软件或者硬件的广的概念。但是,在内容是物品(硬件)的情况下,例如该物品被投影为运动图像、静止图像等而被数据化,作为内容数据使用。
另外,由信息处理系统1处理的各内容,如参照图3的例子所示,与表示各内容的特征的元数据分别相关联。
当从功能结构的观点出发时,内容视听客户端11包括用户输入部21、客户端运算部22、客户端存储部23、以及客户端输出部24。
用户输入部21是用户用于进行对内容视听客户端11的操作的输入设备,例如由键盘、鼠标、遥控器、触摸面板、麦克风等构成。将用户利用用户输入部21输入的操作内容、正确地说将表示该操作内容的信息,提供给客户端运算部22。
客户端运算部22例如在此由CPU(Central Processing Unit中央处理单元)和其执行的程序、即硬件和软件的组合构成。当然客户端运算部22也可以由软件或者硬件单独构成。
客户端运算部22控制客户端输出部24,将存储在客户端存储部23中的内容呈现给用户。另外,客户端运算部22根据由用户指定的观点,将存储在客户端存储部23中的内容的一部分或者全部分类到多个类中。如参照图7在后面所述,客户端运算部22根据需要,使用从上下文检测终端12提供的上下文信息、或者从用户输入部21提供的表示用户操作内容的信息,提取表示进行分类后的类的特征的元数据的组合。客户端运算部22控制客户端输出部24,将所提取的元数据的组合作为该类的特征而呈现给用户。
另外,如参照图10在后面所述,客户端运算部22根据所提取的元数据的组合,从存储在客户端存储部23中的内容中提取推荐给用户的内容。客户端运算部22控制客户端输出部24,将与提取的内容有关的信息呈现给用户。
而且,客户端运算部22将如下信息(下面称为推荐内容提取请求信息)存储在客户端存储部23中,所述信息包含所提取的元数据的组合的一部分或者全部,用于请求提取根据该元数据的组合而推荐给用户的内容。客户端运算部22从客户端存储部23获取表示针对该请求的提取结果的信息。客户端运算部22根据提取结果来控制客户端输出部24,将与所提取的内容有关的信息呈现给用户。
另外,客户端运算部22将如下信息(下面称为组合提取请求信息)存储在客户端存储部23中,所述信息包括与由用户进行分类后的类有关的信息以及与属于该类的内容有关的元数据,用于请求提取表示该类的特征的元数据的组合。客户端运算部22从客户端存储部23获取表示针对组合提取请求信息的提取结果的信息。客户端运算部22根据提取结果来控制客户端输出部24,将所提取的元数据的组合呈现给用户。
而且,客户端运算部22将请求内容发布(发送)的信息存储到客户端存储部23中。
客户端存储部23例如包括硬盘、RAM(Random AccessMemory随机存取存储器)等记录介质或者存储介质。客户端存储部23适当存储了客户端运算部22所利用的上下文信息、以及表示用户操作指令的信息。另外,客户端存储部23根据需要,将上下文信息、表示用户操作内容的信息、推荐内容提取请求信息、或者组合提取请求信息发送给内容推荐服务器14的服务器存储部51。并且,客户端存储部23将请求内容发布的信息发送给内容发布服务器13的内容发布部41。
另外,客户端存储部23存储从服务器存储部51发送过来的与内容有关的元数据、表示推荐给用户的内容的提取结果的信息、以及表示元数据的组合的提取结果的信息。并且,客户端存储部23存储从内容发布部41发送过来的内容。另外,客户端存储部23将通知已接收到内容或与内容有关的元数据的信息提供给客户端运算部22。并且,客户端运算部23将存储着的内容、或者内容的元数据提供给客户端输出部24。
客户端输出部24例如由监视器或者打印机等图像输出设备、扬声器等声音输出设备等构成。客户端输出部24通过图像、文本信息、或声音、或者打印有图像或文本信息的介质等形式,将存储在客户端存储部23中的内容呈现给用户。另外,客户端输出部24根据客户端运算部22的控制,将表示对存储在客户端存储部23中的内容进行分类后的类的特征的元数据组合、或者与推荐给用户的内容有关的信息呈现给用户。
当从功能结构的观点出发时,上下文检测终端12包括上下文检测部31、以及上下文存储部32。
上下文检测部31例如检测与用户的状态、感情、用户所处的状况(例如场所、时间等)等有关的上下文信息。具体地说,内容检测部31由以下部分构成由检测用户当前位置信息的GPS(GlobalPositioning System全球定位系统)接收机、对当前时刻进行计时(检测)的电波表、检测位于用户周边的人、物体的无线通信设备、检测用户的脉搏、呼吸数、发汗、或者瞳孔开度等的各种生物体信息传感器、照相机、或者识别各种图像的图像识别装置等。上下文检测部31实时检测上述的上下文信息,将检测出的上下文信息存储到上下文存储部32中。另外,上下文检测终端12向内容视听客户端11的客户端运算部22提供检测出的上下文信息。
上下文存储部32例如包括硬盘、RAM等记录介质或者存储介质,保存沿从上下文检测部31提供的时间序列的上下文信息。
内容发布服务器13例如由用于发布内容的广播设备、或者服务器计算机等构成。当从功能结构的观点出发时,内容发布服务器13包括内容发布部41、以及内容元数据存储部42。
内容发布部41例如在此由CPU和其执行的程序、即硬件和软件的组合构成。当然内容发布部41也可以由软件或者硬件单独构成。具体地说,例如内容发布部41由电视广播系统的发布服务器、或者因特网上的流式内容服务器等构成。内容发布部41向内容视听客户端11的客户端存储部23发布(发送)内容。
内容元数据存储部42例如包括硬盘、RAM等记录介质或者存储介质,存储内容发布服务器13能够发布的内容、以及作为与内容有关的数据的元数据。此外,按照内容发布源的运用规则等,适当更新存储在内容元数据存储部42中的内容或者元数据。
内容推荐服务器14例如由服务器计算机构成。当从功能结构的观点出发时,内容推荐服务器41包括服务器存储部51、以及服务器运算部52。
服务器存储部51例如包括硬盘、RAM等记录介质或者存储介质。服务器存储部51适当获取存储在内容发布服务器13的内容元数据存储部42中的各内容的元数据进行存储,并且根据需要发送到内容视听客户端11的客户端存储部23。另外,服务器存储部51存储从客户端存储部23发送过来的上下文信息、表示用户操作内容的信息、推荐内容提取请求信息、或者组合提取请求信息。并且,服务器存储部51存储从服务器运算部52提供的表示推荐给用户的内容的提取结果的信息、或者表示元数据的组合的提取结果的信息,并且发送到客户端存储部23或者内容元数据存储部42。
服务器运算部52例如在此由CPU和其执行的程序、即硬件和软件的组合构成。当然服务器运算部52也可由软件或者硬件单独构成。
服务器运算部52根据存储在服务器存储部51中的表示用户操作内容的信息、上下文信息、或者推荐内容提取请求信息,从服务器存储部51中存储有元数据的内容中提取推荐给用户的内容。服务器运算部52将表示推荐给用户的内容的提取结果的信息存储到服务器存储部51中。
另外,服务器运算部52根据存储在服务器存储部51中的表示用户操作内容的信息、上下文信息、或者组合提取请求信息,提取表示该类的特征的元数据组合。服务器运算部52将表示元数据组合的提取结果的信息存储到服务器存储部51中。
另外,图1示出了功能结构例,因此没有特别图示各装置间的连接方式、即内容视听客户端11至内容推荐服务器14各个之间的连接方式,但是其连接方式没有被特别限定。即,连接方式既可以是有线也可以是无线,还可以是其组合。另外,连接方式既可以是通过网络的方式,也可以是在装置间进行直接通信的方式,还可以是其组合。并且,在通过网络的方式的情况下,网络的方式也没有被限定,例如也可以是因特网、内部网。此时,网络并不限定于单一的网络,也可以存在多个网络。因而,虽然图1中没有图示,但是实际上在内容视听客户端11至内容推荐服务器14的各个中,还设置有与所对应的连接方式相应的通信部。
另外,上下文检测终端12、内容发布服务器13、以及内容推荐服务器14,在信息处理系统1中不是必须的结构要素。即,如参照图4至图10在后面所述,可以只通过内容视听客户端11来实现由信息处理系统1进行的关键字提取处理以及内容推荐处理。
图2是表示客户端运算部22的功能结构的例子的框图。客户端运算部22包括内容分类部81、元数据提取部82、组合提取部83、关键字呈现部84、推荐内容提取部85、以及推荐内容呈现部86。
内容分类部81从用户输出部21获取表示将用户通过用户输入部21输入的内容进行分类的观点的信息。如参照图4在后面所述,内容分类部81根据指定的观点,将由存储在内容存储部23中的内容的一部分或者全部构成的组分类到多个类。内容分类部81将与所分类到的类有关的信息提供给元数据提取部82。另外,内容分类部81根据需要,将组合提取请求信息通过客户端存储部23以及服务器存储部51发送到服务器运算部52。
如参照图4在后面所述,元数据提取部82根据属于成为对象的类的内容和元数据之间的关联度、以及属于其他类的内容和元数据之间的关联度与属于成为对象的类的内容和元数据之间的关联度的差异,提取更明确表示属于成为对象的类的内容特征的元数据。元数据提取部82将表示所提取的元数据的信息提供给组合提取部83。
如参照图7在后面所述,组合提取部83在通过关于属于成为提取特征的对象的类的各个内容取出与内容相关联的1个以上的元数据而求出的元数据的全部组合之中,提取在通过关于属于其他类的各个内容取出与内容相关联的1个以上元数据而求出的元数据的组合中不存在的、由元数据提取部82提取的元数据的组合。组合提取部83将表示所提取的元数据组合的信息提供给关键字呈现部84或者推荐内容提取部85。
另外,组合提取部83通过服务器存储部51以及客户端存储部23,从服务器运算部52接收表示针对从内容分类部81发送的组合提取请求信息的提取结果的信息。组合提取部83将表示所提取的元数据的组合的信息,提供给关键字呈现部84或者推荐内容提取部85。
如参照图4在后面所述,关键字呈现部84控制客户端输出部24,使得将所提取的元数据组合中的1个以上的组合作为提取元数据组合的类的特征而呈现给用户。另外,关键字呈现部84从用户输入部21获取用户通过用户输入部21输入的指示关键字的决定或者变更的信息。
如参照图10在后面所述,推荐内容提取部85根据由组合提取部83提取的元数据的组合,从作为推荐给用户的内容而存储在客户端存储部23中的内容中,提取与属于被提取了元数据组合的类的内容有关联的内容。推荐内容提取部85将与所提取的内容有关的信息提供给推荐内容呈现部86。
另外,推荐内容提取部85根据由组合提取部83提取的元数据的组合,将请求提取推荐给用户的内容的推荐内容提取请求信息,通过客户端存储部23以及服务器存储部51发送给服务器运算部52。推荐内容提取部85从服务器运算部52通过服务器存储部51以及客户端存储部23,接收表示与推荐内容提取请求信息对应的提取结果的信息。推荐内容提取部85将与提取的内容有关的信息提供给推荐内容呈现部86。另外,推荐内容提取部85从客户端存储部23获取通知已接收到内容或者与内容有关的元数据的信息。
推荐内容呈现部86控制客户端输出部24,使得将由推荐内容提取部85提取的内容作为推荐的内容呈现给用户,并且作为推荐了内容的依据(理由),呈现用于提取所推荐的内容的元数据的组合。推荐内容呈现部86从用户输入部21获取用户通过用户输入部21输入的指示决定推荐内容的信息。推荐内容呈现部86将通知由用户决定的内容的信息,提供给客户端存储部23。
下面参照图3说明信息处理系统1中处理的内容以及与内容相关联的元数据的例子。图3示出了在内容是音乐数据的情况下的内容、以及其元数据的例子。此外,在图3中示出了为了使以后的说明简单,将元数据与演奏音乐数据(乐曲)的每个艺术家相关联的例子。即,相同艺术家的音乐数据全部与相同的元数据相关联。当然也能够以乐曲为单位与元数据相关联。
此外,下面在内容A与元数据B相关联的情况下,适当使用内容A具有元数据B、或者内容A中设定有元数据B之类的表述。
在图3的例子中,各内容(艺术家)与作为元数据的色彩、欢快、可爱、低回响音、冬天、伤感等表示该艺术家演奏的乐曲音乐特性的关键字相关联。此外,该关键字例如由音乐评论家等以专家的观点进行设定,或者通过对与艺术家有关的评论文、介绍报道、或者乐曲的歌词等文本进行分析而提取。另外,也可以除了表示音乐特性的关键字以外,在元数据中使用表示音乐类型、艺术家的年代以及出生地、从音乐数据提取的特征量、排行榜(hit chart)信息等的特征的数据。
另外,利用0或者1的2个值来表示各内容中的元数据(关键字)的有无。设定了0的元数据是没有该艺术家的元数据,即,是没有表示该艺术家特征的关键字。设定了1的元数据是有该艺术家的元数据、即,是表示该艺术家特征的关键字。此外,在原来的值取0或者1以外的2个值以外的值的情况下,以规定阈值为基准,将元数据变换为0或者1的2个值而使用。例如,在艺术家的初次登场日被设定为元数据的情况下,以规定的日子为基准,在初次登场日在该日子之前的情况下元数据被变换为0,在初次登场日在该日子之后的情况下元数据被变换为1。
下面参照图4至图10说明由信息处理系统1执行的处理。
首先,参照图4说明由信息处理系统1执行的关键字提取处理。此外,例如在用户通过用户输入部21输入了关键字提取处理的开始指令的情况下,开始该处理。
在步骤S1中,内容分类部81将内容进行分类。具体地说,用户通过用户输入部21输入表示用于将内容进行分类的观点的信息。用户输入部21将所输入的信息提供给内容分类部81。
图5是表示用于将内容进行分类的观点的例子的图。此外,在图5所示的表中,与图3所示的表相比,添加了分类的观点的项目。
在图5中,作为用于将内容进行分类的观点,示出了用户的爱好、以及是否是选择到播放列表中的乐曲的两个例子。此外,播放列表是指由用户任意选择的乐曲构成的组,例如用户能够以播放列表为单位指示乐曲的播放,依次播放登记在播放列表中的乐曲。
在根据用户爱好的观点将内容(艺术家)进行分类的情况下,各内容被分类成“喜欢”“讨厌”“都不是”这3个类。该爱好的评价既可以由用户显式地进行设定,也可以例如根据将演奏用户从与因特网连接的服务器等下载的乐曲的艺术家的评价设定为“喜欢”,将演奏用户删除了的乐曲的艺术家的评价设定为“讨厌”等的用户的操作履历等,使内容视听客户端11学习。
在根据播放列表选择曲目的观点将内容进行分类的情况下,各内容被分类为选择到播放列表(选择)、没有选择到播放列表(非选择)的两个类中。
内容分类部81根据由用户指定的观点,将内容分类到多个类。内容分类部81将与分类后的内容的类有关的信息提供给元数据提取部82。
此外,在下面的说明中,对根据播放列表选择曲目的观点将内容进行分类、并提取播放列表中所选择的内容的元数据(关键字)的情况的例子进行说明。另外,下面如图5所示,假设属于播放列表选择曲目的类的要素(内容)为艺术家1至11,假设属于播放列表非选择曲目的类的要素(内容)为艺术家12至24。另外,下面将成为提取关键字的对象的类称为提取对象类,将除此之外的类称为比较对象类。
在步骤S2中,元数据提取部82进行元数据的加权,提取元数据。具体地说,元数据提取部82通过以统计尺度来测量各内容所具有的元数据的频率分布,进行元数据的加权。下面说明用于进行元数据加权的统计尺度的例子。
首先说明使用tfidf(term frequency with inverse documentfrequency单词频率/逆文档频率)的方法。
在使用了tfidf的情况下,将属于某类Ci的内容之中的具有元数据Wj的内容的出现频度设为fij、将类的总数设为n、将具有元数据Wj的内容所属的类的数量设为nj时,将通过下面的式(1)算出的tfidf(Ci,Wj)设定为类Ci中的元数据Wj的权重。
tfidf(Ci,Wj)=fij×{1+loge(n/nj)}…(1)此外,在式(1)中,将log的底设为e(自然对数),但是tfdif的值本身不是那么重要,因此也可以将底设为2或者10。
例如,在下面的条件(1)至(3)成立的情况下,如下地算出tfidf(Ci,Wj)。
(1)设将内容(艺术家)进行分类后的类的个数n=9,将各个类设为C1至C9。
(2)设具有元数据W1(例如[伤感])的内容所属的类的个数n1=8。
(3)设属于类C1的内容之中,具有元数据W1的内容的出现频度(具有类C1中的元数据W1的艺术家的个数)f11=5。
此时,根据下面的式(2)算出作为类C1中的元数据W1的权重的tfidf(C1,W1)。
tfidf(C1,W1)=f11×{1+log(n/n1)}=5×{1+log(9/8)}=5.58891……(2)即tfidf(C1,W1)是在元数据Wj的频度的局部权重fij上乘以全局权重{1+log(n/nj)}而得到的。此外,在tfidf中例如有如下的特征或者优点。
·能够考虑局部分布和全局分布的平衡,测量元数据的重要性。
·加权的计算式有各种变化,能够根据用途而分开使用。
·在文档分类中的特征语的加权中广泛使用。
此外,也可以将fij设为属于类Ci的内容中具有元数据Wj的内容的比例,将n/nj设为(内容总数/具有元数据Wj的内容数)。
下面说明使用相互信息量的方法。
在使用相互信息量的情况下,将利用下面的式(3)算出的某类Ci中的元数据Wj的相互信息量MI(Ci,Wj)设定为类Ci中的元数据Wj的权重。
MI(Ci,Wj)=ΣW∈{Wj,W‾j}ΣC∈{Ci,C‾i}P(W,C)log2P(W,C)P(W)P(C)]]>=P(Wj,Ci)log2P(Wj,Ci)P(Wj)P(Ci)+P(W‾j,Ci)log2P(W‾j,Ci)P(W‾j)P(Ci)]]>+P(Wj,C‾i)log2P(Wj,C‾i)P(Wj)P(C‾i)+P(W‾j,C‾i)log2P(W‾j,C‾i)P(W‾j)P(C‾i)···(3)]]>此外,P()表示括号内的事件产生的概率。
例如,在下面的条件(1)至(5)成立的情况下,如下地计算MI(Ci,Wj)。
(1)设将内容(艺术家)进行分类后的类的个数n=9,将各个类设为C1至C9。
(2)设内容的总数numA=80。
(3)设具有元数据W1(例如[伤感])的内容的总数aFreqW=16。
(4)设属于类C1的内容之中,具有元数据W1的内容数aFreqWC=3。
(5)设属于类C1的内容数aFreqC=11。
此外,式(3)中求出的各概率值为如下面的式(4)至(9)所示。
P(Wj)=aFreqW/numA=16/80=0.2 …(4)P(Ci)=aFreqC/numA=11/80=0.1375 …(5)P(Wj,Ci)=aFreqWC/numA=3/80=0.0375 …(6)P(Wj,Ci)=(aFreqC-aFreqWC)/numA=(11-3)/80=0.1 …(7)P(Wj,Ci)=(aFreqW-aFreqWC)/numA=(16-3)/80=0.1625 …(8)P(Wj,Gi)=1-{P(Wj,Ci)+P(Wj,Ci)+P(Wj,Ci)}=0.7…(9)因而,如下面的式(10)所示,通过将由式(4)至(9)算出的值代入式(3),求出作为类C1中的元数据W1的权重的MI(C1,W1)的值。
MI(C1,W1)=0.0375×log2{0.0375/(0.2×0.1375)}+0.1×log2{0.1/((1-0.2)×0.1375)}+0.1625×log2{0.1625/(0.2×(1-0.1375)}+0.7×log2{0.7/((1-0.2)×(1-0.1375))}=0.01677…+(-0.01375…)+(-0.01400…)+0.01453…=0.00355……(10)即,通过得知归属到类Ci的元数据Wj的熵(entropy)的减少量,计算相互信息量。此外,相互信息量例如有如下特征或者优点。
·利用表示事件的不确定性的信息理论的熵,容易强调类间的差异。
·以权重高的语言制作文档的摘要,容易得知文档间的差异。
另外,省略了具体的计算例的说明,但是除此之外也可以将信息增益比、χ平方值、对数似然比等作为进行元数据加权的统计尺度而使用。
在使用信息增益比的情况下,将利用下面的式(11)至(14)算出的、某类Ci中的元数据Wj的信息增益比IGR(Ci,Wj),设定为类Ci中的元数据Wj的权重。
IGR(Ci,Wj)=info(Ci,Wj)-infodiv(Ci,Wj)split(Ci)···(11)]]>info(Ci,Wj)=ΣW∈{Wj,W‾j}p(W|Ci)log2p(W|Ci)···(12)]]>infodiv(Ci,Wj)=Σkmorph(Ck)morph(Ci)info(Ck,Wj)···(13)]]>split(Ci)=-Σkmorph(Ck)morph(Ci)logmorph(Ck)morph(Ci)···(14)]]>morph(Ci)属于类Ci的内容所具有的元数据的总数即,信息增益比是将类进行分割之前和之后的元数据Wj的熵的减少量与关于类分割的熵之间的比。此外,信息增益比例如有如下特征或者优点。
·不仅对各个类提供权重,而且还对相对于分类全体(例如,爱好的分类本身)偏向分布的元数据提供更大的权重。
·对于分层结构的数据,例如在获知某目录以下的特征语言的用途中有用。
在使用χ平方值的情况下,将利用下面的式(15)算出的、作为某类Ci中的元数据Wj的χ平方值的χ2(Ci,Wj),设定为类Ci中的元数据Wj的权重。

χ2(Ci,Wj)=ΣW∈{Wj,W‾j}ΣC∈{Ci,C‾i}{f(W,C|Hdep)-f(W,C|Hindep)}2f(W,C|Hindep)···(15)]]>f(Wj,Ci|Hdep)类Ci中的具有元数据Wj的内容数的实数f(Wj,Ci|Hindep)类Ci中的具有元数据Wj的内容数的期待值即,χ平方值根据属于类Ci的内容之中具有元数据Wj的内容数的实数和期待值之间的差,示出了元数据Wj对类Ci的的依赖性。此外,χ平方值例如有如下特征或者优点。
·根据元数据与统计期待值之间的发生关系进行加权。
·在对各个域名分别提取专业用语等中广泛应用,其中域名是赋给因特网上存在的计算机、网络的标识符。
在使用对数似然比的情况下,将利用下面的式(16)算出的、作为某类Ci中的元数据Wj的对数似然比的LL(Ci,Wj)设定为类Ci中的元数据Wj的权重。
LL(Ci,Wj)=ΣW∈{Wj,W‾j}ΣC∈{Ci,C‾i}logP(W,C|Hdep)P(W,C|Hindep)···(16)]]>P(Wj,Ci|Hdep)属于类Ci的内容具有元数据Wj的概率的实数P(Wj,Ci|Hindep)属于类Ci的内容具有元数据Wj的概率的期待值即,对数似然比表示属于类Ci的内容具有元数据Wj的概率的实数与期待值之间的比。此外,对数似然比例如有如下的特征以及优点。
·根据元数据与统计期待值之间的发生关系进行加权。
·在对各个域名分别提取专业用语等中广泛应用,其中域名是赋给因特网上存在的计算机、网络的标识符。
元数据提取部82使用以上方法中任意方法,求出各类中的各元数据的权重。即,根据属于类A的内容和元数据B之间的关联度(属于类A的内容和由元数据B表示的特征之间的关联深度)、以及属于其他类的内容和元数据B之间的关联度与属于类A的内容和元数据B之间的关联度的差异,求出某类A中的某元数据B的权重。
元数据提取部82例如对每个类提取所设定的权重值是上位的规定数量(例如是10)的元数据、或者所设定的权重是规定阈值以上的元数据。即,对每个类提取更明确地表示属于该类的内容特征的元数据。更详细地说,对每个类提取如下元数据,该元数据表示与属于该类的内容关联深的特征,并且表示与属于其他类的内容相比关联更深的特征。
元数据提取部82将表示对每个类提取的元数据的信息提供给组合提取部83。此外,下面将对每个类提取的元数据称为按类重要元数据。
此外,下面,假设在步骤S2中,如图6所示,从播放列表选择曲目的类、即提取对象类中提取了[冬天][爱情][BGM][戏剧][夏天][强有力的][提神][演员][舒适][欢快]10个元数据,从播放列表非选择曲目的类中提取了[爱情][伤感][夏天][怀旧][合作][舒适][戏剧][舞蹈][雄壮][温暖]10个元数据,进行说明。此外,对不进行关键字提取的类,没有必要必须进行元数据的提取。
在步骤S3中,组合提取部83进行元数据组合提取处理。在此,参照图7的流程图说明由组合提取部83执行的元数据组合提取处理的详细情况。
在步骤S21中,组合提取部83对逻辑式P进行初始化。
在步骤S22中,组合提取部83判断是否存在与比较对象类的内容的比较没有完成的提取对象类的内容。当判断为存在与比较对象类的内容的比较没有完成的提取对象类的内容的情况下,处理进入到步骤S23。
在步骤S23中,组合提取部83选择1个没有完成比较的提取对象类的内容。此外,下面将在步骤S23中选择的内容称为提取对象内容。
在步骤S24中,组合提取部83对逻辑式Q进行初始化。
在步骤S25中,组合提取部83判断是否存在与提取对象内容的比较没有完成的比较对象类的内容。在判断为存在与提取对象内容的比较没有完成的比较对象类的内容的情况下,处理进入到步骤S26。
在步骤S26中,组合提取部83选择1个与提取对象内容的比较没有完成的比较对象类的内容。此外,下面将在步骤S26中选择的内容称为比较对象内容。
在步骤S27中,组合提取部83提取出提取对象内容所具有、而比较对象内容没有的元数据。具体地说,组合提取部83从提取对象类的按类重要元数据中提取出提取对象内容所具有、而比较对象内容没有的元数据。
在步骤S28中,组合提取部83以or连接所提取的元数据而生成逻辑式R。例如,在作为提取对象类的播放列表选择曲目的按类重要元数据中,作为提取对象内容的艺术家1所具有、而作为比较对象内容的艺术家12没有的元数据,提取了[冬天][爱情][强有力的][提神]以及[演员]的情况下,逻辑式R成为如下的式(17)。
R=[冬天]or[爱情]or[强有力的]or[提神]or[演员] …(17)此外,通过在逻辑式R中将提取出的元数据以or连接,将提取对象内容和比较对象内容进行比较的情况下,可根据是否满足逻辑式R来区分提取对象内容和比较对象内容。
在步骤S29中,组合提取部83将逻辑式R以and连结而添加到逻辑式Q。即,进行下面的式(18)所示的逻辑运算。
Q←Q and R…(18)之后,处理返回步骤S25,在步骤S25中,重复执行步骤S25至S29的处理,直到判断为不存在与提取对象内容的比较没有完成的比较对象类的内容为止。即,提取对象内容与在比较对象类(提取对象类以外的类)中包含的全部内容进行比较,在提取对象类的按类重要元数据之中提取出提取对象内容具有、而比较对象内容没有的元数据,添加到逻辑式Q。例如设属于比较对象类的内容有m个、表示将提取对象内容和比较对象类的各内容进行比较的结果的逻辑式为逻辑式Ri(i=1,2,…,m)的情况下,由下面的式(19)表示逻辑式Q。
Q=R1 and R2 and…and Rm …(19)更具体地说,例如逻辑式Q成为下面的式(20)所示的那样。
Q=([冬天]or[爱情]or[强有力的]or[提神]or[演员])and([冬天]or[爱情]or[戏剧]or[强有力的]or[演员])and([冬天]or[强有力的]or[提神]or[演员]or[舒适])and([冬天]or[戏剧]or[强有力的]or[提神]or[演员]or[舒适])and([冬天]or[爱情]or[戏剧]or[强有力的]or[提神]or[演员])and([演员]or[舒适])and([冬天]or[爱情]or[提神]or[演员])and([强有力的]or[提神]or[演员]or[舒适])and([冬天]or[戏剧]or[提神]or[演员]or[舒适])and([冬天]or[爱情]or[戏剧]or[提神]or[演员]or[舒适])…(20)此外,通过在逻辑式Q中将各逻辑式Ri以and连接,将提取对象内容和属于比较对象类的内容进行比较的情况下,可根据是否满足逻辑式Q来区分提取对象内容和属于比较对象类的全部内容。
在步骤S25中,在判断为不存在与提取对象内容的比较没有完成的比较对象类的内容的情况下、即完成了提取对象内容和比较对象类的全部内容的比较的情况下,处理进入到步骤S30。
在步骤S30中,组合提取部83简化逻辑式Q。具体地说,组合提取部83将逻辑式Q变换为以最大项的积表示的标准和积形(standard product-of-sum)。例如,作为式(20)的最初项的项T1=([冬天]or[爱情]or[强有力的]or[提神]or[演员]),如下面的式(21)所示进行变换。
T1=([冬天]or[爱情]or[强有力的]or[提神]or[演员]or~[BGM]or~[戏剧]oR~[夏天]or~[舒适]or~[欢快])and([冬天]or[爱情]or[强有力的]or[提神]or[演员]or~[BGM]or[戏剧]or~[夏天]or~[舒适]or~[欢快])and([冬天]or[爱情]or[强有力的]or[提神]or[演员]or[BGM]or[戏剧]or~[夏天]or~[舒适]or~[欢快])…(以下省略)…(21)此外,~是表示否定的记号。
接着,组合提取部83将变换为标准和积形的逻辑式Q变换为标准积和形。例如,如下面的式(22)所示变换项T1。
T1=([冬天]and[爱情]and[强有力的]and[提神]and[演员]and[BGM]and[戏剧]and[夏天]and[舒适]and[欢快])or([冬天]and[爱情]and[强有力的]and[提神]and[演员]and[BGM]and[戏剧]and[夏天]and[舒适]and~[欢快])or([冬天]and[爱情]and[强有力的]and[提神]and[演员]and[BGM]and[戏剧]and[夏天]and~[舒适]and[欢快])…(以下省略)…(22)并且,组合提取部83使用奎因-麦克拉斯基法(Quine-McCluskey algorithm)等简化变换为标准积和形的逻辑式Q。例如,如下面的式(23)所示简化式(20)的逻辑式Q。
Q=([演员]or([冬天]and[舒适])or([爱情]and[舒适])or([戏剧]and[提神]and[舒适])or([强有力的]and[提神]and[舒适])…(23)即,在式(23)的逻辑式Q中以or连结的各项,表示通过关于属于提取对象类的各个内容取出与内容相关联的1个以上的元数据而求出的元数据的全部组合之中,通过关于属于比较对象类的各个内容取出与内容相关联的1个以上的元数据而求出的元数据的组合中不存在的、提取对象类的按类重要元数据的组合。
在步骤S31中,组合提取部83将逻辑式Q以or连结而添加到逻辑式P。即,进行下面的式(24)所示的逻辑运算。
P←P or Q…(24)之后,处理返回步骤S22,在步骤S22中,重复执行步骤S22至S31的处理,直到判断为不存在与比较对象类的内容的比较没有完成的提取对象类的内容为止。即,将提取对象类的全部内容与比较对象类的全部内容进行比较。例如,设提取对象类的内容有n个,通过提取对象类的各内容的比较结果求出的逻辑式Q为Qi(i=1,2,…,n)的情况下,由下面的式(25)表示逻辑式P。
P=Q1 or Q2 or…or Qn…(25)更具体地说,例如逻辑式P成为下面的式(26)所示。
P=([BGM])or([演员])or([冬天]and[舒适])or([爱情]and[舒适])or([冬天]and[欢快])or([爱情]and[欢快])or([夏天]and[欢快])or([提神]and[欢快])or([戏剧]and[提神]and[舒适])or([强有力的]and[提神]and[舒适])…(26)此外,通过在逻辑式P中将各逻辑式Qi以or连结,可根据是否满足逻辑式P来区分是属于提取对象类的内容、还是属于比较对象类的内容。
在步骤S22中,在判断为不存在与比较对象类的内容的比较没有完成的提取对象类的内容的情况下,即关于全部提取对象类的内容完成了与比较对象类的内容的比较的情况下,处理进入到步骤S32。
在步骤S32中,组合提取部83提取元数据的组合。具体地说,组合提取部83将逻辑式P的以or连结的各项作为提取对象类的特征提取。例如,在逻辑式P是式(26)所示的值的情况下,提取下面所示的10组元数据的组合。
·[BGM]·[演员]·[冬天]and[舒适]·[爱情]and[舒适]·[冬天]and[欢快]·[爱情]and[欢快]·[夏天]and[欢快]·[提神]and[欢快]·[戏剧]and[提神]and[舒适]·[强有力的]and[提神]and[舒适]在步骤S33中,组合提取部83将元数据的组合存储在客户端存储部23中,结束元数据组合提取处理。具体地说,组合提取部83将表示所提取的元数据组合的数据存储到客户端存储部23中。另外,组合提取部83将表示所提取的元数据组合的信息提供给关键字呈现部84以及推荐内容提取部85。
返回图4,在步骤S4中,关键字呈现部84呈现关键字。具体地说,关键字呈现部84在步骤S3中提取的元数据的组合之中选择1个以上的组合。例如根据下面的基准选择元数据的组合。
(1)包括的元数据的数量最多的组合(例如在步骤S32中在上述例子的情况下,是([戏剧]and[提神]and[舒适])或者([强有力的]and[提神]and[舒适}))(2)包括的元数据的数量最少的组合(例如在步骤S32中在上述例子的情况下,是([BGM])或者([演员]))(3)在步骤S2中设定的元数据权重的合计值或者平均值最大的组合(4)属于提取对象类的最多内容所具有的组合
(5)属于提取对象类的特定内容所具有的组合(6)全部组合此外,例如根据使用所提取的元数据组合的系统或者应用程序等的规格、目的等,选择上述基准。
关键字呈现部84控制客户端输出部24,将所选择的元数据呈现给用户。例如,关键字呈现部84生成用于显示所选择的元数据组合的图像数据。关键字呈现部84将所生成的图像数据提供给客户端输出部24,使基于图像数据的图像、即表示作为提取对象类的播放列表选择曲目类的特征的元数据(关键字)显示在客户端输出部24中。
图8是表示在步骤S4中显示在客户端输出部24中的画面的例子的图。在图8的例子中,将弹出窗口101与上述图5所示的表一起显示在客户端输出部24中。在弹出窗口101中,显示了作为对播放列表选择曲目(明确表示播放列表选择曲目类的特征)的关键字而提取的元数据的组合。另外,在弹出窗口101中显示通知使所包含的元数据的数量多的组合优先而提取元数据组合的消息。
并且,为了表示出选择了播放列表选择曲目作为将内容进行分类的观点,例如将播放列表选择曲目的项目的列的背景,设为阴影或者与其他列不同的颜色。另外,为了表示出显示在弹出窗口101中的属于成为关键字对象的类的内容,例如将表示表左端内容的列的艺术家1至11栏的背景,设为阴影或者与其他列不同的颜色。
由此,用户能够简单地确认自己所选择的播放列表的特征(倾向)。
图9是表示在步骤S4中显示在客户端输出部24中的画面的其他例子的图。在图9中示出了实际上在用于制作播放列表的画面上显示所提取的关键字的例子。
在标题栏111中显示有使该画面显示的软件产品名等。菜单栏112中显示有用于显示各种操作的菜单等。在窗口113中显示有用于调整音量、或切换动作模式的GUI(Graphical User Interface图形用户界面)等。在窗口114中显示有用于进行内容再现、停止、跳过等的GUI等。
在窗口115中显示有播放列表中所选择的乐曲一览等。在乐曲一览中显示有序列No.、标题、艺术家名、演奏时间、乐曲所属的类型、将乐曲登记到播放列表中的日期时间、作为乐曲来源的专辑名、来源专辑中的乐曲磁道No.等。
在窗口116中显示有表示显示在窗口115中的播放列表特征的关键字等。用户通过观看窗口116,能够简单地确认自己制作的播放列表的特征(倾向)。另外,用户通过按下按钮121,根据显示在窗口116中的关键字,能够自动地制作例如“强有力的、提神、舒适的歌曲集”那样的、适当的播放列表的标题。在按下按钮122的情况下,不进行标题的自动制作,而关闭窗口116。
在步骤S5中,关键字呈现部84判断是否改变了关键字。在判断为没有改变关键字的情况下,处理进入步骤S6。
在步骤S6中,内容分类部81判断是否改变了将内容进行分类的观点。在判断为没有改变将内容进行分类的观点的情况下,处理进入到步骤S7。
在步骤S7中,关键字呈现部84判断是否决定了关键字。在判断为没有决定关键字的情况下,处理返回步骤S5。
之后,重复执行步骤S5至S7的处理,直到在步骤S5中判断为改变关键字、或在步骤S6中判断为改变将内容进行分类的观点、或在步骤S7中判断为决定关键字为止。
在步骤S5中,例如在用户想改变所呈现的关键字、通过用户输入部21输入了指示改变关键字的信息的情况下,用户输入部21将获取的信息提供给关键字呈现部84。关键字呈现部84在获取了指示改变关键字的信息的情况下,判断为改变了关键字,处理返回步骤S4。
之后,在步骤S4中,从在步骤S3中提取出的元数据组合中选择其它组合,将所选择的元数据作为表示提取对象类的特征的关键字而呈现给客户端输出部24。
在步骤S6中,例如在用户想以其它观点提取将内容进行分类的类的关键字、通过用户输入部21输入了指示改变将内容进行分类的观点的信息的情况下,用户输入部21将获取的信息提供给内容分类部81。内容分类部81在获取到指示改变将内容进行分类的观点的信息的情况下,判断为改变了将内容进行分类的观点,处理返回步骤S1。
之后,在步骤S1中,以新的观点将内容进行分类(例如,以爱好的观点将内容进行分类),关于进行新分类后的类执行步骤S2以后的处理。此外,既可以使用户显式地指定将内容进行分类的新观点,也可以由内容分类部81根据预先决定的设定而自动地进行设定。
在步骤S7中,例如在用户通过用户输入部21输入了指示决定关键字的信息的情况下,用户输入部21将所获取的信息提供给关键字呈现部84。关键字呈现部84在获取到指示决定关键字的信息的情况下,判断为决定了关键字,结束关键字提取处理。
此外,将关键字呈现给用户之后,在没有来自用户的反应的空闲状态持续了规定时间的情况下,例如也可以改变自动呈现的关键字、改变将内容进行分类的观点。
这样,能够简单地提取表示根据用户所指定的观点进行分类后的类的特征的元数据的组合。另外,如上所述,所提取的元数据的组合,与比较对象类相比更带有提取对象类的特征,正确地示出了提取对象类的特征。并且,通过简单的逻辑运算,能够提取元数据的组合。并且,在提取元数据的组合之前,提取按类重要元数据,缩减元数据的数量,由此能够减少计算量以及计算所需的存储介质的存储容量,例如在便携式音乐播放器那样的处理能力低的设备中也能够容易地应用本发明。
下面参照图10的流程图说明由信息处理系统1执行的内容推荐处理。
在步骤S41中,与图4的步骤S1的处理相同地,将内容进行分类。
在步骤S42中,与图4的步骤S2的处理相同地,进行元数据的加权,提取按类重要元数据。
在步骤S43中,与图4的步骤S3的处理相同地,即按照图7的流程图执行元数据组合提取处理。
在步骤S44中,推荐内容提取部85提取推荐给用户的内容。例如推荐内容提取部85根据在步骤S43中提取的元数据的组合,从属于与由在步骤S1中分类的内容构成的组不同的组的内容中,将与属于提取了元数据组合的提取对象类的内容有关联的内容,作为推荐给用户的内容而提取。
具体地说,例如在从服务器存储器51将与新到的内容(例如,新到的电影、节目、乐曲等)有关的元数据发送到客户端存储部23的情况下,客户端存储部23存储发送过来的元数据,并且将表示具有新到内容的信息提供给推荐内容提取部85。推荐内容提取部85从在步骤S43中提取的元数据的组合中,例如使用与在上述步骤S4中的说明相同的基准,选择用于提取推荐给用户的内容的元数据的组合。推荐内容提取部85从在客户端存储部23中存储有元数据的新到内容中,提取具有元数据的内容,该元数据包括所选择的元数据的组合。推荐内容提取部85将与所提取的内容有关的信息提供给推荐内容呈现部86。
另外,根据所提取的元数据的组合,将请求提取推荐给用户的内容的推荐内容提取请求信息,从推荐内容提取部85通过客户端存储部23以及服务器存储部51发送到服务器运算部52,还可以将具有元数据的内容提取到服务器运算部52中,其中,该元数据包含从在服务器存储部51中存储有元数据的内容中提取的元数据的组合。
此外,提取推荐给用户的内容的方法并不限于上述的方法,例如也可以使用根据向量空间法进行匹配、利用状态移动函数等的其他方法,根据所提取的元数据,提取与属于提取对象类的内容有关的内容、即推荐给用户的内容。
在步骤S45中,推荐内容呈现部86向用户推荐内容。具体地说,推荐内容呈现部86控制客户端输出部24,将在步骤S44中提取的内容作为推荐的内容呈现给用户。例如,推荐内容呈现部86生成用于将在步骤S44中提取的内容推荐给用户的图像数据。推荐内容呈现部86将生成的图像数据提供给客户端输出部24,显示基于图像数据的图像、即向用户推荐内容的图像。在该图像中,例如与所推荐的内容有关的信息(例如,标题、概要等)一起显示推荐内容的依据(推荐理由)。内容的推荐理由,例如既可以直接显示用于提取所推荐内容的元数据组合,也可以制作基于元数据组合的推荐文进行显示。
在步骤S46中,推荐内容呈现部86判断是否改变所推荐的内容。在判断为没有改变所推荐的内容的情况下,处理进入步骤S47。
在步骤S47中,与图4的步骤S47的处理相同地,判断是否改变将内容进行分类的观点。在判断为没有改变将内容进行分类的观点的情况下,处理进入步骤S48。
在步骤S48中,推荐内容呈现部86判断是否决定内容。在判断为没有决定内容的情况下,处理返回步骤S46。
之后,重复执行步骤S46至S48的处理,直到在步骤S46中判断为改变所推荐的内容、或在步骤S47中判断为改变将内容进行分类的观点、或在步骤S48中判断为决定内容为止。
在步骤S46中,例如在用户想改变所推荐的内容、通过用户输入部21输入了指示改变内容的信息的情况下,用户输入部21将所获取的信息提供给推荐内容呈现部86。推荐内容呈现部86在获取了指示改变所推荐的内容的信息的情况下,判断为改变所推荐的内容,处理返回步骤S44。
之后,在步骤S44中,从在步骤S43中提取的元数据组合中选择其它的组合,将根据所选择的元数据的组合而提取的内容推荐给用户。
在步骤S47中,在判断为改变将内容进行分类的观点的情况下,处理返回步骤S41。
之后,在步骤S41中以新的观点将内容进行分类(例如,以爱好的观点将内容进行分类),关于进行新分类后的类执行步骤S2以后的处理。
在步骤S48中,例如在用户喜欢所推荐的内容并想视听内容、通过用户输入部21输入了指示决定内容的信息的情况下,用户输入部21将所获取的信息提供给推荐内容呈现部86。推荐内容呈现部86在获取了指示决定内容的信息的情况下,判断为决定内容,结束内容推荐处理。
之后,推荐内容呈现部86将通知所决定内容的信息提供给客户端存储部23。例如,在所决定的内容存储在客户端存储部23中的情况下,客户端存储部23将该内容提供给客户端输出部24。客户端输出部24例如显示基于内容的图像、输出声音。
另外,例如在所决定的内容没有存储在客户端存储部23中的情况下,客户端存储部23将请求发布所决定的内容的信息提供给内容发布部41。内容发布部41将请求的内容发布给客户端存储部23。客户端存储部23存储所发布的内容,并且将该内容提供给客户端输出部24。客户端输出部24例如显示基于内容的图像、输出声音。
此外,将内容推荐给用户之后,在没有来自用户的反应的空闲状态持续了规定时间的情况下,例如也可以改变自动推荐的内容、或改变将内容进行分类的观点。
这样,将基于表示根据用户所指定的观点进行分类后的类的特征的元数据组合而提取的内容推荐给用户,并且能够将所推荐的依据(理由)明确地呈现给用户。例如,通过使用从基于用户爱好(例如,用户的喜好等)的观点进行分类后的类中提取的元数据组合,能够将正确地反映了用户爱好的内容推荐给用户。另外,通过根据与基于用户爱好的观点不同的观点将内容进行分类,例如还能够推荐着眼于内容提供侧的促销内容等、不依赖于用户爱好的内容。
下面参照图11至图16说明本发明的第2实施方式。
图11是表示应用了本发明的信息处理系统的第2实施方式的框图。
信息处理系统201包括内容视听客户端211、上下文检测终端212、内容发布服务器213、以及内容推荐服务器214。当从功能结构的观点出发时,内容视听客户端211包括用户输入部221、客户端运算部222、客户端存储部223、以及客户端输出部224。当从功能结构的观点出发时,上下文检测终端212包括上下文检测部231、以及上下文存储部232。当从功能结构的观点出发时,内容发布服务器213包括内容发布部241、以及内容元数据存储部242。当从功能结构的观点出发时,内容推荐服务器214包括服务器存储部251、以及服务器运算部252。
此外,在图中,对于与图1对应的部分,在后2位标记了相同的符号,关于处理相同的部分由于其说明重复,因此省略。
如参照图13或者图16在后面所述,客户端运算部222根据与存储在客户端存储部223中的内容以及元数据有关的信息、从上下文检测终端212提供的上下文信息、或者表示从用户输入部221提供的用户操作内容的信息,生成用于将内容分类到规定类中的内容分类规则,并且算出表示所生成的内容分类规则的可靠性的评价指标。客户端运算部222根据所生成的内容分类规则,对由用户等指定为分类对象的内容进行分类。客户端运算部222控制客户端输出部224,将内容进行分类的结果、内容的特征等呈现给用户。另外,客户端运算部222将表示所生成的内容分类规则及其评价指标的信息存储在客户端存储部223中。
客户端存储部223存储表示内容分类规则及其评价指标的信息。另外,客户端存储部223将表示内容分类规则及其评价指标的信息,根据需要发送到内容推荐服务器214的服务器存储部251中。
客户端输出部224根据客户端运算部222的控制,将内容进行分类的结果、内容的特征等呈现给用户。
服务器存储部251存储从客户端存储部223发送过来的表示内容分类规则及其评价指标的信息。另外,服务器存储部251存储从服务器运算部252提供的表示内容分类规则及其评价指标的信息、或者表示内容分类结果的信息。
服务器运算部252根据存储在服务器存储部251中的表示用户操作内容的信息、以及内容信息,生成用于将存储在服务器存储部251中的内容进行分类的内容分类规则,并且算出表示所生成的内容分类规则的可靠性的评价指标。服务器运算部252根据所生成的内容分类规则,将存储在服务器存储部251中的内容进行分类。服务器运算部252将表示所生成的内容分类规则及其评价指标的信息、或者表示内容分类结果的信息存储到服务器存储部251中。
另外,图11由于示出了功能结构例,因此没有特别图示各装置间的连接方式、即内容视听客户端211至内容推荐服务器214的各个之间的连接方式,但是没有特别限定其连接方式。即,连接方式既可以是有线,也可以是无线,还可以是其组合。
另外,连接方式既可以是通过网络的方式,也可以是在装置间进行直接通信的方式,还可以是其组合。并且,即使在通过网络的方式的情况下,也没有限定网络的方式,例如也可以是因特网、内部网等。此时,网络并不限于单一的网路,也可以存在多个网路。因而,在图11中虽然没有图示,但是实际上在内容视听客户端211至内容推荐服务器214的各个中,还设置有与所对应的连接方式相应的通信部。
另外,上下文检测终端212、内容发布服务器213、以及内容推荐服务器214,在信息处理系统201中不是必须的结构要素。即,如参照图13或者图16在后面所述,能够只通过内容视听客户端211,实现由信息处理系统201进行的内容分类处理。
图12是表示客户端运算部222的功能结构例的框图。客户端运算部222包括内容分类部281、元数据提取部282、组合提取部283、内容分类规则生成部291、内容自动分类部292、以及分类结果呈现部293。此外,在图中,对于与图2对应的部分,在后2位标记了相同的符号,关于处理相同的部分由于其说明重复,因此省略。
组合提取部283将表示所提取的元数据组合的信息,提供给内容分类规则生成部291。
如参照图13在后面所述,内容分类规则生成部291生成内容分类规则,并且算出所生成的内容分类规则的评价指标。
内容分类规则生成部291将表示所生成的内容分类规则及其评价指标的信息提供给内容自动分类部292,并且存储到客户端存储部223中。
内容自动分类部292从用户输入部221获取由用户通过用户输入部221输入的、指定成为自动分类对象的内容的信息。另外,内容自动分类部292从客户端存储部223获取表示具有新到或者推荐内容的信息。如参照图13或者图16在后面所述,内容自动分类部292根据内容分类规则,将由用户指定的内容、或者作为从客户端存储部223通知的新到或者推荐内容等的分类对象的内容,分类到规定的类。内容自动分类部292,将表示将内容进行分类的结果的信息提供给分类结果呈现部293。
分类结果呈现部293控制客户端输出部224,使得将内容进行分类的结果、内容的特征等呈现给用户。
下面参照图13至图16说明由信息处理系统201执行的处理。
首先,参照图13的流程图,说明由信息处理系统201执行的内容分类处理的第1实施方式。此外,例如当用户通过用户输入部221输入了内容分类处理的开始指令时,开始该处理。
在步骤S101中,内容分类部281通过与上述图4的步骤S1相同的处理,根据由用户指定的观点将内容分类到多个类,将与分类后的内容的类有关的信息提供给元数据提取部282。
图14是表示用于将图3所示的内容进行分类的观点的例子。此外,与图3所示的表相比,在图14所示的表中添加了分类观点的项目。另外,在图14中,作为将内容进行分类的观点,示出了用户爱好、以及保存有内容的文件夹这两个例子。关于用户爱好的观点,与参照图5所述的例子相同。
此外,下面说明将保存内容的文件夹设为“流行音乐”以及“民歌”两种情况的例子。例如,用户根据内容(当前例的情况下是乐曲)的曲调等,将各内容分类到“流行音乐”或者“民歌”文件夹进行管理。因而,在根据保存了内容的文件夹的观点将内容进行分类的情况下,各内容被分类到“流行音乐”“民歌”两个类中。
另外,为了使说明简单,假设在图5的例子中属于“播放列表选择曲目”类的内容在图14的例子中属于“流行音乐”类,即保存在“流行音乐”的文件夹中,假设在图5的例子中属于“播放列表非选择曲目”类的内容在图14的例子中属于“民歌”类,即保存在“民歌”的文件夹中。
此外,以下说明在步骤S101中,由用户将保存有内容的文件夹指定为将内容进行分类的观点的情况的例子。
在步骤S102中,元数据提取部282通过与上述图4的步骤S2相同的处理进行元数据的加权,对每类提取按类重要元数据。元数据提取部282将表示所提取的按类重要元数据的信息提供给组合提取部283。
此外,下面,假设在步骤S102中,如图15所示,从流行音乐的类中,作为按类重要元数据而提取了[冬天][爱情][BGM][戏剧][夏天][强有力的][提神][演员][舒适][欢快]10个元数据,从民歌的类中,作为按类重要元数据而提取了[爱情][伤感][夏天][怀旧][合作][舒适][戏剧][舞蹈][雄壮][温暖]10个元数据,来进行说明。
在步骤S103中,组合提取部283通过与上述图4的步骤S3相同的处理,对各类进行元数据组合提取处理。组合提取部283将表示所提取的元数据组合的数据存储到客户端存储部223中,并且提供给内容分类规则生成部291。
此外,下面,假设从流行音乐的类中提取了以下所示的10组元数据组合,进行说明。
·[BGM]·[演员]
·[冬天]and[舒适]·[爱情]and[舒适]·[冬天]and[欢快]·[爱情]and[欢快]·[夏天]and[欢快]·[提神]and[欢快]·[戏剧]and[提神]and[舒适]·[强有力的]and[提神]and[舒适]另外,下面,假设从民歌的类中提取了以下所示的10组元数据组合,进行说明。
·[夏天]and[怀旧]·[怀旧]and[合作]·[戏剧]and[雄壮]·[舒适]and[雄壮]·[温暖]and[雄壮]·[爱情]and[夏天]and[戏剧]·[伤感]and[夏天]and[戏剧]·[爱情]and[怀旧]and[舞蹈]·[伤感]and[合作]and[戏剧]·[夏天]and[合作]and[戏剧]在步骤S104中,内容分类规则生成部291生成内容分类规则。具体地说,首先,内容分类规则生成部291对所提取的元数据的每个组合生成内容分类规则,该内容分类规则将在步骤S103中提取的元数据组合设为条件部(If部)、将提取了该数据组合的类设为结论部(then部)。例如,作为将流行音乐的类设为结论部的内容分类规则(下面,简单表述为流行音乐的类的内容分类规则),生成下面的Rp1至Rp10的10个内容分类规则。
规则Rp1if([BGM]=true)then(类=“流行音乐”)规则Rp2if([演员]=true)then(类=“流行音乐”)规则Rp3if([冬天]=true and[舒适]=ture)then(类=“流行音乐”)规则Rp4if([爱情]=true and[舒适]=ture)then(类=“流行音乐”)规则Rp5if([冬天]=true and[欢快]=ture)then(类=“流行音乐”)规则Rp6if([爱情]=true and[欢快]=ture)then(类=“流行音乐”)规则Rp7if([夏天]=true and[欢快]=ture)then(类=“流行音乐”)规则Rp8if([提神]=true and[欢快]=ture)then(类=“流行音乐”)规则Rp9if([戏剧]=true and[提神]=ture and[舒适]=ture)then(类=“流行音乐”)规则Rp10if([强有力的]=true and[提神]=ture and[舒适]=ture)then(类=“流行音乐”)例如,在某内容具有[BGM]的元数据的情况下,规则Rp1表示该内容所被分类到的类是“流行音乐”的规则。
同样地,作为将民歌的类设为结论部的内容分类规则(下面,简单地表述为民歌的类的内容分类规则),生成下面的Rb1至Rb10的10个内容分类规则。
规则Rb1if([夏天]=true and[怀旧]=true)then(类=“民歌”)规则Rb2if([怀旧]=true and[合作]=true)then(类=“民歌”)规则Rb3if([戏剧]=true and[雄壮]=ture)then(类=“民歌”)规则Rb4if([舒适]=true and[雄壮]=ture)then(类=“民歌”)规则Rb5if([温暖]=true and[雄壮]=ture)then(类=“民歌”)规则Rb6if([爱情]=true and[夏天]=ture and[戏剧]=ture)then(类=“民歌”)规则Rb7if([伤感]=true and[夏天]=ture and[戏剧]=ture)then(类=“民歌”)规则Rb8if([爱情]=true and[怀旧]=ture and[舞蹈]=ture)then(类=“民歌”)规则Rb9if([伤感]=true and[合作]=ture and[戏剧]=ture)then(类=“民歌”)规则Rb10if([夏天]=true and[合作]=ture and[戏剧]=ture)then(类=“民歌”)此外,下面将内容分类规则的条件部中所示的元数据组合,简单称为内容分类规则的元数据组合。另外,下面将内容分类规则的结论部中所示的类,简单称为内容分类规则的类。
接着,内容分类规则生成部291算出各内容分类规则的评价指标。
在此,说明评价指标的算出方法的例子。
第1方法是如下面的式(27)所示,将在内容分类规则的元数据组合中包含的元数据的权重的合计值设为评价指标的方法。
EI=∑Weight(Wi)…(27)此外,EI表示评价指标,Wi表示包括在内容分类规则的元数据组合中的元数据,Weight(Wi)表示内容分类规则的类中的元数据Wi的权重。
例如,在规则Rp3的情况下,将类“流行音乐”中的元数据[冬天]的权重与类“流行音乐”中的元数据[舒适]的权重进行合计的值为评价指标。
在第1方法中,在内容分类规则的元数据组合中包含的元数据数量越多、或者在内容分类规则的元数据组合中包含的元数据权重越大,评价指标越大。即,内容分类规则的元数据组合与属于内容分类规则的类的内容之间的关联越深,换言之内容分类规则的元数据组合表现出属于内容分类规则的类的内容特征的程度越大,评价指标越大。进一步换言之,在内容分类规则的类中,具有元数据的内容所占比例越高,评价指标越大,其中,所述元数据包括内容分类规则的元数据组合。
第2方法是如下面的式(28)所示,将在内容分类规则的元数据组合中包含的元数据权重的平均值设为评价指标的方法。
EI={∑Weight(Wi)}÷Nc…(28)此外,Nc表示包含在内容分类规则的元数据组合中的元数据的数量。
例如,在规则Rp3的情况下,将类“流行音乐”中的元数据[冬天]的权重与类“流行音乐”中的元数据[舒适]的权重进行合计的值除以作为在条件部中包含的元数据数量的2的值,成为评价指标。
在第2方法中,在内容分类规则的元数据组合中包含的元数据的权重越大,评价指标越大。即,在内容分类规则的条件部中包含的各个元数据与属于内容分类规则的类的内容之间的关联越深,换言之在内容分类规则的条件部中包含的各个元数据表示属于内容分类规则的类的内容特征的程度越大,评价指标越大。进一步换言之,在内容分类规则的类中,具有在内容分类规则的元数据组合中包含的元数据中至少一个的内容所占的比例越高,评价指标越大。
第3方法如下面的式(29)所示,是将全部内容之中满足内容分类规则的条件部的内容所占的比例、换言之全部内容之中具有在内容分类规则的元数据组合中包含的元数据的内容所占比例、所谓的覆盖率设为评价指标的方法。此外,在此全部内容是指在步骤S 1中分类到各类中的内容。
EI=Count(Condition)÷N…(29)此外,Count(Condition)表示满足内容分类规则的条件部的内容个数,N表示内容的全部个数。
例如,在规则Rp3的情况下,全部内容中具有元数据[冬天]和元数据[舒适]的内容所占的比例成为评价指标。
在第3方法中,全部内容中满足内容分类规则的条件部的内容所占的比例越高,评价指标越大。
第4方法如下面的式(30)所示,是将属于内容分类规则的类中的内容之中满足内容分类规则的条件部的内容所占的比例、所谓再现率(Recall)设为评价指标的方法。
EI=Recall=Count(Con dition & Decision)÷Count(Decision)…(30)此外,Count(Condition&Decision)表示属于内容分类规则的类的内容之中满足内容分类规则的条件部的内容的个数,Count(Decision)表示属于内容分类规则的类的内容的个数。
例如,在规则Rp3的情况下,属于类“流行音乐”的内容之中具有元数据[冬天]和元数据[舒适]的内容所占的比例,成为评价指标。
在第4方法中,属于内容分类规则的类的内容具有元数据的比例越高,评价指标越大,其中,所述元数据包括内容分类规则的元数据组合。即,内容分类规则的元数据组合与属于内容分类规则的类的内容关联越深,换言之内容分类规则的元数据的组合表示属于内容分类规则的类的内容特征的程度越大,评价指标越大。
第5方法如下面的式(31)所示,是将满足内容分类规则的条件部的内容之中属于内容分类规则的类的内容所占的比例、所谓的适合率(Precision)设为评价指标的方法。
EI=Precision=Count(Condition & Decision)÷Count(Condition)…(31)例如,在规则Rp3的情况下,具有元数据[冬天]和元数据[舒适]的内容之中属于类“流行音乐”的内容所占的比例,成为评价指标。
在第5方法中,具有元数据的内容属于内容分类规则的类的比例越高,评价指标越大,其中,所述元数据包括内容分类规则的元数据组合。即,内容分类规则的元数据组合与属于内容分类规则的类的内容的关联越深,换言之内容分类规则的元数据组合表示属于内容分类规则的类的内容特征的程度越大,评价指标越大。
第6方法如下面的式(32)所示,是将由式(30)求出的再现率(Recall)和由式(31)求出的适合率(Precision)的调和平均、所谓的F值设为评价指标的方法。
EI=F=2÷(1÷Recall+1÷Precision) …(32)在第6方法中,具有元数据的内容集合、与内容分类规则的类越接近,评价指标越大,其中,所述元数据包括内容分类规则的元数据组合。
第7方法如下面的式(33)所示,是将内容分类规则的条件部和结论部分别作为1个事件,将条件部产生事件的概率和结论部产生事件的概率的依赖性设为评价指标的方法。
EI=Count(Condition & Decision)-Count(Condition)×Count(Decision)÷N …(33)此外,如下导出式(33)。
Prob(Condition)=Count(Condition)÷N …(34)Prob(Decision)=Count(Decision)÷N…(35)Prob(Condition & Decision)=Count(Condition & Decision)÷N…(36)此外,Prob(Condition)表示内容分类规则的条件部产生事件的概率,Prob(Decision)表示内容分类规则的结论部产生事件的概率,Prob(Condition & Decision)表示内容分类规则的条件部的事件和结论部的事件同时产生的概率。
根据式(34)至式(36),利用下面的式(37)求出内容分类规则的条件部产生事件的概率和结论部产生事件的概率的依赖性R。
R=Prob(Condition & Decision)-Prob(Condition)×Prob(Decision)
=Count(Condition & Decision)÷N-Count(Condition)×Count(Decision)÷N2…(37)并且,内容的全部个数N是全部内容分类规则中共用的值,因此通过在依赖性R上乘以内容的全部个数N,从而导出式(33)。
例如,在规则Rp3的情况下,从属于类“流行音乐”、且具有元数据[冬天]和元数据[舒适]的内容的个数中,减去具有元数据[冬天]和元数据[舒适]的内容的个数×属于类[流行音乐]的内容个数÷N的值,成为评价指标。
在第7方法中,内容具有元数据的概率、与属于内容分类规则的类的概率的依赖性越高,评价指标越大,其中,所述元数据包括内容分类规则的元数据组合。即,内容具有元数据的事件与属于内容分类规则的类的事件的关联越深,评价指标越大,其中,所述元数据包括内容分类规则的元数据组合。另外,在内容分类规则的条件部的事件和结论部的事件独立的情况下,下面的式(38)将成立,因此评价指标成为最小的0。
Prob(Condition & Decision)=Prob(Condition)×Prob(Decision)…(38)这样,评价指标表示在内容分类规则的条件部中包含的元数据或者其组合出现在属于结论部的类中的内容所具有的元数据中的程度。特别是,使用第1、第2、第4至第7方法算出的评价指标,表示在内容分类规则的条件部中包含的元数据的组合、与属于结论部的类中的内容之间的关联度。即,使用第1、第2、第4至第7的方法算出的评价指标,表示在内容分类规则的条件部中包含的元数据组合表现出属于结论部的类的内容特征的程度。
此外,下面说明在作为算出评价指标的方法采用了第5方法的情况、即、将评价指标设为F值的情况的例子。另外,下面,假设各内容分类规则的评价指标EI为下面的值来进行说明。
EI(Rp1)=0.429EI(Rp2)=0.240EI(Rp3)=0.167EI(Rp4)=0.333EI(Rp5)=0.167EI(Rp6)=0.167EI(Rp7)=0.167EI(Rp8)=0.167EI(Rp9)=0.167EI(Rp10)=0.167EI(Rb1)=0.267EI(Rb2)=0.267EI(Rb3)=0.267EI(Rb4)=0.333EI(Rb5)=0.143EI(Rb6)=0.267EI(Rb7)=0.143EI(Rb8)=0.143EI(Rb9)=0.143EI(Rb10)=0.143内容分类规则生成部291将表示所生成的内容分类规则、以及各内容分类规则的评价指标的信息存储在客户端存储部223中,并且提供给内容自动分类部292。
在步骤S105中,内容自动分类部292设定进行自动分类的内容。具体地说,例如在用户通过用户输入部221从存储在客户端存储部223中的内容中,将1个以上的还没有分类到各类的内容(例如,用户新购买的乐曲、电影、新录像的节目等)选择为自动分类对象的情况下,用户输入部221将表示由用户选择的内容的信息提供给内容自动分类部292。内容自动分类部292将由用户选择的内容确定为进行自动分类的对象。
另外,例如将与新到内容(例如,新到的电影、节目、乐曲等)有关的元数据、或者与通过某种推荐算法决定的推荐内容有关的元数据从服务器存储部251发送到客户端存储部223的情况下,客户端存储部223存储发送过来的元数据,并且将表示具有新到或者推荐内容的信息提供给内容自动分类部292。内容自动分类部292将这些新到或者推荐内容设定为进行自动分类的对象。
在步骤S106中,内容自动分类部292将内容进行自动分类。具体地说,内容自动分类部292根据内容分类规则,将在步骤S105中设定的各内容分类到各类,将表示所分类的结果的信息提供给分类结果呈现部293。
例如,内容自动分类部292关于作为自动分类对象的各内容,提取该内容所具有的元数据组合包括条件部的元数据组合的内容分类规则(下面还表述为适合内容的内容分类规则)。即,内容自动分类部292关于作为自动分类对象的各内容,提取适合该内容的内容分类规则。内容自动分类部292将所提取的内容分类规则按结论部的每类进行分类,统计其数量。内容自动分类部292将该内容分类到适合的内容分类规则数量最大的类中。
例如,在关于具有[BGM][爱情][夏天][欢快][舒适][怀旧][舞蹈]7个元数据的内容X进行考虑的情况下,内容X适合Rp1、Rp4、Rp7、Rb1、Rb8这5个内容分类规则。而且,将适合的内容分类规则的数量按结论部的每类进行统计时,结论部为“流行音乐”的内容分类规则的数量为3,结论部为“民歌”的内容分类规则的数量为2。
因而,这种情况下,结论部为“流行音乐”的内容分类规则的数量最大,因此内容X被分类到类“流行音乐”中。
另外,例如关于作为自动分类对象的各内容,也可以将该内容分类到适合的内容分类规则之中评价指标最大的内容分类规则的类中。
例如,在上述内容X的情况下,内容X适合的各内容分类规则的评价指标如下。
EI(Rp1)=0.429EI(Rp4)=0.333EI(Rp7)=0.167EI(Rb1)=0.267EI(Rb8)=0.143因而,这种情况下内容X被分类到评价指标最大的0.429的内容分类规则Rp1的结论部的类“流行音乐”中。
而且,例如关于作为自动分类对象的各内容,也可以将适合的内容分类规则的评价指标按结论部的每类进行统计,将该内容分类到评价指标的合计值最大的类中。
例如,在上述内容X的情况下,当将内容X适合的各内容分类规则的评价指标按结论部的每类进行统计时,如下所示。
∑EI(Rp)=EI(Rp1)+EI(Rp4)+EI(Rp7)=0.929 …(39)∑EI(Rb)=EI(Rb1)+EI(Rb8)=0.410 …(40)此外,∑EI(Rp)表示内容X适合的内容分类规则之中结论部是类“流行音乐”的内容分类规则的评价指标的合计值,∑EI(Rb)表示内容X适合的内容分类规则中结论部是类“民歌”的内容分类规则的评价指标的合计值。
因而,这种情况下,内容X被分类到评价指标的合计值最大的类“流行音乐”中。
另外,例如关于作为自动分类对象的各内容,也可以分类到适合的内容分类规则的评价指标的平均值最大的类中。
例如,在上述内容X的情况下,内容X适合的内容分类规则的评价指标的、结论部的每类的平均值如下。
EIav(Rp)=∑EI(Rp)÷3=0.929÷3=0.309… …(41)EIav(Rb)=∑EI(Rb)÷2=0.410÷2=0.205 …(42)此外,EIav(Rp)表示内容X适合的内容分类规则之中结论部是类“流行音乐”的内容分类规则的评价指标的平均值,EIav(Rp)表示内容X适合的内容分类规则之中结论部是类“民歌”的内容分类规则的评价指标的平均值。
因而,这种情况下,内容X被分类到评价指标的平均值最大的类“流行音乐”中。
此外,也可以不将各内容分别只分类到1个类,而将各内容分类到1个以上的类,并且设定表示该内容适合该类的程度的适合度。
例如,关于作为自动分类对象的各内容,也可以将内容分类到在适合的内容分类规则的结论部中包含的全部类中,或将该内容分类到评价指标的合计值、评价指标的平均值、类内的评价指标的最大值等在规定阈值以上的全部类中。而且,例如关于内容所分类到的各类,也可以将适合的内容分类规则之中结论部是该类的内容分类规则的数量、或者适合的内容分类规则之中结论部是该类的内容分类规则的评价指标的合计值、平均值、或最大值等,设定为适合度。
例如,在上述内容X的情况下,也可以将内容X分类到在适合的内容分类规则的结论部中包含的“流行音乐”和“民歌”两个类中,并且将作为类“流行音乐”的评价指标的合计值的0.929设定为内容X对类“流行音乐”的适合度,将作为类“民歌”的评价指标的合计值的0.410设定为内容X对类“民歌”的适合度。
在步骤S107中,分类结果呈现部293呈现自动分类的结果。具体地说,分类结果呈现部293控制客户端输出部224,将在步骤S106中对内容进行自动分类的结果呈现给用户。
例如,分类结果呈现部293控制客户端输出部224,显示下面的信息。
内容X“流行音乐”关键字BGM,爱情,欢快,舒适由此,用户能够知道根据元数据(当前的情况下,作为关键字呈现给用户)[BGM][爱情][欢快][舒适],将内容X分类到组“流行音乐”中。
此外,例如也可以在将内容X实际进行分类之前,将该信息呈现给用户,向用户推荐将内容X分类到组“流行音乐”中。
另外,也可以根据在各内容所具有的元数据组合之中与内容分类规则的条件部一致的元数据组合中包含的元数据、以及与条件部一致的内容分类规则的结论部的类,将内容特征呈现给用户。例如,也可以根据内容所分类的类名、在内容分类中使用的元数据,将内容的特征呈现给用户。
例如,在上述内容X的情况下,分类结果呈现部293控制客户端输出部224,作为内容X的特征显示下面的信息。
内容XBGM风格的“流行音乐”、有怀旧感的夏天的“民歌”这样,用户能够容易且具体地知道内容X的特征。此外,该示例表示设定适合度、将内容分类到1个以上的类中的情况的例子。
在步骤S108中,内容自动分类部292判断是否改变自动分类的内容。例如,在用户想对其他内容进行自动分类、通过用户输入部221输入了指示改变进行自动分类的内容的信息的情况下,用户输入部221将所获取的信息提供给内容自动分类部292。内容自动分类部292在获取到指示改变自动分类的内容的信息的情况下,判断为改变自动分类的内容,处理返回步骤S105。之后重复执行步骤S105至S108的处理,对用户指定的内容进行自动分类,直到在步骤S108中判断为不改变自动分类的内容为止。
在步骤S108中,在判断为不改变自动分类的内容的情况下,处理进入步骤S109。
在步骤S109中,内容分类部281与上述图4的步骤S6的处理相同地,判断是否改变将内容进行分类的观点。在判断为改变将内容进行分类的观点的情况下,处理返回步骤S101,之后重复执行步骤S101至S109的处理,直到在步骤S109中判断为不改变将内容进行分类的观点为止。即,根据新观点(例如,爱好的观点),将内容进行自动分类。
在步骤S109中,在判断为不改变将内容进行分类的观点的情况下,结束内容分类处理。
这样,根据不依赖于元数据的用户观点,例如根据上述爱好、文件夹等观点,用户不设定用于将内容进行分类的元数据条件,就能够将各内容自动地进行分类。
下面,参照图16的流程图说明由信息处理系统201执行的内容分类处理的第2实施方式。此外,例如用户通过用户输入部221输入了指示开始内容分类处理的情况下,开始该处理。
在步骤S151中,内容分类部281选择生成内容分类规则的观点。具体地说,内容分类部281从还没有生成内容分类规则的观点中选择1个。例如在上述图14所示的例子的情况下,从用户的爱好以及保存有内容的文件夹这两个观点之中选择1个还没有生成内容分类规则的观点。
在步骤S152中,内容分类部281通过与上述图13的步骤S101相同的处理,根据在步骤S151中选择的观点,将内容分类到多个类中,将与分类后的内容的类有关的信息提供给元数据提取部282。
步骤S153至步骤S155的处理与上述图13的步骤S102至S104的处理相同,由于其说明重复因此省略,但是如上所述,通过这些处理生成对在步骤S151中选择的观点的内容分类规则,并且算出对各内容分类规则的评价指标。
在步骤S156中,内容分类部281判断是否关于全部观点生成了内容分类规则。在判断为没有关于全部观点生成内容分类规则的情况下,处理返回步骤S151,重复执行步骤S151至S156的处理,直到在步骤S156中判断为关于全部观点生成了内容分类规则为止。即,关于全部的观点生成内容分类规则,并且算出对各内容分类规则的评价指标。
在步骤S156中,在判断为关于全部观点生成了内容分类规则的情况下,处理进入步骤S157。
在步骤S157中,与上述图13的步骤S105的处理相同地,设定自动分类的内容。
在步骤S158中,内容自动分类部292将内容进行自动分类。具体地说,例如,首先关于作为自动分类对象的各内容,内容自动分类部292从全部的内容分类规则中提取适合该内容的内容分类规则。内容自动分类部292对结论部的每类统计所提取的内容分类规则的评价指标。
接着,内容自动分类部292按各观点算出评价指标的合计值最大的类和评价指标的合计值第2大的类之间的评价指标之差,选择算出的差最大的观点、即该内容的特征最显著表现的观点。内容自动分类部292将该内容分类到所选择的观点中的类之中评价指标合计值最大的类中。
另外,例如关于作为自动分类对象的各内容,也可以与观点无关地,将该内容分类到适合的内容分类规则的评价指标的合计值、平均值、或者最大值最大的类中。
并且,例如关于作为自动分类对象的各内容,也可以将该内容分类到适合的内容分类规则的评价指标的合计值、平均值、或者类中的评价指标的最大值在规定阈值以上的全部类中,并且设定上述适合度。在这种情况下,有时将1个内容分类为属于1个观点内的多个类,或属于多个观点的类。
内容自动分类部292将表示把各内容进行分类的结果的信息提供给分类结果呈现部293。
在步骤S159中,与上述图13的步骤S108的处理相同地,将自动分类的结果呈现给用户。
在步骤S160中,与上述图13的步骤S109的处理相同地,判断是否改变自动分类的内容。在判断为改变自动分类的内容的情况下,处理返回步骤S157,重复执行步骤S157至S160,直到在步骤S160中判断为不改变自动分类的内容为止。
在步骤S160中,在判断为不改变对内容进行分类的观点的情况下,结束内容分类处理。
这样,可一次根据多个观点将内容进行自动分类。
以上,在作为对与表示各要素特征的数据分别相关联的多个要素进行分类后的类的特征,在通过关于属于作为提取特征对象的类的各个要素取出与要素相关联的1个以上的数据而求出的数据的全部组合之中,提取通过关于属于其他类的各个要素取出与要素相关联的1个以上的数据而求出的数据的组合中不存在的数据组合的情况下,能够提取将多个要素进行分类后的类的特征。另外,能够简单且正确地提取对多个要素进行分类后的类的特征。
此外,在以上的说明中,示出了将内容进行分类的观点为1个的例子,但是当然也可以组合2个以上的观点。例如,如果使用图5所示的例子,则将用户爱好的观点和播放列表选择曲目的观点进行组合,例如能够容易地提取表示用户喜欢且没有被选择在播放列表中的内容所属的类的特征的元数据组合。
另外,作为组合多个观点的例子,能够将管理内容的多层结构的目录、书签用于将内容进行分类的观点。通过使用该分类的观点,例如能够提取表示用户所进行的内容分类(目录或者书签等)的粒度、详细度的特征的元数据组合。
而且,例如也可以提取表示将内容所属的目录以及用户爱好的两个观点相组合而进行分类后的类的特征的元数据组合。
此外,即使增加将内容进行分类的观点,也不影响将内容分类到多个类之后的处理,因此,能够原样应用上面参照图4、图7、图10、图13、或者图16所述的本发明的算法。另外,通过组合多个将内容进行分类的观点,能够提取更精致地表示用户爱好等的元数据组合。
另外,例如,在元数据的种类少的情况下、或者由处理能力高的计算机等进行处理的情况下,也可以不进行按类重要元数据的提取。在使用全部元数据提取元数据组合的情况下,提取更正确地表示类特征的元数据组合的可能性变高。
并且,在以上的说明中,示出了提取与内容相关联的元数据组合的例子,但是,本发明能够应用于例如根据与属于各类的学生有关的数据(例如,成绩、身高、体重等)提取某学校的类的特征,或根据与各制造商所制造的商品有关的数据(例如价格、功能、形状、颜色等)提取制造相同产品的多个制造商的特征的情况等、将与表示各要素特征的数据相关联的多个要素分类到多个类并根据各要素所具有的数据来提取各类的特征的情况。
此外,本发明能够应用于例如向用户推荐内容、商品等、或者提取内容、商品等被分类到的类的特征的装置、系统(例如,推荐系统、个人计算机、便携式电话、PDA(Personal Digital Assistant个人数字助理)、各种AV(Audio Visual视听)设备等)、或者软件等。
例如,通过在具有学习用户视听履历的TV节目推荐功能的装置中应用本发明,能够例如像根据提取的人才(talent)A和杂耍(variety)节目的元数据组合,推荐用户喜欢的人才A出演的杂耍节目,而不推荐用户讨厌的人才A出演的歌曲节目那样,根据用户的精致爱好模式,向用户推荐节目,并且能够呈现其推荐理由,能够提高用户对推荐节目的接受度。
另外,例如通过在由与音乐播放器协作的个人计算机执行的乐曲文件阅览以及编辑软件中应用本发明,响应于播放列表的制作、阅览等操作,能够将表示播放列表特征的元数据组合呈现给用户,能够舒适地进行阅览、或编辑文件的作业,并且提供进行该作业的乐趣。
另外,本发明例如能够应用于将各种内容进行分类管理的装置、系统、或者软件等。例如,通过将本发明的第2实施方式应用在电子邮件的软件中,能够不像以往那样将邮件的发件人、邮件名、头信息等设定为分类的条件,而根据邮件内容自动地将邮件进行分类。
上述一系列处理既可以由硬件执行,也可以由软件执行。在由软件执行一系列处理的情况下,从程序记录介质将构成该软件的程序安装到专用硬件中安装的计算机中、或者通过安装各种程序可执行各种功能的例如通用的个人计算机等中。
图17是表示通过程序执行上述一系列处理的个人计算机的结构例的框图。CPU(Central Proce ssing Unit中央处理单元)901,根据存储在ROM(Read Only Memory只读存储器)902、或者存储部908中的程序,执行各种处理。在RAM(Random Access Memory随机存取存储器)903中适当存储有CPU901执行的程序、数据等。这些CPU901、ROM902、以及RAM903通过总线904相互连接。
在CPU901上还通过总线904连接有输入输出接口905。在输入输出接口905上连接有由键盘、鼠标、麦克风等构成的输入部906、由显示器、扬声器等构成的输出部907。CPU901对应于从输入部906输入的指令,执行各种处理。并且,CPU901将处理结果输出到输出部907。
连接在输入输出接口905上的存储部908例如由硬盘构成,存储CPU901所执行的程序、各种数据。通信部909通过因特网、局域网络等网络与外部装置进行通信。
另外,也可以通过通信部909获取程序,存储到存储部908中。
连接在输入输出接口905上的驱动器910,当安装有磁盘、光盘、磁光盘、或者半导体存储器等可移动介质911时驱动它们,获取记录在那里的程序、数据等。将获取的程序、数据根据需要传送、存储到存储部908。
安装在计算机中、并由保存设成计算机可执行状态的程序的程序记录介质,如图17所示,由可移动介质911、或者临时或永久保存程序的ROM902、构成存储部908的硬盘等构成,其中移动介质911是由磁盘(包含软盘)、光盘(包含CD-ROM(CompactDisk-Read Only Memory光盘只读存储器)、DVD(Digital VersatileDisk数字多功能光盘))、磁光盘、或者半导体存储器等构成的封装介质。根据需要通过作为路由器、调制解调器等的接口的通信部909,利用局域网、因特网、数字卫星广播之类的有线或者无线的通信介质,在程序记录介质中保存程序。
此外,在本说明书中,对保存在存储介质中的程序进行记述的步骤,不仅包含按记载的顺序按时间序列进行的处理,而且包含未必按时间序列进行处理、而并行或者单独执行的处理。
另外,在本说明书中,系统表示由多个装置构成的装置整体。
并且,本发明的实施方式并不限于上述实施方式,在不脱离本发明精神的范围内,可以进行各种变更。
权利要求
1.一种信息处理装置,包括特征提取单元,作为将与表示各要素的特征的数据分别相关联的多个上述要素进行分类后的类的特征,该特征提取单元在通过关于属于成为提取特征的对象的上述类的各个上述要素取出与上述要素相关联的1个以上的上述数据而求出的上述数据的全部组合之中,提取在通过关于属于其他上述类的各个上述要素取出与上述要素相关联的1个以上的上述数据而求出的上述数据的组合中不存在的上述数据的组合。
2.根据权利要求1所述的信息处理装置,其特征在于,还包括特征呈现控制单元,该特征呈现控制单元控制上述类的特征的呈现,使得将所提取的上述数据的组合中的1个以上的组合作为上述类的特征呈现给用户。
3.根据权利要求1所述的信息处理装置,其特征在于,还包括数据提取单元,该数据提取单元根据属于上述类的上述要素和上述数据之间的第1关联度、以及属于其他上述类的上述要素和上述数据之间的第2关联度与上述第1关联度之间的差异,在提取上述数据的组合之前,提取更明确地表示属于上述类的上述要素的特征的上述数据,上述特征提取单元提取由上述数据提取单元所提取的上述数据的组合。
4.根据权利要求3所述的信息处理装置,其特征在于,上述数据提取单元根据上述第1关联度、以及上述第2关联度与上述第1关联度之间的差异,求出上述类中的上述数据的权重,提取上述权重的值是上位的规定数量的上述数据、或者上述权重的值是规定阈值以上的上述数据。
5.根据权利要求4所述的信息处理装置,其特征在于,上述数据提取单元将tfidf(term frequency with inversedocument frequency单词频率/逆文档频率)、相互信息量、信息增益比、x平方值、或者对数似然比中的任意一个作为上述类中的上述数据的权重而求出。
6.根据权利要求1所述的信息处理装置,其特征在于,还包括要素提取单元,该要素提取单元根据所提取的上述数据的组合,从属于与由上述要素构成的第1组不同的第2组的要素中,提取与属于被提取了上述数据的组合的上述类的上述要素有关联的要素。
7.根据权利要求6所述的信息处理装置,其特征在于,上述要素提取单元提取与包含所提取的上述数据的组合的上述数据相关联的属于上述第2组的上述要素。
8.根据权利要求6所述的信息处理装置,其特征在于,还包括要素呈现控制单元,该要素呈现控制单元控制向用户呈现所提取的上述要素。
9.根据权利要求8所述的信息处理装置,其特征在于,上述要素呈现控制单元进行控制,使得作为提取上述要素的依据,进一步呈现上述要素的提取中所使用的上述数据的组合。
10.根据权利要求1所述的信息处理装置,其特征在于,上述要素是内容,上述数据是与上述内容有关的元数据。
11.根据权利要求1所述的信息处理装置,其特征在于,还包括评价指标算出单元,该评价指标算出单元算出评价指标,该评价指标表示所提取的上述数据的组合和属于提取对象类的上述要素之间的关联度,其中,该提取对象类是被提取了上述数据的组合的上述类。
12.根据权利要求11所述的信息处理装置,其特征在于,上述评价指标算出单元作为上述评价指标算出F值,该F值是属于上述提取对象类的上述要素之中与包括上述数据的组合的上述数据相关联的上述要素所占的比例即再现率、以及与包括上述数据的组合的上述数据相关联的上述要素之中属于上述提取对象类的上述要素所占的比例即适合率的调和平均。
13.根据权利要求11所述的信息处理装置,其特征在于,还包括类分类单元,该类分类单元根据对与成为分类对象的要素相关联的上述数据的组合的上述评价指标,将成为上述分类对象的要素分类到上述类。
14.根据权利要求1所述的信息处理装置,其特征在于,还包括类分类单元,该类分类单元根据与成为分类对象的要素相关联的上述数据的组合之中与从各个上述类中提取的上述数据的组合一致的数量,将成为上述分类对象的要素分类到上述类。
15.根据权利要求1所述的信息处理装置,其特征在于,还包括特征呈现单元,该特征呈现单元根据与成为呈现特征的对象的要素相关联的上述数据的组合之中与从各个上述类中提取的上述数据的组合一致的上述数据的组合中所包含的上述数据、以及提取了一致的上述数据的组合的上述类,呈现成为呈现上述特征的对象的要素的特征。
16.一种特征提取方法,包括如下步骤作为将与表示各要素的特征的数据分别相关联的多个上述要素进行分类后的类的特征,在通过关于属于成为提取特征的对象的上述类的各个上述要素取出与上述要素相关联的1个以上的上述数据而求出的上述数据的全部组合之中,提取在通过关于属于其他上述类的各个上述要素取出与上述要素相关联的1个以上的上述数据而求出的上述数据的组合中不存在的上述数据的组合。
17.一种程序,使计算机执行如下步骤作为将与表示各要素的特征的数据分别相关联的多个上述要素进行分类后的类的特征,在通过关于属于成为提取特征的对象的上述类的各个上述要素取出与上述要素相关联的1个以上的上述数据而求出的上述数据的全部组合之中,提取在通过关于属于其他上述类的各个上述要素取出与上述要素相关联的1个以上的上述数据而求出的上述数据的组合中不存在的上述数据的组合。
18.一种记录介质,记录有权利要求17所述的程序。
全文摘要
本发明涉及一种能够简单且正确地提取将多个要素进行分类后的类的特征的信息处理装置、特征提取方法、记录介质以及程序。组合提取部83,作为内容分类部81根据用户的指令将多个内容进行分类后的类的特征,从属于成为提取特征对象的特征提取对象类的每个内容的元数据的全部组合中,提取属于其他类的每个内容的元数据的组合中不存在的元数据的组合。本发明能够应用在推荐系统中。
文档编号G06F17/30GK101031919SQ20068000090
公开日2007年9月5日 申请日期2006年7月24日 优先权日2005年7月26日
发明者宫嵜充弘 申请人:索尼株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1