信息处理设备、信息处理方法、记录介质和程序的制作方法

文档序号:6422597阅读:164来源:国知局
专利名称:信息处理设备、信息处理方法、记录介质和程序的制作方法
技术领域
本发明涉及一种信息处理设备、信息处理方法、记录介质和程序。更具体来讲,本发明涉及一种用于有效地并且有力地建议内容的信息处理设备、信息处理方法、记录介质和程序。
背景技术
存在这样的内容建议系统,所述系统能够搜索那些符合用户偏好的递送内容并且向用户提供与由此检测到的内容相关的信息(在第2000-287189号日本已公开专利中公开了一个这种系统)。
上述类型的系统通常检验内容的属性,所述属性经常由用户选择(例如,这种属性之一是内容的流派),并且根据认为符合用户偏好的每个属性来建议内容。
然而,内容的属性通常是由他们的供应商基于内部的内容组织以及其他专用于所述供应商的环境来建立的。因此,这种属性往往不适合作为有效地或有力地检测可以建议的内容的基础。

发明内容
本发明是鉴于上述环境而做出的,并且提供了用于允许内容建议方把内容依照它们的属性改编为组,以便按照组来建议内容的信息处理设备、信息处理方法、记录介质和程序。
依照本发明的实施例,提供了一种信息处理设备,包括分组装置,用于把递送的内容编组,每个组均由被给予相同组ID的内容构成,从而具有相对于分组项而言高于预定值的相似度,所述分组项包括表示内容属性的至少一个属性项;计算装置,用于相对于每个组ID计算所述内容的使用频率;生成装置,用于基于所述计算装置计算的使用频率来生成用户偏好信息,所述用户偏好信息表明用户的偏好;以及建议装置,用于基于所述生成装置生成的用户偏好信息来给出内容建议。
优选的是,可以为信息处理设备建立由表明播出时隙的属性项和至少一个其他属性项构成的分组属性;并且所述分组装置可以按照所建立的分组属性来编组递送的内容。
优选的是,可以为信息处理设备建立由表明播出时隙的属性项构成的分组项以及由其他属性项构成的分组项;并且所述分组装置可以按照所建立的分组项的每个来编组递送的内容。
优选的是,所述分组装置可以从词法上来分析产生内容属性项的组成项,并且基于分析结果来确定产生分组项的组成项之间的相似度。
优选的是,所述生成装置不使用当生成用户偏好信息时未能满足预定条件的内容构成组的使用频率。
优选的是,所述建议装置可以包括确定装置,用于确定所述计算装置计算的使用频率是否高于预先确定的设定值;以及设定装置,用于当确定装置发现所述使用频率高于预先确定的设定值时,把表明所建议的内容已被经常浏览的主题标志设定到所述内容建议信息。
优选的是,所述生成装置可以包括提取装置,用于获取与构成计算装置计算的使用频率高于预先确定的设定值的组的内容有关的元数据,所述提取装置还提取表示元数据特征数量的向量;并且所述生成装置可以基于所述提取装置提取的向量来生成用户偏好信息。
优选的是,所述生成装置可以包括主题确定装置,用于确定构成被发现其使用频率高于预先确定的设定值的组的内容是否对应于被设定了表明所建议的内容经常被浏览的主题标志的内容建议信息。如果所述主题确定装置确定所述内容不对应于承载设定主题标志的内容建议信息,那么所述提取装置可以获取与内容有关的元数据并且提取表示元数据特征数目的向量。
优选的是,所述用户偏好信息可以由多个属性构成并且由表示属性重要程度的值来构成。
优选的是,所述生成装置可以包括熟悉性设定装置,用于基于所述计算装置计算的使用频率来设定与内容的熟悉程度;并且所述生成装置可以基于所述熟悉程度来向用户偏好信息的重要程度分配权重。
优选的是,所述生成装置可以包括搜索装置,用于基于内容的使用历史来搜索其使用频率低于预定值的内容;以及特殊偏好信息生成装置,用于基于与搜索装置搜索的内容有关的元数据来生成特殊偏好信息。
优选的是,本发明的信息处理设备还可以包括第一提取装置,用于提取表示用户偏好信息或者特殊偏好信息的特征数量的向量;第二提取装置,用于获取与在预定时隙播出的内容有关的元数据,并且用于提取表示所述元数据的特征数量的向量;以及计算装置,用于计算第一提取装置提取的向量和第二提取装置提取的那些内容之间的相似度。因此,所述建议装置可以选择由第二提取装置提取的向量的预定数目,所述向量依照相似度的递减顺序被选择,所述建议装置还基于与所选向量有关的元数据来给出内容建议。
依照本发明的另一实施例,提供了一种信息处理方法,包括如下步骤把递送的内容编组,每个组均由被给予相同组ID的内容构成,从而具有相对于分组项而言高于预定值的相似度,所述分组项包括表示内容属性的至少一个属性项;相对于每个组ID来计算所述内容的使用频率;基于在计算步骤中计算的使用频率来生成表明用户偏好的用户偏好信息;并且基于在生成步骤中生成的用户偏好信息来给出内容建议。
依照本发明的进一步的实施例,提供了一种记录介质,其保存有程序,所述程序包括如下步骤把递送的内容编组,每个组均由被给予相同组ID的内容构成,从而具有相对于分组项而言高于预定值的相似度,所述分组项包括表示内容属性的至少一个属性项;相对于每个组ID来计算所述内容的使用频率;基于在计算步骤中计算的使用频率来生成表明用户偏好的用户偏好信息;并且基于在生成步骤中生成的用户偏好信息来给出内容建议。
依照本发明的又一实施例,提供了一种程序,所述程序包括如下步骤把递送的内容编组,每个组均由被给予相同组ID的内容构成,所述内容具有相对于分组项而言具有高于预定值的相似度,所述分组项包括表示内容属性的至少一个属性项;相对于每个组ID来计算所述内容的使用频率;基于在计算步骤中计算的使用频率来生成表明用户偏好的用户偏好信息;并且基于在生成步骤中生成的用户偏好信息来给出内容建议。
当使用本发明的信息处理设备、信息处理方法和程序时,首先编组递送的内容,每个组均由被给予相同组ID的内容构成,所述内容具有相对于分组项而言具有高于预定值的相似度,所述分组项包括表示内容属性的至少一个属性项。然后,相对于每个组ID来计算所述内容的使用频率。基于由此计算的使用频率,生成表明用户偏好的用户偏好信息。然后基于所生成的用户偏好信息来给出内容建议。


图1是示出适用于本发明的内容建议系统的典型结构的示意图。
图2是示出典型元数据的示意图。
图3是示出如何编组内容的说明性视图。
图4是示出如何编组内容的另一说明性视图。
图5是示出具有组ID的典型元数据的示意图。
图6是示出使用典型历史的示意图。
图7是示出图1中包括的内容建议服务器的典型结构的框图。
图8是示出图1中包括的客户设备的典型结构的框图。
图9是构成用户偏好信息生成过程的步骤的流程图。
图10是示出如何计算使用频率的说明性视图。
图11A是示出如何计算使用频率的另一说明性视图。
图11B是示出如何计算使用频率的另一说明性视图。
图12是示出如何验证使用状态的说明性视图。
图13是示出如何验证使用状态的另一说明性视图。
图14是示出如何验证使用状态的另一说明性视图。
图15是构成内容建议信息生成过程的步骤的流程图。
图16是示出内容建议信息典型显示的示意图。
图17是示出内容建议信息的另一典型显示的示意图。
图18是构成第一标题分组过程的步骤的流程图。
图19是构成第二标题分组过程的步骤的流程图。
图20是构成第三个标题分组过程的步骤的流程图。
图21是构成第四标题分组过程的步骤的流程图。
图22是构成主题节目设定过程的步骤的流程图。
图23是构成第一偏好信息提取过程的步骤的流程图。
图24是示出通常如何构造节目向量的示意图。
图25是示出通常如何构造偏好信息的示意图。
图26是构成第二偏好信息提取过程的步骤的流程图。
图27是构成第三偏好信息提取过程的步骤的流程图。
图28是构成偏好信息改变过程的步骤的流程图。
图29是构成特殊偏好信息生成过程的步骤的流程图。
图30是示出图7中包括的CPU的典型功能结构的框图。
图31是构成建议信息搜索过程的步骤的流程图。
图32是构成特殊建议信息搜索过程的步骤的流程图。
具体实施例方式
图1是示出适用于本发明的内容建议系统的典型结构的示意图。在图1中,递送服务器3从流数据库1获取流数据,并且把所获取的数据经由网络6递送到客户设备5,所述网络6诸如是因特网或其他适合的网络。所述递送服务器3还从元数据数据库2获得与内容有关的元数据,并且把所获得的数据经由网络6提供给内容建议服务器4。
如图2所示,所述元数据由表示内容属性的项目组成,所述属性诸如是“播出开始时间”、“播出结束时间”、“广播电视台”、“流派”、“标题”、“人员”、“小标题”和“关键字”。
就包括至少一个这种属性项的分组项而言,所述内容建议服务器4把相同的组ID提供给其组成项(即产生分组项的那些内容)具有高于预定值的相似度(即,表明每个属性项的组成项之间的部分或全体的一致性或相似性程度的值)的内容;由此把类似内容组织成同一组。
当存在由元数据项“广播电视台”、“播出开始时间”和“播出结束时间”形成的分组项时,把相同的组ID附于所述内容,所述内容例如可以是在00:00(播出开始时间)和06:00(播出结束时间)之间在8频道(广播电视台)上播出。
实际上采用上述分组项时,如图3所示,为产生分组项的组成项“广播电视台”、“播出开始时间”和“播出结束时间”的每一个分组来编组所述内容。
当存在由元数据项“流派”和“人员”形成的分组项时,把相同的组ID附于所述内容,所述内容例如可以是以人物A(作为人员)为特征的各种表演(作为)。
实际上采用前述分组项时,如图4所示,为产生分组项的组成项“流派”和“人员”的每一个分组来编组所述内容。
如果存在多个分组项,那么根据内容的项目,一个内容可以属于多个分组。例如,在00:00和06:00之间在8频道上作为以人物A为特征的各种表演而播出的节目属于两个组具有用于识别00:00(播出开始时间)和06:00(播出结束时间)之间的8频道上播出的节目的组ID(参见图3)的一个组,以及具有表明以人物A(人员)为特征的各种表演(流派)的节目的组ID(参见图4)的另一个组。
所述内容建议服务器4定期把承载如上略述那样(例如,参见图5)设定的组ID的元数据发送给客户设备5。
所述内容建议服务器4还从客户设备5获取包括内容的组ID的使用历史。基于所获取的使用历史,所述内容建议服务器4计算每组的使用频率。所述内容建议服务器4使用所计算的使用频率来表明用户偏好,由此给予每组内容建议。举例来说,把与属于具有高使用频率的组的内容有关的信息作为内容建议信息传输到客户设备5。
在使用从递送服务器3发送的内容的过程中,所述客户设备5可以向内容建议服务器4提供内容使用历史,诸如与所使内容有关的元数据(即,承载组ID的数据)如图6所示。
此外,所述客户设备5向用户提供从内容建议服务器4提供的内容建议信息。通过参考所提供的建议信息,用户可以选择符合他或她的偏好的内容。
经由网络6进行递送服务器3和客户设备5之间的通信。作为选择,所述递送服务器3和客户设备5可以彼此直接通信。
图7是示出所述内容建议服务器4的典型结构的框图。CPU(中央处理单元)11根据内容建议程序或保存在ROM(只读存储器)12中的其他适当的程序来执行处理。RAM(随机存取存储器)13保存CPU11执行其处理所需的数据。
把CPU11经由总线14与输入/输出接口15连接。所述输入/输出接口15与由键盘和鼠标构成的输入部件16、由液晶显示器(LCD)或类似设备形成的输出部件17、用于存储元数据及其他的存储部件18以及用于经由网络6与递送服务器3或客户设备5通信的通信部件19连接。
根据需要,把驱动器20连接至输入/输出接口15。所述CPU11向装入驱动器20的磁盘31、光盘32、磁光盘33或半导体存储器34写入并从中读取数据。
作为选择,所述CPU11可以利用三个部件来构造用于获取用户偏好信息的偏好信息获取部件,用于获取从递送服务器3发送的有关TV节目的元数据的元数据获取部件,以及用于生成与内容有关的建议信息的建议信息生成部件。
图8是示出所述客户设备5的典型结构的框图。这种结构基本上与内容建议服务器4的结构相同,因此不再进一步讨论。
如下参照图9的流程图描述的是当生成用户偏好信息时、内容建议服务器4如何工作。
在步骤S1,内容建议服务器4的CPU11确定是否是时候生成用户偏好信息。如果发现时间是正确的,那么到达步骤S2。更具体地说,如果来自于客户设备5的内容建议信息的请求(稍候解释)已经到达,或者如果预定的时间点(例如,每星期的固定时间)已经到达,那么到达步骤S2。
在步骤S2,所述CPU11经由通信部件19获取来自于客户设备5的使用历史。在此例子中,获取与在过去星期被使用的内容有关的元数据(承载组ID)。所述CPU11计算每一组的内容使用频率。
当提供包括组成项“广播电视台”、“播出开始时间”以及“播出结束时间”的分组项时,所述元数据具有对应于包含在分组项(即,产生分组项的组成项的分组)中的组ID。如图10所示,为产生分组项的组成项的每个分组计算内容使用频率(即,已经使用每个内容的次数)。
图10中所示的每一分组的使用频率如下20:00和21:00之间8频道上的节目播出以及在19:00和20:00之间10频道上的节目播出是最经常被浏览的(每个7次)。下一个稍低的浏览等级是22:00和23:00之间8频道上的节目播出(6次)。
当提供包括组成项“流派”和“人员”的分组项时,所述元数据同样具有对应于包含在分组项(即,产生分组项的组成项的分组)中的组ID。如图11A所示,为产生分组项的组成项的每个分组同样地计算内容使用频率(即,已经使用每个内容的次数)。
图11A中所示的每一分组的使用频率如下以人物D为特征的节目是最经常被观看的(十次)。最常观看的第二个是其中出现人物D的新闻节目(八次)。处于浏览等级的下一更低级的是以人物C为特征的各种表演(五次)。
已经递送的内容数量越大,所述使用频率就不成比例地变得越高。在那种情况下,所述频率不能正确地反映用户偏好。通过使用在对应于上面步骤S2获取的使用历史的时间段期间递送的多个内容来规范化使用频率,以此来防止这种瓶颈的发生。
举例来说,假定在图11的例子中,递送了(一个多星期)以人物D为特征的十个各种表演,在同一星期递送了呈现人物D的100个新闻节目;并且在同一周期期间递送了以人物C为特征的80个各种表演。在这种情况下,把图11A中的使用频率规范化为图11B所示那样。所述规范化过程把使用频率变为更加正确地反映用户偏好的那些内容。
返回图9,在步骤S3,内容建议服务器4的CPU11检测对于每个分组项而言、具有高于预定阈值的使用频率的组(即,它们的组ID)。
例如,假定对于包括组成项“广播电视台”、“播出开始时间”和“播出结束时间”的分组项而言、把阈值设定为7。在那种情况下,所述CPU 11检测两个组“20:00和21:00之间8频道”的组,以及“19:00和20:00之间的10频道”的组。
现在假定对于包括组成项“流派”和“人员”的分组项而言、把阈值设定为0.06。如果是这种情况,那么图11B的例子中的CPU11检测三个组“种类,人物D”组,“新闻,人物D”组以及“种类,人物C”组。
在步骤S4,CPU11确定在步骤S3中检测到每个组中的内容是否符合用户偏好。
举例来说,对属于给定组的递送内容的列表进行检验,以便浏览其内容是否无法连续浏览预定次数(例如三次)。如果发现所述内容不能被连续观看预定次数,那么发现该组中的内容未能符合用户偏好。
如图13所示,如果“种类,人物D”组中的节目不能被连续浏览三次,那么发现该组的内容未能适合用户偏好。
假定如图12所示,“20:00和21:00之间8频道”组中的最新节目A无法观看,而在该节目之前被递送的节目可以浏览(即,不能连续向上传递三次)。在那种情况下,不能得出“20:00和21:00之间8频道”组中的内容未能符合用户偏好(即,它们符合用户偏好)。
作为选择,如图14所示,如果发现给定组中的内容可以被连续观看预定次数(例如,三次),那么可以得出该组中的内容符合用户偏好。
在步骤S5,CPU11基于在步骤S4中确定的内容来检测由符合用户偏好的内容组成的组。
在步骤S6,CPU11把在步骤S5中检测到组的组ID作为用户偏好信息存储到存储部件18中。
更具体地说,在该情况下作为用户偏好信息存储到存储部件18中的内容是由如下组ID组成的,也就是相当于包括组成项“广播电视台”、“播出开始时间”、“播出结束时间”的分组项的“20:00和21:00之间8频道”组和“19:00和20:00之间10频道”组的组ID;以及涉及包括组成项“流派”和“人员”的分组项的“新闻,人物D”组和“种类,人物C”组的组ID。
如下参照图15的流程图描述的是当生成内容建议信息时、内容建议服务器4如何工作。
在步骤S21,所述内容建议服务器4的CPU11等待来自于客户设备5的内容建议信息的请求。当检测到请求时,到达步骤S22。在步骤S22,CPU11从存储部件18获取如上所述那样生成的用户偏好信息。
在步骤S23,根据将要被递送的内容上的元数据(承载组ID),CPU11提取承载相同组ID的元数据作为用户偏好信息。根据提取出的元数据,CPU11生成内容建议信息。
如果存在多个组ID被存储为用户偏好信息,那么CPU11可以提取与所有这种组ID所附于的内容有关的元数据。
在步骤S24,CPU11把在步骤S23生成的内容建议信息经由通信部件19传输至客户设备5。所述客户设备5又令输出部件57显示从内容建议服务器4发送的内容建议信息。
图16和17是示出内容建议信息的典型显示的示意图。图16的例子示出了相对于由组成项“广播电视台”、“播出开始时间”和“播出结束时间”形成的分组项、与属于“20:00和21:00之间8频道”组和“19:00和20:00之间10频道”组的节目有关的信息(标题等等)。
图17的例子表明与属于涉及由组成项“流派”和“人员”组成的分组项的“新闻,人物D”组和“种类,人物C”组的节目有关的信息(标题等等)。可以根据使用屏幕的大小、把示出与不同组的节目有关的信息的窗口依照叠盖的方式来显示,如图17所示。当选择所希望的节目来观看时,用户可以查阅由此显示的内容建议信息。
依照所述的方式,基于每个组的组ID来为每个组计算作为掌握用户偏好的基础的使用频率。在那种情况下的计算过程在计算量上明显要少于为每个元数据项计算使用频率。
因为所述内容建议信息是以组为基础进行显示的,故而即便在具有有限显示区域的客户设备5上,也能够正确地显示信息。
虽然上述描述示出了把内容按照诸如“广播电视台”、“播出开始时间”、“播出结束时间”、“流派”和“人员”的元数据项来分组,但是这不是对本发明的限制。诸如“标题”和“细节”的其他项也可用于分组过程。因此,相对于原始节目再上演和特别版本可以作为与原始节目属于同一组的内容来处理。换言之,无论给定的节目是原始节目还是再上演,只要已经浏览过该节目一次,那么就在生成用户偏好信息的过程中反映其使用历史。
如下参照图18的流程图所述的是第一标题分组过程,借此过程把内容通过项目“标题”的使用来分组。
在步骤S61,内容建议服务器4从元数据提取标题。
在步骤S62,内容建议服务器4把提取出的标题从词法上分解为字。例如,如果元数据中包括电影标题“TOKAIDO-MITSUYA-KAIDAN”,那么可以提取所述标题,并且从词法上分解成三个字TOKAIDO、MITSUYA和KAIDAN。
在步骤S63,内容建议服务器4提取分解的字或字组的其中一个,并且从存储部件18搜索对应于所提取的字或字组的组ID。
在此环境下,字组是作为由词法分析获得的字的组合而生成的。举例来说,如果通过词法分析获得字TOKAIDO、MITSUYA和KAIDAN,那么可以获取三个分组TOKAIDO-MITUYA、TOKAIDO-KAIDAN和MITSUYA-KAIDAN来作为分解的字组。
在步骤S64,所述内容建议服务器4确定是否已经提取了相应的组ID。
如果在步骤S64发现没有提取相应的组ID,那么这意味着提取出的字或字组还不具有组ID。在那种情况下到达步骤S65。在步骤S65,把新的组ID分配给提取出的字或字组。所述内容建议服务器4把提取出的字或字组与相应的组ID相关联地加以存储。
如果在步骤S64,发现提取了相应的组ID,或在步骤S65的过程完成之后,到达步骤S66。在步骤S66,所述内容建议服务器4确定是否对构成标题的所有字或所有字组提取了组ID。
如果在步骤S66发现没有对构成标题的所有字或所有字组提取组ID,那么再次到达步骤S63,并且重复后续步骤。
如果在步骤S66发现已经对构成标题的所有字或所有字组提取了组ID,那么到达步骤S67。在步骤S67,内容建议服务器4把提取出的或被分配的组ID与元数据关联,并且终止所述处理。
把具有类似标题的节目置于同一组是可能的。例如,可以标题为“2-NEN-A-GUMI-GINPACHI-SENSEI”的电视连续剧和标题为“2-NEN-A-GUMI-GINPACHI-SENSEI-SPECIAL”的专题节目放置在同一组中。基于词法分解的构成每个标题的字,可以在预定时间段(两个星期、一个月、六个月等等)上检验节目的标题在分解的字之间的循环(round-robin)匹配中的一致性之后,把节目放入同一组中。
如下参照图19的流程图描述的是第二标题分组过程,借此过程可以基于构成它们标题的字之间的一致程度(即,相对于由构成项“标题”形成的分组项的分组过程)来对内容进行分组。
在步骤中S401和S402,进行如上参照图18所述的步骤S61和S62的相同的过程。也就是说,内容建议服务器4从元数据提取标题并且把提取出的标题从词法上分解为字。
在步骤S403,基于所分解的字,内容建议服务器4根据它们的组成字计算标题之间的一致度。
更具体地说,假定从词法上把标题“2-NEN-A-GUMI-GINPACHI-SENSEI”分解为“2”、“NEN”、“A”、“GUMI”、“GINPACHI”和“SENSEI”,把标题“2-NEN-A-GUMI-GINPACHI-SENSEI-SPECIAL”分解为“2”、“NEN”、“A”、“GUMI”、“GINPACHI”、“SENSEI”和“SPECIAL”。在那种情况下,发现构成两个节目标题的6/7或85.7%的字是彼此一致的。
在步骤S404,内容建议服务器4确定分解的字是否具有所述的至少70%的一致度。显然,作为选择,一致性的阈值可以是不同于70%的任何值。
如果在步骤S404,发现至少70%或任何其他预定百分比的字彼此一致,那么到达步骤S405。在步骤S405,内容建议服务器4把具有这些标题的节目与同一组ID相关联。然后,所述内容建议服务器4把匹配的字或字组与相应的组ID相关联。
如果在步骤S404,发现低于70%或任何其他预定百分比的字一致,或者完成步骤S405的过程,那么到达步骤S406。在步骤S406,内容建议服务器4确定是否以循环为基础处理了所有的标题。
如果在步骤S406发现没有以循环的方式对所有标题都进行了处理,那么再次到达步骤S403,并且重复后续步骤。如果在步骤S406发现已经处理了所有标题,那么内容建议服务器4终止所述处理。
如上所述,基于构成它们标题的字之间的一致度来给节目提供相关的组ID。举例来说,把标题相同的电视连续剧和专题节目放入同一组中。
当基于构成它们标题的字之间的一致度来编组节目时,能够在分组过程期间忽略元数据表示法中的细小变化。例如,无论节目各自的标题是依照缩小一半或全长的数字或字母字符来表明、或者依照大写字母或小写的字母字符来表明,具有相同标题的节目可以作为属于同一组的节目而被检测出来。
除一致度以外,可以建立诸如广播电视台、流派或播出开始时间的另一分组条件。例如,因为新闻节目通常使用包括字“新闻”的少数字来命名,所以图19的过程会错误地把来自不同广播电视台具有不同格式的新闻节目因它们的类似标题而作为属于同一组的那些节目被检测出来。通过除了发现构成节目标题的字之间的一致度高于阈值外,只有当还发现节目来自同一广播电视台时才把节目放入同一组来避免发生此缺陷。
如下参照图20的流程图描述的是第三个标题分组过程,借此过程可以除基于构成它们标题的字之间的一致程度之外,还基于发送节目的广播电视台的一致性(即,相对于由组成项“标题”和“广播电视台”形成的分组项的分组过程)来对内容进行分组。
在步骤中S421至S424,进行与如上参照图19所述的步骤S401至S404相同的过程。也就是说,内容建议服务器4从元数据提取标题并且把提取出的标题从词法上分解为字。基于所分解的字,内容建议服务器4根据它们的组成字来计算标题之间的一致度。然后,内容建议服务器4确定所分解的字是否具有至少70%或任何其他预定阈值的一致度。
如果在步骤S424发现至少70%或任何其他预定百分比的字彼此一致,那么到达步骤S425。在步骤S425,内容建议服务器4确定承载已分解标题的节目是否是从同一广播电视台发送的。
如果在步骤S425发现所述节目来自于同一广播电视台,那么到达步骤S426。在步骤S426, 内容建议服务器4把这些节目与同一组ID相关联。然后,所述内容建议服务器4把匹配的字或字组与相应的广播电视台和组ID相关联地存储。
如果在步骤S424发现低于70%或任何其他预定百分比的字一致,如果在步骤S425,发现所述节目不是来自于同一广播电视台,或者完成了步骤S426的过程,那么到达步骤S427。在步骤S427, 内容建议服务器4确定是否已经以循环为基础处理了所有的标题。
如果在步骤S427发现没有以循环的方式对所有标题都进行了处理,那么再次到达步骤S423,并且重复后续步骤。如果在步骤S427发现已经处理了所有标题,那么内容建议服务器4终止所述处理。
如上所述,基于广播电视台匹配并且基于构成它们标题的字之间的一致度来把节目与相关组ID关联。例如,当对类似地命名的节目进行分组过程时,不会把来自于一个广播电视台的新闻节目和来自于不同广播电视台的另一新闻节目放入同一组中。
图20的过程是除基于是否有至少预定百分比的构成节目标题的字相一致外、还基于节目是否来自同一广播电视台来把节目分组的过程。作为另一替代方式,除基于在构成节目标题的字之间是否检测到至少预定的一致度以外,所述分组过程显然还可以基于节目是否处于同一播出时隙、处于同一流派等等来进行。
此外,还可能发生的是,因为体育实况电视转播被延长或者专题节目被插入,所以处于固定时隙的电视连续剧或每日节目的播出开始时间被改变。在这种情况下,除确认至少有预定百分比的构成节目标题的字与改组分解的字一致以外,如果发现节目的播出开始时间符合预定时间偏差内的原始时间,诸如在一个小时的界限内,那么仍然可以把所查询的节目检测为作为属于同一组。
如下参照图21的流程图描述的是第四标题分组过程,借此过程除了可以基于是否至少有预定百分比的构成节目标题的字一致之外,还基于节目的播出开始时间是否在预定时间偏差内从原始时间被改变(即,相对于由组成项“标题”和“播出开始时间”形成的分组项的分组过程)来对内容进行分组。
在步骤S441至S444,进行与如上参照图19所述的步骤S401至S404相同的过程。也就是说,内容建议服务器4从元数据提取标题并且把提取出的标题从词法上分解为字。基于所分解的字,内容建议服务器4根据它们的组成字来计算标题之间的一致度。然后,内容建议服务器4确定所分解的字是否具有至少70%或任何其他预定阈值的一致度。
如果在步骤S444发现至少70%或任何其他预定百分比的字一致,那么到达步骤S445。在步骤S445,内容建议服务器4确定承载已分解标题的节目的播出开始时间是否在预定时间偏差内、即一个小时内与原始时间一致。
如果在步骤S445发现节目的播出开始时间在预定时间偏差内一致,那么到达步骤S446。在步骤S446,内容建议服务器4把这些节目与同一组ID相关联。然后,所述内容建议服务器4把匹配的字或字组与相应的播出开始时间偏差和组ID相关联。
如果在步骤S444发现低于70%或任何其他预定百分比的字一致,如果在步骤S445发现所述节目在预定时间偏差以外被改变,或者完成了步骤S446的过程,那么到达步骤S447。在步骤S447,内容建议服务器4确定是否以循环为基础处理了所有的标题。
如果在步骤S447发现没有以循环的方式对所有标题都进行了处理,那么再次到达步骤S443,并且重复后续步骤。如果在步骤S447发现已经处理了所有标题,那么内容建议服务器4终止所述处理。
如上所述,基于播出开始时间偏差匹配并且基于构成它们标题的字之间的一致度来把节目与相关组ID关联。例如,当对类似地命名的节目进行分组过程时,专门插入的节目或者其他计划混乱将无法防止应该被放入同一组的节目由此来进行分组。
依照上述例子,示出了执行用户偏好信息生成过程(图9)和内容建议信息生成过程(图15)的内容建议服务器4。作为另一可替代方式,所述客户设备5可以通过使用承载由内容建议服务器4提供的组ID的元数据(即,分组信息)、计算每组的使用频率来生成用户偏好信息。然后,所述客户设备5可以使用由此生成的用户偏好信息作为创建内容建议信息的基础。
作为进一步的替代方式,能够把经常浏览的节目作为主题节目来建议,所述主题节目可以在无人管理的情况下被自动记录或者可由用户打开以便浏览。现在将参考图22描述典型的主题节目设定过程。此过程是在内容建议服务器4执行参照图15所述的内容建议信息生成过程之前被进行的。
在步骤S501,CPU11分析使用历史。在此步骤中,如在图9的步骤S2中一样,CPU11从客户设备5获取与预定时间段上使用的内容有关的元数据(承载组ID),并且分析获取的数据的每组的使用频率(图10)或分析它们的规范化的使用频率(图11B)。
在步骤S502,CPU11确定是否存在其使用频率(即,浏览频率)超出预定阈值的任何组。如果发现存在任何这种组,那么到达步骤S503。在步骤S503,CPU11把主题标志设定为与属于该组的节目(其使用频率超出预定阈值)有关的内容建议信息,所述主题标志表明所述节目均是主题节目。
如果在步骤S502,CPU11发现其浏览频率超出阈值的任何组,那么作为选择,可以在步骤S503把主题标志附于内容建议信息上,所述内容建议信息与属于该组的节目有关。
如果在步骤S502,CPU11发现没有其浏览频率高于阈值的组,那么CPU11终止该处理。
在图15的内容建议信息生成过程期间,把如上所述附于主题标志的内容建议信息传输到客户设备5。这样允许客户设备5例如自动记录对应于承载主题标志的内容建议信息的节目。
尽管图9的用户偏好信息生成过程示出了获取组ID存为用户偏好信息,但是这不是对本发明的限制。作为选择,能够基于与节目有关的元数据中包括的多个属性来生成更加详细的偏好信息,并且根据由此生成的偏好信息来建议节目。如下参照图23描述的是第一偏好信息提取过程,即,基于节目元数据中包括的多个属性来生成更加详细的偏好信息的第一例子。此过程是由内容建议服务器4例如在预定时间段(例如每个星期每日的固定时间)来进行的。
在步骤S521,CPU11分析使用历史。在此步骤中,如在图9的步骤S2中一样,CPU11从客户设备5获取与预定时间段上使用的内容有关的元数据(承载组ID),并且分析获取的数据的每组的使用频率(图10)或分析它们的规范化的使用频率(图11B)。
在步骤S522,CPU11确定是否存在其使用频率超出预定阈值的任何组。作为选择,如果已经递送了该组中的至少预定数量的节目,那么就可以检测到组。
在步骤S523,CPU11确定是否已经检测到任何这种组。如果发现存在相关的组,那么到达步骤S524。在步骤S524,CPU11分析与属于已检测组的节目有关的元数据。如果该组中存在多个节目,那么CPU11分析与此节目有关的元数据。在步骤S525,CPU11基于在步骤S524分析的节目元数据来生成节目向量。
图24示出了如何构造在上述过程生成的典型的节目向量PP。在此例子中,节目向量PP是由表示在步骤S524分析的节目元数据中的属性的因数来构成的,所述属性是“标题(节目名称;因数Tm)”、“流派(因数Gm)”、“人员(因数Pm)”、“电视台(因数Sm)”、“小时(因数Hm)”等等,以便PP=(Tm,Gm,Pm,Sm,Hm,等等)。因数Tm、Gm、Pm、Sm、Hm等等的每个还作为向量来构造,所述向量由多个包含的因数组成。
例如,对应于属性“电视台”的向量Sm可以表示广播电视台的相对有限的集合,诸如MHK General、MHK Educational、Asia TV、TAS、Fushi、TV Nippon、Toto、MHK BS1、MHK BS2和WOWO(都是想象的电视台名称)。在那种情况下,可以把向量构造为Sm={MHKGeneral,MHK Educational,Asia TV,TAS,Fushi,TV Nippon,Toto,MHK BS1,MHK BS2,WOWO},其中由“1”表示可利用的电视台,而由“0”表示所有其他电视台。例如,如果可利用的电视台是WOWO,那么可以给出的项目“电视台”的向量表示是Sm={0,0,0,0,0,0,0,0,0,1}。
对应于属性“流派”的向量Gm还表示有限的选项种类,诸如戏剧、各种表演、体育、电影、音乐、面向孩子的教育节目、文化和记录片节目、新闻和报导以及其他。在那种情况下,所述向量可以被结构为Gm={戏剧,各种表演,运动,电影,音乐,面向孩子的教育节目、文化和记录片节目、新闻和报导和其他},其中可利用的流派由“1”表示,而所有其他流派由“0”表示。例如,如果可利用的流派是文化和记录片节目,那么可以给出的项目“流派”的向量表示是Gm={0,0,0,0,0,0,1,0,0}。
对应于属性“小时”的向量Hm使用与属性“电视台”的向量Sm和属性“流派”的向量Gm一样的方法来定义。
另一方面,存在诸如“标题”和“人员”的属性,其难以按照因数来限制。在此情况下,采用均由表示所查询属性的字形成的因数并且由表示所查询字的出现频率的数字来构造属性。例如,如果节目元数据中的属性是作为“人员A、人员B等等”而给出的,那么对应于属性“人员”的向量可作为Pm={(人员A-1),(人员B-3)等等}来给出。所述因数(人员A-1)和(人员B-3)表明构成元数据属性“人员”的字“人员A”和“人员B”已经被分别检测到一次和三次。
还可能发生的是,在步骤S522中检测到多个节目。在那种情况下,在步骤S525,为每个检测到的节目生成节目向量。
在步骤S526,CPU11通过合成在步骤S525生成的节目向量来生成偏好信息。在此步骤中,例如来自多个节目向量的属性填塞物是放在一起以便生成偏好信息。
图25示出了由此生成的典型偏好信息。在此例子中,偏好信息是作为由表示属性的因数组成的向量UP而提供的,所述属性是“标题(节目的;因数Tup)”、“流派(因数Gup)”、“人员(因数Pup)”、“电视台(因数Sup)”、“小时(因数Hup)”等等,以便使UP=(Tup,Gup,Pup,Sup,Hup等等)。因数Tup,Gup,Pup,Sup,Hup等等的每个还作为向量来构造,所述向量由多个包含的因数组成。
在上述例子中,对应于属性“标题(节目的)”的向量是作为Tup={(标题1-12),(title 2-3)等等}来给出的。这指的是,偏好信息的属性“标题”包括因数(标题1)和(标题2),并且这些因数具有分别设定为12和3的重要程度。
重要程度代表用户有多喜欢感兴趣的因数。当把一节目向量添加到包含同一因数的另一向量时,所述重要程度加1。举例来说,假定基于20个节目向量PP1至PP20来生成偏好信息,并且假定三个节目向量PP5、PP10和PP17在它们的属性Tm中均具有因数“标题2”。在那种情况下,Tup的因数“标题2”的重要程度被设定为3。
举例来说,对应于属性“流派”的向量被定义为Gup={(戏剧-25),(各种表演-34),(体育-42),(电影-37),(音乐-73),(面向孩子的教育节目-120),(文化和记录片节目-3),(新闻和报导-5)和(其他-23)}。采用均包括在属性“流派”中并且均承载适用于所查询的因数的重要程度的因数来由此构造所述向量。
对应于偏好信息的属性“电视台”的向量Sup,对应于属性“人员”的向量Pup等等用与上述方法相同的方法来定义,每个向量由构成所查询的属性的因数并且由组成因数的重要程度来形成。
还可能发生的是,在步骤S523,CPU11没有检测到已经至少浏览了预定次数的内容的任何组。在那种情况下,CPU11跳过步骤S524至S526,并且终止所述处理。
前述描述示出的是如何生成偏好信息。因为所述偏好信息是基于与至少浏览或递送预定次数的节目有关的元数据而生成的,故而在所生成的信息中正确地反映出了用户偏好。
作为选择,可以在步骤S521根据特定用户通过分析他的或她的内容使用历史来生成偏好信息。作为另一替代方式,可以在步骤S521通过分析多个用户的内容使用历史来生成通用偏好信息(即,对多个用户通用)。
当进行如上参照图23所述的第一偏好信息提取过程时,每当累计包含相同因数的节目向量时,就增加重要程度。从而,与用户经常观看的节目有关的元数据中包括的因数的重要程度可以变得非常高。这样可以产生侧重的偏好信息。例如,如果用户无穷无尽地观看每天播出的节目(即,星期一至星期五),那么与该节目有关的元数据中包括的某一因数(例如人物A)的重要程度与其他因数相比会非常高。在这种情况下,会妨碍在偏好信息中获得与经常观看的节目(即主题节目)有关的元数据的反映。这是通过如下在参照图26描述的第二偏好信息提取过程中实现的,即基于节目元数据中包括的多个属性生成偏好信息的第二例子。
步骤S541至S543与图23中的步骤S521至S523相同,由此将不再讨论。在步骤S544,CPU11检验以便确定在步骤S542中检测到组中的一个或多个节目是否是主题节目。在步骤S544的检验是基于主题标志作出的,所述主题标志已经通过上文参照图22描述的主题节目设定过程设定了。
如果在步骤S544发现所检验的节目不是主题节目,那么到达步骤S545。在步骤S545,CPU11用和图23的步骤S524和S525一样的方法来分析与节目有关的元数据。在步骤S546,CPU11根据所分析的数据生成节目向量。在步骤S547,CPU11基于所述节目向量来生成偏好信息。
如果在步骤S544发现已检验的一个或多个节目是主题节目,那么跳过步骤S545至S547。
当如上所述那样执行上述步骤时,生成偏好信息,而不考虑是否为主题节目。这能够防止生成单方面的偏好信息。
根据图23的上述过程,对组中所有这些节目类似地生成节目向量,其中所述节目已经被至少浏览了预定次数(或频率)。举例来说,假定存在连续播出的节目A1、A2、A3等等(被称为系列节目A,其中不必区别单个节目;类似属性的其他节目也这样叫),以及节目B1、B2、B3等等(均属于不同的组)。在那种情况下,如果每组的阈值使用频率是三次,那么被浏览了三次的节目A(更确切的说,三个系列节目被观看)被给予基本上与浏览了十次的节目B(连续的10个节目被观看)相同的节目向量。
然而,用户也许具有与系列节目A和B有关的不同的认识。例如,用户很可能非常了解看了十次的系列节目B(例如,用户熟悉节目中出现的角落和人物),但是不那么了解仅仅浏览三次的节目A。实际上,用户也许希望偶尔忽略系列节目A。基于这种考虑,合乎需要的是生成能够反映已观看的节目的熟悉程度的偏好信息。这是通过如下在参照图26描述的第三偏好信息提取过程中实现的,即基于节目元数据中包括的多个属性生成偏好信息的第三个例子。
步骤S561至S565与图23中的步骤S521至S525相同,由此将不再讨论。在步骤S566,CPU11规定用户的节目熟悉程度。熟悉程度是基于已经使用了多少次系列节目(即,组)来规定的,正如早先在步骤S561分析的那样。举例来说,可以根据系列节目的使用频率为其设定三个熟悉程度的其中一个。如果所述使用频率是0.1或更高,那么把熟悉程度设定为“高”;如果使用频率至少是0.05并且小于0.1,那么把熟悉程度设定为“中”;如果使用频率小于0.05,那么把熟悉程度设定为“低”。
三个熟悉程度不是对本发明的限制;显然可以存在更多或者更少的熟悉程度。可替换地,不以程度而是以数字来表示熟悉。熟悉还可以不基于多么频繁地观看每个节目,而是基于已经递送了多少节目来进行表示。
在步骤S567,CPU11基于所获取的熟悉程度给予在步骤S565生成的节目向量以权重。举例来说,对于基于其熟悉程度为“高”的节目向量中包括的因数而生成的偏好信息,把重要程度乘三倍;对于基于其熟悉程度是“中”的节目向量中包括的因数生成的偏好信息,把重要程度乘两倍;对于基于其熟悉程度为“低”的节目向量中包括的因数而生成的偏好信息,把重要程度乘以1。
在步骤S568,CPU11基于在步骤S567加权的节目向量来生成偏好信息。就此,假定构成其熟悉程度是“高”的节目向量PP1的向量Pml被指定为Pml=(人员A);假定构成其熟悉程度是“中”的节目向量PP2的向量Pm2被指定为Pm2=(人员B);并且构成其熟悉程度是“低”的节目向量PP3的向量Pm3被指定为Pm3=(人员C)。在那种情况下,对应于偏好信息的属性“人员”的向量Pup被指定为Pup={(人员A-3),(人员B-2),(人员C-1)}。
如上所述来生成反映用户对内容的熟悉程度的偏好信息。作为选择,可以在步骤S561根据特定用户通过分析他的或她的内容使用历史来生成偏好信息。作为另一替代方式,可以在步骤S561通过分析多个用户的内容使用历史来生成通用偏好信息(即,对多个用户通用)。例如,基于通用偏好信息,可以向用户建议其内容使用历史仍未被累积的节目(即,内容)。由于按照用户偏好的反映来生成偏好信息,所以借助于该信息能够建议被认为相当适合于用户偏好的节目,而无论这些节目的评级如何。
在上述例子中,每当浏览节目时,偏好信息的重要程度被增加。然而,有时必须减少这种重要程度。举例来说,用户也许删去已经被自动预定以便在无人管理的情况下记录的主题节目。其记录预定被删去的节目也会经常被浏览,但是忽略了这时用户已经失去了对节目内容的兴趣。在这种情况下,用户的偏好信息基于与其记录预定已经被删去的节目有关的元数据来改变。
现在将参考图28描述这种偏好信息改变过程。此过程是当客户设备5的CPU51检测到给定节目的自动记录预定的取消并且经由网络6通知内容建议服务器4已删去的节目时、通过内容建议服务器4来执行的。
在步骤S581,CPU11获取与其自动记录预定已经被删去的节目有关的元数据(例如,系列节目的10个部分的第三个)。在步骤S582,CPU11分析所获取的元数据中的属性。在步骤S583,CPU11把与自动记录预定被保存的节目有关的偏好信息属性、与有关其自动记录预定已经被删去的节目的元数据属性相比较。在步骤S584,CPU11检测通过比较获得的“负”因数。
例如,假定系列节目X被自动地设定为无人管理的记录,并且假定用户具有删去了其部分之一的记录预定。还假定在根据与保存有自动记录预定的节目X的部分有关的元数据而生成的节目向量PP1中,对应于属性“人员”的向量Pml被指定为Pml=(人员A,人员B),并且假定在根据与已经被删去自动记录预定的节目X的部分有关的元数据而生成的节目向量PP2中,对应于属性“人员”的向量Pm2被指定为Pm2=(人员A,人员B,人员C)。在那种情况下,节目X的删去部分是用户大概因为该节目中出现的人员C而拒绝的部分。由此,在步骤S584,因数“人员C”作为负因数被检测到。
在步骤S585,CPU11基于在步骤S584中检测到负因数或因数来改变用户的偏好信息。在这一点上,负因数的重要程度被减少。如果对应于偏好信息中的属性“人员”的向量Pup例如被指定为Pup={(人员A-5),(人员B-2),(人员C-3)},那么在步骤S585把向量改变为Pup={(人员A-5),(人员B-2),(人员C-2)}。也就是说,因数“人员C”的重要程度被减1。
如上所述来改变偏好信息。当用户不喜欢的任何因数的重要程度依照该方式被降低时,能够建议用户更加适合用户偏好的节目(内容)。
虽然上文示出了如何基于与已经被至少浏览预定次数的系列节目有关的元数据来生成偏好信息,但是如果始终基于由此生成的偏好信息来提供节目建议,用户也许会觉得厌烦。这种缺陷是通过获得已经被首次浏览的一个或多个节目的特殊通知的本发明的设置来避免的。因为认为用户对以前从未观看的这种节目非常感兴趣,所以可以基于有关该节目的元数据来生成特殊偏好信息。
如下参照图29描述的是由内容建议服务器4进行的特殊偏好信息生成过程。此过程可以通过用户输入适当的命令来人工地开始,也可以定期(例如每个星期)自动开始。
在步骤S601,CPU11查找用户的使用历史。在此步骤中,CPU11从客户设备5中获取与已经使用了预定时间段(例如,过去的六个月)的内容(承载组ID)有关的元数据,以便分析所涉及的每组的使用频率(参见图10)。
在步骤S602,CPU11检测已经观看了一次的系列节目(即,一组节目,其中一个已经被浏览)。在步骤S603,CPU11确定是否已经检测到了这种系列节目。如果检测到了系列节目,那么到达步骤S604。在步骤S604,CPU11基于与属于检测到的系列节目的节目有关的元数据来生成特殊偏好信息。在此步骤中,用和图23的步骤S524至S526中一样的方法来根据节目元数据首先生成节目向量,并且基于由此生成的节目向量来生成特殊偏好信息。如果在步骤S603没有检测到这种系列节目,那么跳过步骤S604的过程。这就是如何基于与用户已经首次观看的节目有关的元数据来生成特殊偏好信息的过程。
以下描述是如何基于如上参照图23、26或27所述的过程生成的偏好信息来建议内容。
图30是示出了内容建议服务器4中CPU11的典型功能结构的框图,所述结构是当所述CPU11基于图23、26或27的过程生成的偏好信息来建议内容时实际使用的。此功能结构包括用于获取节目元数据的元数据获取部件111,以及用于获取特定用户偏好信息的偏好信息获取部件112。
把元数据获取部件111获取的节目元数据输出到节目向量提取部件113。所述节目向量提取部件113从所接收的元数据中提取节目向量。把偏好信息获取部件112获取的偏好信息输出到偏好向量提取部件114,以便从所述偏好信息中提取偏好向量。把节目向量提取部件113提取的节目向量以及由偏好向量提取部件114提取的偏好向量输出到匹配处理部件115。所述匹配处理部件115依次计算节目向量和偏好向量之间的相似度。
相对于每个偏好向量来符合多个节目向量。所述匹配处理部件115依照节目向量与偏好向量的相似度的递减顺序来选择预定数量的节目向量。然后,所述匹配处理部件115把与对应于所选节目向量的节目有关的元数据输出到信息输出部件116。
所述信息输出部件116例如把与匹配处理部件115选择的节目有关的元数据存储到存储部件18中。
如下参照图31的流程图描述的是建议信息搜索过程。在步骤S621,所述元数据获取部件111获取与内容(节目)有关的元数据。在此步骤中,根据预定的规则获取与多个节目(例如,将在下周播出的节目)有关的元数据。在步骤S622,所述节目向量提取部件113从在步骤S621获取的节目元数据中提取节目向量。就此,使用与如上参照图24所述的节目向量的提取一样的方法来提取多个节目的节目向量。
在步骤S623,所述偏好向量提取部件114获取与特定用户有关的偏好信息。在步骤S624,偏好向量提取部件114生成偏好向量。在此步骤中,偏好向量可以依照诸如图25中所示的偏好信息的形式来生成,或者依照构成偏好信息的具体提取的属性的形式来生成。
在步骤S625,举例来说,所述匹配处理部件115计算方面在步骤S622生成的节目向量PP和另一方面在步骤S624生成的偏好向量UP之间的余弦距离。如果把向量PP和向量UP之间形成的角度假定为0,然后cosθ=PP·UP/|PP||UP|。
例如,如果偏好向量被指定为UP=(Tup,Gup,Pup,Sup,Hup等等),其中所述向量Pus是指定为Pup={(人员A-1),(人员B-1),(人员C-1)},并且如果节目向量被指定为PP=(Tm,Gm,Pm,Sm,Hm等等),其中向量Pm被指定为Pm={(人员A-1),(人员D-1),(人员E-1)},那么如下计算余弦距离cosθpcosθp=(1·1)/(3×3)=1/3...(1)]]>其中,符号“·”代表标量积并且;“X”代表标量运算。
用和cosθp一样的方法,在向量Tup、Gum、Sup、Hup等等和向量Tm、Gm、Sm、Hm等等之间计算余弦距离cosθt、cosθg、cosθs、cosθh等等。然后通过累加计算的余弦距离来如下计算相似度SimSim=cosθt+cosθg+cosθp+cosθs+cosθh...(2)前述描述示出的是如何计算偏好向量UP和节目向量PP之间的相似度。具体来讲,在一方面的一个偏好向量UP和另一方面的多个节目向量PP之间计算相似度。这能够确定用户的偏好信息和与检验的每个节目有关的元数据之间的相似度。
在步骤S626,所述匹配处理部件115选择与具有较高相似度的节目有关的元数据。在此步骤中,依照它们在步骤S625中计算的相似度(即Sim值)的递减顺序来选择预定数量(例如,10)的节目向量PP。然后输出与对应于所选节目向量PP的节目有关的元数据。作为选择,能够选择其相似度高于预定值的所有节目向量PP,以便输出与对应于所选节目向量PP有关的节目的元数据。
在步骤S627,信息输出部件116把与在步骤S626提取的节目有关的内容建议信息发送给客户设备5。这就是如何基于用户的偏好信息来建议节目的过程。
节目还可以根据由上文参照图29描述的过程生成的特殊偏好信息来得以建议。下面将参照图32描述由内容建议服务器4执行的特殊偏好信息搜索过程。此过程可以通过用户输入适当的命令来人工地开始,也可以定期(例如每个星期)自动开始。
步骤S641和S642与图31中的步骤S621和S622相同,由此将不再描述。
在步骤S643,所述偏好向量提取部件114获取特殊偏好信息。在此步骤中,获得通过图29的特殊偏好信息生成过程生成的特殊偏好信息。在步骤S644,所述偏好向量提取部件114基于在步骤S643获取的特殊偏好信息来生成偏好向量。
步骤S645和S646与图23中的步骤S625和S626相同,由此将不再描述。
在步骤S627,信息输出部件116把与在步骤S646提取的节目有关的内容建议信息发送给客户设备5。
这就是如何基于特殊偏好信息来建议内容的过程。如上所述,特殊偏好信息是根据与用户已经首次观看的节目有关的元数据来生成的。基于这种特殊偏好信息向用户建议内容有助于向他们提供料想不到的具有新鲜印象的节目。
作为选择,可以通过软件执行如上所述的一系列步骤或过程。为了进行基于软件的处理,可以预先把构成所述软件的程序并入计算机的专用硬件,或者从记录介质安装到通用个人计算机或类似设备中,所述设备能够基于安装的程序执行各种各样的功能。
如图7和8所示,被提供以用于承载待安装的程序的记录介质例如是由磁盘31或71(包括软盘)、光盘32或72(包括CD-ROM(光盘-只读存储器)和DVD(数字通用盘))、磁光盘33或73(包括MD(迷你盘;注册商标))、或者半导体存储器34或74构成的封装介质。
依照这种描述,存储在记录介质上并且描述待执行的程序的步骤不仅表示将依照时间序列进行的过程,而且表示可以并行或逐个执行的过程。
在本说明书中,术语“系统”指的是由多个组成设备组成的整体结构。
工业实用性根据本发明,基于为每组内容检测的用户的内容使用频率来建议内容,所述内容根据均由表示内容属性的组成项组成的分组项来分组。
权利要求
1.一种信息处理设备,包括分组装置,用于把递送的内容编组,每组均由被给予相同组ID的内容构成,从而具有关于分组项的高于预定值的相似度,所述分组项包括表示内容属性的至少一个属性项;计算装置,用于对于每个组ID来计算所述内容的使用频率;生成装置,用于基于由所述计算装置计算的使用频率来生成用户偏好信息,所述用户偏好信息表明用户的偏好;以及建议装置,用于基于由所述生成装置生成的所述用户偏好信息来给出内容建议。
2.如权利要求1所述的信息处理设备,其中为所述信息处理设备建立分组属性,所述分组属性由表明播出时隙的属性项和至少一个其他属性项构成;并且其中所述分组装置把所述递送的内容按照所建立的分组属性来编组。
3.如权利要求1所述的信息处理设备,其中为所述信息处理设备建立由至少一个表明播出时隙的属性项构成的分组项,以及由其他属性项形成的分组项;并且其中所述分组装置把所述递送的内容按照每个所建立的分组项来编组。
4.如权利要求1所述的信息处理设备,其中所述分组装置从词法上分析构成所述内容的所述属性项的组成项,并且基于分析结果来确定构成所述分组项的组成项之间的相似度。
5.如权利要求1所述的信息处理设备,其中所述生成装置不使用当生成所述用户偏好信息时由未能满足预定条件的内容构成的组的使用频率。
6.如权利要求1所述的信息处理设备,其中所述建议装置包括确定装置,用于确定由所述计算装置计算的所述使用频率是否高于预先确定的设定值;以及设定装置,用于当由所述确定装置发现所述使用频率高于预先确定的设定值时,把表明所建议的内容已被经常浏览的主题标志设定到所述内容建议信息。
7.如权利要求1所述的信息处理设备,其中所述生成装置包括提取装置,用于获取与构成其使用频率高于预先确定的设定值的组的内容有关的元数据,其中所述使用频率是由所述计算装置计算的,所述提取装置还提取表示所述元数据的特征数量的向量;并且其中所述生成装置基于由所述提取装置提取的所述向量来生成所述用户偏好信息。
8.如权利要求7所述的信息处理设备,其中所述生成装置包括主题确定装置,用于确定构成被发现其所述使用频率高于预先确定的设定值的组的内容是否对应于被设定了表明所建议的内容经常被浏览的主题标志的所述内容建议信息;并且其中,如果所述主题确定装置确定所述内容不对应于承载设定主题标志的所述内容建议信息,那么所述提取装置获取与所述内容有关的元数据并且提取表示元数据特征数量的向量。
9.如权利要求7所述的信息处理设备,其中所述用户偏好信息由多个属性构成,并且由表示所述属性的重要程度的值来构成。
10.如权利要求7所述的信息处理设备,其中所述生成装置包括熟悉性设定装置,用于基于由所述计算装置计算的使用频率来设定所述内容的熟悉程度;并且其中,所述生成装置基于所述熟悉程度为所述用户偏好信息的重要程度分配权重。
11.如权利要求7所述的信息处理设备,其中所述生成装置包括搜索装置,用于基于所述内容的使用历史来搜索其使用频率低于预先确定值的内容;以及特殊偏好信息生成装置,用于基于与由所述搜索装置检索的内容有关的元数据来生成特殊偏好信息。
12.如权利要求11所述的信息处理设备,还包括第一提取装置,用于提取表示所述用户偏好信息或者所述特殊偏好信息的特征数量的向量;第二提取装置,用于获取与在预定时隙播出的内容有关的元数据,并且提取表示所述元数据特征数量的向量;以及计算装置,用于计算由所述第一提取装置提取的向量和由所述第二提取装置提取的向量之间的相似度;其中所述建议装置选择由所述第二提取装置提取的向量的预定数目,所述向量依照所述相似度的递减顺序被选择,所述建议装置还基于与所选向量有关的元数据来给出内容建议。
13.一种信息处理方法,包括以下步骤把递送的内容编组,每个组均由被给予相同组ID的内容构成,从而具有关于分组项的高于预定值的相似度,所述分组项包括表示内容属性的至少一个属性项;对于每个组ID来计算内容的使用频率;基于在所述计算步骤中计算的使用频率来生成表明用户偏好的用户偏好信息;并且基于在所述生成步骤中生成的所述用户偏好信息来给出内容建议。
14.一种记录介质,其依照计算机可读取的方式保存有程序,所述程序包括以下步骤把递送的内容编组,每个组均由被给予相同组ID的内容构成,从而具有关于分组项的高于预定值的相似度,所述分组项包括表示内容属性的至少一个属性项;对于每个组ID来计算内容的使用频率;基于在所述计算步骤中计算的使用频率来生成表明用户偏好的用户偏好信息;并且基于在所述生成步骤中生成的所述用户偏好信息来给出内容建议。
15.一种用于令计算机执行处理的程序,所述处理包括以下步骤把递送的内容编组,每个组均由被给予相同组ID的内容构成,从而具有关于分组项的高于预定值的相似度,所述分组项包括表示内容属性的至少一个属性项;对于每个组ID来计算内容的使用频率;基于在所述计算步骤中计算的使用频率来生成表明用户偏好的用户偏好信息;并且基于在所述生成步骤中生成的所述用户偏好信息来给出内容建议。
全文摘要
一种信息处理设备和方法、记录介质和程序,用于基于经常浏览的节目和不经常浏览的节目来适当生成嗜好信息并且建议对应于用户嗜好的节目。嗜好信息提取部(101)基于节目上的元数据来提取嗜好信息并且记录节目浏览历史。把首次浏览的节目的嗜好信息记录为特殊节目嗜好信息。此外,根据其浏览次数超出阈值的节目的节目嗜好信息来生成用户嗜好信息。控制部(103)设定其浏览次数超出阈值的节目的自动记录的预定。当取消自动记录的预定时,嗜好信息更新部(102)根据那是其预定已经被取消的节目的元数据来修改用户嗜好信息。
文档编号G06F17/30GK1723459SQ20038010569
公开日2006年1月18日 申请日期2003年12月12日 优先权日2002年12月12日
发明者宫嵜充弘, 山本则行, 斋藤真里, 小池宏幸 申请人:索尼株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1