通过基于节目特征的聚类来创建原型简档的制作方法

文档序号:7580919阅读:124来源:国知局
专利名称:通过基于节目特征的聚类来创建原型简档的制作方法
技术领域
本发明总体涉及生成关于诸如电视节目的感兴趣的内容的建议或推荐,更具体来说,涉及在用户的购买或收视历史足够完备之前无需用户手工完成简档就推荐节目和其它潜在感兴趣的项目的技术。
在生成指南或关于与特定活动相联系的可用选项的信息中所采用的系统,可以为用户产生建议或推荐。这种系统的例子包括在线购物或信息检索系统以及用于内容的传送、特别是诸如音频或视频节目、游戏等娱乐内容的传送的系统。在传送娱乐内容的系统的情况中,可以通过一个建议或推荐的生成而触发自动的行动,诸如在娱乐内容不是正在被用户利用的期间,高速缓存至少一部分可用娱乐内容,供以后向用户呈现。
随着电视观众可用频道的数目的增加,以及这种频道上可用的节目内容的多样性,为电视观众识别潜在感兴趣的节目已经变得越来越富有挑战性。电子节目指南(EPG)例如通过标题、时间、日期和频道来识别可用的电视节目,并通过允许按照个性化的偏好搜索或分类可用的电视节目而方便对潜在感兴趣的节目的识别。
已经有许多推荐工具被提出或采用来推荐潜在感兴趣的电视节目或其它项目。电视节目推荐工具例如把观众偏好应用到电子节目指南,以获得一组可能对特定观众来说感兴趣的推荐节目。这种电视推荐工具所采用的观众偏好,一般是通过诸如提示用户对各种节目属性(例如标题、种类、演员、导演、频道等)评级的显式(explicit)技术、诸如跟踪特定观众的收视历史的隐式(implicit)技术或者这两种技术的组合而获得的。
在所述类型的推荐工具内,初始化一个新的观众(用户)简档(即“冷启动”)是有问题的。用显式的措施非常单调乏味,需要观众响应详细的调查问题,这些问题粗略地指明他们的偏好,并且一般没有情境的帮助(即同时观看具有这种属性的节目)。用隐式的措施初始化,是通过观察收视行为并使他们相互关联,这尽管不引人注目,但是需要长时间才能变得准确,并且也需要一个最小量的收视历史来开始推荐。
因此,在该技术领域中需要改善对由推荐工具所采用的用户简档的初始化。
为解决以上讨论的现有技术的缺陷,本发明的一个主要目的是,提供一种用于在用户的收视或购买历史完备得足以生成准确的推荐之前提供有意义的推荐的技术,以便被采用来向用户推荐感兴趣的项目(诸如电视节目推荐)的推荐工具。处理第三方收视或购买历史,以生成反映由代表性观众所选择的项目的典型模式的原型简档。为了避免受到与所收视节目相关联的描述性信息的词汇的限制,采用图像内容和/或图像内容特征(平均(mean)、标准差(standard deviation)、熵(entropy))来单独地或者与描述性信息相结合地作为评估收视历史的基础。用户能从所生成的原型(stereotype)简档中选择最相关的原型,并由此用最接近他或她的自己兴趣的项目来初始化他或她的简档,由于在生成原型简档的过程中直接采用节目内容,因此准确度更高。
以上相当宽泛地概述了本发明的特点和技术优点,以便所属领域的熟练人员可以更好地理解随后对本发明的详细说明。以下将描述本发明的其它特点和优点,它们构成本发明的权利要求的主题。所属领域的熟练人员将认识到,他们可以容易地用所公开的构思和特定实施例作为基础来修改本发明或者设计用于实现本发明的相同目的的其它结构。所属领域的熟练人员也将认识到,这种等效的构造并不偏离本发明最广泛意义上的精神和范围。
在进行下面的发明详细说明之前,阐明在本专利文献中使用的某些词或短语的定义也许是有益的术语“包括”和“包含”以及它们的衍生词,意思是没有限制的包含;术语“或”是包含性的,意思是和/或;短语“与...相关联的”可以指包括、被包括在...内、与...互连、含有、被包含在...内、连接到或与...连接、耦合到或与...耦合、可与...通信的、与...合作、交织、并置、接近、被限定于、具有、具有...的属性等等;术语“控制器”指控制至少一个操作的任何装置、系统或其部件,无论这种装置以硬件、固件、软件或其中的至少两个的某种组合。应当注意的是,与任何特定控制器相关联的功能可以是集中式或分布式的,无论是本地的还是远程的。本专利文献中提供对某些词和短语的定义,所属技术领域的熟练人员将明白,这类定义在许多(即使不是大多数)情况下,既适用于如此定义的词和短语先前的用法,也适用于将来的用法。
为了更彻底地理解本发明及其优点,现在参照以下结合各附图的说明,附图中同样的附图标记表示同样的对象,附图中

图1表示一种采用按照本发明的一个实施例初始化的用户简档的电视节目推荐工具;图2是一个采用按照本发明的一个实施例初始化的用户简档的电视节目推荐工具内的节目数据库中的样本表;图3是表示按照本发明的一个实施例的原型简档处理过程的示例性实现方式的高层级流程图;图4是表示按照本发明的一个实施例的聚类(clustering)例程的示例性实现方式的高层级流程图;图5是表示按照本发明的一个实施例的平均计算(meancomputation)例程的示例性实现方式的高层级流程图;图6是表示按照本发明的一个实施例的距离计算例程的示例性实现方式的高层级流程图;图7A表示一个含有在按照本发明一个实施例导出原型简档的过程中所采用的类的每个频道特征值的出现次数的数据集;图7B表示从图7A中所示的示例性计数中计算出的每个特征值对之间的距离;以及图8是表示按照本发明一个实施例的用于确定创建群集(cluster)的停止标准何时已经被满足的过程的示例性实现方式的高层级流程图。
以下讨论的图1至8,以及本专利文献中被用来说明本发明原理的各种实施例,仅仅是示例性的,不应以任何方式被解释为对本发明的限制。所属技术领域的熟练人员明白,本发明的原理可以在任何适当安排的装置中实现。
图1表示一个采用按照本发明的一个实施例初始化的用户简档的电视节目推荐工具。该示例性电视节目推荐工具可以是驻留在一个视频记录装置、卫星、地面或电缆电视接收机、组合的接收机和记录装置等等内的硬件、软件或它们的组合。所属领域的熟练人员将认识到,附图中没有表示、本文中也没有描述一个适当的接收机和/或记录装置的完整构造和操作。相反,为了简要和清楚,只有对本发明来说是独有的或者为理解本发明所必需的接收机和/或记录装置的那些内容在本文中被表示和描述。此外,这里所说明的原理还可以应用到根据对用户行为(例如购买历史)的评估而自动生成推荐的、用于例如个人电脑或机顶盒等等的其它类型的推荐工具。
此外,推荐工具100可以以分布式的方式实现,部分功能由一个系统提供,其结果被传送到第二个装置以供进一步处理或使用。
推荐工具100根据一个至少部分地以隐式方式被初始化或更新的用户简档,评估一个节目数据库200(诸如电子节目指南)内的节目,以识别特定观众潜在感兴趣的节目。被推荐节目集合101在一个显示器(未予示出)上被呈现给用户。
在本发明中,尽管用户简档被至少部分地以隐式方式初始化或更新,推荐工具100能在特定观众的收视历史140或者可用或者完备得足以用于准确推荐之前,为该观众生成合理准确的节目推荐。推荐工具100一开始采用用于一个或多个第三方观众的收视历史130或类似的简档信息来推荐特定观众潜在感兴趣的节目。一般来说,第三方收视历史130或用户简档信息是根据该特定观众与代表更大人群的一个或多个样本人群之间的人口统计学(年龄、收入、性别、教育等)的相似性而选择的。
如图1中所示,第三方收视历史130包括由对应的样本人群观看过的或未观看过的节目的集合。被观看过的节目的集合是通过观察被给定样本人群实际观看过的节目而识别的,而未被观看过的节目的集合,则是通过例如从节目数据库200内对未被给定样本人群观看过的节目进行随机采样而识别的。
推荐工具100处理第三方收视历史130,以生成反映代表性样本人群的典型收视模式的原型简档。一个原型简档就是以某种方式彼此相似的电视节目(数据点)的群集。因此,一个给定群集或原型简档对应于第三方收视历史130中的展现一个特定模式的电视节目的特定片断。
按照本发明处理第三方收视历史130,以提供展现某特定模式的节目群集。之后,用户就可以根据对应的人口统计学元数据(meta-data)或偏好来选择最相关的原型,并由此用最接近他或她的自己兴趣的节目来初始化他或她的简档。该原型简档然后根据用户的收视或记录模式以及被给予节目的反馈而调整并向每个个体用户的特定的个人收视行为发展。在一个实施例中,在确定一个节目得分(score)时,可以给予用户自己收视历史140中的节目比第三方收视历史130中的节目更高的权重(weight)。
推荐工具100可以体现为含有诸如中央处理单元(CPU)的处理器115和诸如RAM和/或ROM的存储器120的任何计算装置,诸如个人电脑或工作站。电视节目推荐工具100也可以体现为例如机顶终端或显示器(未予示出)中的专用集成电路(ASIC)。此外,电视节目推荐工具100也可以体现为任何可用的电视节目推荐工具(或体现在其中),诸如位于美国加州Sunnyvale的Tivo公司销售的TivoTM系统,或者其它为实现本发明的特征和功能而修改了的电视节目推荐系统。
如图1中所示并在下文结合图2至8所进一步讨论的那样,电视节目推荐工具100包括一个节目数据库200、一个原型简档处理过程300、一个聚类例程400、一个平均计算例程500、一个距离计算例程600和一个群集性能评估例程800。一般来说,节目数据库200可体现为一个已知的电子节目指南,并记录或含有在给定时段可用的每个节目的信息。原型简档处理过程300(i)处理第三方收视历史130,以生成反映被代表性观众所观看过的电视节目的典型模式的原型简档;(ii)允许用户选择最相关的原型,由此初始化他或她的简档;以及(iii)根据所选择的原型生成推荐。
聚类例程400被原型简档处理过程300调用,以把第三方收视历史130(数据集)划分成群集,使得在一个群集中的点(电视节目)与该群集的平均(质心)(centroid)比任何其它群集的都更接近。聚类例程400调用平均计算例程500来计算一个群集的符号平均(symbolicmean)。距离计算例程600被聚类例程400调用,以根据一个给定电视节目与一个给定群集的平均之间的距离来评估一个电视节目与每个群集的接近程度。最后,聚类例程400调用聚类性能评估例程800来确定创建群集的停止或终止标准何时被满足。
图2是一个采用按照本发明的一个实施例初始化的用户简档的电视节目推荐工具内的节目数据库中的样本表,并且其包含该示例性实施例中的图1的电子节目指南(EPG)200。如前文所指出的那样,节目数据库200记录在给定时间段可用的每个节目的信息。如图2中所示,节目数据库200含有多个记录,诸如记录205至220,每个记录都与一个给定节目相关联。对于每个节目,节目数据库200分别在字段240和245中指示与节目相关联的日期/时间和频道(或频道调用符号(channel call sign)或网络从属关系(network affiliation))。
本发明试图用关于节目的符号信息来建立原型简档。为此可以采用关于诸如种类、演员、标题、语言(英语、西班牙语、法语等)、节目评级(冒犯性语言、性、暴力、裸体等)之类的节目描述性数据的符号信息。然而,不管所采用的根据节目描述性数据从符号信息中导出这样的原型简档的技术(诸如下文进一步详细描述的聚类例程)如何复杂,导出准确原型简档的总体性能将受到节目描述性数据的丰富程度和/或详细程度的限制。
例如,如果有些观众喜欢板球,而其他观众偏爱羽毛球,则有这样一个期望,即喜欢板球的观众被分组在一起,而偏爱羽毛球的观众被单独地分组在一起。然而,除非节目描述性数据包括一个其中可以单独地规定或者板球或者羽毛球的类别,否则这种分组是不可能的。结果,喜欢板球、喜欢羽毛球、或既喜欢板球又喜欢羽毛球的所有观众都被分组在一起。
在本发明中,通过采用直接与演出的内容相关的符号数据而不是间接地通过节目的描述性数据来方便在导出原型简档过程中对用户的适当分组。因此,在一个或多个字段250至270中标识演出的图像内容(或至少是代表所述图像内容的符号数据)。所存储或表示的图像内容可以是以下各项之一节目帧(整个节目的帧或者被选择的节目“剪辑”的帧)的被提取的图像特征,诸如平均、标准差、熵等等;节目或所选择的剪辑中的关键帧、或关于节目的宣传片(trails)或广告。所述关键帧、宣传片或广告可以被直接存储/表示,或者被采用来如上文所述地导出所提取的平均、标准差或熵的节目图像特征。
可选地,在字段250至270中也标识每个节目的诸如标题、种类、演员和/或评级(冒犯性语言、性、暴力、裸体等)的节目描述性数据或者代表它们的符号信息。也可将诸如节目的持续时间之类的附加的众所周知的特征(未予示出)包括在或表示在节目数据库200中。
图3是表示按照本发明的一个实施例的原型简档处理过程的示例性实现方式的高层级流程图。如前文所指出的那样,原型简档处理过程300(i)处理第三方收视历史130,以生成反映由代表性观众所观看的电视节目的典型模式的原型简档;(ii)允许用户选择最相关的原型并由此初始化他或她的简档;(iii)根据所选择的原型生成推荐。第三方收视历史130的处理,例如可以在研究机构中离线进行,并且可以将电视节目推荐工具100提供给安装有所生成的原型简档的用户,以供用户选择。
因此如图3中所示的那样,原型简档处理过程300一开始在步骤310中收集第三方收视历史130。之后,原型简档处理过程300在步骤320中执行下文结合图4所讨论的聚类例程400,以生成对应于原型简档的节目的群集。如下文进一步讨论的那样,示例性聚类例程400可对于收视采用无人监管的(unsupervised)数据聚类算法(诸如K平均群集例程)并处理历史数据集130。如前文所指出的那样,聚类例程400把第三方收视历史130(数据集)划分成群集,使得在一个群集中的点(电视节目)与该群集的平均(质心)比任何其它群集的都更接近。
原型简档处理过程300然后在步骤330中向每个群集分配表征每个原型简档的一个或多个标签(label)。在一个示例性实施例中,群集的平均变成整个群集的代表性电视节目,并且该平均节目的特征可以被用来给群集加标签。例如,可以将电视节目推荐工具100配置得使得种类是每个群集的主导或定义特征。
在步骤340中将被加标签的原型简档呈现给每个用户,用于选择最接近用户的兴趣的原型简档。构成每个所选择群集的节目可被看作为该原型的“典型收视历史”,并可用来为每个群集建立一个原型简档。这样,在步骤350中为用户生成一个由来自所选择的原型简档中的节目组成的收视历史。最后,在步骤360中将在前一个步骤中生成的收视历史应用到节目推荐工具,以获得节目推荐。节目推荐工具可体现为任何常规节目推荐工具,诸如在上文中参照的、在本文中修改的、为所述领域的普通技术人员所熟知的节目推荐工具。节目控制在步骤370中终止。
图4是表示一个合并了本发明各特征的聚类例程400的示例性实现方式的流程图。如前文所指出的那样,聚类例程400在步骤320中被原型简档处理过程300调用,以把第三方收视历史130(数据集)划分成群集,使得在一个群集中的点(电视节目)与该群集的平均(质心)比任何其它群集的都更接近。总的来说,聚类例程专注于无人监管的、在一个样本集中寻找例子的分组的任务。本发明用一种k平均聚类算法把一个数据集划分成k个群集。如下文所讨论的那样,聚类例程400的两个主要参数是(i)下文结合图6所讨论的被利用来寻找特定收视历史的最接近的群集的每个节目属性的符号数据的距离量度(metric);和(ii)要创建的群集的个数k。
示例性聚类例程400采用一个动态值k,条件是当例子数据的进一步聚类对分类准确度不产生任何改善时,就达到了一个稳定的k。此外,群集大小被递增到有一个空群集被记录的那一点。因此,当达到群集的一个自然级别时,聚类停止。
如图4中所示的那样,聚类例程400最初在步骤410中建立k个群集。示例性聚类例程400以选择例如2的一个最小的群集个数为开始。对于这个固定的数,聚类例程400处理整个收视历史数据集130,以把每个收视历史放入一个或两个群集中,并且经过几个迭代,到达两个可被视为稳定的群集(就是说,即使算法经过另一个迭代,也不会有节目从一个群集转移到另一个群集)。在步骤420中用一个或多个节目初始化当前的k个群集。
在一个示例性实现方式中,在步骤420中用从第三方收视历史130中选择的一些种子节目对群集进行初始化。用于初始化群集的节目,可以被随机地或顺序地选择。在一个顺序实现方式中,可以用从收视历史130中的第一个节目开始的节目或者从收视历史130中的一个随机的点开始的节目初始化群集。在另一个变型中,初始化每个群集的节目的个数也可以改变。最后,可以用一个或多个由从第三方收视历史130中的节目中随机选择的特征值构成的“假设的”节目来初始化群集。
之后,在步骤430中,聚类例程400启动下文结合图5所讨论的平均计算例程500,以计算每个群集的当前平均。然后,在步骤440中,聚类例程400执行下文结合图6所讨论的距离计算例程600,以确定第三方收视历史130中每个节目到每个群集的距离。然后在步骤460中把收视历史130中的每个节目分配到最接近的群集。
在步骤470中进行一个测试,以确定是否任何节目已经被从一个群集转移到另一个。如果在步骤470中确定一个节目已经被从一个群集转移到另一个,则节目控制返回到步骤430,并以上述的方式继续,直到确定一个稳定的群集集合。然而,如果在步骤470中确定没有节目已经从一个群集被转移到另一个,则节目控制前进到步骤480。
在步骤480中进行另一个测试,以确定是否一个制定的性能标准已经被满足或者是否已经识别一个空群集(共同地称作“停止标准”)。如果在步骤480确定所述停止标准尚未被满足,则在步骤485中递增k的值,节目控制返回到步骤420,并以上述的方式继续。然而,如果在步骤480中确定所述停止标准已经被满足,则节目控制终止。对停止条件的评估,在下文中结合图8作进一步讨论。
示例性聚类例程400只把节目放在一个群集中,因此创建所谓的明确的(crisp)群集。另一个变型则采用模糊(fuzzy)聚类,其允许一个特定的例子(电视节目)部分地属于许多群集。在模糊聚类方法中,电视节目被赋予一个权重,该权重代表电视节目与群集平均的接近程度。该权重可以取决于电视节目与群集平均的距离的逆平方(inversesquare)。与一个单一电视节目相关联的所有群集权重的和应当是总计100%。
图5是表示一个合并了本发明的特征的平均计算例程500的示例性实现方式的流程图。如前文所指出的那样,平均计算例程500被聚类例程400调用,以计算一个群集的符号平均。对于数字数据,该平均是最小化方差(variance)的值。把该概念推广到符号数据,一个群集的平均可通过寻找最小化群集内(intra-cluster)方差Var(J)Var(J)=Σi∈J(xi-xμ)2---(1)]]>的xμ的值和群集半径(或群集的范围)R(J)=Var(J)---(2)]]>
而定义。其中J是一个来自相同类(被观看过的或未被观看过)的电视节目的群集,xi是演出i的符号特征,xμ是来自J中的其中一个电视节目的使Var(J)最小的特征值。
因此,如图5中所示,在步骤510中,平均计算例程500初始地识别当前在给定群集J中的节目。对于每个可能的符号值xμ,在步骤520中,对所考虑的当前符号属性,用等式(1)计算群集J的方差。在步骤530中,选择使该方差最小的符号值xμ作为平均值。
在步骤540中进行一个测试,以确定是否有附加的符号属性要考虑。如果在步骤540中确定有附加的符号属性要考虑,则节目控制返回到步骤520,并以上述的方式继续。然而,如果在步骤540中确定没有附加的符号属性要考虑,则节目控制返回到聚类例程400。
在计算上,J中的每个符号特征值都被作为xμ尝试,而使方差最小的符号值变成群集J中所考虑的符号属性的平均。有两种可能的平均计算的类型,即基于演出的平均和基于特征的平均。这里所讨论的示例性的平均计算例程500是基于特征的,其中所产生的群集平均由从群集J中的例子(节目)中抽取的特征值组成,因为符号属性的平均必须是它的可能值的其中之一。
然而重要的是要注意,群集平均可能是一个“假设的”电视节目。这个假设的节目的特征值可能包括从关键帧或例子(例如EBC)的其中之一中抽取的图像特征或描述性数据项值以及从另一个例子(例如在现实中从不在EBC播出的BBC世界新闻)中抽取的图像特征或标题值。因此,任何展现最小方差的特征值都被选择来代表该特征的平均。对所有图像和描述性特征位置,重复平均计算例程500,直到该过程在步骤540中确定所有的特征(即符号属性)都被考虑。如此获得的作为结果的假设节目被用于代表群集的平均。
在另一个变型中,在计算方差的等式(1)中,xi可以是电视节目i本身的图像特征和/或节目描述性数据,类似地,xμ是群集J中的使群集J中的节目集合的方差最小的节目。在这个情况下,节目之间的距离而非各个单独的特征值,是要被最小化的相关量度。此外,在这个情况下生成的平均不是一个假设的节目,而是一个就是从集合J中挑出的节目。从群集J中这样找出的使群集J中的所有节目的方差最小的任何节目,都被用来代表群集的平均。
以上讨论的示例性平均计算例程500,用每个可能的特征的一个单一特征值来表征一个群集的平均(无论是在基于特征的还是基于演出的实现方式中)。然而已经发现,在平均计算期间仅仅依赖每个特征的一个特征值,常常导致不当的聚类,因为平均不再是该群集的代表性群集中心。换言之,仅用一个节目来代表一个群集可能是不合意的,相反,可以采用代表该平均或多个平局的多个节目来代表该群集。因此,在另一个变型中,可以用多个平均或每个可能特征的多个特征值来代表一个群集。因此,在步骤530中,选择使得方差最小的N个特征(对于基于特征的符号平均来说)或N个节目(对于基于节目的符号平均来说),其中N是用来代表一个群集的平均的节目的个数。
如前文所指出的那样,距离计算例程600被聚类例程400调用,以根据一个给定电视节目与一个给定群集的平均之间的距离来评估一个特定电视节目到每个群集的接近程度。所计算出的距离量度,量化样本数据集中的不同例子之间的差别,以决定一个群集的范围。为了能够聚类用户简档,必须计算收视历史中的任意两个电视节目之间的距离。总的来说,互相靠近的电视节目趋向于落入一个群集中。存在多个相对直截明了的技术,用于计算数值矢量之间的距离,诸如欧几里得(Euclidean)距离、曼哈顿(Manhattan)距离以及Mahalanobis距离。
然而,现有的距离计算技术不能被用于电视节目矢量的情况中,因为电视节目主要由符号特征值构成。例如,诸如在2002年10月22日下午7点在EBC播放的一集“Fiends”(魔鬼)和在2002年10月25日下午8点在FEX播放的一集“The Simpsons”(辛普森夫妇)的两个电视节目,可以用以下的特征矢量表示图像特征XXX 图像特征YYY标题Fiends 标题Simons频道EBC 频道FEX播出日期2002-10-22 播出日期2002-10-25播出时间2000播出时间2000显然,已知的数字距离量度标准不能用来计算图像特征值“XXX”和“YYY”或描述性特征值“EBC”和“FEX”之间的距离。值差量度(ValueDifference Metric)(VDM)是现有的一种用于测量以符号特征为值的域中的特征值之间的距离的技术。VDM技术考虑每个特征的每个可能值的所有实例的分类的总体相似性。使用这个方法,根据训练集合中的例子,以统计的方式导出一个定义一个特征的所有值之间的距离的矩阵。关于计算符合特征值之间的距离的VDM技术的更详细的讨论,例如参照Stanfill和Waltz所著的“Toward Memory-Based Reasoning(基于记忆的推理)”,Communications of the ACM,2912,1213-1228(1986)。
本发明采用VDM技术或它的一种变型来计算两个电视节目或其它感兴趣的项目之间的特征值之间的距离。原始的VDM建议在计算两个特征值之间的距离时采用一个权重项,这使距离量度不对称。一种修改的VDM(MVDM)省略该权重项,以使距离矩阵对称。关于计算符号特征值之间的距离的MVDM技术的更详细的讨论,例如可参照Cost和Salzberg所著的“A Weighted Nearest Neighbor Algorithm ForLearning With Symbolic Features(用于利用符合特征进行学习的加权最近邻算法)”,Machine Learning,Vol.10,57-58,Boston,MA,Kluwer Publishers(1993)。
按照MVDM,一个特定特征的两个值V1和V2之间的距离δ由下式给出δ(V1,V2)=Σ|C1iC1-C2iC2|r---(3)]]>在本发明的节目推荐环境中,这个MVDM等式(3)被变换,以专门处理“被观看过的”和“未被观看过的”这两个类δ(V1,V2)=|C1iwatchedC1watched-C2iwatchedC2watched|+|C1inot_watchedC1not_watched-C2inot_watchedC2not_watched|---(4)]]>在等式(4)中,V1和V2是所考虑的特征的两个可能的值。
继续上面的例子,特征“频道”的第一个值或值集和V1等于“XXX”(或“XXX”和“EBC”),第二个值或值集和V2等于“YYY”(或“YYY”和“FEX”)。这两个值之间的距离是对例子所被分类入的所有类的求和。本发明的示例性节目推荐工具实施例的相关类是“被观看过的”和“未被观看过的”。C1i是V1(XXX)被分入类i(i等于1意味着“被观看过的”这一类)的次数,C1(C1total)是V1在数据集中出现的总次数。值“r”是个常数,一般被设定为1。
如果值在所有的分类中以相同的相对频率出现,则由等式(4)所定义的量度将把这些值标识为相似的。术语C1i/C1代表的是在假定所讨论的特征具有值V1时中心残数(central residue)将被归类为i的似然性。因此,如果两个值对所有可能的分类给出相似的似然性,则这两个值是相似的。等式(4)通过寻找对所有分类的这些似然性的差异的和而计算两个值之间的整体相似性。两个电视节目之间的距离,是这两个电视节目矢量的对应特征值之间的距离的和。
图7A是与特征“频道”相关联的特征值的距离表的一部分。图7A内的数据代表或者设置对于每个类的每个频道特征值的出现次数。图7A中所示的值是从一个示例性第三方收视历史130中提取的。
图7B表示用MVDM等式(4)从图7A中所示的示例性计数中计算的每个特征值对之间的距离。直觉上,XXX和YYY应当是互相“接近的”,因为它们主要出现在“被观看过的”类中而不是出现在“未被观看过的”类中(YYY有少量“未被观看过的”的部分)。图7B用XXX与YYY之间的一个小的(非零)距离证实了这个直觉。而图像特征ZZZ主要出现在“未被观看过的”类中,因此对于这个数据集来说,其应当“远离”XXX和YYY。图7B把XXX与ZZZ之间的距离设置为最大可能距离2.0中的1.895。类似地,YYY与ZZZ之间的距离高达具有值1.828。
因此,如图6中所示的那样,在步骤610中,距离计算例程600初始地识别第三方收视历史130中的节目。在步骤620中,对于所考虑的当前节目,距离计算例程600用等式(4)来计算每个符号特征值到(由平均计算例程500所确定的)每个群集平均的对应特征的距离。
在步骤630中,通过合计对应特征值之间的距离,计算当前节目和群集平均之间的距离。在步骤640中进行一个测试,以确定第三方收视历史130中是否有附加的节目要考虑。如果在步骤640中确定第三方收视历史130中有附加的节目要考虑,则在步骤650中确定下一个节目,节目控制前进到步骤620,并按上述的方式继续。
然而,如果在步骤640中确定第三方收视历史130没有附加的节目要考虑,则节目控制返回到聚类例程400。
如前文所讨论的那样,可以用每个可能特征的多个特征值来表征一个群集的平均(无论是在基于特征的还是基于节目的实现方式中)。多个平均的结果然后被距离计算例程600的一个变型汇集(pool),以通过投票表决(voting)而达到一个一致决定。例如,现在在步骤620中计算一个节目的一个给定特征值与不同的平均的对应特征值中的每一个之间的距离。将最小的距离结果汇集起来以用于表决投票,这是例如通过采用多数投票表决或专家的混和来达到一个一致决定。关于这样的技术的更详细的讨论,例如参照J.Kittler等人所著的“Combing Classifiers,(梳理分类器)”(Proc.of the 13th Int’lConf.on Pattern Recognition,Vol.II,897-901,Vienna,Austria,1996)。
如前文所述的那样,聚类例程400调用图8中所示的聚类性能评估例程800来确定创建群集的停止标准何时已经被满足。示例性聚类例程400采用一个动态值k,条件是,当例子数据的进一步聚类对分类准确度不产生任何改善时,就达到了一个稳定的k。此外,群集大小可以被递增到有一个空群集被记录时的那一点。因此,当达到群集的一个自然级别时,聚类停止。
示例性聚类性能评估例程800使用第三方收视历史130中的一个节目子集(测试数据集)来测试聚类例程400的分类准确度。对于测试集中的每个节目,聚类性能评估例程800确定最接近它的群集(哪个群集平均是最接近的),并把该群集的类标签和所考虑的节目比较。匹配的类标签的百分比被转化为聚类例程400的准确度。
因此,如图8中所示的那样,在步骤810中,聚类性能评估例程800初始地从第三方收视历史130中收集一个节目子集,以作为测试数据集。之后,在步骤820中,根据群集中被观看过的和未被观看过的节目的百分比,向每个群集分配一个类标签。例如,如果群集中多数节目是被观看过的,则该群集可被分配一个“被观看过的”标签。
在步骤830中,识别与测试集中每个节目最接近的群集,并将用于被分配的群集的类标签与该节目实际是否被观看过进行比较。在其中用多个节目来代表群集的平均的实现方式中,可以采用(到每个节目的)平均距离或投票方案。在步骤840中,确定匹配的类标签的百分比,然后,节目控制返回到聚类例程400。如果分类准确度已经达到一个预定的阀值,则聚类例程400将终止。
本发明允许以单独地或与关于节目的描述性信息相结合地直接根据图像内容建立原型简档的方式聚类收视偏好。聚类的性能因此不受作为收视历史的主题的关于节目的描述性信息的词汇的丰富程度的限制。一旦原型简档被生成,就可以用一个代表更大人群的收视兴趣的简档来为一个一开始缺乏准确推荐所需的足够的收视历史的个人去快速启动(jump-start)一个推荐工具。
重要的是要注意,尽管在一个完全可工作的系统的上下文中对本发明作了描述,所属技术领域的熟练人员应明白,本发明的至少部分机制,能够以含有各种形式的指令的机器可用介质的形式被分布(distributed),并且不管用来实际执行该分布的信号承载介质的特定类型如何,本发明都一样地适用。机器可用介质的例子包括非易失性、硬编码类型的介质,诸如只读存储器(ROM)或可擦式电可编程只读存储器(EEPROM);可记录类型的介质,诸如软盘、硬盘驱动器和紧致盘只读存储器(CD-ROM)或数字通用盘(DVD);以及传输类型的介质,诸如数字和模拟通信链路。
尽管已经详细说明了本发明,但是,所属领域的熟练人员将会了解,在不脱离本发明的最广泛形式的精神和范围的情况下,本文所公开的本发明可以有各种改变、替换、变型、增强、微调、分级、简化形式、变化、修订、改善和删减。
权利要求
1.一种用来初始化节目推荐工具的系统,包括控制器100,该控制器100采用一个或多个从第三方收视历史130导出的原型简档,其中,第三方收视历史130对于其中所代表的每个节目而言包含了直接从相应节目的节目内容中提取的节目内容值,并且其中,原型简档至少是部分地根据节目内容值导出的。
2.按照权利要求1的系统,其中,节目内容值包括节目的图像内容的平均、标准差和熵的其中一个或多个。
3.按照权利要求1的系统,其中,节目内容值包括节目的关键帧和关键帧内的图像内容的平均、标准差和熵的其中一个或多个。
4.按照权利要求1的系统,其中,节目内容值包括以下各项中的一个或多个节目的广告;节目的宣传片;广告内的图像内容的平均、标准差、熵;和宣传片的内图像内容的平均、标准差、熵。
5.按照权利要求1的系统,其中,控制器100至少部分地根据节目内容值从第三方收视历史中导出一个或多个原型简档。
6.按照权利要求1的系统,其中,控制器100采用一个或多个原型简档来初始化节目推荐工具。
7.按照权利要求1的系统,其中,所述一个或多个原型简档是根据节目内容值和有关节目的节目描述性数据导出的。
8.一种用于初始化节目推荐工具的方法,包括采用一个或多个从第三方收视历史130导出的原型简档,其中,第三方收视历史130对于其中所代表的每个节目而言包含了直接从相应节目的节目内容中提取的节目内容值,并且其中,原型简档至少是部分地根据节目内容值导出的。
9.按照权利要求8的方法,其中,节目内容值包括节目的图像内容的平均、标准差和熵的其中一个或多个。
10.按照权利要求8的方法,其中,节目内容值包括节目的关键帧和关键帧内的图像内容的平均、标准差和熵的其中一个或多个。
11.按照权利要求8的方法,其中,节目内容值包括以下各项的其中一个或多个节目的广告;节目的宣传片;广告内的图像内容的平均、标准差、熵;和宣传片内的图像内容的平均、标准差、熵。
12.按照权利要求8的方法,进一步包括至少部分地根据节目内容值从第三方收视历史中导出一个或多个原型简档。
13.按照权利要求8的方法,进一步包括采用一个或多个原型简档来初始化节目推荐工具。
14.按照权利要求8的方法,其中,所述一个或多个原型简档是根据节目内容值和有关节目的节目描述性数据导出的。
15.一种用于初始化节目推荐工具的数据信号,包括一个或多个从第三方收视历史130导出的原型简档,其中,第三方收视历史130对于其中所代表的每个节目而言包含了直接从相应节目的节目内容中提取的节目内容值,并且其中,原型简档至少是部分地根据节目内容值导出的。
16.按照权利要求15的数据信号,其中,节目内容值包括节目的图像内容的平均、标准差和熵的其中一个或多个。
17.按照权利要求15的数据信号,其中,节目内容值包括节目的关键帧和关键帧内的图像内容的平均、标准差和熵的其中一个或多个。
18.按照权利要求15的数据信号,其中,节目内容值包括以下各项的其中一个或多个节目的广告;节目的宣传片;广告内的图像内容的平均、标准差、熵;和宣传片内的图像内容的平均、标准差、熵。
19.按照权利要求15的数据信号,其中,所述一个或多个原型简档被包含在可以由推荐工具访问的存储介质内。
20.按照权利要求15的数据信号,其中,所述一个或多个原型简档是根据节目内容值和有关节目的节目描述性数据导出的。
全文摘要
为了在用户的收视或购买历史完备得足以生成准确的推荐之前推荐用户感兴趣的项目(诸如电视节目推荐),处理第三方收视或购买历史,以生成反映由代表性观众所选择的项目的典型模式的原型简档。为了避免受到与所收视节目相关联的描述性信息的词汇的限制,采用图像内容和/或图像内容特征(平均、标准差、熵)作为单独地或者与描述性信息相结合地评估收视历史的根据。用户能从所生成的原型简档中选择最相关的原型,并由此用最接近他或她的自己兴趣的项目来初始化他或她的简档,由于在生成原型简档的过程中直接采用节目内容,因此准确度更高。
文档编号H04N5/445GK1711773SQ200380103490
公开日2005年12月21日 申请日期2003年11月13日 优先权日2002年11月18日
发明者S·古特塔 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1