比较各种初始群组集合以便确定用于群集一个电视节目集合的最佳初始集合的方法

文档序号：7858732阅读：245来源：国知局

专利名称：比较各种初始群组集合以便确定用于群集一个电视节目集合的最佳初始集合的方法
技术领域：
本发明总体涉及构造作为用于各个推荐系统的初始用户简档的样板(stmereotypes)，更具体来说，涉及选择初始群组(clusters)以用于通过群集(clustering)来制定样板。
在生成关于与特定活动相联系的可用选项的指南或信息的过程中采用的系统，可以为用户生成建议或推荐。这种系统的例子包括在线购物或信息检索系统，以及用于提供内容(特别是诸如音频或视频节目、游戏之类的娱乐内容)的系统。就用于提供娱乐内容的系统来说，通过一个建议或推荐的生成，可以触发自动的行动，例如在娱乐内容未被用户使用的期间高速缓存至少一部分的可用娱乐内容，供以后向用户呈现。
在生成建议或推荐的过程中，最经常地通过至少部分地采用一个显式的反映用户好恶的用户简档而获得适当的结果。一般来说，这种显式的用户简档是通过用户访问并完成一个简档形成问卷(profilingquestionnaire)而生成的，用户在问卷内为诸如(对于视频内容而言的)类型、演员、导演、名称等各种元数据描述符(descriptors)进行评级。
对显式用户简档的填充和扩展一般必须由用户发起，并且常常需要(或允许)用户独立地为元数据描述符输入值，诸如演员的名字或视频内容的名称。这就迫使用户在简档创建时试图记住采用简档的行动所根据的元数据描述符的所有相关的值，这即使不是不可能也是困难的。
另一方面，向用户显示一个所有可能的元数据描述符值的、用户可从中作出选择以填充用户简档的列表，一般将导致用户不得不察看一个臃肿的列表，或者冒遗漏适当的描述符的风险。特别是对于跨媒体(cross-media)的系统(即视频、音频和/或其它内容)来说，可能需要用户从一个含有数万个条目的列表中选择项目和/或为项目评级。无论哪一种选择(需要用户记得相关项目或向用户呈现一个全面的列表)，甚至这两种方法的组合，对用户的要求都过分并且所需要的时间超过用户愿意花在这项任务上的时间，因此不能令人满意。
一种用于初始化用户简档的快捷有效的技术涉及从对多个用户的收视模式的分析中导出的样板。用户选择一个样板或样板集来初始化简档，然后向系统提供反馈，以定制用户简档。
样板可以通过一种群集算法从一组用户的收视模式或历史中制定。然而，如此导出的样板的质量取决于所采用的初始群组集合。各初始群组区别越大，群集处理过程将稳定并且不产生空群组的机会就更多。
因此，在所属技术领域中，需要一种在为初始化一个推荐系统内的简档而生成样板的过程中保证初始群组质量的系统和处理过程。
为解决以上讨论的现有技术的缺陷，本发明的一个主要目的是为了在利用群集处理过程从一个收视历史样本总体中导出样板的系统中使用，提供对用于群集处理过程的可能的初始群组集合的比较，该比较根据的是为每个候选初始群组集合计算的、并且有关候选初始群组集合内的每个群组与候选初始群组集合内每个其它群组的距离的度量(metric)。该度量优选地是一个候选初始群组集合内的群组之间的距离的归一化的平均合计，它然后被用于丢弃具有互相太靠近的群组的较差候选者。
以上内容相当宽泛地概述了本发明的特点和技术优点，以便所属技术领域的熟练人员可以更好地理解随后对本发明的详细说明。下文中将说明构成本发明的权利要求的主题的另外的特点和优点。所属技术领域的熟练人员应当明白，他们可以容易地将所公开的构思和具体实施例用为基础进行改进，或者设计用于实现本发明的相同目的的其它结构。所属技术领域的熟练人员也将认识到，这种等效构造不偏离本发明最宽形式的精神和范围。
在进行下面的发明详细说明之前，阐明对本专利文献中通篇使用的某些词语的定义也许是有益的术语“包括”和“包含”以及它们的衍生词，意思是没有限制的包含；术语“或”是包含性的，意思是和/或；术语“与…相关联的”及其衍生词可以指包括、被包括在…内、与…互连、含有、被包含在…内、连接到或与…连接、耦合到或与…耦合、可与…通信的、与…合作、交织、并置、接近、被限定于、有、有…的属性等等；术语“控制器”指任何控制至少一个操作的装置、系统或其部件，无论这种装置以硬件、固件、软件或它们的至少两个的某种组合。应当注意的是，与任何特定控制器相关联的功能，无论是本地的还是远程的，都可以是集中式或分布式的。本专利文献中通篇提供对某些词语的定义，所属技术领域的熟练人员将明白，这类定义在许多(即使不是大多数)情况下，既适用于所定义的词语先前的用法，也适用于将来的用法。
为了更彻底理解本发明及其优点，现在参照以下结合各附图所作的说明，附图中同样的号码表示同样的对象，其中

图1表示按照本发明一个实施例的用于为初始化推荐系统用户简档而制定和提供样板的系统；图2更详细地表示按照本发明一个实施例的实现样板制定的系统控制器；和图3是按照本发明一个实施例的为从一个收视历史样本总体导出样板的群集处理过程挑选一个或多个可能的初始群组集合的处理过程的高级流程图。
以下讨论的图1至3以及本专利文献中被用来说明本发明原理的各种实施例仅仅是示例性的，不应以任何方式被解释为对本发明范围的限制。所属技术领域的熟练人员明白，本发明的原理可以在任何适当安排的装置中实现。
图1表示按照本发明一个实施例的用于为初始化推荐系统用户简档而制定和提供样板的系统。示例性系统100包括一个为在初始化推荐系统的过程中使用而制定和提供样板的样板服务器101，它与一个推荐系统102可通信地耦合。推荐系统例如可以在视频节目接收器内、音频接收器内或者诸如机顶盒或计算机之类的因特网接入装置内实现。
所属技术领域的熟练人员明白，这里并没有表示或描述一个用于制定样板的系统的完整构造和操作。相反，为了简明，只表示或描述了本发明独特的、或者为理解本发明所需的那些构造和操作。该系统的其余构造和操作可以与所属领域内已知的传统结构或实践相符合。
图2更详细地表示按照本发明一个实施例的实现样板制定的系统控制器。系统控制器200的控制器硬件和编程201可以在图1中所示的样板服务器或类似的装置中实现。或者，可以采用中间装置(图1中未予示出)，用来把由系统控制器200所制定的样板提供给多个具有推荐系统的装置中的每一个。控制器硬件、编程和输入与输出数据201的各部分，可以以分布式方式实现，其中不同部分被设置在两个或更多的装置内。
无论如何实现，系统控制器200包括用于制定要在初始化推荐系统的过程中采用的样板的算法202，这些算法包括初始群组选择算法203和群集算法204。控制器200可访问的存储器206含有用于一个样本总体的收视历史206、以及在制定后从收视历史中导出的样板207。
收视历史206含有用于收视地区内相关人口的一个相对大的样本集合，并且假设其含有按“已观看的”和“未观看的”两个类别而分类的节目，这例如是通过结合电子节目指南等跟踪实际的收视情况而确定的，或者是通过其它手段而确定的。群组是通过K平均计算(K-means computations)形成的，即先形成一个初始的、随机选择的、含有预定数量的收视历史的群组，然后递增该群组，一直到该群组的推荐性能在相同的训练集上被测试时没有进一步改善时为止。该K平均群集处理过程因此在连续的迭代中改善群组。由于用于群集的数据集包括带有符号数据的例子，采用值差度量(value difference metrics)来计算例子与群组之间的距离。2001年11月12日提交的名称为″METHOD AND APPARATUS FOR RECOMMENDING ITEMS OFINTEREST BASED ON STEREOTYPE PREFERENCES OF THIRDPARTIES(基于第三方的样板偏好推荐感兴趣的项的方法和设备)″的美国专利申请序列号10/014,195中阐述了关于一种群集技术的进一步的细节，特此引用作为参考。
如上所述，群集算法对初始群组集合的质量很敏感。初始群组之间的较大距离，更可能导致群集处理过程的稳定，避免当初始群组太靠近时可能发生的空群组。群集处理过程可以用随机选择的初始群组为种子，然后，用诸如群集处理过程的精确度之类的度量来分析所述结果以选择一个优于另一个群组集合的群组集合。然而在这样一个方法中，由于初始群组集合的可能的排列(permutations)的数目巨大，对为什么一个群组好于另一个的分析非常困难。
因此在本发明中，设计了一种度量，用来比较可能被输入到群集算法的各种初始群组集合。通过把所有的群组间距离求和，然后由达到该数目所用的加法次数归一化(normalizing)而推导出该度量。这个度量可以被用来比较初始群组集合，目的是剔出“不良的”初始群组集合，以允许对群组结果的更有效的分析。
初始群组选择算法203因此为比较各种可能的群组集合而计算一个平均群组间归一化距离。假设在一个可能的初始群组集合C0、C1、C2、…、CN内有N+1个在成员收视历史数目方面都满足阈限要求的群组，计算每个群组与所有其它群组的群组间距离。例如，和_C0是群组C0与C1到CN的所有其它群组的距离，即从群组C0到C1的距离，加上从群组C0到C2的距离，等等；类似地，和_C1是从群组C1到C0的距离，加上从群组C1到C2的距离，等等。距离测量可以采用通常用于K平均算法的欧几里得距离公式(沿每个属性轴的距离平方和的平方根)。优选地避免自我计算(即从C0到C0的距离是零)。对每个单独距离的合计是对N个值的一个合计。
一旦已经计算了从某候选集合内的每个群组到所有的其余群组的群组间距离，就把为所有单独群组计算的值相加。就是说，把和_C0、和_C1、和_C2、…、和_CN-1、和_CN合计，得出一个对N+1个数字的合计。然后按所合计的值的个数归一化该总值，整个计算由下式得出AvgICND=1N(N+1)sum(sum-C0,sum-C1,sum-C2,···,sum-CN-1,sum-CN)---(1)]]>其中，AvgICND是候选群组集合的平均群组间归一化距离。对所有的候选初始群组集合重复这个计算，然后比较所计算的度量。一个候选初始群组集合的这个计算值越小，该集合内的群组就越接近，这使该候选集合与具有更大的平均群组间归一化距离的候选初始群组集合相比，就是用于群集处理过程的初始化的较差候选集合。因此，为了从一个收视历史样本总体导出样板，选择具有更大的平均群组间归一化距离的群组集合来初始化群集处理过程。
图3是按照本发明一个实施例的、为从一个收视历史样本总体导出样板的群集处理过程而挑选一个或多个可能的初始群组集合的处理过程的高级流程图。处理过程300始于接收一个样本总体收视历史(步骤301)。首先对将满足对每个群组内的样本数的阈值要求的候选初始群组集合的可能排列进行确定(步骤302)。
选择一个候选初始群组集合，计算该候选群组集合的平均群组间归一化距离(步骤303)。然后对另一个候选初始群组集合重复该选择和计算处理过程，直到所有候选都被处理过(步骤304)。一旦为所有可能的初始群组集合计算了平均群组间归一化距离，就对所计算的距离进行比较，并丢弃最坏的候选初始群组集合(步骤305)。所述处理过程然后变得空闲，一直到另一个收视历史样本总体被接收。
本发明在确定被用来初始填充用于推荐系统的用户简档的适当样板期间被采用。样板是通过一个尝试各种初始群组的群集处理过程而确定的，其中本发明允许对初始群组进行有意义的比较，以确定哪些更适于导出样板。
重要的是要注意，尽管在一个全功能系统的情境中对本发明作了描述，所属技术领域的熟练人员应明白，本发明的至少部分的机制能够以含有各种形式的指令的机器可用介质的形式被分发(distributed)，并且不管被用来实际执行该分发的信号承载介质的特定类型如何，本发明都一样地适用。机器可用介质的例子包括非易失性、硬编码类型的介质，诸如只读存储器(ROM)或可擦式电可编程只读存储器(EEPROM)；可记录类型的介质，诸如软盘、硬盘驱动器或光盘只读存储器(CD-ROM)或数字通用盘(DVD)；以及传输类型的介质，诸如数字和模拟通信链路。
尽管对本发明作了详细地说明，所属技术领域的熟练人员将明白，在不偏离本发明的最广意义的精神和范围的情况下，可以对这里所公开的本发明作出各种改变、替代、变型、增强、细微改变、渐变、小型化、改造、修订、改善、删除。
权利要求
1.一种用于评估初始群组集合的系统，包含一个控制器201，该控制器接收对应于一个收视历史样本总体206的多个候选初始群组集合，并且对于每个候选群组集合计算一个有关特定候选群组集合内的每个群组与该特定候选群组集合内的每一个其它群组的距离的度量。
2.按照权利要求1的系统，其中，所述度量是一个候选初始群组集合内的各群组之间的距离的归一化平均合计。
3.按照权利要求2的系统，其中，所述度量是一个平均群组间归一化距离，等于对被合计的值的数目归一化了的一个候选初始群组集合内的每个群组的所有合计群组间距离的总和。
4.按照权利要求1的系统，其中，控制器201根据所述度量丢弃较差的候选初始群组集合。
5.按照权利要求1的系统，其中，要在一个从所述收视历史样本总体206中导出样板207的群集处理过程内被采用的初始群组集合是根据所述度量选择的，其中导出该样板207以便初始地填充一个推荐系统内的用户简档。
6.一种用于评估初始群组集合的系统，包含存储器205，含有一个收视历史样本总体206，并适于选择性地接收一个或多个样板207；和控制器201，与该存储器205可通信地耦合，并接收该收视历史样本总体206，该控制器201确定对应于该收视历史样本总体206的多个候选初始群组集合，对于每个候选初始群组集合，计算一个有关特定候选群组集合内的每个群组与该特定候选群组集合内的每一个其它群组的距离的度量，根据该度量选择一个或多个候选初始群组集合，利用一个用一个或多个所选择的候选初始群组集合来初始化的群集处理过程从该收视历史样本总体206中导出一个或多个样板207。
7.按照权利要求6的系统，其中，所述度量是一个候选初始群组集合内的各群组之间的距离的归一化平均合计。
8.按照权利要求7的系统，其中，所述度量是一个平均群组间归一化距离，该距离等于对被合计的值的数目归一化了的一个候选初始群组集合内的每个群组的所有合计群组间距离的总和。
9.按照权利要求6的系统，其中，控制器201根据所述度量丢弃较差的候选初始群组集合。
10.按照权利要求6的系统，其中，由群集处理过程导出的样板207被选择性地用来初始地填充一个推荐系统内的用户简档。
11.一种用于评估初始群组集合的方法，包含接收对应于一个收视历史样本总体206的多个候选初始群组集合；和对于每个候选群组集合，计算一个有关特定候选群组集合内的每个群组与该特定候选群组集合内的每一个其它群组的距离的度量。
12.按照权利要求11的方法，其中，所述计算一个有关特定候选群组集合内的每个群组与该特定候选群组集合内的每一个其它群组的距离的度量的步骤进一步包含计算一个候选初始群组集合内的各群组之间的距离的归一化平均合计。
13.按照权利要求12的方法，其中，所述计算一个有关特定候选群组集合内的每个群组与该特定候选群组集合内的每一个其它群组的距离的度量的步骤进一步包含计算一个平均群组间归一化距离，该距离等于对被合计的值的数目归一化了的一个候选初始群组集合内的每个群组的所有合计群组间距离的总和。
14.按照权利要求11的方法，进一步包含根据所述该度量丢弃较差的候选初始群组集合。
15.按照权利要求11的方法，进一步包含根据所述度量选择要在一个从所述收视历史样本总体206中导出样板207的群集处理过程内被采用的初始群组集合，其中导出该样板207以便初始地填充一个推荐系统内的用户简档。
16.一种信号，包含通过为每个候选群组集合计算一个有关特定候选群组集合内的每个群组与该特定候选群组集合内的每一个其它群组的距离的度量而从对应于一个收视历史样本总体206的多个候选初始群组集合中被导出的至少一个样板207。
17.按照权利要求16的信号，其中，所述度量是一个候选初始群组集合内的各群组之间的距离的归一化平均合计。
18.按照权利要求17的信号，其中，所述度量是一个平均群组间归一化距离，该距离等于对被合计的值的数目归一化了的一个候选初始群组集合内的每个群组的所有合计群组间距离的总和。
19.按照权利要求16的信号，其中，根据所述度量而识别的较差的候选初始群组集合在导出至少一个样板207的过程期间被丢弃。
20.按照权利要求16的系统，其中，要在一个从所述收视历史样本总体206中导出至少一个样板207的群集处理过程内被采用的初始群组集合是根据所述度量选择的，其中该至少一个样板207可以被选择性地用来初始地填充一个推荐系统内的用户简档。
全文摘要
为了在利用群集处理过程从收视历史样本总体中导出样板的系统中使用，本发明提供对用于群集处理过程可能的初始群组集合的比较，该比较根据的是为每个候选初始群组集合计算的、并且有关候选初始群组集合内的每个群组与候选初始群组集合内每个其它群组的距离的度量。本发明包括用于评估初始群组集合的系统，其中包含一个控制器(201)，该控制器接收对应于一个收视历史样本总体(206)的多个候选初始群组集合，并且对于每个候选群组集合计算一个有关特定候选群组集合内的每个群组与该特定候选群组集合内的每一个其它群组的距离的度量。本发明还包括用于评估初始群组集合的方法。
文档编号H04N7/16GK1662921SQ03814678
公开日2005年8月31日申请日期2003年6月12日优先权日2002年6月24日
发明者K·库拉帕蒂, S·古塔申请人:皇家飞利浦电子股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：K.库拉帕蒂;S.古塔
技术所有人：皇家飞利浦电子股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。