电视节目推荐设备和电视节目推荐方法

文档序号:7963599阅读:234来源:国知局
专利名称:电视节目推荐设备和电视节目推荐方法
技术领域
本发明涉及一种电视节目推荐设备和电视节目推荐方法,用于根据电视节目文本信息的自然语言特征和其他节目信息的统计特性动态地建立电视节目分类并自动调整分类结构,然后按照分类等级给出不同级别的推荐。
背景技术
目前已知的电视节目推荐方法及其设备有,例如,中国专利CN1226867C,其通过对用户喜好进行匹配来推荐电视节目。其中,用一些指定的主题描述符合用户的观赏喜好的节目,通过主题字典,使每个主题对应一系列关键字。对于接收到的电视节目,根据其表示节目内容的电子节目指南,把其中的文本内容信息中的关键字与这些关键字相匹配,得到每个节目相应主题类型的数值,并将每个主题的得分情况作为推荐的依据。
通常来说,节目推荐技术的准确度体现在该技术对于人类的理解力的反映程度,越接近人们在未观赏电视节目的情况下对该节目预告信息的理解的推荐结果被认为是越好的推荐,在推荐列表中具有越高的推荐级别。
以上所述的现有技术中公开的方法及其设备是依赖预先给定的主题,因此往往难以充分详细划分复杂且多变的电视节目内容,由此,用户喜好的统计结果与用户的节目推荐需求之间往往存在不一致的情况。实际上现实当中更常见的情形是,用户需要设备推荐与指定节目内容相似的节目。在上述现有技术所公开的推荐节目的方法及其设备中,主题之间的内容层次结构和相关性不能从推荐结果中得到直观的反映。另外,现实当中存在的另外一种问题是,仅凭电视节目的文本信息有时仍不能对电视节目的内容做出准确的判断,例如,出现在不同时间段和频道中的具有相同电视节目文本描述信息的节目,其内容、类型可能有很大差异。

发明内容
因此,本发明的主要目的在于提供一种电视节目推荐设备和电视节目推荐方法,其能够充分利用节目相关信息,例如,能够充分利用表示电视节目的电子节目指南中的文本信息、节目播出时间、节目长度、节目影像的缩略图数据和节目播出周期等,从而能够充分详细划分复杂且多变的电视节目内容,由此推荐出与指定节目具有相关性的节目推荐列表。
本发明提供一种电视节目推荐设备,包括解调器,接收电视节目的节目指南信息;分配器,从接收到的节目指南信息中分离出至少两个预先确定的表现电视节目的属性的元素,每个电视节目用由预先确定的元素定义的向量来表示;用户界面,由用户在接收到的电视节目中指定基本节目;推荐控制器,包括至少两个比较器和相关性比较器,计算基本节目与其他节目的向量之间的距离,并且基于该距离按照规定规则决定推荐的节目;以及,输出器,输出并显示被推荐的节目。
上述电视节目推荐设备中,至少两个预先确定的元素是电视节目文本信息和选自节目播出时间、节目长度、节目影像的缩略图数据和节目播出周期的至少一个。
另外,上述电视节目推荐设备还可以再具备一个规则管理器,该规则管理器根据用户对推荐结果的反馈更改规定规则,这种更改直接在本地完成,或者通过所连接的服务器来完成。
规定规则可以是将与基本节目的向量之间的距离最短的节目作为推荐节目。
另外,上述电视节目推荐设备还可以再包括字典数据库,该字典数据库存储反映电视节目文本信息的语义的结构分层的单词表。
并且,可以通过从所连接的服务器下载新的字典数据库对字典数据库进行更新。
上述规则管理器还可以根据用户对推荐结果的反馈更改字典数据库存储的单词表所反映的语义的结构分层,这种更改直接在本地完成,或者通过从所连接的服务器下载更新的字典数据库来完成。
上述电视节目推荐设备中,至少两个比较器包括文本分类器和选自时刻表统计器、缩略图比较器的一个或者两个。
上述电视节目推荐设备中,电视节目的节目指南信息包括电子节目指南数据。
本发明的电视节目推荐设备,通过分配器从节目指南信息中分离出至少两个预先确定的表示电视节目的属性的元素,例如,电视节目文本信息和选自节目播出时间、节目长度、节目影像的缩略图数据和节目播出周期等等,并且,每个电视节目用由这些预先确定大元素定义的向量来表示。因此,本发明的电视节目推荐设备,能够充分利用节目指南信息中的各种信息,能够充分详细地划分复杂多变的电视节目内容。克服了以往节目推荐方法及其设备仅仅依赖于电视节目文本信息,从而难以充分详细地划分复杂多变的电视节目内容的缺点。
另外,本发明的电视节目推荐设备,通过用户界面,由用户在接收到的电视节目中指定基本节目,并且,通过计算基本节目与其他节目的向量之间的距离,基于该距离按照规定规则决定推荐的节目,因此,能够充分利用用户对节目指南信息的理解来推荐最符合用户喜好的电视节目。
并且,本发明的电视节目推荐设备,可以通过规则管理器根据用户对推荐结果的反馈来改变上述规定规则或者更改字典数据库存储的单词表所反映的语义的结构分层,由此,能够根据用户的喜好来改善推荐节目的效果,得到更良好的推荐结果。
本发明还提供一种电视节目推荐方法,其包括接收步骤,接收电视节目的节目指南信息;分配步骤,从接收到的节目指南信息中分离出至少两个预先确定的表现电视节目的属性的元素,用由预先确定的元素定义的向量来表示每个电视节目;指定步骤,由用户在接收到的电视节目中指定基本节目;推荐步骤,计算基本节目与其他节目的向量之间的距离,并且基于该距离按照规定规则决定推荐的节目;以及输出步骤,输出并显示被推荐的节目。
上述电视节目推荐方法中,至少两个预先确定的表现电视节目的属性的元素,是电视节目文本信息和选自节目播出时间、节目长度、节目影像的缩略图数据和节目播出周期的至少一个。
另外,上述电视节目推荐方法,还可以再包括规则管理步骤,根据用户对推荐结果的反馈更改规定规则,这种更改直接在本地完成,或者,通过服务器来完成。
上述电视节目推荐方法中,规定规则可以是将与基本节目的向量之间的距离最短的节目作为推荐节目。
另外,上述电视节目推荐方法还可以再包括分类步骤,利用字典数据库给电视节目文本信息赋予预先设定的分类结构并且更新该分类结构;聚类步骤,利用字典数据库给电视节目文本信息创建分类结构并且更新该分类结构。
并且,电视节目推荐方法,还可以再具备一个规则管理步骤,该规则管理器根据用户对推荐结果的反馈更改分类结构,这种更改直接在本地完成,或者,通过从所连接的服务器下载更新的字典数据库来完成。
上述电视节目推荐方法中,电视节目的节目指南信息包括电子节目指南数据。
本发明的电视节目推荐方法,通过分配步骤从节目指南信息中分离出至少两个预先确定的表示电视节目的属性的元素,例如,电视节目文本信息和选自节目播出时间、节目长度、节目影像的缩略图数据和节目播出周期等等,并且,每个电视节目用由这些预先确定大元素定义的向量来表示。因此,本发明的电视节目推荐方法,能够充分利用节目指南信息中的各种信息,能够充分详细地划分复杂多变的电视节目内容。克服了以往节目推荐方法及其设备仅仅依赖于电视节目文本信息,从而难以充分详细地划分复杂多变的电视节目内容的缺点。
另外,本发明的电视节目推荐方法,通过指定步骤,由用户在接收到的电视节目中指定基本节目,并且,通过在推荐步骤中计算基本节目与其他节目的向量之间的距离,基于该距离按照规定规则决定推荐的节目,因此,能够充分利用用户对节目指南信息的理解来推荐最符合用户喜好的电视节目。
并且,本发明的电视节目推荐设备,可以通过规则管理步骤根据用户对推荐结果的反馈来改变上述规定规则或者更改分类结构,由此,能够根据用户的喜好来改善推荐节目的效果,得到更良好的推荐结果。


图1是电视节目推荐设备的方块示意图。
图2是表示将本发明的节目推荐设备应用于数字电视接收机中的一个实施例的示意图。
图3表示典型的电子节目单数据的结构。
图4表示一个自然语义字典的数据结构片断。
图5表示分类器对一个电视节目的文本信息进行分类的流程图。
图6表示查找一个电视节目的文本信息中的有效关键字和对应的优先级的流程图。
图7表示关键字的优先级的设定和对应的权重值。
图8表示对收到的电视节目的文本信息进行动态分类的结果。
图9是时刻表统计器对每个节目在节目单中的周期性统计的结果。
图10表示各个元素的数值的表格。
图11表示相关性比较器对文本信息分类进行修正后得到的节目距离参数。
图12表示相关性比较器给出的不同推荐级别的推荐结果。
图13表示EPG的显示界面。
图14表示推荐结果被显示出来的界面。
图15表示多级推荐结果被显示出来的界面。
图16表示预定义的分类结构;图17表示在预定义的分类树结构中进行节目分类的流程图;图18表示文本统计数据库中节目分类的数据结构;图19典型的用户评价界面。
具体实施例方式
以下参照附图详细描述本发明相关的电视节目推荐设备和电视节目推荐方法的优选实施例。
图1是表示本发明一例电视节目推荐设备的结构的示意图。如图1所示,电视节目推荐设备102具有解调器103、分配器104、推荐控制器105、用户界面108、输出器109。其中,推荐控制器105中包括比较器106(图中给出了三个比较器a、b、c)和相关性比较器107。
本发明还提供一种电视节目推荐方法,包括接收步骤,接收电视节目的节目指南信息;分配步骤,从接收到的节目指南信息中分离出至少两个预先确定的表现电视节目的属性的元素,用由所述预先确定的元素定义的向量来表示每个电视节目;指定步骤,由用户在接收到的电视节目中指定基本节目;推荐步骤,计算基本节目与其他节目的向量之间的距离,并且基于该距离按照规定规则决定推荐的节目;以及输出步骤,输出并显示被推荐的节目。
在下面的说明中,对本发明的电视节目推荐方法是穿插在对本发明的电视节目推荐设备的说明中。
下面,参照图1简单地描述本实施例的电视节目推荐设备的各个元件的操作。图1中,箭头方向表示数据或信号的流动方向。
首先,解调器103接收广播信道传输的数字电视信号101,并将接收到的电视信号解码成载有电子节目指南的数据信号,同时将该电子节目指南的数据信号传送给分配器104(接收步骤);然后,分配器104从接收到的节目指南信息中分离出表现电视节目的属性的元素,包括由频道名、电视节目标题、电视节目类别属性和描述信息等构成的文本信息,电视节目开始时刻、长度和频度信息,缩略图等,由此,每个电视节目由这些元素定义的向量来表示(分配步骤);然后,将这些元素分别传送给推荐控制器105中的各个比较器;与此同时,用户通过用户界面108在接收到的电视节目中指定基本节目111(指定步骤);接着,推荐控制器105中包括的相关性比较器107计算基本节目111与其它节目的向量之间的距离,并且基于该距离按照规定规则决定推荐的节目(推荐步骤);最后,输出器109输出并显示被推荐的节目110(输出步骤)。
下面,就本发明的电视节目推荐设备应用于通常的电视机时的情况,进行详细说明。
图2显示了将本发明的节目推荐设备安装于数字电视接收机中的一个实施例。
本实施例中,利用常见的电子节目指南(EPG)作为表示电视节目的节目指南信息的数据。现有的通过地面、有线或卫星传输方式传输的电视广播,在播放电视音视频信号的同时,播发携带其他信息的数据,包括电视节目预告信息,其中,电子节目指南(EPG)是典型的提供描述节目信息的方式。此外,诸如图文电视等技术也可以用于传输此类附加信息。
图3显示一个典型的EPG数据结构,所有的电视节目数据都包括频道,播出时间,标题等域(属性);也可能包含类别,描述,演员表和缩略图等域。其中,标题,类别,描述和演员表等域构成了节目的文本信息。缩略图构成了二维空间的数据信息。对本实施例的说明是基于这样的EPG数据信息的利用。本发明不限于利用EPG类型的数据,只要是通过某种途径和方式对数字电视节目进行描述的附加信息,都可以作为本发明电视节目的节目指南信息。
图2中,虚线框以外分别是广播信道传输的数字电视信号201,以及自然语言字典服务器211和规则服务器221;虚线框内是设置于电视接收机内部的本发明电视节目推荐设备及其相关元件;箭头方向表示数据或信号的流动方向。解调器203将接收到的电视信号解码成载有电子节目指南的数据信号206,分配器222提取编码在电子节目指南中的表现各种电视节目的属性的元素,并将这些元素分别传送给分类器207、时刻表统计器213和缩略图比较器217。其中,分类器207与文本统计数据库210相连,时刻表统计器213与时刻表统计数据库222相连,缩略图比较器217与缩略图统计数据库214相连;文本统计数据库210、时刻表统计数据库222、缩略图统计数据库214分别与相关性比较器215相连;相关性比较器215与规则数据库218相连,能够从规则数据库218中调出用于计算距离的规则相关的信息;该规则数据库218还与规则管理器212和文本统计数据库210相连;而规则管理器212与规则服务器221相连。
由于节目指南信息中,电视节目文本信息包括频道名、电视节目标题、电视节目类别属性和描述信息等,相对于其它元素,例如,节目开始时刻、长度和频度信息、缩略图等,所包含的表示电视节目的属性的内含较多,因此,分配器从接收到的节目指南信息中分离出的预先确定的表现电视节目属性的元素中通常都包括节目文本信息,另外,作为对文本信息的补充,通常还可以包括从节目播出时间、节目长度和频度信息、缩略图等数据中选择的至少一个。与此相对应地,本发明的电视节目推荐设备所包括的比较器包括文本分类器,和选自时刻表统计器、缩略图比较器的一个或者两个。
虽然如此,在以下实施例中所涉及的本发明电视节目推荐设备中包括文本分类器、时刻表统计器、缩略图比较器。
每当收到一个电视节目的相关信息,分类器207通过查询字典数据库209和文本统计数据库210的信息对电视节目信息作分类/聚类处理,用运算得到的分类/聚类结果更新文本统计数据库210。字典数据库209存储反应电视节目文本信息的语义的结构分层的单词表。通过从自然语言字典服务器211下载新的字典数据库,可以对该字典数据库209进行更新。
时刻表统计器213从统计数据库222提取已存储的有关以往时刻表信息的数据,并将其与接收到的节目信息信号一起进行计算,从而得到新的统计结果,然后用该新的统计结果更新时刻表统计数据库222。
缩略图比较器217从接收到的节目信息信号提取节目标志性图像信息,将其与缩略图统计数据库214中的数据进行比较,并通过计算得到图像相关性的数据,然后将该数据存储于缩略图统计数据库214中。
由此,电视节目推荐设备接收到的所有EPG节目信息都存储在文本统计数据库210、时刻表统计数据库222和缩略图统计数据库214中,这些由数据库中存储的信息表示的节目,作为相关性比较处理的参考节目。这些节目的文本分类信息,长度,周期性,开始时刻以及缩略图等的信息构成一个5维的数据空间,每个节目i在每一维空间中都有一个对应的坐标,分别记为aibicidi和ei,也就是说,每个节目都用由(ai,bi,ci,di,ei)定义的向量来表示。在这个5维坐标系下,用户指定的基本节目与所有的参考节目间的距离就是他们相关性的量化表示。
当用户通过遥控器等用户界面把推荐节目的命令216发送给电视节目推荐设备时,相关性比较器215接收用户的指令,把某个参考节目指定为基本节目。
相关性比较器215接收到来自用户的要求推荐电视节目的指令216之后,从文本统计数据库210、时刻表统计数据库222和缩略图统计数据库214中提取参考节目的相关信息,并且按照规则数据库218中的参数和算法函数计算出基本节目与参考节目之间的距离(在以下说明中,有时称作“相关度”)。
作为这种距离的一种定义,可以采用如下计算方法,距离值d越小则相关性越大,d=α|a1-a2|+β|b1-b2|+γ|c1-c2|+σ|d1-d1|+δ|e1-e2|+...
这一公式规则,包括系数都存储于规则数据库218中。对应该距离的定义,通过相关性比较器215、分类器207、时刻表统计器213和缩略图比较器217得以实现。α、β、γ、σ和δ是权重,反映具体策略,例如本例中,各系数采用如下式d=0.4|a1-a2|+0.3|b1-b2|+0.1|c1-c2|+0.1|d1-d1|+0.1|e1-e2|其中,各元素表示的意义如下

此公式中的系数的确定来自对各维度信息在节目相关性中贡献的经验值。本例中介绍一种固定系数的公式。EPG文本信息和节目的多次重复性对分类贡献较大,本公式中对其设定了比较大的权重系数,0.3和0.4。其它因素采用了相对较小的权重系数0.1。
将与基本节目距离从小到大的参考节目作为优先级从高到低的推荐结果。
另外,推荐深度用于控制所推荐节目列表的长度。在本实施例中,推荐深度设定为2,即,将与基本节目间d值按从小到大排列时,d值位于第一的(d值最小的)参考节目作为第一级的推荐节目,d值位于第二的节目作为第二级推荐节目。
需要说明的是,事实上距离值d的定义和计算d值的公式不限于本实施例。根据数据而进行适当改变的公式和权重系数的规则往往更具有优秀的推荐效果。这些规则可以通过统计电视节目规律来得到。
另外,本发明的电视节目推荐设备可以包括规则管理器212,而本发明的电视节目推荐方法可以包括规则管理步骤。
具体而言,本发明的电视节目推荐设备可以通过规则管理器212来更改或者更新规定规则,具体而言,该规则管理器212可以接收用户对推荐结果的评价,并且根据用户对推荐结果的反馈来更改所述规定规则,这种可以更改直接在本地通过改变规则数据库218中的参数和算法函数来完成,或者,通过从所连接的规则服务器221下载更新的参数和算法函数来完成(规则管理步骤)。
上述规则管理器212除了具有上述的更改或者更新规定规则的功能之外,还可以具有更改或者更新字典数据库209存储的单词表所反映的语义的结构分层的功能,具体来说,该规则管理器212可以根据用户对推荐结果的反馈来直接更改字典数据库209的单词表的语义结构(直接在本地完成),或者,通过从所连接的自然语言字典服务器211下载更新的字典数据库来完成(规则管理步骤)。
按照距离的大小排列出推荐节目的列表信息220后,根据规定规则来决定推荐节目。通常来说,上述规定规则通常是,将与基本节目之间的距离最短的参考节目作为推荐节目。但是,因为具有最小值的参考节目极有可能是相同节目的重播,因此,也可以规定距离值小于一定值的反而不作为推荐节目。
按照被推荐的节目的列表信息220发送至电子节目指南显示模块208进行图形化处理后,显示于电视屏幕223上(输出步骤)。
另外,本发明的电视节目推荐方法,还包括分类步骤,利用字典数据库给电视节目文本信息赋予预先设定的分类结构并且更新该分类结构;聚类步骤,利用字典数据库给电视节目文本信息创建分类结构并且更新该分类结构。该“分类步骤”和“聚类步骤”将在下面对分类器运行方式的说明中进行详细说明。
下面,说明本发明的电视节目推荐设备的分类器及其运行方式的实施例。
分类器是针对电视节目单中的文本信息将新接收到的电视节目按照条目分类的设备。它提供本说明书中提及的文本统计信息。
分类器运行的方式大致有“聚类方式”和“分类方式”,所谓“聚类方式”,是利用字典数据库给电视节目文本信息创建分类结构并且更新该分类结构的方式;所谓“分类方式”,是基于预先设定的分类结构利用字典数据库给电视节目文本信息创建分类并且更新该分类结构的方式。通常,这两种方式分别在应对复杂且多变的电视节目内容和达到快速进行分类的效果上各有优势,为了提高上述效果,优选采用将两者相结合的运行方式。
首先说明分类器按照“聚类方式”运行的情况。首先说明分类器运行中所使用的字典数据库209。图4表示了自然语言字典数据库209的结构。其中,对应每个条目有若干的语义解释来说明该条目所处的语义范畴。当出现新的词汇,或者从用户那里接收到针对推荐结果的评分信息而做出响应时,字典服务器211可以向该字典数据库209发送更新的部分或全部字典数据内容。
图5显示分类器的运行流程分类器207从反映自然语言语义结构的字典数据库209中查找文本信息中出现的释义关键词,然后将这些关键词逐一与已经存在的分类中的关键词相匹配。
具体来说,首先,确定EPG文本信息中的有效关键字。在一个文本序列中划分关键字的方法可以采用文本分割技术来实现,例如,TextTiling,动态规划法,指数模型,马尔科夫模型等等已知方法,本发明可以没有特殊限制地利用已知的这种划分关键字的现有技术来确定EPG文本信息中的有效关键字。出现在EPG信息中的不同属性域的文本在语义贡献上有不同的权重。通常由强到弱的顺序为类别属性域,标题,其他描述信息。图7显示了处于不同域中的关键字的优先级的设定和对应的权重值。如图6所示,如果文本信息中有类别域,该域在语义上的优先级最高,出现在题目域中的关键字其次,字典解释中的最弱,然后统计它们出现的次数,按照以上优先级作为权重求出每个关键字的终优先级。
然后,如图5所示,用每一个找到的关键字与已经存在的分类关键字相匹配并乘以对应的权重,匹配的次数乘以相应的优先级,得到可以与已经存在的分类相合并的概率,分类的关键字就以匹配过程中加权次数最高者充当。如果该概率为零,说明这个文本信息于任何一个已存在的分类都没有联系;则单独建立一个分类,分类的关键字就以这个文本信息中优先级最高的关键字充当。
对于关键字匹配的字典查找深度会影响分类的结果。因为字典释义的多层查找意味着更大范围的语义概念。例如经过两次查找,关键字“狮”“猫科”“哺乳动物”“动物”会依次出现,与已经存在的分类关键字“猫科”或“动物”的匹配可能会产生不同的结果。从而将文本合并进不同的分类中,这种特性反映了动态划分分类对于语义的弹性处理。本实施例中查找深度设定为1。
图8列出了先后收到电视节目单中5个节目信息后,分类器得到的每收到一个节目后动态分类的结果。
第1步,收到节目信息“Soccer gameLion V.S.Tiger”,按照图6所示的过程,对关键字“sports”“soccer”“game”“lion”“tiger”进行字典关键字的查找,参照图7的权重,“soccer”成为最高优先级的关键字;由于尚没有其他分类,就将节目“Soccer gameLion V.S.Tiger”单独划为一个分类,而“soccer”作为这个分类的关键字一并存储在文本统计数据库中。同时,设定初始值1,作为这个分类的中该节目的分类值。
第2步,收到节目信息“Lion,tiger and cat”,按照图6所示的过程,类似第1步得到“feline”等等若干关键字,用这些关键字与已有分类“Soccer gameLion V.S.Tiger”的关键词“soccer”以及“soccer”在字典中的释义关键词相匹配,可匹配关键词数目为0,表明节目信息“Lion,tiger and cat”在字典释义的范畴内没有与已有分类“Soccer gameLionV.S.Tiger”相融合的可能。那么将节目信息“Lion,tiger and cat”单独作为一类,并把查找关键字中得到的“feline”作为这个分类的关键字。对于与分类“soccer”相同的层的不相关分类中的节目,标记节目“Lion,tiger and cat”的分类值为2。
第3步,收到节目信息“Interview of Star Team”,与第2步相同,同样按照图7优先级的设定,与已有的两个分类的关键词分别进行匹配,加权后匹配次数最高的关键词soccer作为节目信息“Interview ofStarTeam”与分类“soccer”合并后的关键词,由于与分类“feline”并没有关键词可以匹配,因此不与其合并。由于节目“Interview ofStarTeam”与“Interview of Star Team”属于同一分类“soccer”,分别设定或更改这两个节目的分类值为1.1和1.2。
分类值中处在最高位(左端)的一层数字,代表最大范围的概念区分。在本实施例中,规定最高位之间的差别代表分类之间没有联系。
如果出现对于两个以上的已有分类都有匹配的情况,则可以指定合并分类的规则,比如选择加权匹配次数为一定数目以上的合并分类,等等。同一个节目信息属于两个以上的分类是正常的。
按照相同的步骤,可以推导出第4步至第5步的分类结果。
第5步中,由于节目“Mammal Society”与已有分类“feline”的关键字“feline”并没有匹配,而与“feline”的字典关键字存在匹配,因此节目“Mammal Society”的语义范畴比分类“feline”高一层;而“feline”处于更深一层的范畴中。因此,将分类“felien”中的所有节目的分类值改向更深一层,成为2.1.1和2.1.2,而节目“Mammal Society”标记成2.2。
以上所得到的各个节目的分类值就是在文本信息意义下的对应节目的坐标。本实施例中产生的分类是通过聚类得到的相对分类。不同分类之间可以没有联系。这种结构可以良好的适应繁杂多变的自然语言意义下的分类情形。
在本发明电视节目推荐方法中,分类器以聚类方式处理文本信息的步骤,称作聚类步骤,其具体流程如上说明。
下面,说明分类器按照“分类方式”运行的情况。在该运行方式下,所有的分类都可以通过某种路径上溯到共同的根类别。以下描述该实施例的文本分类器的处理过程。
类别结构具有分层的特性,代表关键词语义的不同程度的细化。在图16所示,类别结构中的每个语义概念成为树的一个节点,如“新闻”、“足球”等。将常见的EPG信息中的类别信息设定为分类数据的第一层,也就是在根类别下的最浅一层的节点。该层包含若干语义上更加细分的子分类,它就叫做这些子分类的父分类。该信息符合电视节目的语义特点。本实施例中预先建立的类别结构为树状。但应用中不限于此结构。树状分类结构来自于每个子分类都只有一个父分类的逻辑关系。对于子分类有多于一个父分类的情形,本发明另可采用图状的类别结构。
本实施例中采用了如图16所示的方法来标记不同层次的分类。每一串用点分段的数字用来描述一个分类节点的层次和在整个树状结构中的位置。最左边一段的数字对应最浅一层的节点。在其右边一段对应更深一层的节点,以此类推。任何两个分类的标记数字,从左向右依次比较,第一段不相同的数字代表从这一层的分类节点开始,它们属于不同的分类。如果这两个分类的标记数字具有相同的分段,并且只在最右边的一段不同,这两个分类隶则属于同一个父分类。
图17显示了分类器对收到的一个节目的文本信息进行处理的过程。以下以节目“Lion,tiger and cat”为例说明这一过程。
首先,检查该节目的EPG信息中的类别属性是documentary,查找文本统计数据库中对应的分支。以下的类别查找就被限制在这个分支和它的子分类中。
划分EPG文本信息,确定其中的关键字。本实施例中确定关键字的方式,可以采用以上说明内容中提到的现有技术。本实施例中,“lion”、“tiger”、“cat”都是找到的关键字。关键字查找同样用于字典释义。
设定字典搜索的深度为2。搜索深度定义如下搜索出现在EPG文本信息中的关键字在字典中的对应释义关键字定义为深度1。将以上释义关键字再作为查找的对象,搜索在字典中的对应释义关键字深度为2,依次类推。深度越深,需要查找的关键词就越多,消耗计算资源越多,但可以增加找到释义关键词与已存在的类别相匹配的概率。
在文本统计数据库中查找能够与上面确定的关键字相匹配的类别。匹配从最深一层的分类节点开始,逐级上溯直至最浅一层。当有匹配出现的时候,记录匹配的次数,该次数就是匹配不同分类的程度。对EPG文本信息中的所有域都进行以上过程。
如果对于指定的字典搜索深度,都没有搜索到匹配的分类,则将分类失败的信号存储于文本统计数据库中。这个节目不会参与任何节目相关的推荐。
如果找到指定的分类,则作如下处理如果某个类别与EPG文本中的关键词相匹配,说明该节目可能与这个类别的语义完全相同,找出所有这些关键词匹配次数最大的一个类别作为该节目的分类结果;并将这个类别的标记作为该节目的标记的前缀,即除了最后一段以外的其它部分。该节目标记的最后一段是属于同一类节目的自然排序序号。
如果类别与字典释义中的关键字匹配同时没有与EPG文本中的关键词相匹配,又分两种情况如果匹配的深度为1,则把该深度的匹配类别中匹配次数最大者作为该节目的所属分类;如果匹配深度大于1,说明该节目并不直接属于某个已有分类,而是属于匹配分类的某层子分类,因此找到所有这些匹配中深度最小的一个,将字典中出现的匹配分类和EPG关键词之间的每一层关键字都作为新的字分类加入到分类树状结构中。
对于本实施例节目“Lion,tiger and cat”,EPG文本中没有与现有类别直接匹配关键词;深度为1的字典搜索后得到仍然没有匹配关键词,在深度为2的字典搜索中,用深度1的字典释义中的关键词“feline”作为查找单词,它的释义关键词“mammal”与类别标记为3.1.1的分类相匹配。因此插入新的类别“feline”作为已有类别“mammal”的子分类,分类标记为3.1.1.1。由于节目“Lion,tiger and cat”是这个分类中的第一个节目,赋予该节目类别标记3.1.1.1.1,如图18所示。该节目的分类结果被存储进文本统计数据库中。
相比于上述的利用聚类方式,分类实施方式并不计算节目之间的联系,而只依赖节目条目与已有分类结构间的逻辑关系。这种分类方法往往具有更快的分类速度。
在本发明电视节目推荐方法中,分类器以分类方式处理文本信息的步骤,称作分类步骤,其具体流程如上说明。
<实施例>
在本实施例中,文本统计数据库中的分类标记为以若干点分段的数字形式,它们遵循两层分类标记之间的10进制,分类值的计算就是基于此数字而计算的。对于分类标记x.y.z,分类值为x*100+y*10+z。其中,两个分类之间的最上层单位相等。比较器将两个节目的分类值从最高级开始分级比较,并停止在第一次出现不同数值的层面上。此层以下的分类不再比较。
文本统计信息在分类器的运行方式中产生,这一部分已经在上面对分类器的聚类以及分类运行方式的描述中给予了具体说明。
在以下实施例中,根据推荐深度设定文本分类的搜索深度为2,即搜索基本节目所在的类别至多2级,该深度之内搜索到的节目将作为相关性比较器查找其它数据库中节目的范围。搜索深度越深,从文本统计信息中提取出的参考节目的数量可能越多。
首先,相关性比较器从文本统计数据库中找到所有包含基本节目的分类,供用户选择。例如,用户选择了基本节目“Soccer gameLion V.S.Tiger”,在文本统计数据库中,该节目处于分类“soccer”中;找出其与数据库中处于搜索深度之内的参考节目的分类值。如图10文本分类值一栏所示。
然后,时刻表统计器213对EPG中节目出现的周期性进行统计,这个周期是以同一电视台的节目为前提,以反映周期重复性与节目属性和类型的关系。另外,预先规定将重复次数做乘10处理得到重复值。对于EPG信息中只出现一次的节目,出现的周期是无穷大;那些具有相同关键字的重复出现的节目的周期由节目播出时刻的间隔来表示;由于节目“Sleeping lion”有三次的重复,其重复值为30,其余节目为10,如图9和图10所示。这些数据和规则连同其它节目安排时刻有关的数据,如长度,开始时刻等被存储于时刻表统计数据库222中。相关性比较器215从时刻表统计数据库222中找到类别“soccer”中所有节目的重复值,长度,开始时刻值。
然后,相关性比较器215从缩略图统计数据库214中取出缩略图划分数值。如图10缩略图一栏所示。本实施例利用已有的图像分割、识别等处理技术给出缩略图比较器217的输出结果,即,表示将缩略图进行图像分割、索引之后得到的索引值,它代表图像差别的程度。通常图像处理技术可以有多种方式来反映图像的内容,索引值是本实施例用到的一种。
由此,根据如图10所示的代表各个元素的值可以计算出“SoccergameLion V.S.Tiger”与“Interview of Star Team”之间的距离d值为d1=0.4*110|+0.3*|0|+0.1*|0.5|+0.1*|0|+0.1*|0.1|=4.06类似的得出所有节目之间的距离如图11所示。
产生的推荐节目就是同分类中的节目“Interview of Star Team”。
如果观众选择基本节目“Lion,tiger and cat”,图13显示了用户浏览EPG信息的操作界面,因为搜索深度为2,相关性比较器找到分类“feline”和更上层的分类“mammal”,并在时刻表统计数据库222、缩略图统计数据库214中查找相应两级分类中所有节目的重复值、开始时间、节目长度和缩略图索引值,得到如图9的数据。
参见图11,基本节目“Lion,tiger and cat”与其他节目之间的距离按照前文所示d值计算公式得到。因此相关性比较器根据多维空间中距离值d确定推荐节目的优先级顺序是“Mammal Society”为第一级推荐的节目,“Mammal Society”与“Sleeping lion”为第二级,参见图12。
当基本节目与多个参考节目之间具有相同的d值时,约定这些节目同时被推荐。
随后,该推荐结果被传送到节目单显示单元输出反馈给用户。图1 4给出了用户选中基本节目“Lion,tiger and cat”后推荐设备通过弹出菜单显示第一级推荐结果“Mammal Society”的EPG显示画面;图15给出了显示第二级推荐结果的对应画面。
从本例中可以看出,文本分类结果与相关性比较器给出的推荐节目结果的节目相关程度的顺序不同,如图8中第5步和图11所示。因为时刻表统计信息和缩略图信息构成了对文本分类结果的修正。这种修正可以带来更准确和全面的推荐。
以下描述处理用户意见信息以产生修正的过程。
例如用户对推荐结果“Sleeping lion”表示不满,可以通过遥控器上的指定按键操作通知节目推荐设备。推荐设备的规则管理器随即创建一个弹出菜单提示用户对推荐过程中的一些因素进行打分,并允许用户输入他认为正确的分类,如图19,用户选择评分,并直接输入“historyEurope”作为他对这个推荐的修正。输入的方式不限于本例中文字输入,可以为从图形界面的候选项中选择。
规则管理器将记录这个用户修正,并作为例外推荐存储于规则数据库中。对于出现在随后推荐中的上述节目将自动予以更正。如果用户希望将该更正发送给服务器端图19中选择报告给服务器,规则管理器同时将该用户反馈传输至规则服务器。
规则服务器将就此报告做人工或自动的分析,进而修改节目推荐设备中规则、参数或字典数据库。并将这些修改传输给多个置于电视接收机内的推荐设备。
本发明的电视节目推荐设备以及电视节目推荐方法,从节目指南信息中分离出至少两个预先确定的表示电视节目的属性的元素,例如,电视节目文本信息和选自节目播出时间、节目长度、节目影像的缩略图数据和节目播出周期等等,并且,每个电视节目用由这些预先确定大元素定义的向量来表示。因此,本发明的电视节目推荐设备以及本发明的电视节目推荐方法,能够充分利用节目指南信息中的各种信息,能够充分详细地划分复杂多变的电视节目内容。克服了以往节目推荐方法及其设备(系统)仅仅依赖于电视节目文本信息,从而难以充分详细地划分复杂多变的电视节目内容的缺点。
另外,本发明的电视节目推荐设备以及电视节目推荐方法,通过由用户在接收到的电视节目中指定基本节目,并且,通过计算基本节目与其他节目的向量之间的距离,基于该距离按照规定规则决定推荐的节目,因此,能够充分利用用户对节目指南信息的理解来推荐最符合用户喜好的电视节目。
并且,本发明的电视节目推荐设备以及电视节目推荐方法,可以根据用户对推荐结果的反馈来改变上述规定规则或者更改分类结构,由此,能够根据用户的喜好来改善推荐节目的效果,得到更良好的推荐结果。
权利要求
1.电视节目推荐设备,其特征在于,包括解调器,接收电视节目的节目指南信息;分配器,从接收到的节目指南信息中分离出至少两个预先确定的表现电视节目的属性的元素,每个电视节目用由所述预先确定的元素定义的向量来表示;用户界面,由用户在接收到的电视节目中指定基本节目;推荐控制器,包括至少两个比较器和相关性比较器,计算基本节目与其他节目的向量之间的距离,并且基于该距离按照规定规则决定推荐的节目;以及输出器,输出并显示被推荐的节目。
2.如权利要求1所述的电视节目推荐设备,其特征在于,所述至少两个预先确定的元素,是电视节目文本信息和选自节目播出时间、节目长度、节目影像的缩略图数据和节目播出周期的至少一个。
3.如权利要求1所述的电视节目推荐设备,其特征在于,还具备一个规则管理器,该规则管理器根据用户对推荐结果的反馈更改所述规定规则,这种更改直接在本地完成,或者,通过所连接的服务器来完成。
4.如权利要求1所述的电视节目推荐设备,其特征在于,所述规定规则是,将与基本节目的向量之间的距离最短的节目作为推荐节目。
5.如权利要求2所述的电视节目推荐设备,其特征在于,还包括字典数据库,该字典数据库存储反映电视节目文本信息的语义的结构分层的单词表。
6.如权利要求5所述的电视节目推荐设备,其特征在于,通过从所连接的服务器下载新的字典数据库,对所述字典数据库进行更新。
7.如权利要求5所述的电视节目推荐设备,其特征在于,还具备一个规则管理器,该规则管理器根据用户对推荐结果的反馈更改所述字典数据库存储的单词表所反映的语义的结构分层,这种更改直接在本地完成,或者,通过从所连接的服务器下载更新的字典数据库来完成。
8.如权利要求2所述的电视节目推荐设备,其特征在于,所述至少两个比较器包括文本分类器,和选自时刻表统计器、缩略图比较器的一个或者两个。
9.如权利要求1~8所述的电视节目推荐设备,其特征在于,所述电视节目的节目指南信息包括电子节目指南数据。
10.一种电视节目推荐方法,其特征在于,包括接收步骤,接收电视节目的节目指南信息;分配步骤,从接收到的节目指南信息中分离出至少两个预先确定的表现电视节目的属性的元素,用由所述预先确定的元素定义的向量来表示每个电视节目;指定步骤,由用户在接收到的电视节目中指定基本节目;推荐步骤,计算基本节目与其他节目的向量之间的距离,并且基于该距离按照规定规则决定推荐的节目;以及输出步骤,输出并显示被推荐的节目。
11.如权利要求10所述的电视节目推荐方法,其特征在于,所述至少两个预先确定的表现电视节目的属性的元素,是电视节目文本信息和选自节目播出时间、节目长度、节目影像的缩略图数据和节目播出周期的至少一个。
12.如权利要求10所述的电视节目推荐方法,其特征在于,还包括规则管理步骤,根据用户对推荐结果的反馈更改所述规定规则,这种更改直接在本地完成,或者,通过服务器来完成。
13.如权利要求10所述的电视节目推荐方法,其特征在于,所述规定规则是,将与基本节目的向量之间的距离最短的节目作为推荐节目。
14.如权利要求11所述的电视节目推荐方法,其特征在于,还包括分类步骤,利用字典数据库给电视节目文本信息赋予预先设定的分类结构并且更新该分类结构;聚类步骤,利用字典数据库给电视节目文本信息创建分类结构并且更新该分类结构。
15.如权利要求14所述的电视节目推荐方法,其特征在于,还具备一个规则管理步骤,该规则管理器根据用户对推荐结果的反馈更改所述分类结构,这种更改直接在本地完成,或者,通过从所连接的服务器下载更新的字典数据库来完成。
16.如权利要求10~15所述的电视节目推荐方法,其特征在于,所述电视节目的节目指南信息包括电子节目指南数据。
全文摘要
本发明涉及电视节目推荐设备以及电视节目推荐方法,包括解调器,接收电视节目的节目指南信息(接收步骤);分配器,从接收到的节目指南信息中分离出至少两个预先确定的表现电视节目的属性的元素,每个电视节目用由预先确定的元素定义的向量来表示(分配步骤);用户界面,由用户在接收到的电视节目中指定基本节目(指定步骤);推荐控制器,包括至少两个比较器和相关性比较器,计算基本节目与其他节目的向量之间的距离,并且基于该距离按照规定规则决定推荐的节目(推荐步骤);输出器,输出并显示被推荐的节目(输出步骤)。
文档编号H04N7/08GK101094335SQ200610093090
公开日2007年12月26日 申请日期2006年6月20日 优先权日2006年6月20日
发明者藤井由纪夫, 吕越峰 申请人:株式会社日立制作所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1