相似内容搜索设备和程序的制作方法

文档序号:6596613阅读:169来源:国知局
专利名称:相似内容搜索设备和程序的制作方法
技术领域
本发明涉及相似内容搜索设备和程序。
背景技术
作为电视广播,具有多种形式,例如陆地广播、广播卫星(BQ广播、通信卫星(CS) 广播、有线电视以及互联网广播,并且许多节目被提供给观看者。作为用于搜索观看者想要观看的节目的技术中的一种,存在相似的节目搜索。作为相似节目搜索方法中的一种,已经提出一种方法(例如,参见专利文献1),从用户指定节目的电子节目指南(EPG)信息提取词语,使用所述词语来搜索所有节目的EPG 信息,以及基于每个词语的出现频率来决定与指定节目相似的节目。同样还知道一种技术 (例如,参见专利文献2),分配被分配给以原始点为中心的XY平面上的每一方位角方向的流派类型,根据流派来安排相似节目,以及将相似节目呈现给用户。当针对具有流派的节目信息来执行基于短语的相似节目搜索时,相同流派的节目被搜索为相似节目。然而,难以搜索流派不同但是具有较高相似度的节目。已经提出了并行呈现基于短语的相似节目以及基于流派的相似节目的技术。然而,这种技术具有下述问题。即,具有较高相似度的节目可能被集中到相似流派节目的输出侧。此外,当用户指定的节目的流派粒度是粗略的(例如,流派名称“园艺·宠物·手工艺”),非常相似的流派的节目可以被输出到相似短语的输出侧,并且不同流派的节目可以被输出到相似流派节目的输出侧。引用列表专利文献[专利文献1]日本专利第3569441号[专利文献2]日本专利申请延迟公开第2009-80580号

发明内容
技术问题本发明的目的是提供一种相似内容搜索设备以及程序,其能够搜索并适当地呈现基于短语的相似内容和基于流派的相似内容。解决方案根据本发明的一个方面,相似内容搜索设备包括信息获取单元,其获取多个节目信息,所述节目信息包括内容的流派信息和描述信息;信息存储单元,其存储所述多个节目信息;接收单元,其接收对感兴趣节目的指定;短语提取单元,其从所述信息存储单元获取所述感兴趣节目的节目信息,并且从包括在所述感兴趣节目的节目信息中的描述信息提取短语;第一搜索单元,其从所述信息存储单元搜索具有所述短语的第一节目信息;流派特征词语存储单元,其存储流派和所述流派的短语特征的组合;短语相似度计算单元,其计算在所述感兴趣节目的节目信息和所述第一节目信息之间的短语相似度;降低单元,其当所述流派特征词语存储单元中存储的短语被包括在所述感兴趣节目的节目信息和所述第一节目信息中并且与所述短语相组合的流派被包括在所述感兴趣节目的节目信息和所述第一节目信息中时,降低短语相似度;第一呈现单元,其基于由所述降低单元降低的短语相似度来呈现所述第一节目信息;流派提取单元,提取在所述感兴趣节目的节目信息中包括的流派信息;第二搜索单元,其从所述信息存储单元搜索具有所述流派信息的第二节目信息; 流派相似度计算单元,其计算在所述感兴趣节目的节目信息和所述第二节目信息之间的流派相似度;以及第二呈现单元,其基于所述流派相似度呈现所述第二节目信息。根据本发明的一个方面,一种相似内容搜索程序,所述程序促使计算机执行以下内容获取多个节目信息,所述节目信息包括内容的流派信息和描述信息;在信息存储单元中存储所述多个节目信息;接收对感兴趣节目的指定;从所述信息存储单元获取所述感兴趣节目的节目信息;从包括在得到感兴趣节目的节目信息中的描述信息提取短语;从所述信息存储单元搜索具有所述短语的第一节目信息;计算在所述感兴趣节目的节目信息和所述第一节目信息之间的短语相似度;当在存储流派和所述流派的短语特征的组合的流派特征词语存储单元中存储的短语被包括在所述感兴趣节目的节目信息和所述第一节目信息中,并且与所述短语相组合的流派被包括在所述感兴趣节目的节目信息和所述第一节目信息中时,降低所述短语相似度;提取所述感兴趣节目的节目信息中包括的流派信息;从所述信息存储单元搜索具有所述流派信息的第二节目信息;计算在所述感兴趣节目的节目信息和所述第二节目信息之间的流派相似度;基于降低的短语相似度呈现所述第一节目信息;以及基于所述流派相似度呈现所述第二节目信息。本发明的有利效果根据本发明,有可能搜索并适当地呈现基于短语的相似内容和基于流派的相似内容。


图1是根据第一实施例的相似内容搜索设备的示例性配置示意图;图2是描述相似内容搜索方法的流程图;图3是示出节目信息示例的示意图;图4是示出用于指定感兴趣节目的屏幕示例的示意图;图5是示出提取的短语信息的示例的示意图;图6是示出流派定义的示例的示意图;图7是示出流派特征词语信息的存储格式的示意图;图8是用于描述短语相似度计算方法的流程图;图9是示出了在短语的语义属性和向短语相似度增加的权重之间的对应的示例的示意图;图10是用于描述降低短语相似度的方法的流程图;图11是用于描述计算流派相似度的方法的流程图;图12是用于描述增加流派相似度的方法的流程图;图13A至13C是感兴趣节目和列出的相似节目的示例;图14是说明了相似节目的呈现示例的示意图15A和15B是示出了根据相对示例的相似短语节目的示意图;图16A和16B是示出了根据相对示例的相似流派节目的示意图;图17是根据第二实施例的相似内容搜索设备的示例性配置示意图;图18是用于描述增加流派特征词语的方法的流程图。
具体实施例方式此后,将通过参考附图来描述本发明的实施例。(第一实施例)图1示出了根据本发明第一实施例的相似内容搜索设备的示意性配置。相似内容搜索设备包括信息获取单元10、信息存储单元11、接收单元12、短语提取单元13、短语搜索单元(第一搜索单元)14、短语相似度计算单元15、相似短语内容呈现单元(第一呈现单元)16、流派提取单元17、流派搜索单元(第二搜索单元)18、流派相似度计算单元19、相似流派内容呈现单元(第二呈现单元)20、流派特征词语存储单元21、短语相似度降低单元22 以及流派相似度增加单元23。信息获取单元10从接收的广播波获取节目信息,例如包括视频节目(内容)的描述信息和流派信息的EPG。广播波不限于具体的广播形式并且可以具有包括EPG信息的各种广播形式,例如是陆地广播、BS广播、CS广播、有线电视以及互联网广播。此外,可以接收两个或更多个广播形式的广播波。描述信息是表示视频节目的内容细节的信息。在EPG信息中,通过节目标题信息、 节目概述信息等来配置描述信息。流派信息是当根据内容对视频节目进行分类时表示分类集合的名称的信息,并且由表示分类集合内容的字符串、外部定义的数字码等来表示流派 fn息ο除描述信息和流派信息之外,节目信息(EPG信息)可以包括广播日期和时间信
息、广播站信息等。信息存储单元11按照短语提取单元13、短语搜索单元14和流派搜索单元18可读的格式,存储与信息获取单元10所获取的多个视频节目相关的节目信息。例如,将信息存储单元11被配置有硬盘或闪速存储器。接收单元12接收用户对感兴趣节目的指定。可以通过由用户积极地选择视频节目或通过表示用户对视频节目感兴趣的动作,来指定感兴趣的节目。例如,动作是指对视频节目的观看、记录、记录预约等。接收单元12从信息存储单元11取出感兴趣节目的节目信息,并且将该节目信息输出给短语提取单元13和流派提取单元17。短语提取单元13从描述信息提取表示感兴趣节目的内容的短语,所述描述信息被包括在从接收单元12接收的感兴趣节目的节目信息(感兴趣节目信息)中。此处,从节目标题信息和节目概述信息提取短语。形态分析、语义信息提取等可以用于短语提取。可以从形态分析或语义信息提取的结果选择特定类型。除了通过对节目标题信息或节目概述信息进行分段所获得的字符串之外,可以进一步提取提取的原始信息的类型、在提取源字符串上的位置、短语类型、语义信息、在原始信息中出现的次数等。短语搜索单元14从信息存储单元11中存储的节目信息中搜索包括由短语提取单元13提取的短语的节目信息,并且获取每个节目的节目信息。
短语相似度计算单元15计算在短语搜索单元14搜索且获取的节目的节目信息与感兴趣节目信息之间的短语相似度。稍后将介绍计算短语相似度的方法。流派特征词语存储单元21存储流派和相应流派的短语特征的组合。特征短语是指这样的短语在特定流派中的出现频率较高,但是在其它流派中的出现频率较低。例如, 短语“演奏”在流派“音乐”中的出现频率较高,但是在不是“音乐”的流派中的出现频率较低。因此,流派特征词语“演出”和相应的流派“音乐”的组合被存储在流派特征词语存储单元21中。例如,将流派特征词语存储单元21配置有硬盘或闪速存储器。短语相似度降低单元22确定在流派特征词语存储单元21中存储的流派特征词语是否被包括在由短语搜索单元14搜索和获取的节目的节目信息和感兴趣节目信息这两者中。当确定共有流派特征词语被包括在由短语搜索单元14搜索和获取的节目的节目信息和感兴趣节目信息这两者中,短语相似度降低单元22确定对应于流派特征词语的流派是否被包括在由短语搜索单元14搜索和获取的节目的节目信息和感兴趣节目信息这两者中。当确定包括了对应于流派特征词语的流派时,短语相似度降低单元22降低由短语相似度计算单元15计算的短语相似度。换句话说,当共有流派特征词语被包括在感兴趣节目信息和短语相似度计算目标的节目信息这两个节目信息中,且与流派特征词语相对应的流派被包括在所述两个节目信息两者中时,短语相似度降低单元22降低短语相似度。如上所述,流派特征词语是在相应流派中具有较高出现频率的短语,并且尽管所述短语彼此相同,两个节目之间内容中的相似度不需要较高。因此,短语相似度降低单元22 降低相似度。相似短语内容呈现单元16基于短语相似度来确定由短语搜索单元14搜索且获取的节目的顺序,并且根据所述顺序将节目呈现给用户。稍后将介绍呈现方法。流派提取单元17从接收自接收单元12的感兴趣节目信息提取流派信息。流派搜索单元18从信息存储单元11中存储的节目信息中搜索包括由流派提取单元17提取的流派的节目信息,并且获取每个节目的节目信息。流派相似度计算单元19计算在流派搜索单元18搜索且获取的节目的节目信息与感兴趣节目的信息之间的流派相似度。稍后将介绍计算流派相似度的方法。当与感兴趣节目信息和流派相似度计算目标的节目信息这两个节目信息共有的流派对应的流派特征词语被包括在所述两个节目信息两者中时,流派相似度增加单元23 增加由流派相似度计算单元19计算的流派相似度。当流派分类的粒度是粗略的时,尽管两个节目在流派上是彼此相同的,两个节目之间内容上的相似度不需要较高。为此,当流派特征词语被包括时,流派相似度增加单元23 将流派相似度增加为比当流派特征词语未被包括时更高。相似流派内容呈现单元20基于流派相似度来确定由流派搜索单元18搜索且获取的节目的顺序,并且根据所述顺序将节目呈现给用户。稍后将描述本方法。接下来,将通过参考图2中示出的流程图来描述相似内容搜索设备的操作。此处, 考虑的是软件中相似内容搜索设备的操作,所述软件被安装在电视中并且能够接收根据多个广播形式的视频节目并且能够提供观看功能、记录功能以及记录预约功能。图2示出了从相似内容搜索设备接收广播波时到相似内容搜索设备按照决定的顺序呈现相似内容时
7的总体操作流。(步骤S101)接收广播波。(步骤S102)信息获取单元10从广播波获取所有节目的节目信息(EPG信息)。在信息存储单元11中存储获取的节目信息。图3示出了获取的节目信息的实例。图3中示出的表格的一行对应于一个节目。 每个节目信息包括节目标识ID、广播台名称、节目标题、最多三种类型的流派码、节目概述信息以及开始/结束日期和时间。按照接收单元12、短语搜索单元14、流派搜索单元18 等可以使用的格式来存储所述信息。(步骤S103)接收单元12从用户接收对感兴趣节目的指定。图4说明了用于指定感兴趣节目的屏幕的示例。在屏幕W上显示表格形式的节目列表。此处,行表示时间轴、列表示广播台,并且表格中的块对应于一个节目。在块中,陈述了节目标题,但是可以显示节目概述信息等。用户可以使用例如远程控制器的指示设备来操作指针P,并且通过将指针P 放置在感兴趣节目上并且指定该感兴趣节目来指定感兴趣节目。(步骤S104)接收单元12从信息存储单元11获取感兴趣节目的节目信息(感兴趣节目信息),并且将节目信息输出给短语提取单元13以及流派提取单元17。(步骤S105)短语提取单元13从感兴趣节目信息的描述信息(节目标题信息和节目概述信息)提取短语信息。短语提取单元13可以对节目标题信息的字符串和节目概述信息的字符串执行形态分析或语义分析,并且从分析结果提取具有特定语义属性或词语类别的词语作为短语信息。作为语义分析,可以使用例如在Yumi Ichimura等人的“質問応答i日本語固有表現抽出fe i &固有表現体系O関係C ^ ^ ^乃考察(在问题回答、日语命名实体提取以及命名实体分类法之间关系的研究)”(日本信息处理学会的兴趣组记录,NL-161-3,2004)中陈述的一种已知的命名实体提取技术。图5示出了提取的短语信息的示例。短语信息被提取作为除了从描述信息提取的字符串之外还有出现的视频节目的ID、短语信息的语义信息/词语类别信息、作为提取源的描述信息的类型、以及出现次数的集合。图5中示出的短语信息可以暂时地存储在存储器中,或者可以被写回到信息存储单元11中。(步骤S106)流派提取单元17从感兴趣节目信息提取流派信息。图6示出了流派信息的示例。由数字码或表示含义的短语来表示流派信息,并且由较大流派和较小流派的两级结构来定义流派系统。(步骤S107)短语搜索单元14搜索这样的节目(而非感兴趣的节目),其中步骤 S105中提取的短语中的至少一个被包括在来自信息存储单元11的节目标题信息或节目概述信息中,并且短语搜索单元14获取所述节目的节目信息。(步骤S108)短语相似度计算单元15计算在步骤S107的搜索结果的节目中的每一个与感兴趣节目之间的短语相似度。稍后将介绍计算短语相似度的方法。(步骤S109)在步骤S107的搜索结果的每个节目与感兴趣节目的组合中,确定共有短语是否对应于流派特征词语,以及对应于流派特征词语的流派是否被包括在搜索结果节目和感兴趣节目中。当存在这样的搜索结果节目,其中与感兴趣节目共有的短语对应于流派特征词语,并且对应流派被包括在感兴趣节目和搜索结果节目中时,过程行进到步骤Sl 10,否则过程行进到步骤Sl 11。图7示出了在流派特征词语存储单元21中存储的流派特征词语信息的格式的示例。由特征词语的字符串、对应流派、增加时的权重以及降低时的权重的集合,来定义每个流派特征词语信息。除了图7的格式,为了简化的目的,增加时的权重和降低时的权重可以被设置为相同的值,并且可以按比率地增加或减去权重,此外,可以将多个对应流派设置到每个流派特征词语。(步骤S110)短语相似度降低单元22降低关于这样的搜索结果节目的短语相似度,在该搜索结果节目中与感兴趣节目共有的短语对应于流派特征词语并且对应流派被包括在感兴趣节目和搜索结果节目中。降低的值是在图7中降低时的权重。(步骤S111)按照短语相似度的降序来列出(选择)预定数量的节目作为呈现的节目。(步骤SlU)流派搜索单元18搜索这样的节目(并非感兴趣节目),其中在步骤 S106提取的流派信息被包括在来自信息存储单元11的节目信息中,并且流派搜索单元18 获取这样的节目的节目信息。当在步骤106提取多个流派信息时,搜索包括多个提取的流派信息中的至少一个的节目。(步骤S113)将步骤S112的搜索结果节目与步骤Slll中列出的节目进行比较,并且从搜索结果中删除重叠的节目。(步骤Sl14)流派相似度计算单元19计算在搜索结果节目中的每一个与感兴趣节目之间的流派相似度。稍后将介绍计算流派相似度的方法。(步骤SlK)在每个搜索结果节目和感兴趣节目的组合中,确定对应于共有流派的流派特征词语是否被包含在搜索结果程序的程序信息和感兴趣节目信息中。当确定对应于共有流派的流派特征词语被包括时,过程行进到到步骤S116,否则过程行进到步骤 S117。(步骤Sl16)流派相似度增加单元23增加关于包括流派特征词语的搜索结果节目的流派相似度。增加的值是图7中增加时的权重。(步骤S117)按照流派相似度的降序来列出(选择)预定数量的节目作为呈现的节目。(步骤Sl18)将步骤Slll和S117中列出的节目呈现给用户。接下来,将通过参考图8中说明的流程图来介绍在步骤S108中计算短语相似度的方法。(步骤S201)初始化在当前流程中使用的变量。将搜索结果节目的数量设置为M、 将索引i和j的值设置为1、并且将短语相似度Xi (1 < i < M)设置为0。Xi表示在第i个搜索结果节目与感兴趣节目之间的短语相似度。(步骤S202)将索引i与搜索结果节目的数量M进行比较。当i大于M时,由于已经计算了关于所有搜索结果节目的短语相似度,因此过程结束。当i不大于M时,过程行进到步骤S203。(步骤S203)获取在第i个搜索结果节目的节目信息和感兴趣节目信息这两者中出现的短语信息,并且将获取的短语信息的数量设置为N。(步骤S204)将索引j与短语信息的数量N进行比较。当j大于N时,由于关于所有短语信息的短语相似度的增加已经结束,过程行进到步骤S207。当j不大于N时,过程行进到步骤S205。(步骤S20Q通过参考第j个短语信息的语义属性或词语分类,向短语相似度Xi 增加相对应的权重值。与语义属性或词语分类相对应的权重如图9中示出的那样被定义, 并且被存储在存储单元(未示出)中。(步骤S206)将索引j的值增加1。(步骤S207)将索引i的值增加1。通过上面介绍的方法来计算短语相似度。接下来,将通过参考图10中示出的流程图来介绍降低步骤S109和SllO中短语相似度的方法。(步骤S301)初始化当前流程中使用的变量。将搜索结果节目的数量设置为M、将索引i和j的值设置为1。将步骤S108中计算的值用作短语相似度Xi。(步骤S302)将索引i与搜索结果节目的数量M进行比较。当i大于M时,由于关于所有搜索结果节目的确定和短语相似度的重新计算已经结束,所以过程结束。当i不大于M时,则过程行进到步骤S303。(步骤S303)获取在第i个搜索结果节目的节目信息和感兴趣节目信息这两者中均出现的短语信息,并且将获取的短语信息的数量设置为N。(步骤S304)将索引j与短语信息的数量N进行比较。当j大于N时,由于针对所有短语信息的关于其是否对应于流派特征词语的确定以及短语相似度的减少已经结束,则过程行进到步骤S305。当j不大于N时,过程行进到步骤S306。(步骤S305)将索引i的值增加1。(步骤S306)通过参考图7中示出的流派特征词语列表,确定第j个短语信息是否包括在列表中。当确定第j个短语信息未包括在列表中,则过程行进到步骤S307,否则过程行进到步骤S308。(步骤S307)将索引j的值增加1。(步骤S308)获取对应于与第j个短语信息相同的流派特征词语的流派信息。(步骤S309)确定步骤S308中获取的流派信息是否被包括在第i个搜索结果节目和感兴趣节目这两者中。确定流派信息被包括在第i个搜索结果节目和感兴趣节目这两者中,过程行进到步骤S310,否则过程行进到步骤S307。(步骤S310)从流派特征词语列表获取对应于相应流派特征词语的权重值,并且从短语相似度Xi减去权重值。 通过上面介绍的方法来降低短语相似度。接下来,通过参考图11中示出的流程图来介绍在步骤S114中计算流派相似度的方法。(步骤S401)初始化当前流程中使用的变量。将搜索结果节目的数量设置为M,将索引i、j和k的值设置为1,并且将流派相似度Yi (1 < i < M)设置为0。Yi表示在第i个搜索结果节目和感兴趣节目之间的流派相似度。(步骤S402)将索引i与搜索结果节目的数量M进行比较。当i大于M时,由于已经计算了关于所有搜索结果节目的流派相似度,所以过程结束。当i不大于M时,过程行进到步骤S403。(步骤S403)获取第i个搜索结果节目的流派信息,并且将获取的流派信息的数量设置为附。(步骤S404)将索引j与流派信息的数量m进行比较。当j大于m时,由于关于所有流派信息的组合的流派相似度的增加已经结束,则过程行进到步骤S405。当j不大于 Nl时,过程行进到步骤S406。(步骤S405)将索引i的值增加1。(步骤S406)获取感兴趣节目的流派信息,并且将获取的流派信息的数量设置为N2。(步骤S407)将索引k与流派信息的数量N2进行比较。当k大于N2时,过程行进到步骤S408。当k不大于N2时,过程行进到步骤S409。(步骤S408)将索引j的值增加1。(步骤S409)将第i个搜索结果节目的第j个流派信息与感兴趣节目的第k个流派信息进行比较。当在图6中示出的较大流派和较小流派这两者中,两个流派信息都彼此相同时,过程行进到步骤S411,否则过程行进到步骤S410。(步骤S410)当仅在较大的流派中两个流派信息是彼此相同的时,过程行进到步骤S412,并且当在较大的流派和较小的流派中的任意一个中所述两个流派信息都是彼此不同的,过程行进到步骤S413。(步骤S411)将流派相似度Yi增加权重Wl。(步骤S4U)将流派相似度Yi增加权重W2。权重W2是小于权重Wl的值。(步骤S413)将索引k的值增加1。可以通过上面介绍的方法来计算流派相似度。在图11示出的方法中,对于特定搜索结果节目,在所有组合中,例如针对流派信息的数量m和感兴趣节目的流派信息的数量 N2的m XN2,获得流派信息的一致程度,并且向流派相似度增加权重Wl和W2。然而,被用于比较一次的流派信息不可以再次使用。在这种情况中,根据要比较的流派信息的组合,流派相似度Yi可以具有两个或更多个值,然而,最大的值可以用作流派相似度Yi。接下来,将通过参考图12中示出的流程图来介绍步骤S115和S116中增加流派相似度的方法。(步骤S501)初始化当前流程中使用的变量。将搜索结果节目的数量设置为M,并且将索引i和j的值设置为1。将步骤S114中计算的值用作流派相似度Yi。(步骤S502)将索引i与搜索结果节目的数量M进行比较。当i大于M时,由于关于所有搜索结果节目的确定和流派相似度重新计算已经结束,则过程结束。当i不大于M, 则过程行进到步骤S503。(步骤S503)获取第i个搜索结果节目和感兴趣节目共有的流派信息,并且将获取的流派信息的数量设置为N。(步骤S504)将索引j与流派信息的数量N进行比较。当j大于N时,过程行进到步骤S505。当j不大于N时,过程行进到步骤S506。(步骤S505)将索引i的值增加1。(步骤S506)通过参考图7中示出的流派特征词语列表来获取对应于第j个流派信息的流派特征词语。(步骤S507)确定步骤S506中获取的流派特征词语是否被包括在感兴趣节目信息和搜索结果节目的节目信息中。当确定流派特征词语被包括时,过程行进到步骤S508,否则过程行进到步骤S509。在这个步骤中,可以进一步确定具有相似含义的流派特征词语是否被包括在感兴趣节目信息和搜索结果节目的节目信息中。例如,当流派特征词语“园艺学”被包括在感兴趣节目信息中且流派特征词语“园艺”被包括在搜索结果节目的节目信息中时,过程行进到步骤S508。(步骤S508)将流派相似度Yi增加对应于流派特征词语的权重。(步骤S509)将j的值增加1。通过上面介绍的方法来增加流派相似度。通过上面介绍的方法,在图13C中示出的感兴趣节目上列出图13A中示出的相似短语节目以及图13B中示出的相似流派节目。在图1 和13C中,将节目安排为按照相似度降序的方式从顶部到底部。还示出了每个相似节目和感兴趣节目共有的短语或流派。按照图14中示出的形式在屏幕上显示列出的节目,并且将列出的节目呈现给用户。将屏幕分成以感兴趣节目为中心的流派、关键词、人群和标题这四个区域。在每个区域中,将具有相似度的节目安排在感兴趣节目(在屏幕中央)的外围位置处。在流派区域(在屏幕的左侧)中显示相似流派节目,并且在关键词区域(在屏幕的较低侧)显示相似短语节目。用户在屏幕上操作指针P以选择相似节目,并且然后可以观看或记录所选择的相似节目。对于图13A中示出的感兴趣节目,在图15A中示出假设由不包括流派特征词语存储单元21和短语相似度降低单元22的相似内容搜索设备选择的相似短语节目。图15B与图13B相同并且示出由根据本实施例的相似内容搜索设备选择的相似短语节目。由于诸如主要的“古典”和“演奏”的短语是相同的,所以图15A中示出的相似短语节目被选择。然而,这些短语是经常出现在与古典音乐相关联的视频节目的词语,且不是每个节目的内容的必要特征。在这种情况中,这本实施例中,降低包括诸如“古典”和“演奏”的流派特征词语的节目的短语相似度,并且将包括内容的更加特有的短语(诸如“贝多芬”、“田中太郎”以及 “第七交响乐”)的节目呈现在较高的位置。图16A和16B示出了为具有作为主题的“园艺学/园艺”的感兴趣节目列出的相似流派节目的示例。图16A示出了假设由不包括流派特征词语存储单元21和流派相似度增加单元23的相似内容搜索设备来选择的相似流派节目。图16B示出了由根据本实施例的相似内容搜索设备选择的相似流派节目。在图16A中,示出了与宠物或手工艺而不是园艺学相关的节目。这是因为节目的流派被定义为“爱好.教育/园艺学.宠物.手工艺”,并且所有的节目被分类到相同的流派中。实际上,广播台可以定义流派,使得将具有不同内容的较小流派集成到一个。“园艺学”节目和“重复”节目在相同的流派并且因此在流派相似度上不是不同的,并且可以选择图16A中示出的节目。
图16B示出“园艺学”节目。由于诸如“园艺学”的短语被包括在流派特征词语中, 增加包括所述短语的节目的流派相似度,并且因此在较高的位置处相应地呈现所述节目。如上所述,根据当前的实施例,当搜索结果节目和感兴趣节目共有的短语是在相应流派中具有较高出现频率的流派特征词语时,降低短语相似度,而当与搜索结果节目和感兴趣节目共有的流派对应的流派特征词语被包括在节目信息中时,增加流派相似度。因此,可以适当地呈现基于短语的相似内容和基于流派的相似内容。在上述实施例中,可以将短语提取单元13配置为与信息获取单元10和信息存储单元11相连接。在这种配置中,短语提取单元13可以使用由信息获取单元10获取的EGP 信息从所有视频节目的描述信息提取短语,并且促使提取的短语和EGP信息的组合被存储在信息存储单元11中。(第二实施利)图17示出了根据本发明的第二实施例的相似内容搜索设备的示例性配置。根据本实施例的相似内容搜索设备被配置为使得将流派特征词语增加单元M进一步包括到根据第一实施例的图1中示出的相似内容搜索设备中。流派特征词语增加单元M从短语搜索单元14和流派搜索单元搜索的节目信息或感兴趣节目信息自动获取新流派特征词语,并且将获取的新流派特征词语增加到流派特征词语存储单元21。新的流派特征词语是这样的短语在特定流派的节目信息中以较高频率出现,而在其它流派的节目信息中很少出现。将通过参考图18中示出的流程图来介绍增加流派特征词语的方法。(步骤S601)初始化在当前流程中使用的变量。将短语搜索单元14搜索的搜索结果节目的数量设置为M,将从感兴趣节目提取的短语数量设置为Nk,将流派的数量设置为 Ng,并且将索引i和j的值设置为1。(步骤S602)将索引i与提取的流派的数量Ng进行比较。当i大于Ng时,增加流派特征词语的过程结束。当i不大于Ng时,过程行进到步骤S603。(步骤S60;3)从搜索结果节目中选择包括第i个流派的所有节目,并且将选择的节目的数量设置为Cl。(步骤S604)将索引j与提取的短语的数量Nk进行比较。当j大于Nk时,过程行进到表示S605,否则过程行进到步骤S606。(步骤S605)将索引i的值增加1。(步骤S606)从在步骤S603中选择的节目中选择包括感兴趣节目的第j个短语的节目,并且将选择的节目的数量设置为C2。(步骤S607)确定第j个短语是否是流派特征词语。具体地,使用Tl和T2两个门限值来确定是否满足Tl ^ C2/C1以及T2 > C2/M。当确定满足上述条件时,过程行进到步骤S608,否则过程行进到步骤S609。在上述条件中,第一条件(Tl ( C2/C1)表示第j个短语以较高的频率出现在相同流派的节目信息中,且第二条件(T2 > C2/M)表示第j个短语很少出现在其它流派的节目
信息中。此外,在这个步骤中,可以确定第j个阶段是否包括表示第i个流派的字符串或作为字符串一部分的所述字符串的同义词。这个条件独立于上面介绍的条件,并且因此可以并行地执行这个条件。(步骤S608)将第j个短语和第i个流派彼此相互关联作为集合,并且然后将其增加到特征词语存储单元21作为流派特征词语。描述形式与图7中相同。(步骤S609)将索引j的值增加1。可以由上面介绍的方法来增加新的流派特征词语。根据本实施例,可以新增流派特征词语,并且因此可以灵活地应付之前没有被使用但是最近在具体流派中使用的词语。因此,可以更为适当地呈现基于短语的相似内容和基于流派的相似内容。可以通过硬件或软件来配置上述实施例中介绍的相似内容搜索设备的至少一部分。当通过软件来配置时,用于实现相似内容搜索设备的至少一部分的功能的程序可以被存储在记录介质中,例如软磁盘或光盘只读存储器(CD-ROM),并且可以被计算机读取且执行。记录介质不限于例如磁盘或光盘的可移动的介质,且可以是固定类型的记录介质,例如硬盘设备或存储器。此外,可以通过例如国际互联网的通信线路(包括无线通信线路),来分布用于实现相似内容搜索设备的至少一部分的功能的程序。此外,可以在通过有线线路或无线线路 (例如,国际互联网),或在记录介质中存储的形式,来以加密、调制、或压缩的状态分布所述程序。虽然已经介绍了特定的实施例,这些实施例仅通过示例的方式进行呈现,并且不希望限制本发明的范围。实际上,此处介绍的新颖方法和系统可以按照各种其他形式实现; 此外,在不脱离本发明的精神的情况下,可以进行在此处介绍的方法和系统的形式上的各种省略、替换和修改。所附权利要求和它们的等同体旨在覆盖将落入本发明的范围和精神内的这种形式和修改。附图标记列表10:信息获取单元11 信息存储单元12:接收单元13:短语提取单元14:短语搜索单元15:短语相似度计算单元16 短语相似内容呈现单元17:流派提取单元18:流派搜索单元19:流派相似度计算单元20 流派相似内容呈现单元21 流派特征词语存储单元22:短语相似度降低单元23 流派相似度增加单元
权利要求
1.一种相似内容搜索设备,包括信息获取单元,其获取多个节目信息,所述节目信息包括内容的流派信息和描述信息;信息存储单元,其存储所述多个节目信息; 接收单元,其接收对感兴趣节目的指定;短语提取单元,其从信息存储单元获取所述感兴趣节目的节目信息,并且从包括在所述感兴趣节目的节目信息中的描述信息提取短语;第一搜索单元,其从所述信息存储单元搜索具有所述短语的第一节目信息; 流派特征词语存储单元,其存储流派和所述流派的短语特征的组合; 短语相似度计算单元,其计算在所述感兴趣节目的节目信息和所述第一节目信息之间的短语相似度;降低单元,其当所述流派特征词语存储单元中存储的短语被包括在所述感兴趣节目的节目信息和所述第一节目信息中,并且与所述短语相组合的流派被包括在所述感兴趣节目的节目信息和所述第一节目信息中时,降低所述短语相似度;第一呈现单元,其基于由所述降低单元降低的短语相似度来呈现所述第一节目信息; 流派提取单元,其提取在所述感兴趣节目的节目信息中包括的流派信息; 第二搜索单元,其从所述信息存储单元搜索具有所述流派信息的第二节目信息; 流派相似度计算单元,其计算在所述感兴趣节目的节目信息和所述第二节目信息之间的流派相似度;以及第二呈现单元,其基于所述流派相似度呈现所述第二节目信息。
2.根据权利要求1所述的设备,进一步包括增加单元,其当在所述流派特征词语存储单元中存储的流派被包括在所述感兴趣单元的节目信息和所述第二节目信息中并且与所述流派相组合的短语被包括在所述感兴趣节目的节目信息和所述第二节目信息中时,增加所述流派相似度。
3.根据权利要求2所述的设备,其中所述短语提取单元提取第一到第M个短语(M是大于等于2的整数),所述第一搜索单元搜索具有所述第一到第M个短语中的至少一个的第一节目信息,以及所述相似内容搜索设备进一步包括这样的增加单元,所述这样的增加单元从所述第一搜索单元的搜索结果中选择具有与所述感兴趣节目的节目信息相同的流派信息的节目信息,并且当在选择的节目信息中具有第k个短语(k是满足KkSM的整数)的节目信息的比率大于等于第一预定值并且在所述第一节目信息中具有所述第k个短语的节目信息的比率小于第二预定值时,将所述第k个短语和所述流派信息的组合增加到所述流派特征词语存储单元。
4.根据权利要求3所述的设备,其中所述增加单元将这样的短语和所述流派信息的组合增加到所述流派特征词语存储单元,所述这样的短语包括表示所述感兴趣节目的流派信息的字符串或所述字符串同义词作为所述这样的短语的一部分。
5.—种相似内容搜索程序,所述程序促使计算机执行以下内容获取多个节目信息,所述节目信息包括内容的流派信息和描述信息; 在信息存储单元中存储所述多个节目信息; 接收对感兴趣节目的指定;从所述信息存储单元获取所述感兴趣节目的节目信息; 从包括在所述感兴趣节目的节目信息中的描述信息提取短语; 从所述信息存储单元搜索具有所述短语的第一节目信息; 计算在所述感兴趣节目的节目信息和所述第一节目信息之间的短语相似度; 当在存储流派和所述流派的短语特征的组合的流派特征词语存储单元中存储的短语被包括在所述感兴趣节目的节目信息和所述第一节目信息中,并且与所述短语相组合的流派被包括在所述感兴趣节目的节目信息和所述第一节目信息中时,降低所述短语相似度; 提取在所述感兴趣节目的节目信息中包括的流派信息; 从所述信息存储单元搜索具有所述流派信息的第二节目信息; 计算在所述感兴趣节目的节目信息和所述第二节目信息之间的流派相似度; 基于降低的短语相似度呈现所述第一节目信息;以及基于所述流派相似度呈现所述第二节目信息。
全文摘要
当共有流派特征词语被包括在用户感兴趣的感兴趣节目和包括相同短语的相似短语节目中时,降低短语相似度。当共有流派特征词语被包括在感兴趣节目以及包括与感兴趣节目相同的流派的相似流派节目中时,增加流派相似度。基于短语相似度来呈现相似短语节目,并且基于流派相似度来呈现相似流派节目。
文档编号G06F17/30GK102549569SQ200980161698
公开日2012年7月4日 申请日期2009年10月5日 优先权日2009年10月5日
发明者三原功雄, 仲野亘, 关根真弘, 冈本昌之, 山崎智弘, 铃木优, 高仓润也 申请人:株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1