内容处理设备和方法、程序以及记录介质的制作方法

文档序号:7744161阅读:191来源:国知局
专利名称:内容处理设备和方法、程序以及记录介质的制作方法
技术领域
本发明涉及内容处理设备和方法、程序以及记录介质,更具体地,涉及可以通过使 得用户能够基于给定信息识别期望的内容来提高用户满意度的内容处理设备和方法、程序 以及记录介质。
背景技术
在相关技术中,当在进行针对要被广播的节目的记录预订的情况下设置针对作为 要被记录的对象的一定节目的记录预订时,由于如果记录对象的节目的广播时间被改变, 则与作为记录对象的该节目不相同的节目被记录,所以该记录失败。只要能从能够采用EPG(电子节目指南)数据的记录设备中的最近的EPG数据中 识别出记录对象节目,就可以通过修改预订内容使得所识别的节目可被记录来避免记录失 败。已经提出了以下方法通过使用EPG数据确定节目标题信息的相似性或广播日期 信息的匹配状态等来识别节目(例如,参见JP-A-2005-102059)但是,在JP-A-2005-102059的技术中,当仅通过节目标题信息而不采用广播日期 信息来执行识别处理时,难以识别虽然节目不具有相似的节目标题但实际上相同的节目。 例如,当在存在具有被称为“ > (棕色),,的节目标题的节目时由EPG数据表示的节 目标题是“Brown (棕色)”的情况下,难以实际上识别该节目。已提出了一种系统,其通过针对识别节目所必需的每个信息而将日本字符(片 假名)转换成罗马字符且确定目标字符串中是否包括关键词来识别节目(例如参见 JP-A-2007-201573)。

发明内容
但是,在即使当使用JP-A-2007-201573的技术时仅通过节目标题信息来执行识 别处理的情况下,难以准确地执行识别处理。例如,当存在具有被称为“力#一*情報$ , Kt 卜(午夜体育信息)”的节目标题的节目时,由EPG数据表示的节目标题可以是“7 求一 ^情報□ Midnight (体育信息□ 午夜 ),,。可以在内容处理侧以各种方式方便地改变用于识别各个内容中的内容的名称。例 如,通常,在介绍电视节目的杂志、互联网的网页等中描述的节目标题可能与由EPG数据表 示的节目标题不精确匹配。例如,在要被重新广播的内容的情况下,诸如“重播”之类的字符通常可以被添加 到通过EPG数据表示的节目标题中。在其它情况下,响应于节目的广播期(印isode)(即表 示哪一期广播)而添加的副标题或字符(如“特别期(special)”)可以被添加到由EPG数 据表示的节目标题中。另外,在节目标题中包含的间隔或符号可以与EPG数据或其它媒体 的间隔或符号不相同。在如上所述的相关技术中,实际上相同的节目可能不能被识别,并且例如期望的节目可能不能被记录。这样,期望通过使得用户能够根据给定信息简单地识别期望的内容来提高用户的 满意度。根据本发明的第一实施例,提供了一种内容处理设备,包括关键词获取装置,用 于获取用于指定内容的关键词;标题获取装置,用于获取内容标题;加工装置,用于基于预 定的加工规则来加工所获取的标题;相似性计算装置,用于计算加工后的标题与该关键词 之间的相似性;以及识别装置,用于基于所计算的相似性来识别具有由该关键词指定的标 题的内容。内容处理设备还可以包括更新装置,用于更新加工规则。
加工规则可以包括用于正规化处理的正规化规则,该正规化规则删除内容标题 中包括的不必要的字符或者对字体或字符属性进行转换;以及用于重构处理的重构规则, 该重构规则对通过正规化处理正规化后的内容标题的字符串进行结合或删除。内容标题可以是EPG数据中包括的内容标题,正规化规则可以包括删除EPG数据 中的表示广播期的字符串的规则。可以基于EPG数据来设置对所识别的内容的记录预订。内容处理设备还可以包括第二加工装置,用于基于预定的加工规则来加工所获 取的关键词。相似性计算装置可以计算加工后的关键词与标题之间的相似性,识别装置可以基 于所计算的相似性来识别用于指定标题的关键词。根据本发明的第一实施例,提供了一种内容处理方法,包括以下步骤获取用于指 定内容的关键词;获取内容标题;基于预定的加工规则加工所获取的标题;计算加工后的 标题与该关键词之间的相似性;以及基于所计算的相似性来识别具有由该关键词指定的标 题的内容。根据本发明的第一实施例,提供了一种程序,该程序用于使得计算机用作内容处 理设备,该内容处理设备包括关键词获取装置,用于获取用于指定内容的关键词;标题获 取装置,用于获取内容标题;加工装置,用于基于预定的加工规则来加工所获取的标题;相 似性计算装置,用于计算加工后的标题与该关键词之间的相似性;以及识别装置,用于基于 所计算的相似性来识别具有由该关键词指定的标题的内容。在本发明的第一实施例中,获取用于指定内容的关键词。获取内容标题。基于预 定的加工规则来加工所获取的标题。计算加工后的标题与该关键词之间的相似性。基于所 计算的相似性来识别具有由该关键词指定的标题的内容。根据本发明的第二实施例,提供了一种内容处理设备,包括关键词获取装置,用 于获取用于指定内容的关键词;标题获取装置,用于获取内容标题;加工装置,用于基于预 定的加工规则来加工所获取的关键词;相似性计算装置,用于计算加工后的关键词与该标 题之间的相似性;以及识别装置,用于基于所计算的相似性来识别具有由该关键词指定的 标题的内容。在本发明的第二实施例中,识别用于指定内容的关键词。获取内容标题。基于预 定的加工规则来加工所获取的关键词。计算加工后的关键词与该标题之间的相似性。基于 所计算的相似性来识别具有由该关键词指定的标题的内容。
根据本发明的实施例,可以通过使得用户能够基于给定信息识别期望的内容来提高用户的满意度。


图1是示出了根据本发明的实施例的内容标题识别系统的配置示例的图;图2是示出了图1中的内容标题识别系统的功能配置示例的框图;图3是示出了正规化规则的列表的示例的图;图4是示出了重构规则的列表的示例的图;图5是示出了内容标题识别处理的示例的流程图;图6是示出了内容标题加工处理的示例的流程图;图7是示出了正规化处理的示例的流程图;图8是示出了重构处理的示例的流程图;图9是示出了关键词信息的示例的图;图10是示出了内容元数据的示例的图;图11是示出了关键词和内容的对应关系表的图;图12是示出了图1的内容标题识别系统的另一功能配置示例的框图;图13是示出了个人计算机的配置示例的框图。
具体实施例方式下面将参考附图对本发明的实施例进行描述。图1是示出了根据本发明的实施例的内容标题识别系统的配置示例的图。在该图 中所示的内容标题识别系统10包括连接到网络20的服务器31、记录器32以及客户端33。例如,内容标题识别系统10从服务器31中蓄积的信息中提取用于检索内容标题 的关键词,并根据该关键词对记录器32中蓄积的内容标题进行识别。例如,与所识别的标 题对应的内容数据被与关键词相关联,并被提供给客户端33。例如,由用户在互联网上检索和收集的信息被蓄积在服务器31中。例如,用户检 索其感兴趣的信息,并将检索到的信息记录到记录介质中,该记录介质例如是如果期望的 话则设于服务器31中的HDD(硬盘驱动)。服务器31具有基于所蓄积的信息来提取用于检 索内容标题的关键词的功能,并响应于来自客户端33的请求而提取并提供关键词。例如, 服务器31包括通用计算机等。例如,服务器31可以经由互联网等连接到网络20。例如,记录器32包括HDD记录器、DVD记录器等,其将内容记录到HDD或DVD的记 录介质中。记录器32具有提取被记录到记录介质中的内容标题的功能,并响应于来自客户 端33的请求而提取并提供标题。例如,客户端33包括电视接收器等,且在内部包括CPU、存储器等。例如,客户端 33通过由CPU执行程序软件等来指定与从服务器31提供的关键词相对应的内容标题。也 就是说,客户端33将被记录到记录器32中的内容标题识别为具有给定关键词的标题。例如,内容标题识别系统10包括适用于通用即插即用(UPnP)规范的设施。例如, 内容标题识别系统10能够处于在不要求用户执行复杂操作的情况下通过使用UPnP功能连 接网络来使得可以进行通信的状态,并且能够自动执行对其它设施的检测或连接。例如,内容标题识别系统10包括与DLNA(数字生活网络联盟)规范相对应的设施。因此,例如,记录器32可以用作由DLNA定义的DMS (数字媒体服务器),并且客户端33可以用作由DLNA定义的DMP (数字媒体播放器)。在这种情况下,例如,可以通过嵌入 在DMS中的CDS (内容目录服务)功能来获取内容标题。图2是示出了图1的内容标题识别系统10的功能配置示例的框图。在该图中,关键词信息51被看作用于存储从服务器31中蓄积的信息中提取的每 个关键词的数据库。关键词提供部分52响应于来自关键词获取部分81的请求而从关键词 信息51中读取一个或多个预定的关键词,并将所读取的关键词提供给关键词获取部分81。 例如,关键词获取部分81获取作为文本数据的关键词。内容数据61表示蓄积在记录器32中的内容数据的集合。从每个EPG等获取的元 数据被添加至内容数据,并且内容标题提供部分62从内容数据的内容元数据中提取内容 标题。内容标题提供部分62响应于来自内容标题获取部分82的请求而向内容标题获取部 分82提供每个提取的内容标题。例如,内容标题获取部分82获取内容标题作为文本数据。内容标题加工部分84基于从加工规则数据83提供的加工规则来加工通过内容标 题获取部分82获取的内容标题。这里,词汇“加工”是指构成文本数据的字符串的字符被 转换,该字符串的一些字符被删除,以及预定字符的顺序被重新排列。加工规则数据83在关键词或内容标题被加工时存储规则(信息)。这里,规则在 内容标题被识别时被用于必要的处理,且对应于内容标题或关键词的类型或属性。例如,通常,在互联网上的网页中公开的介绍电视节目的内容标题可能与EPG数 据中包括的内容标题不精确匹配。例如,这种不匹配对应于以下情况作为EPG的特定字符 的“新”(表示新的节目)、“重播”(表示重新广播)或“(结局)”(表示最终一期)被添加 到内容标题中。例如,表示对应内容的广播期的信息通常被添加到EPG数据中包括的内容标题 中。另一方面,表示广播期的信息典型地不被添加到对应内容的一般名称中,这可能是使得 难以识别关键词和内容标题的一个因素。例如,定义规则使得“当在中间存在特定字符串时,该特定字符串自身的字符和后 续字符被删除。该特定字符串是“新””。例如,在网页等中描述的内容标题与EPG数据中包括的内容标题之间的不匹配通 常可能是由全角字符与半角字符之间的差异所导致的。例如,关于在网页等中描述的信息, 作为由特定的操作系统等采用的字符的、依赖于平台的字符可以被转换成通用字符。这里,例如,定义规则使得“在作为内容标题的字符组而存在全角形式和半角形式 的情况下,当转换对象字符位于中间时,全部字符被转换成半角形式”。如上所述,删除内容标题中包括的不必要的字符或者对内容标题自身或字符的属 性进行转换的处理被称作正规化处理。用于正规化处理的规则被称为正规化规则。在正规化处理完成之后的内容标题也可能与网页等中描述的内容标题不精确匹 配。这种不匹配通常是由插入到字符串中的间隔等导致的。这里,例如,定义规则使得“将全角间隔或半角间隔看作分隔符,且将已被分隔开 的第一字符串和第二字符串直接连接”。如上所述,在正规化处理完成之后结合或删除内容标题的字符串的处理被称为重构处理。用于重构处理的规则被称为重构规则。图3是示出了存储在加工规则数据83中的正规化规则的列表的示例的图。在该示例中,第一规则的规则名称被设置成“RUle_EPG_A_01”。同样地,第二至第六规则名称被设置成 “Rule_EPG_A_02” 至 “Rule_EPG_A_06”。规则“RUle_EPG_A_01”的规则内容是“当头部中存在特定字符串时,删除该特定 字符串”。作为对象的特定字符串可以是“包括用于“新”的三个字符的字符串(“括号”, “新”,“括号(结束)”)”。这里,被添加有“新”的内容标题表示该内容是新的节目。“Rule_EPG_A_02”的规则内容是指“当特定字符串存在于一定处时,删除该特定字 符串的字符以及后续字符”。作为对象的特定字符串可以是“重播”和“(结局)”。这里,被 添加有“重播”或“(结局)”的内容标题表示重新广播或内容的最终期。规则“Rule_EPG_A_03”的规则内容是指“在其中存在全角形式和半角形式的特 定字符串的情况下,当对应字符(字符串)处于中间时,将全部字符转换成半角形式”。作 为对象的特定串可以是“A到Z(表示字母表A到Z)”、“l到9(表示数字1到9) ”、“?”、
U I ” ......
、ο规则“Rule_EPG_A_04”的规则内容是指“当特定字符串存在于头部中时,删除该 特定字符串”。作为对象的特定字符串可以是“电影□”、“连续电视□”、“戏剧□”、“动画片 □ ”、“黄金时段□”、“新闻阶段□”、“午夜□”、……。在作为上述对象的特定字符串中,“□” 代表全角间隔。规贝lJ“RUle_EPG_A_05”的规则内容是指“当特定字符串处于中间时,删除该特定字 符串”。作为对象的特定字符串可以是“☆”。规贝lJ“RUle_EPG_A_06”的规则内容是指“当特定字符串处于中间时,将该特定字符 串转换成预定的字符串”。作为对象的特定字符串可以是“ ”,并且“ ”被转换成“ ”( 代表“ ”的逆向转换)。例如,当EPG内容标题是“戏剧□旅行2009 □ 欢迎 (结局)(重播)到大空! □出发时间”,根据规则“Rule_EPG_A_01 ”至“Rule_EPG_A_06”而正规化后的标题变成“旅 行2009 □ 欢迎 到大空! □出发时间”。图4是示出了存储在加工规则数据83中的重构规则的列表的示例的图。在该示例中,第一规则的规则名称是“RUle_EPG_B_01”。同样地,第二至第四规则 的名称是 “Rule_EPG_B_02” 至 “Rule_EPG_B_04”。规贝lJ“RUle_EPG_B_0r’是指“全角间隔或半角间隔被看作分隔符,且将已被分隔开
的第一字符串和第二字符串直接连接”。例如,当根据规则“Rule_EPG_B_01”的重构处理被应用于上述正规化后的标题时, 被重构的标题变成“旅行2009 欢迎 到大空! □出发时间”。规贝lJ“RUle_EPG_B_02”是指“将全角间隔或半角间隔看作分隔符,且通过全角间隔
连接已被分隔开的第一字符串和第二字符串”。例如,当根据规则“Rule_EPG_B_02”的重构处理被应用于上述正规化后的标题时, 被重构的标题变成“旅行2009 □ 欢迎 到大空! □出发时间”,这与重构之前的标题没 有差别。如上所述,即使当应用重构规则时,也可以不加工标题字符串。规贝fJ“Rule_EPG_B_03”的规则内容是指“将全角间隔或半角间隔看作分隔符,且删除除了被分隔开的第一字符串以外的其它字符串”。例如,根据规贝"J“Rule_EPG_B_03”的重构处理被应用到上述的初始化的标题,则被重构的标题变成“旅行2009”。规贝lJ“RUle_EPG_B_04”的规则内容是指“将全角间隔或半角间隔看作分隔符,且删 除除了被分隔开的第二字符串以外的其它字符串”。例如,根据规贝"J“Rule_EPG_B_04”的重 构处理被应用到上述的初始化的标题,则被重构的标题变成“ 欢迎 到大空! ”。图3和图4分别示出了正规化规则和重构规则的示例,其不限于上述规则。例如, 可以响应于关键词信息51或内容数据61的类型或属性而改变正规化规则和重构规则。返回到图2,加工规则更新部分85被构成为对存储在加工规则数据83中的正规化 规则和重构规则进行更新。例如,基于用户的命令来更新正规化规则和重构规则。例如,力口 工规则更新部分85可以将从管理人员提供的规则输入到加工规则数据83中,使得通过正 规化规则和重构规则的管理人员来更新正规化规则和重构规则。在这种情况下,例如,加工 规则更新部分85可以经由网络等连接到管理人员的设备。内容指定部分86计算从关键词获取部分81提供的关键词与从内容标题加工部分 84提供的被加工的标题之间的相似性。内容指定部分86计算从关键词获取部分81提供的 关键词与从内容标题获取部分82提供的加工前的标题之间的相似性。例如,期望通过以下方式来计算关键词与标题之间的相似性通过2-gram(n-gram 中η = 2的情况被称为二重gram(bi-gram))分割关键词和每个标题,识别被分割的作为集 合的字符串,以及计算jaccard系数。例如,n-gram的细节被描述如下http://gihyo. jp/dev/serial/01/make-findspot/0005例如,jaccard系数的细节被描述如下http://ibisforest.org/index.php ? 2. 261264E+28942. 261264E+289A8. 60239 6E+2895% A45. 556400E+2525A4% E6% BO例如,内容指定部分86如上所述地针对每个加工后的标题和关键词计算jaccard 系数,并存储该jaccard系数作为每个加工后的标题与关键词之间的相似性。例如,内容 指定部分86如上所述地针对每个加工前的标题和关键词计算jaccard系数,并存储该 jaccard系数作为每个加工前的标题和关键词之间的相似性。上述的通过2-gram和jaccard系数进行的相似性计算是示例性的,并且可以通过 其它方法来计算该相似性。例如,内容指定部分86以降序排列所计算的相似性值,并识别具有最高的相似性 的标题作为对应于关键词的内容标题。这里,当具有最高的相似性的标题是加工后的标题 时,则将应用相应加工之前的标题(即,加工前的标题)识别为对应于关键词的内容标题。可以将多个具有高相似性的高等级标题识别为对应于关键词的内容标题。根据本发明的实施例,例如,即使当EPG数据中包括的内容标题与网页等的其它 媒体中描述的内容标题不匹配时,这两个内容标题也可以被识别。这里,为了简化描述,图2中的与图1的服务器31到客户端33相关联的功能块已 经被描述,但是不一定如上所述地对这些功能块进行关联。例如,可以将一个设备构成为包 括图2的全部功能块。可以通过记录器32和客户端33来实现图2的全部功能块。下面将参考图5的流程图对通过客户端33所进行的内容识别处理的示例进行描述。
在步骤S21中,关键词获取部分81获取关键词。这时,例如,关键词提供部分52 从关键词信息51中读取一个或多个预定的关键词,并将所读取的一个或多个预定的关键 词提供给关键词获取部分81。例如,关键词获取部分81获取该一个或多个关键词作为文本 数据。在步骤S22中,内容标题获取部分82获取一个内容标题。这时,内容标题提供部分 62从内容数据的内容元数据中提取内容标题,并将所提取的内容标题提供给内容标题获取 部分82。例如,内容标题获取部分82获取内容标题作为文本数据。在步骤S23中,内容指定部分86计算通过步骤S21的处理获取的关键词与通过步 骤S22的处理获取的内容标题之间的相似性。这时,例如,通过以下方式来计算相似性通 过2-gram分割每个关键词和标题,识别被分割的作为集合的字符串,以及计算jaccard系 数。在步骤S24中,内容标题加工部分84执行内容标题加工处理,稍后将参考图6对 该内容标题加工处理进行描述。这里,将参考图6的流程图对图5的步骤S24的内容标题加工处理的详细示例进 行描述。在步骤S41中,内容标题加工部分84执行稍后将参考图7来描述的正规化处理。 这样,如上所述,内容标题被正规化。在步骤S42中,内容标题加工部分84执行稍后将参考图8来描述的重构处理。这 样,如上所述,正规化后的内容标题被重构。下面将参考图7的流程图对图6的步骤S41的正规化处理的详细示例进行描述。在步骤S61中,内容标题加工部分84执行初始化。这里,例如,初始化是指清除作 为先前加工对象的文本数据或使规则应用顺序等返回到初始值的处理。在步骤S62中,内容标题加工部分84通过应用一个正规化规则来对内容标题进行 正规化。例如,当如同在图3的示例中那样地将规则“Rule_EPG_A_01”到“Rule_EPG_A_06” 存储在加工规则数据83中时,通过首先应用规则“Rule_EPG_A_01”来执行正规化处理。在步骤S63中,内容标题加工部分84将字符串更新为规则应用之后的字符串。 例如,当作为要被加工的对象的内容标题是“戏剧□旅行2009 □ 欢迎 (结局)(重 播)到大空! □出发时间”时,应用规则“Rule_EPG_A_01”之后的字符串还是“戏剧□旅行 2009 □ 欢迎 (结局)(重播)到大空! □出发时间”。因此,在这种情况下,“戏剧□旅 行2009 □ 欢迎 (结局)(重播)到大空! □出发时间”被存储(更新)为规则应用之 后的字符串。在步骤S64中,内容标题加工部分84确定下个正规化规则是否存在。在这种情况 下,由于规则“Rule_EPG_A_02”到“Rule_EPG_A_06”尚未被应用,所以在步骤S64中确定下 个正规化规则存在,并且处理返回到S62。在步骤S62中,应用下个正规化规则。在这种情况下,通过应用规则“Rule_EPG_ A_02”来执行正规化。因此,规则应用之后的字符串变成“戏剧□旅行2009 □ 欢迎 到大空! □出发 时间”,并且标题字符串被更新,如以上在步骤S63中所描述的那样。
之后,重复执行步骤S62到S64的处理,直到通过应用规则“Rule_EPG_A_03”到 “Rule_EPG_A_06”来执行正规化为止。也就是说,当在步骤S62中已应用了规则“Rule_EPG_ A_06”时,在步骤S64中确定不存在下个正规化规则,并且正规化处理结束。在上述示例中,规则“Rule_EPG_A_01”到“Rule_EPG_A_06”被应用,且正规化的标 题变成“旅行2009 □ 欢迎 到大空! □出发时间”。当正规化处理结束时,存储上述字符 串ο 下面将参考图8的流程图对图6的步骤S42的重构处理的详细示例进行描述。在步骤S81中,内容标题加工部分84获取正规化的字符串。在上述示例的情况下, “旅行2009 □ 欢迎 到大空! □出发时间”被获取作为正规化的字符串。在步骤S82中,内容标题加工部分84应用一个重构规则。例如,当如在图4的示 例中那样地将规则“Rule_EPG_B_01”到规则“Rule_EPG_B_04”存储在加工规则数据83中 时,通过首先应用“ Rule_EPG_B_01,,来执行重构。在上述示例中,当通过规则“Rule_EPG_B_01 ”进行的重构处理被应用到在步骤 S81中获取的字符串时,被重构的标题变成“旅行2009 欢迎 到大空! □出发时间”。在步骤S83中,内容标题加工部分84确定字符串是否已经被加工。在这种情况下, 由于在规则“Rule_EPG_B_01”之前的字符串与在规则“Rule_EPG_B_01”之后的字符串不相 同,所以在步骤S83中确定该字符串已经被加工,并且处理进行到步骤S84。在步骤S84中,内容标题加工部分84存储被重构的串。这里,所存储的字符串被 看作一个加工后的标题。在步骤S85中,内容标题加工部分84确定是否存在下个重构规则。在这种情况下, 由于规则“Rule_EPG_B_02”到规则“Rule_EPG_B_04”尚未被应用,所以在步骤S85中确定 存在下个重构规则,并且处理返回步骤S82。在步骤S82中,应用下个正规化规则。在这种情况下,通过应用规则“Rule_EPG_ B_02”来执行重构处理。例如,当在上述示例中已应用了通过规则“Rule_EPG_B_02”进行的重构处理时,被 重构的标题变成“旅行2009 □ 欢迎 到大空! □出发时间”,这与重构处理之前的标题 没有不同。如上所述,即使在重构规则被应用时,也可以不加工标题字符串。在这种情况下,在步骤S83中确定字符串尚未被加工,并且处理进行到步骤S85。重复执行步骤S82到S85的处理,并且通过应用规则“Rule_EPG_B_03”到“Rule_ EPG_B_04”来执行重构。当在步骤S82中已应用了规则“Rule_EPG_B_04”时,在步骤S85中确定下个重构 规则不存在,并且重构处理结束。当在上述示例中正规化处理结束时,规则“ Ru 1 e_EPG_B_01 ”、规则“ Ru 1 e_EPG_ B_03”和规则“Rule_EPG_B_04”的重构处理结果的字符串被存储。也就是说,通过应用内容标题加工处理而获得的标题变成三个标题“旅行 2009 欢迎 到大空! □出发时间”、“旅行2009”和“ 欢迎 到大空! ”。如上所述,内容标题加工处理被执行。返回到图5,在步骤S24的处理之后,处理进行到步骤S25。在步骤S25中,内容指定部分86计算通过步骤S21的处理获取的关键词与所获得的作为步骤S24的处理的结果而获得的加工后的标题之间的相似性。在上述示例中,由于 加工后的标题的数量是3,所以计算出3个相似性值。以与在步骤S23的情况下的方式相同 的方式来计算该相似性。在步骤S26中,内容指定部分86确定是否存在下个内容。在步骤S26中确定存在 下个内容,直到从内容标题提供部分62提供的所有内容标题被完全加工为止,并且处理返 回到步骤S22。如上所述,重复执行步骤S22到S26的处理。 另一方面,当从内容标题提供部分62提供的所有内容标题已被完全加工时,在步 骤S26中确定不存在下个内容,并且处理进行到步骤S27。在步骤S27中,内容指定部分86以降序排列在步骤S23或S25中计算的相似性值。 假设这些相似性值与内容标题相关联。在步骤S28中,内容指定部分86创建关键词和内容之间的对应关系表。这时,例 如,预定数量的内容标题被选择作为具有已计算的较高值的相似性的内容标题,上述较高 值等于或大于阈值,且被识别成对应于关键词的内容标题。已经描述了针对各个内容中的每个内容而重复执行步骤S22到S26的处理的示 例,但是必要时可以执行更有效的处理。例如,可以针对存储在内容数据61中的所有内容 而预先执行步骤S24的内容标题加工处理。将参考图9到11进一步进行描述。图9是示出了作为蓄积在服务器31中的信息的、存储在图2的关键词信息51中 的信息的示例的图。在该示例中,作为从网页等获取的介绍与互联网相连接的另一服务器 中的内容的内容名称的“节目名称”连同作为该网页的地址信息的“信息URL”一起被描述。例如,图9中所示的信息被存储为构成数据库的关键词信息51的记录。记录121是其节目名称为“ABC纪录片”的内容信息。同样地,记录122是其节 目名称为“DEF动画片”的内容信息,记录123是其节目名称为“GHI测试的鬼”的内容信 息,……,记录124是其节目名称为“XYZ杂耍演出”的内容信息。关键词提供部分52从关键词信息51的记录中读取被描述成节目名称的信息作为 关键词,并将所读取的信息提供给关键词获取部分81。关键词获取部分81获取由文本数据 构成的关键词信息51的记录的节目名称作为关键词。例如,在图5的步骤S21中执行该处理。图10是示出了作为蓄积在记录器32中的信息的、存储在图2的内容数据61中的 信息的示例的图。例如,基于从每个EPG等中获取的元数据来产生图10中所示的信息,该 信息由被附加到内容数据的元数据的信息构成。在该示例中,在元数据141、元数据142、……中描述了以下信息表示内容标题的 “标题”,以及表示对应内容的广播日期和广播频道的“广播时间”和“频道”。在元数据141、 元数据142、……中还描述了以下信息作为对应内容的制作者的网页的地址信息的“内容 URL "ο内容标题提供部分62从内容数据61的元数据中提取被描述为标题的信息,并将 所提取的信息提供给内容标题获取部分82。例如,内容标题获取部分82获取由文本数据构 成的内容数据61的元数据标题作为内容标题。例如,在图5的步骤S22中执行该处理。
图11是示出了关键词与内容之间的对应关系表的示例的图。这里,例如,客户端 33执行内容标题识别处理,在该处理中指定与图9中所示的每个记录相对应的关键词。如图11所示,在关键词和内容的对应关系表中描述了与关键词“ABC纪录片”、 “DEF动画片”、“GHI测试的鬼”、……“XYZ杂耍演出”相对应的内容的元数据。也就是说,图10的元数据141被描述成与从图9的记录121中获得的关键词“ABC 纪录片”相对应的内容。元数据141的标题是““新”ABC □纪录片□第一集3小时特别 节 目”。当直接计算与“ABC纪录片”之间的相似性时,可能不能获得高的相似性。也就是说, 通过如参考图6到8所描述的那样地加工元数据142的标题字符串来提高与从记录121中 获得的关键词之间的相似性,并且可以识别与该关键词相对应的内容。图10的元数据142被描述成与从图9的记录123中获得的关键词“GHI测试的鬼” 相对应的内容。元数据142的标题是“连续电视DGHI ☆测试的鬼(结局)“重播””。当 直接计算与“GHI测试的鬼”之间的相似性时,可能不能获得高的相似性。也就是说,通过如 参考图6到8所描述的那样地加工元数据142的标题字符串来提高与从记录123中获得的 关键词之间的相似性,并且可以识别与该关键词相对应的内容。与从图9的记录122和记录124获得的关键词“DEF动画片”和“XYZ杂耍演出”相 对应的内容分别被描述成“无”。也就是说,当不存在与对应的关键词之间的相似性等于或 大于阈值的内容标题时,对应于该关键词的内容被看作“无”。在图5的步骤S28中,例如,产生图11中所示的对应关系表。在该示例中,识别出与一个关键词相对应的一个内容。替代性地,存在相似性值等 于或大于阈值的多个内容标题,可以识别与一个关键词相对应的多个内容。当识别出与一个关键词相对应的多个内容时,可以设置所识别的内容的数量的上 限。在这种情况下,例如,可以识别出与一个关键词相对应的具有高相似性值的三个内容。替代性地,当存在相似性值等于或大于阈值的多个内容标题时,可以按从最近的 记录日期/时间开始的顺序来识别与一个关键词相对应的三个内容。例如,客户端33提示显示器显示图11中所示的对应关系表。这样,例如,客户端 33的用户可以从多个所记录的内容中识别出与互联网上介绍的内容相对应的项。替代性地,所识别的与关键词相对应的内容的缩略图可以被进一步显示为GUI。基 于该显示的GUI,可以再现所识别的内容。如上所述,内容标题识别处理被执行。以上描述了其中从多个被记录到记录器32的内容中识别与关键词相对应的内容 的示例。替代性地,根据本发明的实施例,可以识别与关键词相对应的元数据(例如,EPG数 据的部分)。在这种情况下,例如,获得图11中所示的对应关系表的客户端33可以通过参考 图5所描述的处理来向记录器32发送记录预订命令。这样,该用户可以从EPG数据中识别 (指定)与期望的关键词相对应的内容,并且可以基于EPG数据来进行对所识别内容的记录 预订。例如,在相关技术中,当不知道广播日期/时间的信息等时,难以对节目进行识 另IJ。当仅通过节目标题信息而不使用广播日期信息来执行识别处理时,不可能识别出虽然 节目不具有相似的节目标题但实际上相同的节目。
存在一种系统,该系统通过将日本字符(片假名)转换成罗马字符并确定目标字 符串中是否包括关键词来识别节目。但是,在仅通过节目标题信息来执行识别处理的情况 下,难以准确执行识别处理。在内容加工侧可以通过各种方式方便地改变用于识别各个内容中的内容的名称。 例如,通常,在介绍电视节目的杂志、互联网的网页等中描述的节目标题可能与由EPG数据 表示的节目标题不精确匹配。如上所述,在相关技术中,可能不能识别实际上相同的节目,以及例如可能不能记 录期望的节目 。另一方面,根据本发明的实施例,即使在用于识别各个内容的名称已被改变时也 可以准确识别内容。因此,本发明可以提高用户的满意度。以上已描述了其中要被识别的与关键词相对应的内容主要是广播节目等的内容 的示例,但其不限于此。例如,在互联网上的运动图像张贴站点等上提供的运动图像数据的 内容可以被识别成与关键词相对应的内容。以上描述了其中使用正规化规则和重构规则来加工内容标题以容易地确定与关 键词之间的相似性的示例,但是必要时可以对关键词进行加工。例如,可以通过响应于关键 词信息51的记录信息的获取源而加工内容标题及加工关键词来确定这两者的相似性。在这种情况下,例如,期望应用图12中所示的配置来代替图2的配置。图12是示 出了图1的内容标题识别系统10的另一功能配置示例的框图。该图12对应于图2,并且通 过相同的附图标记来指示相同的元件。图12的配置与图2的配置的不同之处在于安装了 关键词加工部分87。图12的其它配置与图2的配置相同。在图12的配置中,关键词加工部分87被构成为用于通过应用存储在加工规则数 据83中的规则来对由关键词获取部分81获取的关键词进行加工。关键词加工部分87不 必通过应用正规化规则和重构规则来加工关键词。例如,可以仅通过正规化规则来加工关 键词。例如,在图12的配置中,存储在加工规则数据83中的规则可以被存储为以下规 则该规则被划分成要由内容标题加工部分84使用的规则和要由关键词加工部分87使用 的规则。这样,例如,即使当存储在关键词信息51中的信息的类型和存储在内容数据61中 的内容的类型被任意地改变时,也可以适当地执行内容标题识别处理。以上已描述了加工内容标题以容易地确定与关键词之间的相似性的示例,但是可 以加工关键词以容易地确定与内容标题之间的相似性。也就是说,已经描述了识别与给定关键词相对应的内容的本发明的以上示例,但 是即使在识别与给定内容相对应的关键词时也可以应用本发明。例如,在用户确定是否通 过显示EPG数据来记录预定内容时,可以基于对应的内容元数据来识别互联网上描述的对 应的内容标题。这样,例如,用户可以预先检查对内容的估计,以便确定是否记录该内容。以上描述的一系列处理可以通过硬件或软件来执行。当通过软件来执行该一系列 处理时,从程序记录介质将构成该软件的程序安装到嵌入在专用硬件中的计算机中,或者 例如安装到图13中所示的能够通过安装各种程序来执行各种功能的通用个人计算机700 中。
在图13中,CPU (中央处理单元)701根据存储在R0M(只读存储器)702中的程序 或从存储部分708加载到RAM(随机存取存储器)703中的程序来执行各种处理。RAM 703 还适当地存储必要的数据,使得CPU701执行各种处理。CPU 701,ROM 702和RAM 703经由总线704相互连接。输入/输出接口 705也连 接到总线704。输入/输出接口 705连接到输入部分706,包括键盘、鼠标等;显示器,包括 LCD (液晶显示器);输出部分707,包括扬声器等;存储部分708,包括硬盘等;以及通信部 分709,包括调制解调器、LAN卡的网络接口卡等。通信部分709通过包括互联网的网络来 执行通信处理。如果必要的话,驱动器710被连接到输入/输出接口 705。适当地安装诸如磁盘、 光盘、磁光盘或半导体存储器之类的可拆卸介质711。如果必要的话,从中读取的计算机程 序被安装到存储部分708中。当通过软件来执行上述一系列处理时,从诸如互联网之类的网络或包括可拆卸介 质711的记录介质等安装构成该软件的程序。与图13中所示的设备主体相分离的该记录介质包括磁盘(包括软盘(注册商 标))、光盘(包括CD-ROM(光盘-只读存储器)或DVD(数字多功能光盘)、磁光盘(包括 MD (迷你光盘)(注册商标)),该可拆卸介质711包括半导体存储器等,在其上记录节目以 向用户分发节目。在记录介质预先被嵌入在该设备主体中的状态下,该记录介质可以由记 录要被传送给用户的节目的ROM 702或存储部分708中包括的硬盘构成。这里,已将图13描述成个人计算机的配置示例,但是,例如,图13可以被应用为图 13的服务器31到客户端33的配置示例。参考图2或图12描述的功能块可以由可操作用 于执行程序的预定步骤的CPU 701、存储部分708或可拆卸介质711构成。在本说明书中描述的一系列处理包括要被并行执行或单独执行的处理以及要被 按时间顺序执行的处理。本发明并不限于以上描述的实施例,在不脱离本发明的范围的情况下可以进行各 种改变。本申请包含与在2009年4月10日提交日本专利局的日本优先权专利申请JP 2009-096304中公开的主题相关的主题,其全部内容通过引用合并与此。
权利要求
一种内容处理设备,包括关键词获取装置,用于获取用于指定内容的关键词;标题获取装置,用于获取内容标题;加工装置,用于基于预定的加工规则来加工所获取的标题;相似性计算装置,用于计算加工后的标题与所述关键词之间的相似性;以及识别装置,用于基于所计算的相似性来识别具有由所述关键词指定的标题的内容。
2.根据权利要求1所述的内容处理设备,还包括 更新装置,用于更新所述加工规则。
3.根据权利要求1所述的内容处理设备,其中所述加工规则包括用于正规化处理的正规化规则,所述正规化处理删除内容标题中包括的不必要的字符 或者对字体或字符属性进行转换;以及用于重构处理的重构规则,所述重构处理对通过所述正规化处理正规化后的内容标题 的字符串进行结合或删除。
4.根据权利要求3所述的内容处理设备,其中所述内容标题是电子节目指南数据中包括的内容标题,以及其中所述正规化规则包括删除电子节目指南数据中的表示广播期的字符串的规则。
5.根据权利要求4所述的内容处理设备,其中基于所述电子节目指南数据来设置对所识别的内容的记录预订。
6.根据权利要求1所述的内容处理设备,还包括第二加工装置,用于基于预定的加工规则来加工所获取的关键词。
7.根据权利要求6所述的内容处理设备,其中所述相似性计算装置计算加工后的关键词与所述标题之间的相似性;以及 其中所述识别装置基于所计算的相似性来识别用于指定所述标题的关键词。
8.一种内容处理方法,包括以下步骤 获取用于指定内容的关键词; 获取内容标题;基于预定的加工规则加工所获取的标题;计算加工后的标题与所述关键词之间的相似性;以及基于所计算的相似性来识别具有由所述关键词指定的标题的内容。
9.一种程序,所述程序用于使得计算机用作内容处理设备,所述内容处理设备包括 关键词获取装置,用于获取用于指定内容的关键词;标题获取装置,用于获取内容标题;加工装置,用于基于预定的加工规则来加工所获取的标题;相似性计算装置,用于计算加工后的标题与所述关键词之间的相似性;以及识别装置,用于基于所计算的相似性来识别具有由所述关键词指定的标题的内容。
10.一种记录介质,权利要求9所述的程序被记录到所述记录介质中。
11.一种内容处理设备,包括关键词获取装置,用于获取用于指定内容的关键词; 标题获取装置,用于获取内容标题;加工装置,用于基于预定的加工规则来加工所获取的关键词;相似性计算装置,用于计算加工后的关键词与所述标题之间的相似性;以及识别装置,用于基于所计算的相似性来识别具有由所述关键词指定的标题的内容。
全文摘要
本发明公开了内容处理设备和方法、程序以及记录介质。该内容处理设备包括关键词获取装置,用于获取用于指定内容的关键词;标题获取装置,用于获取内容标题;加工装置,用于基于预定的加工规则来加工所获取的标题;相似性计算装置,用于计算加工后的标题与该关键词之间的相似性;以及识别装置,用于基于所计算的相似性来识别具有由该关键词指定的标题的内容。
文档编号H04N7/173GK101859311SQ201010129310
公开日2010年10月13日 申请日期2010年3月9日 优先权日2009年4月10日
发明者榎并嗣智, 河野真一, 礒津政明 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1