辞典制作装置以及辞典制作方法

文档序号:7609718阅读:234来源:国知局
专利名称:辞典制作装置以及辞典制作方法
技术领域
本发明涉及制作、更新用于对以文本记述的信息进行检索、分类、或过滤辞典的辞典制作装置。
背景技术
近年来,随着硬盘或DVD(数字多用途盘)等价格下降而越发普及,能够简单地存储电视节目等动画信息。并且,由于这些硬盘以及DVD的大容量化,能够存储大量的动画内容。
另一方面,根据电视节目等电子节目安排指南,有关各节目的信息可以用文本信息来取得。因此,利用文本信息可以存储观看者所爱好的节目、对存储的节目进行分类。为了利用节目的文本信息选择节目或对存储的节目进行分类,需要根据节目指南信息判断哪个关键词表现了节目的特征。于是,为了预先从节目的文本信息提取重要的关键词、或排除不需要的关键词,采取预先构筑辞典的方法。
这一类的辞典包括以下辞典提取辞典,记述了当分类、检索、或者提取文本信息时用哪个关键词分类、检索或者提取的辞典;无用词辞典,当分类、检索、或者提取文本信息时,为了排除不做表示的关键词,而收集了这种不需要的关键词。
为了制作提取辞典,从成为分类和检索对象的文本信息群的多数取样数据中,拾取实际出现的关键词,在对成为对象的文本信息群进行分类或检索后仅采用特征关键词作为提取辞典。例如,当作为文本信息以EPG(电子节目安排指南Electric Program Guide)为对象时,认为演员名以及一般名词对分类或检索有效的情况下,将提取出在EPG数据中实际出现的演员名和一般名词的关键词制作成提取辞典。
并且,同样地关于制作无用词辞典,在成为对象的文本信息群的取样数据中出现的关键词中,提取对分类或检索不起作用的、或者反而成为妨碍的关键词,采用这些关键词作为无用词辞典。例如,存在在大部分的EPG数据中出现的关键词的情况下,该关键词无法对个别的EPG数据赋予特征,因此可以认为是不需要的关键词。
作为上述的方法,提出一种节目推荐系统的方案,该节目推荐系统预先设定好关于多个主题的辞典,使用该主题辞典进行节目的分类或检索((例如,参照专利文献1)。在该节目推荐系统中,例如,关于“旅游”的主题,通过利用设定有“旅馆”、“住缩”、“车窗”、“游船旅游”等特征性关键词的辞典,可以检索或分类关于“旅游”的节目。并且、利用来自用户的操作信息,构筑有关喜好的简介,目标是提供适合用户的节目。
并且,提出一种数字广播接收装置,该装置根据预先设定的主题(类型genre),使节目表的节目的颜色变化,对于用户来说浅显易懂地显示节目(例如,参照专利文献2)。
专利文献1日本特开2002-320159号公报专利文献2日本特开2003-134412号公报但是,在以往的辞典制作方法中,无论提取辞典还是无用词辞典都是预先根据成为对象的文本信息群的取样数据制作的固定的辞典,因此不能与成为对象的文本信息群的变化相对应。
例如,政治上的内阁总理的名字等,根据其时代而不同,并且,对于职业棒球选手来说,由于交换运动员等,有时球队因时代而异。此外,在EPG中,演员名与时代一同变化,在制作辞典时频繁出场的演员可能在几年之后完全不出场,相反在制作辞典时是不知名的演员可能后来成为走红的演员。另外,在举行大型活动(奥林匹克运动会等)时,或者发生大事件时,可以预想与此相关的节目会明显增多,出现的关键词的倾向变化较大。并且,今后考虑有可能根据新的广播方式的出现以及广播文化的变化等,可以预见EPG的记述内容会有较大变动。
此外,上述专利文献1中所述的关于“旅游”,随着时代有不同的流行,很多时候需要根据时代来更新辞典。
因此,有如下课题伴随着这种文本信息群的内容的变化,必须将用于文本的分类、检索、或者提取的辞典构筑修改为适当的辞典。

发明内容
因此,本发明是鉴于上述情况做出的,其目的是提供一种辞典制作装置及辞典制作方法,与文本信息群的内容变化对应,可以最佳地制作、及更新用于对文本信息进行分类、检索、或提取的辞典。
为了达到上述目的,本发明涉及的辞典制作装置,其特征在于,制作用于检索、分类、或者过滤以文本记述的信息的辞典,具有关键词提取单元,从文本信息提取关键词;以及辞典登记删除单元,将从上述文本信息提取出的关键词在上述辞典中登记或删除。
由此,与文本信息的内容变化对应,适当地从辞典中调换关键词,从而可以始常使辞典保持最佳的状态。
另外,可以是上述辞典制作装置,还具有关键词统计单元,求出与由1个以上的文本信息构成的文本信息群中的上述关键词的出现有关的统计量;关键词评价值算出单元,根据上述统计量算出上述关键词的评价值;以及判断单元,根据上述算出的评价值判断将上述关键词是否在上述辞典中登记、或者是否从上述辞典中删除;上述关键词提取单元从上述文本信息群提取关键词;上述辞典登记删除单元根据上述判断的结果在上述辞典中登记或者删除上述关键词。
由此,根据构成文本信息群的关键词的出现倾向,可以恰当地制作登记了有效关键词的辞典。此外,与文本信息群的内容变化对应,通过在辞典适当地调换关键词,从而可以始常使辞典保持最佳的状态。
在此,可以是上述辞典制作装置还具有关键词存储单元,用于将上述关键词及该关键词的上述评价值作为组进行存储;上述关键词评价值算出单元使上述关键词与算出的评价值相对应而存储在上述关键词存储单元中;上述判断单元根据由上述关键词评价值算出单元新算出的评价值、和存储在上述关键词存储单元的评价值的变化量,判断将上述关键词是否在上述辞典中登记、或者是否从上述辞典中删除。
由此,对于存储有上次处理时的评价值的关键词,根据上次处理时的评价值与这次算出的评价值的变化值更新辞典,进行辞典的更新,因此可以对于构成文本信息群的关键词的出现倾向变化显著的关键词更新辞典的内容。
另外,也可以是由上述关键词评价值算出单元算出的评价值是基于上述文本信息群中的文本信息的总数及包含上述关键词的文本信息的个数的关键词的idf值、即逆文档频度值;在上述关键词未登记在上述辞典中、且上述算出的idf值大于等于预定阈值的情况下,上述判断单元判断为在上述辞典中登记上述关键词。
另外,在上述关键词登记在上述辞典中、且上述算出的idf值小于预定阈值的情况下,上述判断单元判断为从上述辞典中删除上述关键词。
idf值越小,其关键词是在任何文本信息中都出现的“不稀奇”的关键词,相反越大,是仅包含在一部分的文本信息中的关键词。因此,可以恰当地制作登记了有效率地进行文本检索或分类的关键词的辞典。
上述文本信息群由预先被赋予了所属的类别信息的、1个以上的文本信息构成;上述关键词统计单元求出与上述文本信息群中的上述类别有关的统计量;上述关键词评价值算出单元,关于上述提取出的关键词,根据与上述关键词的出现有关的统计量及与上述类别有关的统计量来算出评价值。
由此,可以算出对预先赋予的类别分类依存性低的评价值,可以关于应登记在辞典中的关键词,减少对文本信息的类别分类的依存性的影响。
另外,也可以是在上述辞典中按每个类别登记了关键词;上述辞典登记删除单元将从与上述类别对应的文本信息提取出的关键词作为该类别的时事特征关键词在上述辞典中登记。
在此,也可以是在上述辞典中按上述每个类别预先登记有固定特征关键词;上述辞典登记删除单元,将从对应于上述类别的文本信息提取出的关键词中、没有登记为该类别的固定特征关键词的关键词作为该类别的上述时事特征关键词在上述辞典中登记。
由此,可以制作与时代变化对应的辞典、即与固定特征关键词一起登记了从因特网或电子报纸等的媒体取得的时事固有名词等特征关键词作为该时事特征关键词的辞典。进而,通过使用这样制作出的辞典,可以更精确地实现例如由EPG等提供的节目信息。
另外,在上述辞典中按每个类别登记了关键词;上述辞典制作装置还具有至少从2个信息源取得与上述类别有关的分类信息及文本信息的分类信息取得单元;上述辞典登记删除单元根据由上述分类信息取得单元取得的分类信息、及由上述关键词提取单元提取出的关键词,制作与各上述信息源对应的辞典。
由此,可以制作与多个信息源的分类信息对应的多个辞典。另外,使用日常利用的对于用户来说容易理解的分类信息,可以对例如由EPG等提供的节目信息进行分类,可以用统一的分类来管理节目或信息。
上述辞典制作装置还具有上述分别制作的对应于各信息源的辞典进行编辑融和的辞典融和编辑单元。
由此,可以构筑这样的辞典,即总结各分类辞典数据库的分类信息的新的分类级辞典。通过使用这样制作的辞典,可以例如根据新的观点对例如EPG的节目表进行分类。
另外,本发明不仅作为这样的辞典制作装置实现,还可以作为上述辞典制作装置具有的特征单元作为步骤的辞典制作方法来实现,或者作为使计算机执行这些步骤的程序来实现。并且,这种程序当然可以通过CD-ROM等的记录媒体或者经由因特网等的传送媒体发送。另外,本发明也可以作为具有这样的辞典制作装置的EPG节目检索系统来实现。
发明效果根据上述说明显而易见,采用本发明涉及的辞典制作装置以及辞典制作方法,根据构成文本信息群的关键词的出现倾向,可以适当地制作登记了有效关键词的辞典。并且与文本信息群的内容变化相对应,通过从辞典中适当地调换关键词,从而使辞典始终保持最佳的状态。并且,使用这样制作的辞典,可以有效地检索、分类、或是过虑例如由EPG等提供的节目信息。


图1是示出本发明实施方式1涉及的辞典制作装置的结构的框图。
图2是示出在本发明实施方式1涉及的辞典制作装置中作为辞典数据库制作提取辞典时工作流程的流程图。
图3A是用于说明文本信息以及文本信息群的图,图3B是用于说明与关键词的出现有关的统计量的图。
图4是示出在本发明实施方式1涉及的辞典制作装置中,更新辞典数据库时的工作流程的流程图。
图5是示出在本发明实施方式1的关键词的评价值的时间变化的例子的图。
图6是示出本发明实施方式1涉及的具有辞典制作装置的EPG节目检索系统结构的框图。
图7是示出本发明实施方式2涉及的辞典制作装置的结构的框图。
图8是示出本发明实施方式2涉及的辞典制作装置中作为辞典数据库制作提取辞典时工作流程的流程图。
图9是示出本发明实施方式2涉及的辞典制作装置中更新辞典数据库时工作流程的流程图。
图10是示出在本发明实施方式2的关键词的评价值的时间变化的例子的图。
图11是示出在本发明实施方式2的关键词的评价值的时间变化的例子的图。
图12是示出本发明实施方式4涉及的辞典制作装置的结构的框图。
图13是示出本发明实施方式4涉及的具有辞典制作装置的EPG节目检索系统结构的框图。
图14是示出本发明实施方式5涉及的EPG节目检索系统结构的框图。
图15是示出将本发明实施方式5涉及的EPG节目检索系统设置在电视上的情况的系统结构的例子的硬件结构图。
图16是示出在本发明实施方式5涉及的EPG节目检索系统中更新分类辞典数据库时工作流程的流程图。
图17是示出存储在分类辞典数据库中的数据的一个例子的图。
图18是示出各信息的分类例子的图。
图19A是示出由用户选择分类的项目时的画面的例子,图19B是设定因特网上的URL时的画面例子的图。
图20是示出文本信息的一个例子的图,图20A是关于“电影”的文本信息的一个例子,图20B是关于“音乐”的文本信息的一个例子。
图21是示出从文本信息提取出特征关键词的结果的一个例子的图。
图22是示出存储在分类辞典数据库中的数据的一个例子的图。
图23是示出由用户选择用于设定录像的分类时的画面例子的图。
图24是示出从EPG数据取得了节目信息的一个例子的图。
图25是示出每个期间的时事特征关键词的利用频度的一个例子的图。
图26是示出本发明实施方式6涉及的EPG节目检索系统的结构的框图。
图27是示出由用户选择分类辞典数据库(信息源的站点)时的画面例子的图,图27A是信息源是2个的情况的例子,图27B是信息源是3个的情况的例子。
图28是示出分类辞典数据库的“分类”的图,图28A是根据从第1信息源取得的分类信息的情况的例子,图28B是根据从第2信息源取得的分类信息的情况的例子,图28C是根据从第3信息源取得的分类信息的情况的例子。
图29是示出本发明实施方式7涉及的EPG节目检索系统的结构的框图。
图30是示出存储在分类辞典数据库的数据的一个例子的图,图30A是根据从第1信息源取得的分类信息的情况的例子,图30B是根据从第2信息源取得的分类信息的情况的例子,图30C是根据从第3信息源取得的分类信息的情况的例子。
图31是示出包含在2个分类中的特征关键词的集合关系的概略图,图31A是一个分类的大部分的特征关键词包含在另一个分类中的情况,图31B是包含在2个分类中的特征关键词大部分相同的情况。
图32是示出总结3个分类辞典数据库的分类信息,融和在1个分类辞典数据库时分类的一个例子的图。
图33是示出本发明实施方式8涉及的EPG节目检索系统的结构的框图。
图34是示出存储在分类辞典数据库中的数据的一个例子的图。
图35是示出本发明实施方式8中变形例子的检索系统的结构的图。
编号说明1 关键词提取部2、22 关键词统计部
3、12 关键词评价值算出部4、13 判断部5 辞典登记删除部11 关键词数据库21 第2关键词提取部100、200400 辞典制作装置101、201401 辞典更新部102 辞典数据库103 EPG接收部104 EPG存储部105 EPG选择部106 文档矢量制作部107 检索条件取得部108 文档评定值算出部109 检索结果输出部110 CDDB接收部1100、1200、1300、1400 EPG节目检索系统1101 分类信息取得部1102 分类关键词提取部1103 分类辞典更新部1104 利用频度合计部1105 判断部1106、1402 分类辞典数据库1107、1208 EPG接收部1108、1209 分类部1109、1210 节目选择部1201 第1信息源的分类信息取得部1202 第2信息源的分类信息取得部
1203 分类关键词提取部1204、1401 分类辞典更新部1205 第1信息源的分类辞典数据库1206 第2信息源的分类辞典数据库1207 分类辞典选择部1301 第3信息源的分类信息取得部1302 第3信息源的分类辞典数据库1303 分类辞典融和编辑部1304 融和分类辞典数据库1403 EPG存储部具体实施方式
以下分别参照附图,说明本发明的各实施方式。
(实施方式1)图1是示出本发明实施方式1涉及的辞典制作装置的结构的框图。
辞典制作装置100是用于制作对以文本记述的信息进行检索、分类、或者过滤用的辞典(辞典数据库)的装置,具有辞典更新部101,从所输入的文本信息群提取应登记在辞典数据库中的关键词(单词)登记;以及辞典数据库102。辞典数据库102根据其用途有作为提取辞典使用的情况、作为无用词辞典使用的情况。
首先,说明这些辞典使用方法的例子。
例如,若文本信息群是有关电视节目等的信息,从观看者以前看过的节目的文本信息提取出有特征的关键词,制作表示观看者喜好的简介时,用作提取关键词用、或者去除关键词用的辞典。另外,从今后播放的节目的文本信息提取表示节目特征的关键词时,用作提取关键词用、或者去除关键词用的辞典。
此外,例如从今后播放的节目中推荐符合观看者喜好的节目的情况下,根据上述那样制作的简介,通过检索表示今后广播的节目特征的关键词,从而可以确定符合观看者喜好的节目。同样,可以从大量存储在HDD(硬盘驱动器)记录器等的节目中确定符合观看者喜好的节目。
并且,利用节目的文本信息,例如将节目分类为“经济”、“体育”、“生活”等类别时,作为按每个类别登记了表示其类别的特征的关键词的分类辞典使用。
辞典更新部101具有关键词提取部1、关键词统计部2、关键词评价值算出部3、判断部4、辞典登记删除部5。
关键词提取部1从所输入的文本信息提取关键词。关键词统计部2求出例如所输入的文本信息群中文本信息的总数及包含提取出的关键词的文本信息的个数等、与提取出的关键词的出现有关的统计量。关键词评价值算出部3根据由关键词统计部2求出的与关键词的出现有关情况的统计量来算出提取出的关键词的评价值。判断部4根据由关键词评价值算出部3算出的评价值,判断是否将该关键词登记在辞典数据库102中、或者是否从辞典数据库102中删除。辞典登记删除部5根据判断部4进行的判断的结果将该关键词登记在辞典数据库102中或者从辞典数据库102中删除。
下面说明上述那样构成的辞典制作装置100的工作。
图2是示出在辞典制作装置100中作为辞典数据库102制作提取辞典时工作流程的流程图,以下根据该流程图,说明提取辞典的制作工作。
向辞典更新部101例如图3A所示那样输入由1个以上的文本信息构成的文本信息群B时,关键词提取部1从文本信息群中的全部文本信息中进行关键词的提取(步骤S101)。这里的关键词的提取利用通用的形态素分析、文字种类(汉字,平假名,片假名等)的变换次数为端点的提取规则等、普遍使用的方法来进行即可。
此时,关键词统计部2求出与由关键词提取部1提取出的关键词出现有关的统计量,通知给关键词评价值算出部3(步骤S102)。在此,关键词统计部2求出所输入的文本信息群B中的文本信息A的总数、以及例如图3B所示地包含提取出的关键词的文本信息的个数。
接着,关键词评价值算出部3根据由关键词统计部2通知的与关键词的出现有关的统计量,例如图3C所示地对由关键词提取部1提取出的关键词算出评价值(步骤S103)。在此,关键词评价值算出部3作为评价值算出idf(逆文档频度inverse document frequency)值。对关键词t的idf值idf(t)如下面公式(1)所示地根据包含在文本信息群中的文本信息的总数N、以及N个的文本信息中包含关键词t的文本个数n(t)求出。
idf(t)=log(Nn(t))+1···(1)]]>在关键词t出现在N个文本信息群的所有的文本信息中出现的情况下idf值为1,伴随关键词t出现的文本数n(t)的减少有单调递增的倾向。即,该idf值越小,关键词t是在任何文本信息中都出现的“不稀奇”的关键词,相反越大可以说是仅包含在一部分文本信息中的关键词。
其次,判断部4对作为评价值算出的idf值是否大于等于预定阈值C进行判断(步骤S104)。在此,将预定阈值C以上的关键词,采用为构成提取辞典的关键词。该提取辞典是用于在文本信息的检索或分类的辞典,因此必须由这样的关键词所构成,即在文本信息群中具有偏倚而存在,对文本信息群中的个别文本信息表现了相对特征。从而采用idf(t)为一定值以上的判断标准。
因此,上述判断的结果、idf值大于等于预定阈值C的情况下(步骤S104中为是),判断部4将其关键词t作为登记在辞典数据库102(本实施方式中为是提取辞典)的关键词,通知给辞典登记删除部5。辞典登记删除部5将该关键词t登记在辞典数据库102(步骤S105)。另一方面,上述判断的结果,idf值小于预定阈值C的情况下(步骤S104中为否),判断部4将该关键词t作为不登记在辞典数据库102的关键词,不进行向辞典登记删除部5通知。
其次,1判断部4对是否存在尚未进行评价的关键词进行判断(步骤S106)。该判断的结果,在存在尚未进行评价的关键词的情况下(步骤S106中为是),判断部4对下一个关键词进行评价值的算出处理(步骤S103)。另一方面,在不存在尚未进行评价的关键词的情况下,即对于由关键词提取部1提取出的所有关键词分别结束了处理的情况下(步骤S106中为否),结束一系列的工作。
如上所述,根据从文本信息群提取出的关键词的评价值将关键词登记在辞典中,因此可以恰当地制作登记了对进行文本检索或分类等有效的关键词的辞典数据库102。
图4是示出在辞典制作装置100中更新已经制作的辞典数据库102时的工作流程的流程图,下面根据该流程图说明更新工作。并且,对于与图2示出的制作辞典数据库102时的工作相同的工作,省略说明。
首先,从由关键词提取部1的关键词提取处理(步骤S201)到由判断部4的评价值的判断处理(步骤S204),与图2示出的制作辞典数据库102的情形(步骤S101~步骤S104)相同。
其次,上述判断的结果,idf值大于等于预定阈值C的情况下(步骤S204中为是),判断部4检索辞典数据库102,对该关键词t是否未登记在辞典数据库102进行判断(步骤S205)。在此,该关键词t未登记在辞典数据库102中的情况下(步骤S205中为是),判断部4将该关键词t作为在辞典数据库102中登记的关键词,通知给辞典登记删除部5。辞典登记删除部5将该关键词t追加登记在辞典数据库102中(步骤S206)。
另一方面,上述判断的结果,idf值小于预定阈值C的情况下(步骤S204中为否),判断部4对作为评价值算出的idf值是否小于预定阈值C’进行判断(步骤S207)。该判断的结果,idf值小于预定阈值C’的情况下(步骤S207中为是),判断部4检索辞典数据库102,对该关键词t是否已经登记在辞典数据库102中进行判断(步骤S208)。在此,该关键词t还未登记在辞典数据库102中的情况下(步骤S208中为是),判断部4将该关键词t作为从辞典数据库102中删除的关键词,通知给辞典登记删除部5。辞典登记删除部5从辞典数据库102中删除该关键词t(步骤S209)。
其次,判断部4对是否存在尚未进行评价的关键词进行判断(步骤S210)。该判断的结果,存在尚未进行评价的关键词的情况下(步骤S210中为是),判断部4进行对下一个关键词的评价值的算出处理(步骤S203)。另一方面,不存在尚未进行评价的关键词的情况下,即对于由关键词提取部1提取出的全部关键词分别结束了处理的情况下(步骤S210中为否),结束一系列的工作。
图5是示出关键词评价值的时间变化的例子的图。在图5中,评价值逐渐增加,在点E中评价值超过阈值C登记在辞典数据库102中。之后,评价值继续增加,但是以点G为分界转为减少的倾向,终于在点F低于阈值C。因而在该点F该关键词从辞典数据库102中删除。
如上所述,根据构成文本信息群的关键词的出现倾向,更新已经存在于辞典数据库102的内容,所以可以构筑伴随文本信息群的内容变化的最佳的辞典。
并且,图4示出的更新辞典数据库102时的工作中,关键词登记时的阈值C和关键词删除时的阈值C’的关系可以是C=C’也可以是C>C’。特别是后者的情况下,关键词删除的标准比关键词登记的基准低,所以有关键词一旦被登记就很难删除的倾向。因此,即使因关键词一时的出现倾向发生变动而评价值下降的情况下,不会频繁地反复登记删除,可以维持内容稳定的辞典。
并且,在本实施方式中,作为辞典数据库102对提取辞典的情形进行了说明,也可以用相同的次序制作、更新无用词辞典。但是,这时,对关键词登记删除的评价值的判断基准与提取辞典的情形不同。具体来说,图2示出的在制作辞典数据库102时的工作中的评价值判断处理(步骤S104)当中,作为辞典,应登记的关键词需要评价值比阈值C小,即idf(t)<C。并且,同样在图4示出的更新辞典数据库102时工作中登记关键词时的评价值的判断处理(步骤S204)中,判断条件为idf(t)<C,关键词删除时的评价值的判断处理(步骤S207)中,判断条件为idf(t)>C’。
由此,对无用词辞典可登记idf值为较小值、在任何文本信息中都出现的无特征的关键词,该无用词辞典有必要登记无益于文本信息的检索和分类的、不能表现个别文本信息特征的关键词。
本实施方式中,说明了使用idf值作为关键词评价值的例子,但文本信息群中只要是示出关键词的重要性、特殊性、以及出现频度等指标可同样实现。但是,根据采用的评价值的变化倾向(单调增加、单调减少),有必要适当地设定用于向辞典数据库102的登记和更新的判断条件。
例如,关键词的文本信息群中将出现频度(tf值)与idf值相乘的tf·idf值是考虑了关键词在文本信息群中出现的偏倚(罕见)和出现频度的两方的指标,也可以将该值作为关键词评价值来使用。或是,也可以只将出现频度作为关键词评价值来使用。
其次,下面对将如上述构成的辞典制作装置100组装在EPG节目检索系统中的例子进行说明。
图6是示出本发明实施方式1涉及的具有辞典制作装置的EPG节目检索系统的结构的框图。
该EPG节目检索系统是根据检索条件检索从广播波中接收的EPG(电子节目安排指南Electric Program Guide)数据的系统,并具有辞典更新部101、辞典数据库102、EPG接收部103、EPG存储部104、EPG选择部105、文档矢量制作部106、检索条件取得部107、文档评定值算出部108、及检索结果输出部109。
EPG接收部103由广播波中接收EPG数据进行解码。EPG存储部104存储由EPG接收部103接收的EPG数据。EPG选择部105选择存储在EPG存储部104中的EPG数据。文档矢量制作部106根据由EPG选择部105选择的EPG数据,使用辞典数据库102,制作由关键词与权重的组构成的文档矢量。检索条件取得部107以由关键词与权重构成的矢量形式来取得由用户输入的对EPG数据的检索条件。文档评定值算出部108取得由检索条件取得部107取得的检索条件和存储在EPG存储部104中的EPG数据的文档矢量的余弦算出评定值,根据该评定值选择EPG数据。检索结果输出部109输出由文档评定值算出部108算出的评定值、或者根据该评定值选择的EPG数据。
如上所述,采用这类结构的EPG节目检索系统,按照在检索条件取得部107中取得的1个以上的矢量形式的检索条件,使用辞典数据库102求出文档矢量化的EPG数据的评定值,并按照评定值高的顺序输出,从而可以按照符合用户指定的检索条件的顺序来检索EPG数据。
另外,辞典数据库102由辞典更新部101更新,因此可以灵活对应于由节目改编造成的播放节目的大幅度变更、由大型活动或大事件造成的节目倾向的变动、还有由将来广播风格的变化等引起的EPG记述内容的大幅度变更等,可以维持适合于EPG数据的检索、分类等的辞典数据库102。
并且,在本实施方式中,检索条件取得部107取得由用户输入的检索条件,但是不限于此。例如,当检索条件取得部107的结构为取得由用户收看到的节目的EPG数据等产生的检索条件的矢量时,就可以实现不受理来自用户的明示的检索条件的指定而检索提示符合收看倾向的节目的、所谓“推荐节目提示”的功能。
并且,现在电视广播由地上波广播、BS(广播卫星)广播、以及CS(通信卫星)广播等多个广播波提供,在各广播波中所播放的节目的内容或演员等的倾向不同。因此,针对辞典的制作或更新,可以采用按广播波分割EPG数据的作为文本信息群,也可以进行进一步细分后按广播局分割。
并且,同样按时间段分割EPG数据作为文本信息群,可以制作或更新各时间段的辞典。例如将广播时间段分为早上、中午、傍晚、黄金段、深夜等,在各时间段制作辞典。通过这样,对于例如在整个时间段不怎么出现而在上午频繁出现的关键词等,可以用在每个时间段不同的辞典来显示。
(实施方式2)图7是示出本发明实施方式2涉及的辞典制作装置的结构的框图。并且,对于与实施方式1相同的部分附上相同的符号,省略详细说明。
辞典制作装置200的辞典更新部201,除了实施方式1的辞典更新部101的结构之外,还具有关键词数据库11。
根据由关键词统计部2求出的与关键词出现有关的统计量,关键词评价值算出部12算出提取出的关键词的评价值,并将关键词和其评价值通知给判断部13,并存储在关键词数据库11。
根据由关键词评价值算出部12新算出的评价值与存储在关键词数据库11中的评价值的变化量,判断部13判断该关键词是否登记在辞典数据库102中、或者是否从辞典数据库102中删除。
与是否登记在辞典数据库102无关,关键词数据库11在向辞典数据库102登记或更新上次关键词时,存储由关键词提取部1提取出的全部关键词和其评价值。
其次,说明如上述那样构成的辞典制作装置200的工作。
图8是示出在辞典制作装置200中作为辞典数据库102制作提取辞典时工作流程的流程图,下面根据该流程图,说明提取辞典的制作工作。并且对与实施方式1相同的工作省略说明。
首先,对于由关键词提取部1的关键词提取处理(步骤S301)到由判断部13的评价值判断处理(步骤S304)、以及由辞典登记删除部5的向辞典数据库102的登记处理(步骤S305),与图2示出的制作辞典数据库102的情形(步骤S101~步骤S105)相同。
其次,关键词评价值算出部12,将提取出的关键词与其评价值的组存储在关键词数据库11(步骤S306)。此时,提取出的关键词与其评价值的组,无论该关键词是否登记在辞典数据库102,全部存储在关键词数据库11。
其次,判断部13对是否存在尚未进行评价的关键词进行判断(步骤S307)。该判断的结果,存在尚未进行评价的关键词的情况下(步骤S307中为是),判断部13进行关于下一个关键词的评价值的算出处理(步骤S303)。另一方面,不存在尚未进行评价的关键词的情况下,即对于由关键词提取部1提取出的全部的关键词分别结束处理的情况下(步骤S307中为否),结束一系列的工作。
图9是示出在辞典制作装置200中更新已经制作的辞典数据库102时的工作流程的流程图,下面根据该流程图对更新工作进行说明。并且,对与实施方式1相同的工作省略说明。
首先,从由关键词提取部1的关键词提取处理(步骤S401)到由关键词评价值算出部12的评价值算出处理(步骤S403)与图2示出的制作辞典数据库102的情形(步骤S101~步骤S103)相同。
接着,关键词评价值算出部12对算出了评价值的关键词t检索关键词数据库11,判断是否存储有上次处理时的评价值(步骤S404)。该判断的结果,在关键词数据库11中存储有上次处理时的评价值的情况下(步骤S404中为是),关键词评价值算出部12从关键词数据库11中读出上次处理时的评价值,算出该上次处理时的评价值与这次算出的评价值的微分值(步骤S405)。对于关键词t的评价值idf(t)若比上次增加就成为正值,若减少了就成为负值,并且其绝对值越大,其变化量也越大。
并且,该微分值的算出不限定于这次评价值与上次评价值的差分(晚1次)。例如,可以是这次的评价值与上上次的评价值的差分(晚2次)、还可以是与其之前的评价值的差分(晚n次),只要是起因于关键词评价值的变化的指标即可。
其次,判断部13判断所算出的微分值是否大于等于预定阈值D(步骤S406)。该判断的结果,微分值大于等于预定阈值D的情况下(步骤S406中为是),判断部13检索辞典数据库102,对其关键词t是否未登记在辞典数据库102中进行判断(步骤S407)。在此,该关键词t未登记在辞典数据库102的情况下(步骤S407中为是),判断部13将该关键词t作为登记在辞典数据库102中的关键词,通知给辞典登记删除部5。辞典登记删除部5将该关键词t追加登记在辞典数据库102中(步骤S408)。
另一方面,上述判断的结果,微分值小于预定阈值D的情况下(步骤S406中为否),判断部13对作为评价值算出的微分值是否小于预定阈值D’进行判断(步骤S409)。该判断的结果,微分值小于预定阈值D’的情况下(步骤S409中为是),判断部13检索辞典数据库102,对该关键词t是否已经登记在辞典数据库102中进行判断(步骤S410)。在此,该关键词t还登记在辞典数据库102的情况下(步骤S410中为是),判断部13将该关键词t作为从辞典数据库102中删除的关键词,通知给辞典登记删除部5。辞典登记删除部5从辞典数据库102中删除该关键词t(步骤S411)。
其次,关键词评价值算出部12将提取出的关键词与其评价值(求微分值前的阶段的评价值)的组存储在关键词数据库中(步骤S412)。此时,提取出的关键词与其评价值的组,不管该关键词是否登记在辞典数据库102、或者是否删除,全部存储在关键词数据库11中。
其次,判断部13对是否存在尚未进行评价的关键词进行判断(步骤S413)。该判断的结果,存在尚未进行评价的关键词的情况下(步骤S413中为是),判断部13进行对下一个关键词评价值的算出处理(步骤403)。另一方面,不存在尚未进行评价的关键词的情况下,即,对由关键词提取部1提取出的所有关键词分别结束了处理的情况下(步骤S413中为否),结束一系列的工作。
并且,在上次处理时的评价值是否存储在关键词数据库11的判断(步骤8404)中,上次处理时的评价值没有存储在关键词数据库11中的情况下(步骤S404中为否),与图8示出的制作辞典数据库102的情形相同,进行由判断部13的评价值判断处理(步骤S414)、以及由辞典登记删除部5的向辞典数据库102的登记处理(步骤S415)的工作后,进行采用关键词评价值算出部12的、关键词与其评价值的组向关键词数据库11的存储处理(步骤S412)。
图10是示出关键词评价值的时间变化的例子的图。在图10中,评价值逐渐增加,在点E中评价值的微分值超过阈值D登记在辞典数据库102中。之后,评价值持续增加,但是以点G为分界转向减少的倾向,终于在点F评价值的微分值低于阈值D’。因而在该点F中该关键词从辞典数据库102中删除。
如上所述,根据从文本信息群提取的关键词的评价值,将关键词登记在辞典上,从而可以适当地制作用于文本检索或分类的辞典数据库102。进而,将提取的关键词以及评价值登记在关键词数据库5中,对存储有上次处理时的评价值的关键词,根据上次处理时的评价值与这次算出的评价值的微分值进行辞典数据库102的更新,所以可以对构成文本信息群的关键词出现倾向的变化显著的关键词更新辞典的内容。
并且,在本实施方式中,对作为辞典数据库102的提取辞典的情况进行了说明,也可以用同样的顺序制作、更新无用词辞典。但是在这种情况下,对于关键词的登记、删除的评价值的判断标准与提取辞典情况不同。具体来说,在图8所示的制作辞典数据库102时的工作的评价值的判断处理(步骤S104)中,应作为辞典登记的关键词的评价值比阈值C小,即有必要idf(t)<C。并且,同样在图9所示的更新辞典数据库102时的工作中的关键词登记时的微分值的判断处理(步骤S406)中,判断条件是微分值<D,关键词删除时的微分值的判断处理(步骤S409)中,判断条件是微分值>D’。
并且,在本实施方式中,关键词评价值算出部12算出了上次处理时的评价值与这次算出的评价值的微分值,也可以算出例如上次处理时的评价值与这次算出的评价值的差分值。
并且,在本实施方式中,说明了作为关键词的评价值采用idf值的例子,而只要是显示文本信息群中关键词的重要性、特殊性、以及出现频度等指标可以同样实现。但是,根据采用的评价值的变化倾向(单调增加、单调减少),有必要适当地设定用于向辞典数据库102的登记、更新的判断条件。
或者,组合实施方式1与实施方式2考虑关键词的评价值以及关键词的评价值的变化量两者来决定向辞典的关键词的登记或删除的判断。图11是示出关键词评价值的时间变化的例子的图。在图11中评价值按顺序增加,在点E中评价值的微分值超过阈值D登记在辞典数据库102中。此时,评价值的绝对值未到达阈值C,却因为评价值急剧增加评价值的微分值超过阈值D,所以登记在辞典数据库102。之后,评价值持续增加,却以点G为分界转向减少的倾向,终于在点F评价值的绝对值低于阈值C。因而在该点F从辞典数据库102中删除该关键词。此时,从点G到点F评价值平稳地减少,不会达到图10所示的评价值的微分值的删除阈值D’。但是,虽然是平稳地减少却随着时间评价值的绝对值会充分减少,由于评价值的绝对值低于阈值C而从辞典数据库102中删除。如上所述,由于考虑了关键词评价值的绝对值以及微分值两者,可以更加合理地进行关键词的登记/删除的判断。
并且,例如根据关键词包含在文本信息群中的哪个项目(例如类型、一般文等),在关键词登记/删除的判断中,可以对使用关键词评价值的绝对值、或使用关键词评价值的微分值进行替换。由此可以有效地判断关键词登记/删除。
在以上例子中是关键词评价值的绝对值与微分值的组合,组合方法不受该限制,只要是与关键词重要性相关的指标任一个都可以组合。
(实施方式3)但是,处理的文本信息有时被赋予与内容相应的类别分类(例如,对个别的文本信息赋予类型名称),例如如果是EPG数据,根据节目内容,赋予“电视剧”、“电影”、“体育”等类型名称。
对该类别分类的依存性,以称为“主角”的关键词为例进行说明。在这里假设EPG数据共有5000个,出现“主角”的节目数为50个。另外,假设5000个EPG中,类型为“电影”的有60个,其中关键词包含“主角”的有45个。
在这种情况下,称为“主角”的关键词在EPG整体中并不多,但实际上其大部分出现在“电影”类型的节目。并且,选择称为“主角”的关键词的节目,与选择“电影”类型大致相同。进而,在“电影”类型的EPG数据群中“主角”关键词可以说是几乎没有特征的关键词。
于是,在本实施方式中对处理的文本信息赋予了与内容相应的类别分类的情况下,说明考虑对其类别分类的依存性而制作辞典的情况。
本实施方式的结构与实施方式1相同,所以使用图1来说明,与实施方式1相同的部分省略详细说明。
在本实施方式中,关键词统计部2、关键词评价值算出部3、以及判断部4中的工作与实施方式1不同。
关键词统计部2求出所输入的文本信息群中的文本信息的总数、包含提取出的关键词的文本信息的个数、包含提取出的关键词的文本信息所属的类别的文本信息的总数、以及属于该类别的包含提取出的关键词的文本信息的个数等、与提取出的关键词出现情况的统计量。
由关键词统计部2求出的与关键词的出现有关的统计量,关键词评价值算出部3算出提取出的关键词的评价值。在实施方式1中,关键词评价值算出部3作为关键词评价值算出在所输入的文本信息全体中该关键词在重要性、特殊性、出现频度等观点上如何的指标。idf值就是其一例。与此相对,在本实施方式中,关键词评价值算出部3为了赋予对文本信息群的类别分类(类型)依存性低的评价值,用下面的公式(2)算出评价值。
评价值=[在文本信息群全体中的评价值]/[类别依存度]……(2)
本实施方式中,使用公式(1)所定义的idf值作为该[在文本信息群全体中的评价值]。
并且,作为[类别依存度],从文本信息群中求出按每个类别的idf值,使用它们的最小值的倒数。
每个类别的idf值是用下面的公式(3)算出。
idfj(t)=log(Njnj(t))+1···(3)]]>N=ΣjNj···(4)]]>在此,在某类别j中,属于类别j的文本信息的总数为Nj、包含关键词t的文本信息的数为nj(t)。但是,也有nj(t)为0的情况,这时设idfj(t)为算不出的值。再有,包含在文本信息群中的文本信息总数N与属于类别j的文本信息总数Nj的关系如式(4)。
根据如此求出的各类别j的关键词t的idf值idfj(t),用下面的公式(5)算出类别依存度f(t)。
f(t)=1min(idfj(t))···(5)]]>根据由如上所述的关键词评价值算出部3算出的评价值,判断部4判断将该关键词是否在辞典数据库102中登记、或者是否从辞典数据库102删除。
如上所述,算出了对预先被赋予的类别分类依存性低的评价值,所以可以对于应登记在辞典数据库102中的关键词减少对文本信息的类别分类的依存性的影响。
另外,在本实施方式中作为类别依存度对使用公式(4)所定义的f(t)的例子进行了说明,但是不受此限。例如,根据公式(3)求各类别的idf值并求出它们的分散等也是一例。
(实施方式4)图12是示出本发明实施方式4涉及的辞典制作装置的结构的框图。另外,对于与实施方式1相同的部分附上相同的记号,省略详细说明。
辞典制作装置400的辞典更新部401除了实施方式1的辞典更新部101的结构以外还有第2关键词提取部21。在辞典更新部401中输入有2种文本信息群(第1文本信息、第2文本信息),在关键词提取部1中输入有第1文本信息,在第2关键词提取部21中输入有第2文本信息。
第2关键词提取部21从与关键词提取部1同样输入的文本信息提取关键词。关键词统计部22作为与关键词的出现有关的统计量,分别求出对第1文本信息以及第2文本信息的、所输入的文本信息群中文本信息总数和包含提取出的关键词的文本信息的个数。
接着,以下说明将如上述那样构成的辞典制作装置400组装到EPG节目检索系统中的例子。
图13是示出设有本发明实施方式4涉及的辞典制作装置的EPG节目检索系统的结构的框图。与实施方式1相同的部分附上记号,省略详细说明。
上述EPG节目检索系统除了实施方式1的EPG节目检索系统的结以外还具有CDDB接收部110。该CDDB接收部110经由因特网接收有关发售中的CD的信息即CDDB信息。
在该EPG节目检索系统中,在辞典更新部101中输入EPG数据和有关发售中的CD信息的CDDB信息。即,构成辞典数据库102的关键词存在EPG数据中出现的关键词和CDDB信息中出现的关键词。
CDDB信息是与CD或音乐有关的信息,具体来说是最快地公布最新的唱片或艺术家名字等的信息,通过使用该信息构筑辞典数据库102,从而可迅速反映有关音乐信息的最新动向。
另一方面,辞典数据库102是为了从EPG数据中对节目进行检索、分类等而使用,因为也利用CDDB信息来登记关键词,即使尚在EPG上不太出现的关于最新音乐的节目也可以适当地赋予文档矢量,可以实现擅长音乐节目的EPG检索。
如上述,通过从不同类型信息源构筑辞典数据库102,从而可以补充仅用单一信息源有些不足的关键词,也可以迅速地反应最新动向。
(实施方式5)然而,在EPG节目检索系统等中用于对节目信息进行分类的分类辞典中,例如图17所示地如果是“电影”分类,则记载有“电影”、“外国影片”、“国产影片”等各分类(类别)和包含在该分类中的特征关键词。通常,利用这样被预先设定的分类辞典的分类信息,变更节目表的表示形式、或者对节目表的内容进行分类。
另一方面,在外部信息服务器中,近年来在因特网的目录服务、或邮件杂志的信息、电子报纸的信息等中,出现了分类存储各信息的服务,以使用户容易搜寻到自己需要的信息。在此,例如图18A所示地用“娱乐”、“体育”、“生活”等的分类对主页地址进行分类,并且,在“娱乐”中进一步详细地进行分为“电影”、“音乐”、“演艺人”等。在最低层的例如“电影”分类中,存储有有关“电影”的信息(主页)的地址。利用因特网的用户通过搜寻这些分类信息,可以取得需要的信息的地址(URL)。并且,在电子报纸等中,例如图18B所示那样电子新闻报道分为“经济”、“政治”、“科学”等,对用户来说容易搜寻需要的信息。
因此,本实施方式中,说明进一步用图18所示那样的其他媒体中所使用的分类信息对如图17所示的分类辞典的分类信息进行更新的情况。
图14是示出本发明实施方式5涉及的EPG节目检索系统结构的框图。
该EPG节目检索系统1100具有分类信息取得部1101、分类关键词提取部1102、分类辞典更新部1103、利用频度合计部1104、判断部1105、分类辞典数据库1106、EPG接收部1107、分类部1108、及节目选择部1109。
分类信息取得部1101,从由用户指定的已经被分类的文本信息的地址(URL)取得因特网的目录服务或电子报纸等的文本信息。分类关键词提取部1102,从由分类信息取得部1101取得的文本信息提取用于分类的关键词。分类辞典更新部1103利用由分类关键词提取部1102取得的关键词,更新存储在分类辞典数据库1106的关键词。利用频度合计部1104对登记在分类辞典数据库1106中的时事关键词求出利用频度。在时事关键词登记在分类辞典数据库1106后经过预定期间之后,判断部1105根据计测出的利用频度来判断是否从分类辞典数据库1106中删除时事关键词。
分类辞典数据库1106是存储有包含在各分类的特征关键词的数据库,例如图22所示按每个“分类”登记有预先所设定的关键词即“固定特征关键词”、以及根据预定的条件进行登记或删除的“时事特征关键词”。EPG接收部1107从广播波或者从因特网等取得节目信息。分类部1108用登记在分类辞典数据库1106的关键词,对由EPG接收部1107取得的节目信息进行分类。节目选择部1109提出由分类部1108分类的节目信息,并且从所提示的节目信息受理、选择用户选择的节目。
图15是示出将上述EPG节目检索系统设置在电视上的情况的系统结构的例子的硬件结构图。
该系统具有外部信息服务器1201;经由该外部信息服务器1201与因特网等的网络1204以及路由器1202连接的电视1203。外部信息服务器1201连接在网络1204上,存储关于各分类的报道以及主页地址。路由器1202将家庭内的机器连接到外部网络1204。电视1203设有上述EPG节目检索系统,通过接收从广播局1205输出的广播波能够取得节目信息,进而通过路由器1202可以对外部因特网内容进行存取。
接着,说明如上述构成的EPG节目检索系统的工作。图16是示出在EPG节目检索系统中更新分类辞典数据库1106时工作流程的流程图,下面根据该流程图,说明分类辞典数据库1106的更新工作。
例如从示出对如图19A所示的节目表进行分类的项目的画面上,由用户选择分类的项目,例如关于“电影”的分类,图19B所示地设定因特网上的URL时,分类信息取得部1101从被设定的URL取得例如图20A所示的有关“电影”的文本信息(步骤S1301)。因为因特网登载即时性高的内容,在“电影”等的情况下,一般公开之前的信息也多有登载。并且,对于例如图20B所示的有关“音乐”的文本信息,也可以根据用户的设定来取得。另外,用电视1203输入URL有困难的情况下,可预先设定URL的侯补,用户也可以利用选择其URL的侯补的界面。并且,该URL的设定可以在电视1203出货之前进行。
分类关键词提取部1102,对由分类信息取得部1101取得的文本信息,通过进行采用形态素分析或文字种类的关键词提取,从而选择有代表性的关键词(步骤S1302)。在这里,例如预定期间的出现数(出现频度)超过预定阈值(例如20回)的情况下把关键词作为选择物。另外,在这里关键词的选择方法,不只限于这些,也可以利用记载在实施方式1等的统计信息。
图21是示出关于“电影”、“音乐”提取出特征关键词的结果的一个例子的图。在这里提取出的关键词的特征是固有名词多。这些关键词在多数情况下不包含在预先登记在分类辞典数据库1106的图17所示的固定关键词中。于是,分类辞典更新部1103将没有包含在固定关键词的关键词作为时事特征关键词,如图22所示地登记在分类辞典数据库1106(步骤S1303)。
EPG接收部1107从广播波或者因特网等取得例如图24所示的有关节目的EPG信息(步骤S1304)。
节目选择部1109核对登记在分类辞典数据库1106的关键词是否包含在作为EPG信息取得的文本信息中,从而求出取得EPG信息的节目相当于哪个分类(步骤S1305)。例如,图24示出的节目的例子的情况下,“白客帝国”、“加努”等词语和分类辞典数据库1106的“电影”分类的时事特征关键词相一致。因此,节目选择部1109判断“淳司(ぁっし)的趋向信息”节目是关于电影的节目。此时,在图17所示的固定特征关键词中虽不能判断为“电影”信息,却由于存在图22所示的时事特征关键词,可以判断为有关“电影”的节目。
在作为EPG信息取得的文本信息中未包含分类辞典数据库1106的时事特征关键词的情况下,利用频度合计部1104使时事特征关键词的利用频度的计数增加(步骤S1306)。上述例子中,利用频度合计部1104对“白客帝国”和“加努”关键词的利用频度增加1。
判断部1105对从取得成为时事特征关键词基础的文本信息、即从时事关键词登记在分类辞典数据库1106开始是否经过了规定期间(例如2个月)进行判断(步骤1307)。在这里,没有经过预定期间的情况下(步骤S 1307中为否),再取得EPG信息,进行由利用频度合计部1104的时事特征关键词的利用频度的合计(步骤S1304~S1306)。即,时事特征关键词到经过预定期间为止保存在分类辞典数据库1106中。另外,在这里判断是否经过了预定期间,也可以判断例如EPG节目数据的取得数是否达到预定数,或者判断被登记的时事特征关键词的个数是否达到预定数。
另一方面,经过了预定期间的情况下(步骤S1307中为否),判断部1105判断为从分类辞典数据库1106删除被合计的利用频度低于预先设定的删除下限阈值的时事特征关键词。分类辞典更新部1103将判断为删除的时事特征关键词从分类辞典数据库1106删除(步骤S1308)。
图25是示出时事特征关键词在各期间利用频度的一个例子的图。图25中,“白客帝国”的关键词,从所设定的URL文本信息取得并设定为时事特征关键词之后,因频繁地出现在EPG信息中,关键词的出现频度次数增多。另一方面,同时提取出的“机器人军队”的关键词,因作为EPG信息所利用的情况较少,关键词的出现频度减数变少。在这个例子中,关于“白客帝国”的关键词,因为超过作为删除下限阈值预先设定的5的值,今后仍然作为“电影”分类的时事特征关键词登记。另一方面,关于“机器人军队”的关键词,因为低于作为删除下限阈值预先设定的5的值,从“电影”分类的时事特征关键词中删除。
通过以上的处理,对节目进行分类时,利用固定特征关键词的同时,从因特网或电子报纸等媒体取得时事固有名词等的特征关键词,作为时事特征关键词登记在分类辞典数据库1106,从而可以制作对应于时代变化的分类辞典数据库1106。进而,通过使用如此制作的分类辞典数据库1106,可以实现精度高的节目分类。并且,利用该分类辞典数据库1106,例如图23所示地用户仅选择分类,就可以根据EPG信息对用户希望的节目进行设定录像。
另外,在本实施方式中,预先在分类辞典数据库1106中登记了如图17所示的用于进行分类的固定特征关键词,这些关键词也可以从因特网或电子报纸等EPG以外的媒体自动构筑。
(实施方式6)然而,因特网上的目录服务或电子报纸的分类等、电子文本信息的分类大多被用户利用。有时用户利用自己喜欢的分类模式对发送来的信息及必须自己管理的信息进行分类。
这些分类信息依照每个服务公司各有不同,即使在进行相同因特网的分类服务的服务公司中也不同。并且,与报纸或邮件杂志等的服务公司也不同。此外,在电视节目的电子节目的发送中,节目根据广播局赋予的电影、电视剧等的分类信息分类。但是,由广播局分类的节目多数情况下不是用户平常利用的分类。同样,关于节目信息有时使用由广播局等赋予节目的标签信息来分类节目。但是,也有不同于用户平常利用的分类不同的情况。
例如,有关“股票价格”的新闻被播放时,节目信息的分类中归于“新闻”,但是利用因特网的分类信息时,有时被分类到“经济”的类别。对于平常利用因特网分类信息的用户来说,即使是例如有关“股票价格”的新闻节目信息,存储其动画时想要归属到“经济”的分类。
于是,在本实施方式中,说明利用用户平常利用的分类信息来分类EPG节目信息的情况。
图26是示出本发明的实施方式6涉及的EPG节目检索系统的结构的框图。另外,本实施方式的硬件结构与实施方式5的图15示出的硬件结构相同,因此省略说明。
该EPG节目检索系统1200具有第1信息源的分类信息取得部1201、第2信息源的分类信息取得部1202、分类关键词提取部1203、分类辞典更新部1204、第1信息源的分类辞典数据库1205、第2信息源的分类辞典数据库1206、分类辞典选择部1207、EPG接收部1208、分类部1209、及节目选择部1210。
第1信息源的分类信息取得部1201从由用户指定的第1信息源取得分类信息,从根据该分类信息被分类的文本信息的地址(URL)取得文本信息。第2信息源的分类信息取得部1202从由用户指定的与第1信息源不同的第2信息源取得分类信息,从根据该分类信息分类的文本信息的地址(URL)取得文本信息。分类关键词提取部1203从第1信息源的分类信息取得部1201以及第2信息源的分类信息取得部1202取得的文本信息分别提取用于分类的关键词。
分类辞典更新部1204,将从第1信息源以及第2信息源取得的分类信息,分别登记在第1信息源的分类辞典数据库1205以及第2信息源的分类辞典数据库1206。并且,分类辞典更新部1204使由分类关键词提取部1203取得的关键词对应于从第1信息源以及第2信息源取得的分类信息,在第1信息源的分类辞典数据库1205以及第2信息源的分类辞典数据库1206登记。
第1信息源的分类辞典数据库1205是例如图28A所示地按基于从第1信息源取得的分类信息的“分类”(包含进一步分开的辅助分类)存储了从文本信息提取出的关键词的数据库。第2信息源的分类辞典数据库1206是例如图28B所示地按基于从第2信息源取得的分类信息的“分类”存储了从文本信息提取出的关键词的数据库。另外,在图28中,对于包含在分类(辅助分类)的关键词,省略记载。
分类辞典选择部1207受理用户的指示,选择第1信息源的分类辞典数据库1205以及第2信息源的分类辞典数据库1206中的任一个选择为用于对节目信息进行分类的分类辞典数据库。
EPG接收部1208从广播波或者因特网等取得节目信息。分类部1209使用由分类辞典选择部1207选择出的分类辞典数据库,对由EPG接收部1208取得的节目信息进行分类。节目选择部1210提示由分类部1209分类的节目信息,并且从所提示的节目信息受理、选择用户选择的节目。
接着,说明如上那样构成的EPG节目检索系统的工作。在本实施方式中,取得已被分类的文本信息,从该文本信息提取用于分类的关键词构筑分类辞典数据库为止的工作,与实施方式5大致相同,因此省略说明。
在本实施方式中,分类辞典选择部1207例如图27所示地由用户受理利用与第1信息源的分类信息对应的第1信息源的分类辞典数据库1205、以及与第2信息源的分类信息对应的第2信息源的分类辞典数据库1206中的任一个分类辞典数据库进行分类的指示。然后,分类辞典选择部1207,根据受理的指示选择用于分类的分类辞典数据库。
如上所述,制作与多个信息源的分类信息对应的多个分类辞典数据库,可以使用日常利用的分类信息等对用户来说容易理解的分类信对由EPG等提供的节目信息进行分类,可以用统一的分类来管理节目或信息。
在本实施方式中,如图27A所示地由用户选择了分类辞典数据库(信息源的站点),但是不限于此,也可以是分类辞典选择部1207选择分类辞典数据库。例如,分类辞典选择部1207可以选择已进行接近EPG分类信息的分类的站点为信息源的分类辞典数据库,也可以选择分类数最多的站点为信息源的分类辞典数据库。
另外,在本实施方式中,对利用了EPG文本信息的节目分类进行了叙述,通过用户指定分类可以利用于实现自动录像功能。由此,以往仅能用从广播局提供的分类信息来设定节目的自动录像,但是现在可以利用平常使用的站点的分类信息自动对节目进行录像。
另外,在本实施方式中,说明了取得分类信息的信息源是2个的情况,但是不仅限于此。例如,信息源是3个的情况下,可以设置第3信息源的分类信息取得部,第3信息源的分类辞典数据库。在该情况下,在该第3信息源的分类辞典数据库中登记有例如图28C所示的信息,根据图27B所示的画面由用户选择分类辞典数据库(信息源的站点)。另外,信息源是4个以上的情况也相同。
(实施方式7)关于信息的分类,有使用专门分类的站点也有使用一般分类的站点等,多数情况下随各站点以各自的特色构筑分类。用户在其中根据自己的用途,参照适当的分类,对应该管理的信息进行分类。
于是,在本实施方式中,说明对与在因特网等中利用的分类有关的信息进行统合的情况。
图29是示出本发明的实施方式7涉及的EPG节目检索系统结构的框图。与实施方式6相同的部分附上相同的符号,省略详细说明。并且,本实施方式的硬件结构,与实施方式5的图15示出的硬件结构相同,因此省略说明。
本实施方式的EPG节目检索系统1300除实施方式6的结构之外具有第3信息源的分类信息取得部1301、第3信息源的分类辞典数据库1302、以及融和分类辞典数据库1304,并且具有分类辞典融和编辑部1303来取代实施方式6的分类辞典选择部1207。
分类辞典融和编辑部1303根据以下分类信息,形成重新编辑与融和的融和分类辞典数据库1304,这些分类信息包括存储在第1信息源的分类辞典数据库1205的分类信息;存储在第2信息源的分类辞典数据库1206的分类信息;以及存储在第3信息源的分类辞典数据库1302的分类信息。
接着,对如上述所述地构成的EPG节目检索系统的工作进行说明。另外,构筑各分类辞典数据库的过程与实施方式5、6相同,所以省略说明。
在这里,设定以下情况在第1信息源的分类辞典数据库1205中构筑有例如图30A所示的目录A的分类;在第2信息源的分类辞典数据库1206中构筑有例如图30B所示的目录B的分类;以及在第3的信息源的分类辞典数据库1302中构筑有例如图30C所示的目录C的分类。如图30所示,关于目录A、C使用一般的分类信息,关于目录B是有关体育的详细分类信息。
因为各分类信息用特征关键词来表现,分类辞典融和编辑部1303用特征关键词的集合来评价各分类之间级别的上下关系、相同值(相同意义)的关系。具体来说,例如设有分类P、Q,对各分类的特征关键词的集合设为P、Q。此时,P∩Q表示分类P与分类Q的特征关键词的交集,P∪Q表示分类P与分类Q的并集。进而,|P|是集合P的元素的个数,|P∩Q|表现集合(P∩Q)的元素的个数。
在这里,下面的公式(6)以及(7)成立时,如图31A所示分类Q的大部分的特征关键词包含在分类P中。于是,将分类Q放在分类P级别的下面。例如,“棒球”分类的特征关键词包含在“体育”分类的特征关键词的情况下,“棒球”分类放在“体育”分类的下级。

0.9≤|P∩Q||Q|···(6)|P∩Q||P|≤0.5···(7)0.9≤|P∩Q||P|···(8)]]>另一方面,公式(6)以及公式(8)成立的时候,多数情况下如图31B所示分类P的特征关键词和分类Q的特征关键词大部分相同。这种情况下,作为表现相同意义的分类处理。例如,图30示出的目录A的“经济”和目录C的“商务”的特征关键词几乎相同的情况下,这些分类表示相同的内容。
分类辞典融和编辑部1303对图30所示的各分类辞典数据库,进行上述评价、构筑级别构造的同时,提取表现相同内容的分类,构筑新的分类级别。其结果,如图32所示总结3个分类辞典数据库的分类信息,能够构筑1个分类级别。
如上所述,各分类之间的关系用包含在各分类的特征关键词的集合来进行评价,所以能够构筑集中各分类辞典数据库的分类信息的新的分类级别的分类辞典数据库,可以用新的观点分类EPG节目表。
另外,在本实施方式中,说明了进行融和的分类辞典数据库为3个的情况,但是不仅限于这些。例如,分类辞典数据库为2个,或是4个或超过4个也都无妨。
(实施方式8)
如上所述,有关分类的信息时时刻刻都在变化。例如成为话题的电影信息,随着年代或月都有所不同,为了提取有关“电影”的信息,有必要保存按每个时代利用于分类的特征关键词。并且,例如职业棒球的信息,“星野教练”的特征关键词在2000年以后是有关“阪神”的信息,与此相比,在90年代为有关“中日”的信息,如此根据时代不同特征关键词也不同。
于是,本实施方式中说明登记特征关键词时也登记其时间信息的情况。
图33是示出本发明实施方式8涉及的EPG节目检索系统的结构的框图。与实施方式5相同的部分附上相同符号,省略详细说明。并且,本实施方式的硬件结构与实施方式5的图15示出的硬件结构相同,所以省略说明。
EPG节目检索系统1400除实施方式5的结构之外还包括EPG存储部1403。在分类辞典更新部1401的工作以及分类辞典数据库1402的结构与实施方式5不同。
分类辞典数据库1402是存储有包含在各分类的特征关键词的数据库,例如图34所示地按每个“分类”登记有以下内容预先所设定的关键词即“固定特征关键词”;根据预定的条件进行关键词的登记和删除的“时事特征关键词”;该时事特征关键词利用于因特网或电子报纸等的时期(期间)信息“期间”。
分类辞典更新部1401,使用由分类关键词提取部1102取得的关键词在分类辞典数据库1106登记时事特征关键词的时候,对应于时期(期间)的信息登记时事特征关键词。
EPG存储部1403存储从EPG接收部1107中取得的过去的EPG信息。
其次,对如上述构成的EPG节目检索系统的工作进行说明。另外,本实施方式与实施方式5的处理相同,所以对相同的部分省略说明。
例如使用图34所示的分类辞典数据库1402,在2003年11月,有关“白客帝国”电影的信息大量流通,所以在其期间所广播的节目中包含“白客帝国”的关键词时,分类部1108判断为是有关“电影”的信息。另一方面,2003年10月的时候,不是“白客帝国”关键词,而是包含“终结人”关键词就判断为有关“电影”的信息。
并且,当检索或分类存储在EPG存储部1403的过去所接收的EPG节目信息的情况下,分类部1108从登记在分类辞典数据库1402的时事特征关键词中,使用与节目信息接收时期对应的时事特征关键词进行检索或分类。
如上述,使时事特征关键词对应于时期(期间)信息登记在分类辞典数据库1402,因此例如通过利用节目播放的时期与该时期使用的关键词,可以比以往的节目分类高精度地进行分类,可以实现基于时刻(时代)的分类。
另外,在本实施方式中,存储由EPG接收部1105取得的过去的EPG信息,从而使时事特征关键词对应于时期(期间)的信息登记在分类辞典数据库1402。进而,也可以利用电子报纸的分发日期时间,将时事关键词和日期时间信息进行对应。并且,在利用因特网的文本信息的情况下,利用因特网的各内容文件的更新时期的信息,或利用记述在HTML内的日期时间的信息,可将时事关键词和日期时间信息进行对应。特别是,不同于广播内容或电子报纸的信息,因特网内容中存在不进行更新保留的网页,适合取得过去流行的时事关键词。
另外,因特网的文本信息,有时主页被删除,有时同一个URL的内容被更新。因此,当提取出某个关键词的主页过去公开而现在已被删除的情况下,可以将该时事关键词从分类辞典数据库删除。并且,其被删除的主页的数比预定阈值多的情况下,可以将时事关键词从分类辞典数据库删除。
此外,在本实施方式中说明了图34所示地通过登记时刻信息的同时登记时事关键词,可以按照例如“2003年11月流行的电影”的检索提问检索电影信息。这样,可以按每个年代对电影信息进行分类。也可以利用电影的首映信息按每个年代分类,然而本实施方式中,可以只过滤出一般流行的电影信息。另外,在检索时,分为固定特征关键词与时事特征关键词存储,所以对时事特征关键词加权进行检索,由此可以检索出更加反应时代的内容。
另外,本实施方式中说明了将时事关键词与期间信息一起提取的作法。进而,通过利用提取出的关键词辞典,在用户选择了某个电影信息的时候,根据时事关键词可以推定该电影流行的时代,还可以检索同时代流行的电影。
图35是示出该情况下的检索系统的结构的图。该检索系统如图35所示,包括内容文本信息输入部3201、分类辞典数据库3202、时代信息判断部3203、相关内容检索部3205、以及相关信息提示部3206的例如数字电视等的家庭内信息终端3200,经由因特网等的网络3400连接在内容文本信息存储部3300。
具体来说,若某个电影的说明信息输入到内容文本信息输入部3201,则时代信息判断部3203与存储在分类辞典数据库3202的例如图34所示的时事特征关键词进行比较,计算哪个时期的关键词包含得最多。其结果,例如选择了2003年11月,相关内容信息检索部3205利用该时期的时事关键词,还检索因特网等外部网络上的存储在内容文本信息存储部3400的其他电影信息。然后,在相关信息提示部3206将检索的结果提示给用户。根据这些,使用附加了时刻信息的分类辞典数据库可以检索同时代流行的电影。同样,对与音乐信息或一般的新闻有关的信息也可进行上述检索。
另外,在实施方式7中,说明了融和分类辞典的方法。并且,如本实施方式所述,利用时事关键词的时刻信息,通过融和预定期间的时事关键词,进而可以广泛地提取预定时期流行的时事关键词。根据这些,有时分类级别的构造也根据期间变更。这样,不仅是分类辞典的时事关键词的内容,分类的级别结构也可以根据时期变更。并且,在实施方式7中使用登记的关键词集合之间的元素的个数来进行融和编辑,也可以使用登记关键词在预定期间内被利用的频度信息进行融和编辑。由此,不仅可以根据预先分类的文本信息进行分类,还可以构筑反映了时事关键词的融和辞典。
另外,本实施方式中,利用赋予节目的EPG文本信息,以节目单位进行分类或过滤。并且,对节目赋予诠释资料,即使以节目内的各板块或图像帧单位赋予文本信息的情况下,也可以适用本分类方法。
另外,本实施方式中,对固定特征关键词与时事特征关键词进行分类存储,也可以只用时事特征关键词定义分类。
产业上利用的可能性根据上述,本发明涉及的辞典制作装置,有利于根据构成文本信息群的关键词出现倾向,恰当地制作以及更新用于文本信息的检索、分类、以及过滤等的辞典。而且,可以适用于例如EPG节目检索系统、因特网检索系统等。
权利要求
1.一种辞典制作装置,其特征在于,制作用于对以文本记述的信息进行检索、分类、或过滤的辞典,具有关键词提取单元,从文本信息提取关键词;以及辞典登记删除单元,将从上述文本信息提取出的关键词在上述辞典中登记或删除。
2.如权利要求1所述的辞典制作装置,其特征在于,上述辞典制作装置,还具有关键词统计单元,求出与由1个以上的文本信息构成的文本信息群中的上述关键词的出现有关的统计量;关键词评价值算出单元,根据上述统计量算出上述关键词的评价值;以及判断单元,根据上述算出的评价值判断将上述关键词是否在上述辞典中登记、或者是否从上述辞典中删除;上述关键词提取单元从上述文本信息群提取关键词;上述辞典登记删除单元根据上述判断的结果,在上述辞典中登记或者删除上述关键词。
3.如权利要求2所述的辞典制作装置,其特征在于,上述辞典制作装置还具有用于将上述关键词及该关键词的上述评价值作为组存储的关键词存储单元;上述关键词评价值算出单元使上述关键词与算出的评价值相对应而存储在上述关键词存储单元中;上述判断单元根据由上述关键词评价值算出单元新算出的评价值和存储在上述关键词存储单元的评价值的变化量,判断将上述关键词是否在上述辞典中登记、或者是否从上述辞典中删除。
4.如权利要求2所述的辞典制作装置,其特征在于,上述辞典制作装置还具有关键词存储单元,用于将上述关键词及该关键词的上述评价值作为组进行存储;上述关键词评价值算出单元使上述关键词与算出的评价值对应而存储在上述关键词存储单元中;上述判断单元,根据由上述关键词评价值算出单元新算出的评价值、以及由上述关键词评价值算出单元新算出的评价值和存储在上述关键词存储单元的评价值的变化量,判断将上述关键词是否在上述辞典中登记、或者是否从上述辞典中删除。
5.如权利要求2所述的辞典制作装置,其特征在于,上述辞典制作装置还具有从由1个以上的文本信息构成的第2文本信息群提取关键词的第2关键词提取单元;上述关键词统计单元还求出与上述第2文本信息群中的上述提取出的关键词的出现有关的统计量;上述关键词评价值算出单元根据上述各统计量,算出通过上述关键词提取单元及上述第2关键词提取单元提取出的关键词的评价值。
6.如权利要求2所述的辞典制作装置,其特征在于,由上述关键词评价值算出单元算出的评价值是基于上述文本信息群中的文本信息的总数及包含上述关键词的文本信息的个数的关键词的idf值、即逆文档频度值;在上述关键词未登记在上述辞典中、且上述算出的idf值大于等于预定阈值的情况下,上述判断单元判断为在上述辞典中登记上述关键词。
7.如权利要求6所述的辞典制作装置,其特征在于,在上述关键词登记在上述辞典中、且上述算出的idf值小于预定阈值的情况下,上述判断单元判断为从上述辞典中删除上述关键词。
8.如权利要求2所述的辞典制作装置,其特征在于,由上述关键词评价值算出单元算出的评价值是基于上述文本信息群中的文本信息的总数及包含上述关键词的文本信息的个数的关键词的idf值、即逆文档频度值;上述辞典是无用词辞典;在上述关键词未登记在上述无用词辞典中、且上述算出的idf值小于预定阈值的情况下,上述判断单元判断为在上述无用词辞典中登记上述关键词。
9.如权利要求8所述的辞典制作装置,其特征在于,在上述关键词登记在上述无用词辞典中、且上述算出的idf值大于等于预定阈值的情况下,上述判断单元判断为从上述无用词辞典中删除上述关键词。
10.如权利要求2所述的辞典制作装置,其特征在于,由上述关键词评价值算出单元算出的评价值是上述文本信息群中上述关键词的出现频度;在上述关键词未登记在上述辞典中、且上述算出的出现频度小于预定阈值的情况下,上述判断单元判断为在上述辞典中登记上述关键词。
11.如权利要求10所述的辞典制作装置,其特征在于,在上述关键词登记在上述辞典中、且上述算出的出现频度大于等于预定阈值的情况下,上述判断单元判断为从上述辞典中删除上述关键词。
12.如权利要求2所述的辞典制作装置,其特征在于,由上述关键词评价值算出单元算出的评价值是上述文本信息群中上述关键词的出现频度;上述辞典是无用词辞典;在上述关键词未登记在上述无用词辞典中、且上述算出的出现频度大于等于预定阈值的情况下,上述判断单元判断为在上述无用词辞典中登记上述关键词。
13.如权利要求12所述的辞典制作装置,其特征在于,在上述关键词登记在上述无用词辞典中、且上述算出的出现频度小于预定阈值的情况下,上述判断单元判断为从上述无用词辞典中删除上述关键词。
14.如权利要求2所述的辞典制作装置,其特征在于,上述文本信息群由预先被赋予了所属的类别信息的、1个以上的文本信息构成;上述关键词统计单元求出与上述文本信息群中的上述类别有关的统计量;上述关键词评价值算出单元,关于上述提取出的关键词,根据与上述关键词的出现有关的统计量及与上述类别有关的统计量来算出评价值。
15.如权利要求14所述的辞典制作装置,其特征在于,上述关键词评价值算出单元,根据上述文本信息群中的文本信息的总数、上述文本信息群中的包含上述关键词的文本信息的个数、上述文本信息群中的包含在上述类别中的文本信息的个数、以及上述类别中的包含上述关键词的文本信息的个数,算出上述评价值;在上述关键词未登记在上述辞典中、且上述评价值大于等于预定阈值的情况下,上述判断单元判断为在上述辞典中登记上述关键词。
16.如权利要求15所述的辞典制作装置,其特征在于,在上述关键词登记在上述辞典中、且上述评价值小于预定阈值的情况下,上述判断单元判断为从上述辞典中删除上述关键词。
17.如权利要求2所述的辞典制作装置,其特征在于,上述文本信息是EPG数据即电子节目安排指南数据;上述辞典按广播波种类分别被制作;上述关键词提取单元从上述广播波的每个种类的上述文本信息群提取关键词;上述辞典登记删除单元按上述广播波的每个种类在各上述辞典中登记或删除上述关键词。
18.如权利要求2所述的辞典制作装置,其特征在于,上述文本信息是EPG数据即电子节目安排指南数据;上述辞典按广播的时间段分别被制作;上述关键词提取单元从上述广播的每个时间段的上述文本信息群提取关键词;上述辞典登记删除单元,按上述广播的每个时间段在各上述辞典中登记或删除上述关键词。
19.如权利要求1所述的辞典制作装置,其特征在于,在上述辞典中按每个类别登记了关键词;上述辞典登记删除单元将从对应于上述类别的文本信息提取出的关键词作为该类别的时事特征关键词在上述辞典中登记。
20.如权利要求19所述的辞典制作装置,其特征在于,在上述辞典中按上述每个类别预先登记有固定特征关键词;上述辞典登记删除单元,将从对应于上述类别的文本信息提取出的关键词中、没有登记为该类别的固定特征关键词的关键词作为该类别的上述时事特征关键词在上述辞典中登记。
21.如权利要求19所述的辞典制作装置,其特征在于,上述辞典登记删除单元将上述时事特征关键词以及相对应的时间信息一同在上述辞典中登记。
22.如权利要求21所述的辞典制作装置,其特征在于,上述文本信息是经由因特网取得的信息;上述辞典登记删除单元将作为上述时间信息与上述文本信息一同取得的时间信息在上述辞典中登记。
23.如权利要求19所述的辞典制作装置,其特征在于,上述文本信息是经由因特网取得的信息;上述辞典登记删除单元根据上述文本信息的取得源的更新信息登记或者删除上述时事特征关键词。
24.如权利要求19所述的辞典制作装置,其特征在于,上述辞典制作装置还具有利用频度合计单元,对于登记在上述辞典中的上述时事特征关键词求出利用频度;判断单元,根据上述求出的利用频度判断是否从上述辞典中删除上述时事特征关键词;上述辞典登记删除单元根据上述判断的结果从上述辞典中删除上述时事特征关键词。
25.如权利要求24所述的辞典制作装置,其特征在于,上述时事特征关键词登记在上述辞典中开始经过了预定期间之后,上述判断单元根据上述利用频度判断是否从上述辞典中删除上述时事特征关键词。
26.如权利要求1所述的辞典制作装置,其特征在于,在上述辞典中按每个类别登记了关键词;上述辞典制作装置还具有至少从2个信息源取得与上述类别有关的分类信息及文本信息的分类信息取得单元;上述辞典登记删除单元根据由上述分类信息取得单元取得的分类信息、及由上述关键词提取单元提取出的关键词,制作与各上述信息源对应的辞典。
27.如权利要求26所述的辞典制作装置,其特征在于,上述辞典制作装置还具有对上述分别制作的对应于各信息源的辞典进行编辑融和的辞典融和编辑单元。
28.如权利要求27所述的辞典制作装置,其特征在于,根据对应于上述各信息源的辞典所具有的与分类信息的各类别对应的关键词,上述辞典融和编辑单元决定对应于上述各信息源的辞典的各类别的对应关系。
29.如权利要求26所述的辞典制作装置,其特征在于,上述分类信息取得单元经由作为上述信息源之一的因特网,取得与上述类别有关的分类信息及文本信息。
30.一种EPG节目检索装置,其特征在于,检索EPG数据即电子节目安排指南数据,具有如权利要求1至权利要求23中的任一项所述的辞典制作装置;辞典存储单元,存储由上述辞典制作装置制作的辞典;以及检索单元,用上述辞典检索上述EPG数据并输出检索结果。
31.一种EPG节目检索系统,其特征在于,检索EPG数据即电子节目安排指南数据,具有如权利要求1至权利要求23中的任一项所述的辞典制作装置;辞典存储单元,存储由上述辞典制作装置制作的辞典;文档矢量制作单元,用上述辞典根据上述EPG数据制作由关键词和权重的组构成的文档矢量;检索条件取得单元,取得检索条件;文档评定值算出单元,根据上述检索条件及上述文档矢量算出上述EPG数据的评定值;以及检索结果输出单元,输出根据上述算出的评定值、或者上述评价值选择的EPG数据。
32.一种EPG节目检索系统,其特征在于,检索EPG数据即电子节目安排指南数据,具有如权利要求26所述的辞典制作装置;辞典存储单元,存储由上述辞典制作装置制作出的对应于上述信息源的辞典;分类辞典选择单元,从对应于上述信息源的辞典中选择使用的辞典;以及分类单元,利用上述选择出的辞典进行上述EPG数据的分类。
33.一种辞典制作方法,其特征在于,制作用于对以文本记述的信息进行检索、分类、或者过滤的辞典,上述辞典制作方法包括关键词提取步骤,从文本信息提取关键词;以及辞典登记删除步骤,将从上述文本信息提取出的关键词在上述辞典中登记或者删除。
34.如权利要求33所述的辞典制作方法,其特征在于,上述辞典制作方法,还包括关键词统计步骤,求出与由1个以上的文本信息构成的文本信息群中的上述关键词的出现有关的统计量;关键词评价值算出步骤,根据上述统计量算出上述关键词的评价值;以及判断步骤,根据上述算出的评价值判断将上述关键词是否在上述辞典中登记、或者是否从上述辞典中删除;在上述关键词提取步骤中,从上述文本信息群提取关键词;在上述辞典登记删除步骤中,根据上述判断的结果在上述辞典中登记或者删除上述关键词。
35.如权利要求33所述的辞典制作方法,其特征在于,上述辞典按每个类别登记了关键词;在上述辞典登记删除步骤中,将从对应于上述类别的文本信息提取出关键词,作为该类别的时事特征关键词在上述辞典中登记。
36.如权利要求33所述的辞典制作方法,其特征在于,在上述辞典中按每个类别登记了关键词;上述辞典制作方法还包括至少从2个信息源取得与上述类别有关的分类信息及文本信息的分类信息取得步骤;在上述辞典登记删除步骤中,根据通过上述分类信息取得步骤取得的分类信息、以及通过上述关键词提取步骤提取出的关键词,制作分别对应于上述信息源的辞典。
37.一种程序,其特征在于,是用于制作辞典的程序,该辞典用于对以文本记述的信息检索、分类、或者过滤,上述程序使计算机执行关键词提取步骤,从文本信息提取关键词;以及辞典登记删除步骤,将从上述文本信息提取出的关键词在上述辞典中登记或者删除。
38.如权利要求36所述的程序,其特征在于,上述程序还使计算机执行关键词统计步骤,求出与由1个以上的文本信息构成的文本信息群中的上述关键词的出现有关的统计量;关键词评价值算出步骤,根据上述统计量算出上述关键词的评价值;以及判断步骤,根据上述算出的评价值判断将上述关键词是否在上述辞典中登记、或者是否从上述辞典中删除;在上述关键词提取步骤中,从上述文本信息群提取关键词;在上述辞典登记删除步骤中,根据上述判断的结果在上述辞典中登记或者删除上述关键词。
39.如权利要求36所述的程序,其特征在于,在上述辞典中按每个类别登记了关键词;在上述辞典登记删除步骤中,将从对应于上述类别的文本信息提取出的关键词,作为该类别的时事特征关键词在上述辞典中登记。
40.如权利要求36所述的程序,其特征在于,在上述辞典中按每个类别登记了关键词;上述程序还使计算机执行至少从2个信息源取得与上述类别有关的分类信息及文本信息的分类信息取得步骤;在上述辞典登记删除步骤中,根据通过上述分类信息取得步骤取得的分类信息、及通过上述关键词提取步骤提取出的关键词,制作分别对应于上述信息源的辞典。
全文摘要
提供一种辞典制作装置以及辞典制作方法,根据文本信息群内容的变化,可以最恰当地制作以及更新用于对文本信息进行分类、检索、或提取的辞典。辞典制作装置(100)具有关键词提取部(1),从所输入的文本信息提取关键词;关键词统计部(2),求出与关键词的出现有关的统计量;关键词评价值算出部(3),根据与关键词的出现有关的统计量算出提取出的关键词的评价值;判断部(4),根据算出的评价值判断是否登记该关键词或者是否删除该关键词;辞典登记删除部(5),根据判断部(4)判断的结果对辞典数据库(102)进行关键词的登记或者删除;以及辞典数据库(102)。
文档编号H04N5/44GK1922605SQ20048003899
公开日2007年2月28日 申请日期2004年11月26日 优先权日2003年12月26日
发明者九津见洋, 内藤荣一, 小泽顺, 吉田秀行 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1