关键字管理程序、关键字管理系统和关键字管理方法

文档序号:6456968阅读:1279来源:国知局
专利名称:关键字管理程序、关键字管理系统和关键字管理方法
技术领域
本发明涉及对与网络连接的用户终端访问内容时所利用的关键字进 行管理的关键字管理程序、关键字管理系统和关键字管理方法。
背景技术
近年来,因特网广泛普及,用户利用与因特网连接的用户终端,从 网络上取得各种信息。例如,在用户从网络上取得与规定关键字相关联 的信息的情况下,能够利用检索引擎来取得。
并且,即使用户不知道特定的关键字,通过访问服务提供商管理的 门户网站或博客等,也能够取得服务提供商选出的新闻、话题、劝告信 息等各种信息。
除此之外,对应于进行信息收集的用户,在网络上提供各种服务。 例如,在非专利文献l中公开了如下的服务向用户提供话题的关键字, 提示该关键字的检索。该服务进行在规定期间内检索到的关键字的排名, 向用户通知排名结果,由此,能够向用户提供话题的关键字。
另外,在专利文献1中公开了如下技术为了使用户的信息检索更 加舒适,根据检索到的关键字和与关键字相关联的信息之间的关联性的 程度,来设定与关键字相关联的信息的配置。
非专利文献l: 二7亍^株式会社"瞬7—F、" 、 [online]、[平成18 年12月25日检索]、因特网〈http:〃www.nifty.com/shun^ 专利文献l:日本特开2006-31577号公报
但是,在上述现有技术中存在如下问题即使能够向用户提供成为 话题的主题,也仍不清楚所提供的主题为何成为了话题。
该情况下,用户不知道所提供的主题为何成为了话题,所以,需要 在不知道话题理由的状态下进行检索。而且,检索的结果,命中与主题相关联的各种信息(包含与话题无关的信息),用户无法舒适地进行利用 主题的检索。
艮P,明确主题为什么成为话题并向用户通知成为话题的主题的信息, 是极其重要的课题。

发明内容
本发明是鉴于上述内容而完成的,其目的在于,提供明确主题为什 么成为话题并能够向用户通知成为话题的主题的信息的关键字管理程 序、关键字管理系统和关键字管理方法。
为了解决上述课题并达成目的,本发明的关键字管理程序用于对在 与网络连接的用户终端访问到内容时所利用的关键字进行管理的关键字 管理系统,该关键字管理程序的特征在于,该关键字管理程序使计算机 执行以下步骤突发值计算步骤,在该步骤中,计算突发值,该突发值 表示所述关键字的每单位时间的增加值;综合突发值计算步骤,在该步 骤中,根据与所述突发值对应的关键字在所述内容中的特征,对所述突 发值进行校正,从而计算出综合突发值;以及输出控制步骤,在该步骤 中,根据所述综合突发值的时间序列推移,从所述内容中提取与对应于 该综合突发值的关键字相关联的关联关键字,将所述关键字和关联关键 字对应起来输出到所述用户终端。
并且,本发明的特征在于,在上述发明中,该关键字管理程序还使 计算机执行形式要素分析执行步骤,在该步骤中,根据所述突发值为阈 值以上的关键字,分析在所述内容内包含的文本的形式要素,在所述突 发值计算步骤中,针对由所述形式要素分析结果得到的关键字,进一步 计算突发值。
并且,本发明的特征在于,在上述发明中,该关键字管理程序还使 计算机执行分类步骤,在该步骤中,根据所述综合突发值的时间序列推 移,将对应于该综合突发值的关键字分类为预先准备的多个类型中的任 一种类型,在所述输出控制步骤中,将所述分类步骤的分类结果进一步 输出到所述用户终端。
7并且,本发明的特征在于,在上述发明中,所述关键字在内容中的 特征包含在所述内容中标题所包含的所述关键字的数量、在所述内容 中展开链接的所述关键字的数量、以及在所述内容中被修饰的所述关键 字的数量。
并且,本发明的特征在于,在上述发明中,在所述输出控制步骤中, 提取与所述综合突发值的时间序列推移相关的关键字,作为所述关联关 键字。
并且,本发明的特征在于,在上述发明中,在所述输出控制步骤中, 进一步提取在所述内容的文本中与所述综合突发值为阈值以上的关键字 一起出现的关键字,作为所述关联关键字。
并且,本发明的关键字管理系统对在与网络连接的用户终端访问到 内容时所利用的关键字进行管理,该关键字管理系统的特征在于,该关 键字管理系统具有突发值计算单元,其计算突发值,该突发值表示所 述关键字的每单位时间的增加值;综合突发值计算单元,其根据与所述 突发值对应的关键字在所述内容上的特征,对所述突发值进行校正,从 而计算出综合突发值;以及输出控制单元,其根据所述综合突发值的时 间序列推移,从所述内容中提取与对应于该综合突发值的关键字相关联 的关联关键字,将所述关键字和关联关键字对应起来输出到所述用户终
一山顺。
并且,本发明的特征在于,在上述发明中,该关键字管理系统还具 有形式要素分析执行单元,该形式要素分析执行单元根据所述突发值为 阈值以上的关键字,分析在所述内容中包含的文本的形式要素,所述突 发值计算单元针对由所述形式要素分析结果得到的关键字,进一步计算
突发值。
并且,本发明的特征在于,在上述发明中,该关键字管理系统还具 有分类单元,该分类单元根据所述综合突发值的时间序列推移,将对应 于该综合突发值的关键字分类为预先准备的多个类型中的任一种类型,
所述输出控制单元将所述分类单元的分类结果进一步输出到所述用户终
士山 顿。并且,本发明的特征在于,在上述发明中,所述关键字在内容中的 特征包含在所述内容中标题所包含的所述关键字的数量、在所述内容 中展开链接的所述关键字的数量、以及在所述内容中被修饰的所述关键 字的数量。
并且,本发明的特征在于,在上述发明中,所述输出控制单元提取 与所述综合突发值的时间序列推移相关的关键字,作为所述关联关键字。
并且,本发明的特征在于,在上述发明中,所述输出控制单元进一 步提取在所述内容的文本中与所述综合突发值为阈值以上的关键字一起 出现的关键字,作为所述关联关键字。
并且,本发明的关键字管理方法用于对在与网络连接的用户终端访 问到内容时所利用的关键字进行管理的关键字管理系统,该关键字管理 方法的特征在于,该关键字管理方法包含以下步骤突发值计算步骤, 在该步骤中,计算突发值,该突发值表示所述关键字的每单位时间的增 加值;综合突发值计算步骤,在该步骤中,根据与所述突发值对应的关 键字在所述内容中的特征,对所述突发值进行校正,从而计算出综合突 发值;以及输出控制步骤,在该步骤中,根据所述综合突发值的时间序 列推移,从所述内容中提取与对应于该综合突发值的关键字相关联的关 联关键字,将所述关键字和关联关键字对应起来输出到所述用户终端。
并且,本发明的特征在于,在上述发明中,该关键字管理方法还包 含形式要素分析执行步骤,在该步骤中,根据所述突发值为阈值以上的 关键字,分析在所述内容中包含的文本的形式要素,在所述突发值计算 步骤中,针对由所述形式要素分析结果得到的关键字,进一步计算突发 值。
并且,本发明的特征在于,在上述发明中,该关键字管理方法还包 含分类步骤,在该步骤中,根据所述综合突发值的时间序列推移,将对 应于该综合突发值的关键字分类为预先准备的多个类型中的任一种类 型,在所述输出控制步骤中,将所述分类步骤的分类结果进一步输出到 所述用户终端。
并且,本发明的特征在于,在上述发明中,所述关键字的在内容中的特征包含在所述内容中标题所包含的所述关键字的数量、在所述内 容中展开链接的所述关键字的数量、以及在所述内容中被修饰的所述关 键字的数量。
并且,本发明的特征在于,在上述发明中,在所述输出控制步骤中, 提取与所述综合突发值的时间序列推移相关的关键字,作为所述关联关
并且,本发明的特征在于,在上述发明中,在所述输出控制步骤中, 进一步提取在所述内容的文本中与所述综合突发值为阈值以上的关键字 一起出现的关键字,作为所述关联关键字。
根据本发明,计算表示关键字的每单位时间的增加值的突发值,根 据与计算出的突发值对应的关键字在内容中的特征,对突发值进行校正, 从而计算出综合突发值,根据该综合突发值的时间序列推移,从内容中 提取与对应于综合突发值的关键字相关联的关联关键字,将关键字和关 联关键字对应起来输出到所述用户终端,所以,根据成为话题的关键字 和关联关键字,用户能够容易地理解该关键字为什么成为话题。
并且,根据本发明,根据突发值为阈值以上的关键字,分析内容所 包含的文本的形式要素,针对由形式要素分析结果得到的关键字,进一 步计算突发值,所以,能够更准确地提取成为话题的关键字。
并且,根据本发明,根据综合突发值的时间序列推移,将对应于综 合突发值的关键字分类为预先准备的多个类型中的任一种类型,所以, 用户能够容易地理解通过怎样的经过成为话题的关键字。
并且,根据本发明,根据包含标题所包含的所述关键字的数量、展 开链接的关键字的数量、以及被修饰的关键字的数量的关键字在内容中 的特征,来校正综合突发值,所以,能够更可靠地提取话题的关键字。
并且,根据本发明,提取与综合突发值的时间序列推移相关的关键 字作为关联关键字,所以,根据成为话题的关键字和关联关键字,用户 能够容易地理解该关键字为什么成为话题。
并且,根据本发明,进一步提取在内容的文本中与综合突发值为阈 值以上的关键字一起出现的关键字作为关联关键字,所以,根据成为话题的关键字和关联关键字,用户能够容易地理解该关键字为什么成为话 题,能够更加舒适地执行使用关键字的信息检索。


图1是用于说明现有技术和本实施例的关键字管理系统之间的差异 的说明图。
图2是示出本实施例的关键字管理系统的结构的系统结构图。
图3是示出本实施例的网络话题积累装置的结构的功能框图。
图4是示出新闻/博客表的数据结构的一例的图。
图5是示出检索词表的数据结构的一例的图。
图6是示出用户辞典表的数据结构的一例的图。
图7是示出形式要素分析结果管理表的数据结构的一例的图。
图8是示出Burst计算参数表的数据结构的一例的图。
图9是示出综合Burst存储表的数据结构的一例的图。
图IO是示出主题类型管理表的数据结构的一例的图。
图11是示出关联关键字表的数据结构的一例的图。 图12是示出共现关键字表的数据结构的一例的图。 图13是示出最终结果存储表的数据结构的一例的图。 图14是示出本实施例的网络话题积累装置的处理步骤的流程图。 图15是示出构成图3所示的网络话题积累装置的计算机的硬件结构 的图。
符号说明
10:网络;20:用户终端;30:各种内容存储装置;40:服务器; 50:计算机;51:输入装置;52:监视器;53: RAM; 53a:各种数据; 54: ROM; 55:介质读取装置;56:网络接口; 57: CPU; 57a:话题关 键字提供处理;58: HDD; 58a:各种数据;58b:话题关键字提供程序; 59-总线;100:网络话题积累装置;110:输入部;120:输出部;130: 通信控制IF部;140:输入输出控制IF部;150:存储部;150a: Web 内容数据库;150b:新闻/博客表;150C:检索词表;150d:用户辞典表;150e:形式要素分析结果管理表;150f: Burst计算参数表;150g:综合 Burst存储表;150h:主题类型管理表;150i:相关关键字表;150j:共 现关键字表;150k:最终结果存储表;160:控制部;160a:数据管理部; 160b: Burst计算部;160c:用户辞典登记部;160d:形式要素分析部; 160e:综合Burst计算部;160f:主题类型判定部;160g:相关关键字检 测部;160h:共现关键字检测部;160i:输出关键字判定处理部。
具体实施例方式
下面,根据附图详细说明本发明的关键字管理程序、关键字管理系 统和关键字管理方法的实施例。另外,不由该实施例限定本发明。
首先,与现有技术相比较来说明本实施例的关键字管理系统的特征。 图1是用于说明现有技术和本实施例的关键字管理系统之间的差异的说 明图。如图1左侧所示,在现有技术中,根据访问到内容时所利用的关 键字的利用频度来选择成为话题的关键字,从利用频度从高到低的顺序 排列所选择的关键字,作为主题通知给用户终端(以下为用户终端)(参 照图l左侧)。
但是,现有技术仅根据利用频度来排列成为话题的关键字,所以, 用户无法理解各关键字为什么成为主题,无法舒适地进行利用各关键字 的信息检索。
另一方面,本实施例的关键字管理系统的特征在于,计算表示用户 访问到内容时所利用的关键字的每单位时间的增加值的突发值,计算根 据与该突发值对应的关键字的内容上的特征校正了计算出的突发值得到 的综合突发值。而且,根据综合突发值的时间序列推移,从内容中提取 与对应于综合突发值的关键字相关联的关键字(以下为关联关键字),以 把关键字和关联关键字对应起来的信息作为主题,通知给用户终端(参 照图l右侧)。
这样,本实施例的关键字管理系统将设置了与成为话题的关键字密 切相关联的其他关键字的关键字组作为主题,通知给用户,所以,用户 能够理解各关键字为什么成为话题,能够舒适地执行利用主题的信息检
12索。
接着,说明本实施例的关键字管理系统的结构。图2是示出本实施 例的关键字管理系统的结构的系统结构图。如该图所示,该关键字管理
系统构成为,利用网络10来连接用户终端20、各种内容存储装置30、 服务器40、网络话题积累装置IOO。
用户终端20是利用由服务器40运营的门户网站(包含检索引擎) 来取得各种信息的装置。另外,用户终端20在取得各种信息的情况下, 经由输入装置(省略图示)从用户接收关键字,将接收的关键字输出到 服务器40。
各种内容存储装置30是存储在网络上收发的各种内容(新闻、博客、 BBS (Bulletin Board System)、股价、天气、占卜等文本内容)的存储装 置。另外。各种内容包含有生成该内容的日期时间的信息。
服务器40是如下的装置运营门户网站,并且,在从用户终端20 取得了关键字的情况下,从各种内容存储装置30检索与所取得的关键字 相关联的信息,将检索到的信息输出到用户终端20。并且,服务器40将 从用户终端20取得的关键字的历史作为检索记录信息,存储在存储装置 (省略图示)中。该检索记录信息是将检索的关键字、检索的日期时间、 检索数量(同一用户重复检索视为一次)、利用关键字来命中的各种信息 的件数的信息对应起来存储得到的。
网络话题积累装置100是将成为话题的关键字和关联关键字对应起 来输出到用户终端20的装置。这里,说明网络话题积累装置100的结构。 图3是示出本实施例的网络话题积累装置100的结构的功能框图。如该 图所示,该网络话题积累装置IOO构成为具有输入部110、输出部120、 通信控制IF部130、输入输出控制IF部140、存储部150、以及控制部 160。
其中,输入部110是输入各种信息的输入单元,由键盘、鼠标、麦 克风等构成。另外,后述的监视器(输出部120)也与鼠标协作,实现指 示设备功能。
输出部120是输出各种信息的输出单元,由监视器(或显示器、触摸面板)、扬声器等构成。通信控制IF部130是主要对用户终端20、各 种内容存储装置30、服务器40之间的通信进行控制的单元。输入输出控 制IF部140是对输入部110、输出部120、通信控制IF部130、存储部 150、控制部160进行的数据的输入输出进行控制的单元。
存储部150是存储控制部160进行的各种处理所需要的数据和程序 的存储单元,特别地,作为与本发明密切相关联的部分,如图3所示, 存储部150具有Web内容数据库150a、新闻/博客表150b、检索词表 150c、用户辞典表150d、形式要素分析结果管理表150e、 Burst计算参数 表150f、综合Burst存储表150g、主题类型管理表150h、相关关键字表 150i、共现关键字表150j、最终结果存储表150k。
Web内容数据库150a是存储网络话题积累装置100从服务器40取 得的检索记录信息和从各种内容存储装置30取得的各种内容的信息(新 闻、博客、BBS、股价、天气、占卜等文本内容的信息)的数据库。另 外,与唯一的文档源ID (Identification)对应地存储各种内容的信息。
新闻/博客表"Ob是通过关键字以及发布(或生成)新闻和博客的 日期时间对新闻和博客(或BBS)的信息进行分类(分类化)的表。图 4是示出新闻/博客表150b的数据结构的一例的图。如该图所示,新闻/ 博客表150b由关键字、日期时间、文档源ID、新闻(博客)内容构成。 其中,日期时间表示发布(或生成)新闻或博客的日期时间。另外,这 里示出新闻/博客表150b存储新闻和博客的信息的情况,但是,也可以包 含并存储其他信息(例如BBS、其他内容)。
检索词表150c是存储检索记录信息所包含的关键字的各种信息的 表。图5是示出检索词表150c的数据结构的一例的图。如该图所示,该 检索词表150c由关键字、日期时间、检索数量、出现件数、平均检索数 量、Burst值构成。
其中,检索数量表示由用户检索该关键字的次数。例如,在图5的 第1段中,示出株式会社A这样的关键字的检索次数为111。
出现件数表示通过规定的检索引擎检索关键字时所命中的件数。例 如,在图5的第1段中,示出作为关键字的"株式会社A"的命中件数为"1200000"。
平均检索数量表示根据过去检索到的关键字的检索数量而计算出的 每单位时间的平均检索数量。例如,在图5的第1段中,示出作为关键 字的"株式会社A"的平均检索数量为"9.0"。
Burst值表示对内容进行访问时所利用(由用户输入到检索引擎等 中)的关键字的每单位时间的增加量(根据时间经过而变化的检索关键 字的微分值)。通过后述的Burst计算部160b来计算该Burst值。
返回图3的说明,用户辞典表150d是存储对新闻和博客进行形式要 素分析时所使用的形式要素的信息的表。图6是示出用户辞典表150d的 数据结构的一例的图。如该图所示,该用户辞典表150d由形式要素、读 音、词类、其他信息构成。
形式要素分析结果管理表150e是作为从新闻和博客中提取的形式要 素的关键字的各种分析结果的表。图7是示出形式要素分析结果管理表 150e的数据结构的一例的图。如该图所示,该形式要素分析结果管理表 150e由关键字、日期时间、文档源ID、场所、标题、增强、链接、内容 构成。
其中,文档源ID表示包含有相应的关键字的文档的识别编号。例如, 在图7中示出包含"株式会社A"这样的关键字的文档的识别编号(文档源 ID)为"CNOOl、 C函2、 C膽3"。
场所表示该关键字在文档内的位置。例如示出"株式会社A"这样的 关键字在文档源ID"CNOOr的文档内位于第l个、第15个、第50个。
标题表示文档的标题所包含的关键字的数量。例如示出在文档源 ID"CNOOl"的文档的标题内包含一个"株式会社A"这样的关键字。
增强表示该关键字在文档中被修饰的数量(表示该关键字在文档中 利用Bold等增强的数量,例如,当增强关键字"株式会社A"时,成为"株 式会社A")。链接表示在文档中关键字展开了链接的数量。内容表示文 档中所包含的关键字的数量。
Burst计算参数表150f是存储进行形式要素分析的结果、即与从新 闻或博客中提取的各形式要素的Burst值相关联的信息的表。图8是示出Burst计算参数表150f的数据结构的一例的图。如该图所示,该Burst计 算参数表150f由关键字、日期时间、标题、增强、链接、内容、平均、 Burst值构成。
其中,标题、增强、链接、内容分别对应于在图7中说明的标题、 增强、链接、内容。平均和Burst值对应于在图5中说明的平均检索数量 和Burst值。另外,图7的平均和Burst值以新闻和博客中的关键字为对 象(图5的平均检索数量和Burst值以检索记录信息中的关键字为对象)。
综合Burst存储表150g是存储与各关键字对应的综合突发值的表。 图9是示出综合Burst存储表150g的数据结构的一例的图。如该图所示, 该综合Burst存储表150g由关键字、日期时间、SB (kwi)、 CB (kwi)、 a (kwi)、 TB (kwi)构成。
其中,SB (kwi)表示检索记录信息所包含的关键字的Burst值。根 据存储在检索词表150c中的各信息来计算该SB (kwi)。 CB (kwi)表示 新闻或博客所包含的关键字的Burst值。根据存储在Burst计算参数表150f 中的各信息来计算该CB (kwi)。
a (kwi)是计算综合Burst值时所利用的系数。TB (kwi)表示与关 键字对应的综合Burst值。通过后述的综合Burst计算部160e来计算该综 合Burst值。综合Burst存储表150g存储各个时刻的关键字的SB (kwi)、 CB (kwi)、 a (kwi)、 TB (kwi)。
主题类型管理表150h是将关键字分类为预先准备的多个主题类型 的表。图IO是示出主题类型管理表150h的数据结构的一例的图。如该 图所示,该主题类型管理表150h由关键字、日期、主题类型构成。.
其中,主题类型表示由用户检索的关键字的时间变化的特征。例如, 在主题类型为"反复型"的情况下,表示关键字的检索数量反复增加减少。 除此之外,主题类型还存在"递增型"和"突发型,,等。"递增型,,表示关键字 的检索数量随着时间经过平稳增加,"突发型"表示关键字的检索数量在 规定时间内急剧增加。
相关关键字表150i是将关键字和与该关键字相关的关键字(相关关 键字)对应起来迸行存储的表。图11是示出关联关键字表150i的数据结构的一例的图。如该图所示,该相关关键字表150i由关键字和相关关键
字构成,且分别对应起来。例如,在图ll的第l段中,作为关键字的株
式会社A与作为相关关键字的服务A和个人计算机B对应。
共现关键字表150J是将关键字和与该关键字具有共现关系的关键字 (在文档中与关键字一起出现的关键字,以下为共现关键字)对应起来 进行存储的表。图12是示出共现关键字表150j的数据结构的一例的图。 如该图所示,该共现关键字表150j由关键字和共现关键字构成,且分别 对应起来。例如,在图12的第1段中,作为关键字的株式会社A与作为 共现关键字的研究所和开发对应。
最终结果存储表150k是存储输出到用户终端20的信息的表。图13 是示出最终结果存储表150k的数据结构的一例的图。如该图所示,该最 终结果存储表150k由关键字、日期时间、TB (kwi)、 SUB (kwi)、主题 类型构成。其中,SUB (kwi)表示与关键字一起输出到用户终端20的 相关关键字或共现关键字。另外,最终结果存储表150k按照综合Burst 值TB (kwi)的大小顺序存储关键字。
返回图3的说明,控制部160具有用于存储规定了各种处理步骤的 程序和控制数据的内部存储器,是通过这些程序和数据来执行各种处理 的控制单元,特别地,作为与本发明密切相关联的部分,如图3所示, 控制部160具有数据管理部160a、 Burst计算部160b、用户辞典登记部 160c、形式要素分析部160d、综合Burst计算部160e、主题类型判定部 160f、相关关键字检测部160g、共现关键字检测部160h、输出关键字判 定处理部160i。
其中,数据管理部160a是如下的单元从服务器40取得检索记录 信息,将其存储在Web内容数据库150a中,并且,从各种内容存储装置 30取得各种内容的信息,将其存储在Web内容数据库150a中。另外, 数据管理部160a在收集保证了发布日期时间的各种内容的情况下,利用 现有技术(日本特开2006-236262)所公开的技术即可。
并且,数据管理部160a进行存储在Web内容数据库150a中的新闻 和博客的索引化,生成新闻/博客表150b (参照图4)。另外,在进行索引化的情况下,关于从新闻/博客中选择的关键字,只要能够通过日期时间 和所选择的关键字唯一确定该新闻或博客,则可以选择任意的关键字。
进而,数据管理部160a根据存储在Web内容数据库150a中的检索 记录信息,生成检索词表150c (参照图5)。在生成检索词表的情况下, 数据管理部160a根据检索记录信息所包含的过去的关键字的检索数量, 计算平均检索数量,将计算出的平均检索数量存储在检索词表150c中。
Burst计算部160b是根据检索词表150c或Burst计算参数表150f来 计算Burst值的单元。首先,说明Burst计算部160b根据检索词表150c 计算Burst值的情况。如上所述,该Burst值是表示由用户检索的关键字 的每单位时间的增加量的值。Burst值如何计算都可以,例如能够通过下 式计算。
UU( Wi) x (\jU《Wi) - , fUUk(Wi) AT"W')l:-^-^~~^-i …(1〉
这里,说明式(1)的各项目。UUt(Wi)表示时刻t时的关键字(wi) 的用户数量,Q,表示UUt (Wi)的校正值。使用式(1),能够计算时刻 t时的Burst值ATt (Wi) 1。另夕卜,式(1)的分母对应于检索词表的平 均检索数量,式(1)的UUt (Wi)对应于检索词表150c的检索数量。 Burst计算部160b与关键字对应地将Burst值ATt (W》1存储在检索词 表150c的Burst值域中。
接着,说明Burst计算部160b根据Burst计算参数表150f计算Burst 值的情况。此时的Burst值例如能够通过下式计算。
广 Ct2 。t-l 、
、_t — 1 J
AT《Wi)2:-^~i^i-^' ...(2)
这里,说明式(2)的各项目。Ft (Wi)表示时刻t发布的内容所包 含的关键字的频度,Ct2表示Ft (Wi)的校正值。使用式(2),能够计算 时刻t的Burst值ATt (Wi) 2。另外,式(2)的分母对应于Burst计算 参数表150f的平均,式(2)的Ft (Wi)对应于Burst计算参数表150f
18的内容。Burst计算部160b与关键字对应地将Burst值ATt (W》2存储 在Burst计算参数表I50f的Burst值域中。
用户辞典登记部160c是如下的单元根据存储在检索词表150c中 的信息,检索存储在Burst值域中的Burst值为阈值以上的关键字,将检 索到的关键字存储在用户辞典表150d (参照图6)中。
形式要素分析部160d是如下的单元使用用户辞典表150d的形式 要素域所记载的各关键字,执行新闻/博客表150b的新闻(博客)内容域 所记载的文本内容或Web内容数据库150a所记载的信息的形式要素分 析。形式要素分析部160d将形式要素分析结果存储在形式要素分析结果 管理表150e中。
形式要素分析部160d根据新闻/博客表150b的新闻(博客)内容域 所记载的文本内容或Web内容数据库150a所记载的信息,使用由形式要 素分析结果得到的形式要素(关键字),对标题所包含的关键字的数量、 被增强的关键字的数量、关键字展开链接的数量、以及新闻和博客所包 含的关键字的数量进行计数。
形式要素分析部160d将所计数的数量与关键字对应起来存储在形 式要素分析结果表150e的标题域、增强域、链接域、内容域中。并且, 形式要素分析部160d也将文档源ID、场所的信息存储在形式要素分析结 果表150e中。
进而,形式要素分析部160d根据由形式要素分析结果得到的形式要 素(关键字)和存储在Web内容数据库150a或新闻/博客表150b中的信 息,生成Burst计算参数表150f (参照图8)。形式要素分析部160d根据 存储在Web内容数据库150a或新闻/博客表150b中的信息所包含的关键 字的检索数量,计算每单位时间检索关键字的平均检索数量。将计算出 的平均检索数量存储在Burst计算参数表150f的平均域中。
综合Burst计算部160e是计算与关键字对应的综合Burst值的单元。 具体而言,说明综合Burst计算部160e进行的处理时,能够通过TB(kwi) =SB (kwi) xCB (kwi) +a (kwi),来计算与关键字对应的综合Burst 值TB (kwi)。这里,说明各项目时,SB (kwi)表示存储在检索词表150c的Burst值域中(与该关键字对应)的Burst值。并且,CB (kwi)表示 存储在Burst计算参数表150f的Burst值域中(与该关键字对应)的Burst 值。
a (kwi)是通过表示存储在Burst计算参数表150f的标题域中的关 键字的数量的T (kwi)、表示存储在增强域中的关键字的数量的L (kwi)、 和表示存储在链接域中的关键字的数量的E (kwi)计算出的值,具体而 言,通过a (kwi) -卩x (T (kwi) +L (kwi) +E (kwi))来计算。上述 式中的|3是用于取得综合Burst值的平衡的系数。
综合Burst计算部160e将计算出的综合Burst值(TB (kwi))与关 键字对应起来存储在综合Burst存储表150g (参照图9)中。另夕卜,综合 Burst计算部160e根据Burst计算参数表150f,预先登记与综合Burst存 储表150g的各关键字对应的SB (kwi)、 CB (kwi)、 a (kwi)的值。另 外,综合Burst计算部160e在SB (kwi)的值为0的情况下,代替0而 登记1 。同样,综合Burst计算部160e在CB (kwi)的值为0的情况下, 代替0而登记1 。
主题类型判定部160f是如下的单元判定与关键字对应的主题类型 (反复型、递增型或突发型),按照每个关键字将判定结果存储在主题类 型管理表中。具体而言,主题类型判定部160f检测存储在综合Burst存 储表150g的TB (kwi)域中的综合Burst值为阈值以上的关键字。
而且,主题类型判定部160f计算与检测到的关键字对应的综合Burst 值在过去一定期间内的时间序列推移,在多个时刻计算从过去的t-1到t (在t中代入与每天的时刻对应的数值)的微分值,根据各时刻的微分值 来判定主题类型。另外,能够根据过去一定期间内的综合Burst值和日期 时间之间的关系,通过近似式来确定过去一定期间内的综合Burst值的时 间序列推移。
在各时刻的微分值反复加减n次以上的情况下,主题类型判定部160f 将对应的关键字的主题类型判定为"反复型"。并且,在各时刻的微分值 在规定期间以上的期间连续增加m次以上的情况下,主题类型判定部 160f将对应的关键字的主题类型判定为"递增型"。并且,在各时刻的微分值在小于规定期间的期间连续增加m次的情况下,主题类型判定部 160f将对应的关键字的主题类型判定为"突发型"。
相关关键字检测部160g是利用综合Burst值为阈值以上的关键字来 检测相关系数为规定值以上的关键字组的单元。具体而言,该相关关键 字检测部160g根据综合Burst存储表150g,取出综合Burst值TB (kwi) 为阈值T以上的关键字。
而且,相关关键字检测部160g利用所取出的各关键字的综合Burst 值TB (kwi),计算相关系数。相关系数如何计算都可以,例如能够通过 下式计算。 — 一
这里,说明式(3)的各项目,Xi对应于关键字的综合Burst值TB(kwi), yi对应于作为相关系数的比较对象的关键字的综合Burst值(kwj)。
相关关键字检测部160g使用式(3)取出与关键字的相关系数为规 定值以上的关键字组,将取出的关键字组作为相关关键字CO (kwi)存 储在相关关键字表中。由存储在图11的第1段中的结果可知,关键字"株 式会社A"的综合Burst值TB (kwi)和相关关键字"服务A"的综合Burst 值TB (kwj)之间的相关系数为规定值以上。同样,可知关键字"株式会 社A"的综合Burst值TB(kwi)和相关关键字"个人计算机B"的综合Burst 值TB (kwi)之间的相关系数为规定值以上。
共现关键字检测部160h是如下的单元利用综合Burst值为阈值以 上的关键字,取出在文档中与该关键字一起出现(共现)的关键字,作 为共现关键字。
具体而言,共现关键字检测部160h根据综合Burst存储表150g,取 出综合Burst值TB (kwi)为阈值T以上的关键字。然后,共现关键字检 测部160h根据所取出的关键字和形式要素分析结果表150e,确定该关键 字的场所(文档上的位置)。
共现关键字检测部160h根据所确定的场所和Web内容数据库150a 或新闻/博客表150b,取出场所值前后的m个词(关键字)作为共现关键字RK (kwi),将所取出的共现关键字与对应的关键字对应起来存储在共 现关键字表150J中。共现关键字检测部160h还针对其他文档源ID执行 该处理。
另外,共现关键字检测部160h在将共现关键字存储在共现关键字表 150J中的情况下,按照文档上的共现关键字的频度的大小顺序进行存储。 在图12的第1段所示的例子中,按照研究所、开发、...的顺序存储共现 关键字,所以,关于与关键字"株式会社A"—起出现在文档上的频度,共 现关键字"研究所"的频度比"幵发"的频度大。
输出关键字判定处理部160i是如下的单元生成输出到用户终端20 的关键字组(存储在最终结果存储表150k中的信息),将所生成的关键 字组输出到用户终端20。具体而言,输出关键字判定处理部160i通过关 键字(kwi) &相关关键字0) (kwi) & RK (kwi) &日期时间这样的检 索条件来检索新闻/博客表150b。
输出关键字判定处理部160i在命中该检索条件的件数为1以上的情 况下,.将与检索条件对应的关键字、日期时间、综合Burst值TB (kwi)、 SUB (kwi)以及关键字的主题类型存储在最终结果存储表150k中。另 外,在SUB (kwi)中存储检索条件所包含的相关关键字CO (kwi)和共 现关键字RK (kwi)。输出关键字判定处理部160i根据主题类型管理表 150h,将关键字的主题类型存储在最终结果存储表中。输出关键字判定 处理部160i按照综合Burst值的大小顺序对存储在最终结果存储表150k 中的关键字进行存储。
在上述检索结果的出现数量为0的情况下,从检索条件中排除频度 低的相关关键字CO (kwi)或共现关键字RK (kwi),再次检索新闻/博 客表150b。输出关键字判定处理部160i进行检索条件的再次设定(从检 索条件中排除频度低的相关关键字CO (kwi)或共现关键字RK (kwi) 的设定)并反复进行检索,直到检索结果的出现数量为l以上。
另外,输出关键字判定处理部160i参照最终结果存储表150k的主 题类型域,取出突发型的关键字。然后,输出关键字判定处理部160j通 过所取出的关键字(kwi) &CO (kwi) & RK (kwi)这样的从检索条件
22中排除日期时间后的新的检索条件,检索新闻/博客表150b,判定出现件 数是否大于1。在输出关键字判定处理部160i判定为出现件数大于1的 情况下,删除对应的关键字的主题类型"突发型"。在除此之外的情况下, 保留主题类型。
接着,说明本实施例的网络话题积累装置100的处理。图14是示出 本实施例的网络话题积累装置100的处理步骤的流程图。如该图所示, 在网络话题积累装置100中,数据数据管理部160a从各种内容存储装置 30和服务器40取得新闻、博客、检索记录的信息,将其存储在Web内 容数据库150a中(步骤SIOI)。
数据管理部160a进行存储在Web内容数据库150a中的数据的索引 化,生成新闻/博客表150b和检索词表150c (步骤S102), Burst计算部 160b计算检索词表150c所包含的关键字的Burst值(步骤S103)。
接着,用户辞典登记部160c将Burst值为阈值以上的关键字登记在 用户辞典表150d中(步骤S104),形式要素分析部160d根据登记在用户 辞典表150d中的数据,对新闻/博客的文本内容执行形式要素分析(步骤 S105)。 Burst计算部160b计算执行形式要素分析的结果得到的关键字的 Burstf直,将其存储在Burst计算参数表150f中(步骤S106)。
然后,形式要素分析部160d对标题所包含的关键字的数量进行计数 (步骤S107),对针对关键字展开链接的数量进行计数(步骤S108),对 通过Bold等增强了关键字的数量进行计数(步骤S109)。
综合Burst计算部160e根据Burst计算参数表150f计算综合Burst 值,将其存储在综合Burst存储表150g中(步骤SllO)。主题类型判定 部160f根据过去的综合Burst值的时间序列推移来判定主题类型,将其 存储在主题类型管理表150h中(步骤Slll)。
接着,相关关键字检测部160g检测与过去的综合Burst值的时间序 列推移高度相关(相关系数为阈值以上)的关键字组CO,将其存储在相 关关键字表150i中(步骤S112)。共现关键字检测部160h在新闻和博客 的内容中检测与综合Burst值高(阈值以上)的关键字一起出现的关键字 组RK,将其存储在共现关键字表150j中(步骤S113)。然后,输出关键字判定处理部150i根据综合Burst值的排名(综合 Burst值的大小顺序),通过关键字(kwi) &相关关键字CO (kwi) &共 现关键字RK (kwi) &日期时间(Date)的检索条件来检索新闻/博客表 150b (步骤S114),根据综合Burst值的排名,以关键字(kwi) +相关关 键字CO (kwi) +共现关键字10^ (kwi) +主题类型的形式,向用户终端 20输出主题(步骤S115)。
这样,输出关键字判定处理部以关键字(kwi)+相关关键字CO(kwi) +共现关键字RW (kwi) +主题类型的形式,向用户终端20输出主题, 所以,用户能够获得话题的主题,并且,能够容易地掌握主题成为话题 的理由。
如上所述,在本实施例的关键字管理系统中,网络话题积累装置100 计算表示关键字的每单位时间的增加值的Burst值,根据计算出的Burst 值和与该Burst值对应的关键字在内容中的特征(标题中包含关键字的数 量、展开链接的数量、被增强的数量),计算综合Burst值。然后,网络 话题积累装置100根据综合Burst值的时间序列推移,从内容中提取与对 应于综合Burst值的关键字的关联关键字(相关关键字和共现关键字), 将把关键字和关联关键字对应起来的信息作为主题,输出到用户终端20, 所以,明确主题为什么成为话题,并能够向用户通知成为话题的主题的
j曰息。
并且,本实施例的网络话题积累装置100在主题的信息中包含主题 类型并将其输出到用户终端,所以,用户能够容易地理解通过怎样的经 过成为话题的主题。
并且,在本实施例的网络话题积累装置100中,形式要素分析部160d 利用存储在用户辞典表150d中的形式要素,执行新闻或博客的形式要素 分析,所以,能够更准确地执行未知词等的切出。
但是,在本实施例中说明的各处理中,能够手动进行作为自动进行 的处理而说明的处理的全部或一部分,或者,能够利用公知的方法自动 进行作为手动进行的处理而说明的处理的全部或一部分。除此之外,针 对上述文档中和附图中所示的处理步骤、控制步骤、具体名称、包含各种数据和参数在内的信息,除了特意标记的情况以外,能够任意变更。
并且,图2所示的关键字管理系统的结构和图3所示的网络话题积 累装置100的各结构要素是功能上的概念,在物理上不一定如图所示那 样构成。即,各装置的分散/统合的具体形式不限于图示的形式,能够构 成为根据各种负荷或使用状况等,以任意单位在功能上或物理上对其全 部或一部分进行分散/统合。进而,在各装置中进行的各处理功能的全部 或任意一部分利用CPU和在该CPU中执行分析的程序来实现,或者, 也能够作为基于布线逻辑的硬件来实现。
图15是示出构成图3所示的网络话题积累装置100的计算机的硬件 结构的图。该计算机50构成为,利用总线59来连接接收来自用户的数 据输入的输入装置51、监视器52、 RAM (Random Access Memory ) 53、 ROM (Read Only Memory) 54、从记录了各种程序的记录介质中读取程 序的介质读取装置55、经由网络在与其他计算机之间进行数据收发的网 络接口 56、CPU(Central Processing Unit )57、以及HDD(Hard Disk Drive) 58。
而且,在HDD 58中存储有发挥与上述网络话题积累装置100的功 能相同的功能的话题关键字提供程序58b。而且,CPU 57从HDD 58中 读出并执行话题关键字提供程序58b,由此,实现上述网络话题积累装置 100的功能部的功能的话题关键字提供处理57a起动。该话题关键字提供 处理57a对应于图3所示的数据管理部160a、 Burst计算部160b、用户辞 典登记部160c、形式要素分析部160d、综合Burst计算部160e、主题类 型判定部160f、相关关键字检测部160g、共现关键字检测部160h、输出 关键字判定处理部160i。
并且,在HDD 58中存储有与存储在上述网络话题积累装置100的 存储部150中的数据对应的各种数据58a。该各种数据58a对应于图3所 示的Web内容数据库150a、新闻/博客表150b、检索词表150c、用户辞 典表150d、形式要素分析结果管理表150e、 Burst计算参数表150f、综 合Burst存储表150g、主题类型管理表150h、相关关键字表150i、共现 关键字表150j、最终结果存储表150k。CPU57在HDD58中存储各种数据58a,并且,从HDD58中读出 各种数据58a并将其存储在RAM 53中,利用存储在RAM 53中的各种 数据53a,将成为话题的主题的信息与关联关键字对应起来输出到用户终 端20。
产业上的可利用性
如上所述,本发明的关键字管理系统在进行向用户终端提供主题的 服务的系统中是有用的,特别适合于需要提供主题以使用户能够舒适地 检索成为话题的主题的情况。特别地,考虑对利用时间序列整理成为话 题的主题并对用户感兴趣的主题进行引用,或附加注释来收集具有相同 嗜好的用户的小区服务的应用。
权利要求
1.一种关键字管理程序,该关键字管理程序用于对在与网络连接的用户终端访问到内容时所利用的关键字进行管理的关键字管理系统,该关键字管理程序的特征在于,该关键字管理程序使计算机执行以下步骤突发值计算步骤,在该步骤中,计算突发值,该突发值表示所述关键字的每单位时间的增加值;综合突发值计算步骤,在该步骤中,根据与所述突发值对应的关键字在所述内容中的特征,对所述突发值进行校正,从而计算出综合突发值;以及输出控制步骤,在该步骤中,根据所述综合突发值的时间序列推移,从所述内容中提取与对应于该综合突发值的关键字相关联的关联关键字,将所述关键字和关联关键字对应起来输出到所述用户终端。
2. 根据权利要求1所述的关键字管理程序,其特征在于, 该关键字管理程序还使计算机执行形式要素分析执行步骤,在该步骤中,根据所述突发值为阈值以上的关键字,分析在所述内容内包含的 文本的形式要素,在所述突发值计算步骤中,针对由所述形式要素分析 结果得到的关键字,进一步计算突发值。
3. 根据权利要求1所述的关键字管理程序,其特征在于, 该关键字管理程序还使计算机执行分类步骤,在该步骤中,根据所述综合突发值的时间序列推移,将对应于该综合突发值的关键字分类为 .预先准备的多个类型中的任一种类型,在所述输出控制步骤中,将所述 分类步骤的分类结果进一步输出到所述用户终端。
4. 根据权利要求1所述的关键字管理程序,其特征在于, 所述关键字在内容中的特征包含在所述内容中标题所包含的所述关键字的数量、在所述内容中展开链接的所述关键字的数量、以及在所 述内容中被修饰的所述关键字的数量。
5. 根据权利要求1 4中的任一项所述的关键字管理程序,其特征 在于,在所述输出控制步骤中,提取与所述综合突发值的时间序列推移相 关的关键字,作为所述关联关键字。
6. 根据权利要求5所述的关键字管理程序,其特征在于, 在所述输出控制步骤中,进一步提取在所述内容的文本中与所述综合突发值为阈值以上的关键字一起出现的关键字,作为所述关联关键字。
7. —种关键字管理系统,该关键字管理系统对在与网络连接的用户 终端访问到内容时所利用的关键字进行管理,该关键字管理系统的特征在于,该关键字管理系统具有突发值计算单元,其计算突发值,该突发值表示所述关键字的每单位时间的增加值;综合突发值计算单元,其根据与所述突发值对应的关键字在所述内 容上的特征,对所述突发值进行校正,从而计算出综合突发值;以及输出控制单元,其根据所述综合突发值的时间序列推移,从所述内 容中提取与对应于该综合突发值的关键字相关联的关联关键字,将所述 关键字和关联关键字对应起来输出到所述用户终端。.
8. 根据权利要求7所述的关键字管理系统,其特征在于, 该关键字管理系统还具有形式要素分析执行单元,该形式要素分析执行单元根据所述突发值为阈值以上的关键字,分析在所述内容中包含 的文本的形式要素,所述突发值计算单元针对由所述形式要素分析结果 得到的关键字,进一步计算突发值。
9. 根据权利要求7所述的关键字管理系统,其特征在于, 该关键字管理系统还具有分类单元,该分类单元根据所述综合突发值的时间序列推移,将对应于该综合突发值的关键字分类为预先准备的 多个类型中的任一种类型,所述输出控制单元将所述分类单元的分类结 果进一步输出到所述用户终端。
10. 根据权利要求7所述的关键字管理系统,其特征在于, 所述关键字在内容中的特征包含在所述内容中标题所包含的所述关键字的数量、在所述内容中展开链接的所述关键字的数量、以及在所 述内容中被修饰的所述关键字的数量。
11. 根据权利要求7 10中的任一项所述的关键字管理系统,其特 征在于,所述输出控制单元提取与所述综合突发值的时间序列推移相关的关 键字,作为所述关联关键字。
12. 根据权利要求U所述的关键字管理系统,其特征在于, 所述输出控制单元进一步提取在所述内容的文本中与所述综合突发值为阈值以上的关键字一起出现的关键字,作为所述关联关键字。
13. —种关键字管理方法,该关键字管理方法用于对在与网络连接 的用户终端访问到内容时所利用的关键字进行管理的关键字管理系统, 该关键字管理方法的特征在于,该关键字管理方法包含以下步骤突发值计算步骤,在该步骤中,计算突发值,该突发值表示所述关 键字的每单位时间的增加值;综合突发值计算步骤,在该步骤中,根据与所述突发值对应的关键 字在所述内容中的特征,对所述突发值进行校正,从而计算出综合突发 值;以及输出控制步骤,在该步骤中,根据所述综合突发值的时间序列推移, 从所述内容中提取与对应于该综合突发值的关键字相关联的关联关键 字,将所述关键字和关联关键字对应起来输出到所述用户终端。
14. 根据权利要求13所述的关键字管理方法,其特征在于, 该关键字管理方法还包含形式要素分析执行步骤,在该步骤中,根据所述突发值为阈值以上的关键字,分析在所述内容中包含的文本的形 式要素,在所述突发值计算步骤中,针对由所述形式要素分析结果得到 的关键字,进一步计算突发值。
15. 根据权利要求13所述的关键字管理方法,其特征在于, 该关键字管理方法还包含分类步骤,在该步骤中,根据所述综合突发值的时间序列推移,将对应于该综合突发值的关键字分类为预先准备 的多个类型中的任一种类型,在所述输出控制步骤中,将所述分类步骤 的分类结果进一步输出到所述用户终端。
16. 根据权利要求13所述的关键字管理方法,其特征在于,所述关键字在内容中的特征包含在所述内容中标题所包含的所述 关键字的数量、在所述内容中展开链接的所述关键字的数量、在所述内 容中被修饰的所述关键字的数量。
17. 根据权利要求13 16中的任一项所述的关键字管理方法,其特 征在于,在所述输出控制步骤中,提取与所述综合突发值的时间序列推移相 关的关键字,作为所述关联关键字。
18. 根据权利要求17所述的关键字管理方法,其特征在于, 在所述输出控制步骤中,进一步提取在所述内容的文本中与所述综合突发值为阈值以上的关键字一起出现的关键字,作为所述关联关键字。
全文摘要
本发明提供关键字管理程序、关键字管理系统和关键字管理方法。在关键字管理系统中,网络话题积累装置(100)计算表示关键字的每单位时间的增加值的Burst值,根据计算出的Burst值和与该Burst值对应的关键字在内容中的特征(标题中包含关键字的数量、展开链接的数量、被增强的数量),计算综合Burst值。然后,网络话题积累装置(100)根据综合Burst值的时间序列推移,从内容中提取与对应于综合Burst值的关键字的关联关键字(相关关键字和共现关键字),将把关键字和关联关键字对应起来的信息作为主题,输出到用户终端(20)。
文档编号G06F17/30GK101583951SQ20078005010
公开日2009年11月18日 申请日期2007年1月18日 优先权日2007年1月18日
发明者内野宽治, 冈本青史, 军 张, 高桥哲朗 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1