特有内容数据判定程序、特有内容数据判定装置、特有内容数据判定方法、记录介质、内容...的制作方法

文档序号:6350955阅读:131来源:国知局
专利名称:特有内容数据判定程序、特有内容数据判定装置、特有内容数据判定方法、记录介质、内容 ...的制作方法
技术领域
本发明涉及提取构成网页(Web Page)的内容数据的技术领域。
背景技术
以往公知有如下技术取得作为构成网站(Web Site)上公开的网页的素材的内容数据,并根据所取得的内容数据生成新的内容数据。例如,在非专利文献1中公开了如下技术在由用户指定了图像数据的URL时,从网站上取得与该URL对应的图像数据,根据所取得的图像数据自动生成横幅广告(banner)。现有技术文献非专利文献非专利文献1 少一自動作成”、[online]、[平成21年10月21日检索]、互联网 <URL :http//hyperbannermaker. com/>
发明概要发明所要解决的课题在构成网站的各网页中,登载有依照该网站的目的的内容。因此,构成网站的各网页的内容基本上相互具有关联性,但是有时各自具有一些特征。并且,决定该网页的内容的要因是构成网页的内容数据(例如文本数据、图像数据等)的内容。因此,在构成网页的内容数据中,有时存在对该网页赋予特征的内容数据、即该网页特有的内容数据。非专利文献1所记载的技术是提取网页特有的内容数据的技术,但不是自动进行提取的技术,必须由用户通过手动作业来指定内容数据,从而不能容易地提取该网页特有的内容数据。因此,在用户不能判断怎样的内容数据是网页特有的内容数据、或根据用户的嗜好不同所偏爱的内容数据存在差异的情况等时,不能准确地提取网页特有的内容数据。 此外,当作为对象的网页的页数多时,存在用户的作业非常大的问题。此外,例如,可根据HTML (HyperText Markup Language 超文本链接标记语言)文档的标签的描述,如仅为图像或仅为文本那样,提取所有特定种类的内容数据。但是,在所提取的内容数据中,还包含了非网页特有的常见内容数据,因此,作为提取结果的可靠性较低,所以用户必须从提取结果中搜索特有的内容数据。本发明正是鉴于上述方面而完成的,其目的在于,提供能够容易地从构成网页的内容数据中提取该网页特有的内容数据的特有内容数据判定装置、特有内容数据判定方法、特有内容数据判定程序等。用于解决课题的手段为了解决上述课题,权利要求1所述的发明的特征在于,特有内容数据判定程序使计算机作为以下单元发挥功能提取单元,其提取构成所指定的网页的内容数据;计算单元,其计算构成所述指定的网页的各内容数据的出现频度;以及判定单元,其根据所述计算的出现频度,判定构成所述指定的网页的内容数据中该网页特有的内容数据。根据本发明,计算构成所指定的网页的各内容数据的出现频度。内容数据的该出现频度越小,内容数据在所指定的网页以外越不怎么出现。因此,能够根据出现频度来确定所指定的网页特有的内容数据。因此,能够容易地提取出网页特有的内容数据。权利要求2所述的发明是在权利要求1所述的特有内容数据判定程序中,其特征在于,该特有内容数据判定程序使所述计算机发挥如下功能所述判定单元将构成所述指定的网页的内容数据中出现频度最小的内容数据判定为该网页特有的内容数据。根据本发明,通过判断出现频度最小的内容数据,来确定所指定的网页特有的内容数据。权利要求3所述的发明是在权利要求1所述的特有内容数据判定程序中,其特征在于,该特有内容数据判定程序使所述计算机发挥如下功能所述判定单元将构成所述指定的网页的内容数据中出现频度为预定值以下的内容数据判定为该网页特有的内容数据。根据本发明,通过判定出现频度是否为预定值以下,能够确定满足该条件的所有内容数据是所指定的网页特有的内容数据。权利要求4所述的发明是在权利要求1 3中的任意一项所述的特有内容数据判定程序中,其特征在于,该特有内容数据判定程序使所述计算机发挥如下功能所述计算单元计算各内容数据在预定站点所包含的多个网页上的出现频度。根据本发明,计算构成所指定的网页的各内容数据在预定站点所包含的某多个网页上的出现频度,因此能够判定出站点内共同使用的内容数据不是网页特有的内容数据, 从而能够提高判断网页特有的内容数据的精度。权利要求5所述的发明是在权利要求1 4中的任意一项所述的特有内容数据判定程序中,其特征在于,该特有内容数据判定程序使所述计算机发挥如下功能所述提取单元针对所述预定的站点中包含的预定种类的各网页提取构成网页的内容数据,将表示提取出的内容数据的内容数据信息预先存储到存储单元中,所述计算单元根据所述存储的内容数据信息,计算构成所述指定的网页的各内容数据的出现频度。根据本发明,根据作为针对预定站点中包含的预定种类的各网页预先提取的结果的内容数据信息,计算构成所指定的网页的各内容数据的出现频度,因此能够准确地计算出现频度,从而能够提高判断网页特有的内容数据的精度。权利要求6所述的发明是在权利要求1 5中的任意一项所述的特有内容数据判定程序中,其特征在于,该特有内容数据判定程序使所述计算机发挥如下功能所述提取单元以由1个以上的内容数据构成的内容数据组为单位提取构成网页的内容数据,所述计算单元计算构成所述指定的网页的内容数据组的出现频度,所述判定单元判定构成所述指定的网页的内容数据组中该网页特有的内容数据组。根据本发明,以内容数据组为单位来判断网页特有的内容数据,因此,例如在网页上以某个集合进行显示,并且将相互具有关联性的内容数据设为内容数据组时,能够提取出作为网页特有的内容数据的内容数据组。权利要求7所述的发明是在权利要求6所述的特有内容数据判定程序中,其特征在于,该特有内容数据判定程序使所述计算机发挥如下功能所述提取单元根据用预定的
6标记语言描述的表示构成网页的内容数据的文档数据,提取内容数据组。根据本发明,根据表示构成网页的内容数据的文档数据来提取内容数据组,因此能够准确地提取内容数据组。权利要求8所述的发明是在权利要求7所述的特有内容数据判定程序中,其特征在于,该特有内容数据判定程序使所述计算机发挥如下功能所述提取单元在表示所述内容数据的文档数据中根据预定的标签来确定内容数据组。根据本发明,根据预定的标签来提取内容数据组,因此,在分别利用预定的标签对网页特有的内容数据和非特有内容数据进行分组化的情况下,能够提高判断网页特有的内容数据的精度。权利要求9所述的发明是在权利要求1 8中的任意一项所述的特有内容数据判定程序中,其特征在于,该特有内容数据判定程序使所述计算机进一步作为生成单元发挥功能,所述生成单元根据被判定为特有内容数据的内容数据,生成新内容数据。根据本发明,根据网页特有的内容数据生成新内容数据,因此,例如能够生成表示该网页中登载的内容的特征的内容数据。权利要求10所述的发明是在权利要求9所述的特有内容数据判定程序中,其特征在于,该特有内容数据判定程序使所述计算机发挥如下功能所述生成单元将被判定为特有内容数据的内容数据的显示尺寸调整为与预先设定的显示尺寸一致,生成包含调整了显示尺寸后的内容数据的新内容数据。权利要求11所述的发明是在权利要求9或权利要求10所述的特有内容数据判定程序中,其特征在于,该特有内容数据判定程序使所述计算机发挥如下功能所述生成单元生成对被判定为特有内容数据的内容数据施加效果来再现该内容数据的新内容数据。权利要求12所述的发明是在权利要求1 8中的任意一项所述的特有内容数据判定程序中,其特征在于,该特有内容数据判定程序使所述计算机进一步作为插入单元发挥功能,所述插入单元将与被判定为特有内容数据的内容数据相关联的关联内容数据插入到所述指定的网页中。根据本发明,将与被判定为特有内容数据的内容数据相关联的内容数据插入到所指定的网页中,因此,能够将与网页的特征相关联的信息追加到该网页中。权利要求13所述的发明是在权利要求12所述的特有内容数据判定程序中,其特征在于,该特有内容数据判定程序使所述计算机发挥如下功能在构成所述指定的网页的内容数据包含博客消息的文本数据的情况下,所述判定单元将该文本数据判定为该网页特有的内容数据,所述插入单元从被所述特有内容数据判定装置判定为特有内容数据的博客消息的文本数据中提取所述指定的网页的特征词,将与该特征词相关联的关联内容数据插入到该网页中。根据本发明,只要在各博客消息的文本数据中包含有该消息特有的内容,就能够由特有内容数据判定装置提取出各博客消息的文本数据。由此,能够将与网页中登载的博客的内容相关联的信息追加到该网页中。权利要求14所述的发明的特征在于,特有内容数据判定装置具有提取单元,其提取构成所指定的网页的内容数据;计算单元,其计算构成所述指定的网页的各内容数据的出现频度;以及判定单元,其根据所述计算的出现频度,判定构成所述指定的网页的内容数据中该网页特有的内容数据。权利要求15所述的发明是在权利要求14所述的特有内容数据判定装置中,其特征在于,所述判定单元将构成所述指定的网页的内容数据中出现频度最小的内容数据判定为该网页特有的内容数据。权利要求16所述的发明是在权利要求14所述的特有内容数据判定装置中,其特征在于,所述判定单元将构成所述指定的网页的内容数据中出现频度为预定值以下的内容数据判定为该网页特有的内容数据。权利要求17所述的发明是在权利要求14 16中的任意一项所述的特有内容数据判定装置中,其特征在于,所述计算单元计算各内容数据在预定站点所包含的多个网页上的出现频度。权利要求18所述的发明是在权利要求14 17中的任意一项所述的特有内容数据判定装置中,其特征在于,所述提取单元针对所述预定的站点中包含的预定种类的各网页提取构成网页的内容数据,将表示提取出的内容数据的内容数据信息预先存储到存储单元中,所述计算单元根据所述存储的内容数据信息,计算构成所述指定的网页的各内容数据的出现频度。权利要求19所述的发明是在权利要求14 18中的任意一项所述的特有内容数据判定装置中,其特征在于,所述提取单元以由1个以上的内容数据构成的内容数据组为单位提取构成网页的内容数据,所述计算单元计算构成所述指定的网页的内容数据组的出现频度,所述判定单元判定构成所述指定的网页的内容数据组中该网页特有的内容数据组。权利要求20所述的发明是在权利要求19所述的特有内容数据判定装置中,其特征在于,所述提取单元根据用预定的标记语言描述的表示构成网页的内容数据的文档数据,提取内容数据组。权利要求21所述的发明是在权利要求20所述的特有内容数据判定装置中,其特征在于,所述提取单元在表示所述内容数据的文档数据中根据预定的标签来确定内容数据组。权利要求22所述的发明的特征在于,内容数据判定方法具有以下步骤提取步骤,提取构成所指定的网页的内容数据;计算步骤,计算构成所述指定的网页的各内容数据的出现频度;以及判定步骤,根据所述计算的出现频度,判定构成所述指定的网页的内容数据中该网页特有的内容数据。权利要求23所述的发明的特征在于,记录介质以计算机可读取的方式记录有特有内容数据判定程序,该特有内容数据判定程序使计算机作为如下单元发挥功能提取单元,其提取构成所指定的网页的内容数据;计算单元,其计算构成所述指定的网页的各内容数据的出现频度;以及判定单元,其根据所述计算的出现频度,判定构成所述指定的网页的内容数据中该网页特有的内容数据。权利要求M所述的发明的特征在于,内容数据生成装置具有权利要求14 21 中的任意一项所述的特有内容数据判定装置;以及生成单元,其根据被所述特有内容数据判定装置判定为特有内容数据的内容数据,生成新内容数据。权利要求25所述的发明是在权利要求M所述的内容数据生成装置中,其特征在于,所述生成单元将被判定为特有内容数据的内容数据的显示尺寸调整为与预先设定的显示尺寸一致,生成包含调整了显示尺寸后的内容数据的新内容数据。权利要求沈所述的发明是在权利要求M或权利要求25所述的内容数据生成装置中,其特征在于,所述生成单元生成对被判定为特有内容数据的内容数据施加效果来再现该内容数据的新内容数据。权利要求27所述的发明的特征在于,关联内容数据插入装置具有权利要求14 21中的任意一项所述的特有内容数据判定装置;以及插入单元,其将与被所述特有内容数据判定装置判定为特有内容数据的内容数据相关联的关联内容数据插入到所述指定的网页中。权利要求观所述的发明是在权利要求27所述的关联内容数据插入装置中,其特征在于,在构成所述指定的网页的内容数据包含博客消息的文本数据的情况下,所述特有内容数据判定装置将该文本数据判定为该网页特有的内容数据,所述插入单元从被所述特有内容数据判定装置判定为特有内容数据的博客消息的文本数据中提取所述指定的网页的特征词,将与该特征词相关联的关联内容数据插入到该网页中。发明效果根据本发明,内容数据的出现频度越小,内容数据在所指定的网页以外越不怎么出现。因此,能够根据出现频度来确定所指定的网页特有的内容数据。因此,能够容易地提取出网页特有的内容数据。


图1是示出一个实施方式的购物系统S的概要结构的一例的图。图2是示出一个实施方式的内容数据生成服务器1的概要结构的一例的框图。图3是示出从指定网页到生成Flash内容数据为止的处理的概要的图。图4是示出网页的结构例的图。图5是示出从HTML文档生成的DOM树的一例的图。图6是示出登记在素材提取数据库101中的信息内容的一例的图。图7是示出一个实施方式的内容数据生成服务器1的系统控制部20的素材提取处理中的处理例的流程图。图8是示出一个实施方式的内容数据生成服务器1的系统控制部20的单页对应提取处理中的处理例的流程图。图9是示出一个实施方式的内容数据生成服务器1的系统控制部20的树搜索处理中的处理例的流程图。图10是示出一个实施方式的内容数据生成服务器1的系统控制部20的内容数据生成处理中的处理例的流程图。图11是示出一个实施方式的内容数据生成服务器1的系统控制部20的特有内容数据块判定处理中的处理例的流程图。图12是示出一个实施方式的内容数据生成服务器1的系统控制部20的Flash内容数据生成处理中的处理例的流程图。图13是示出一个实施方式的博客系统BS的概要结构的一例的图。
图14是示出一个实施方式的博客服务器6的概要结构的一例的框图。图15是示出从指定博主到在博客页面中插入广告内容数据为止的处理的概要的图。图16是示出网页的结构例的图。图17是示出从HTML文档生成的DOM树的一例的图。图18是示出存储在存储部65中的内容数据块对应信息的内容的一例的图。图19是示出一个实施方式的博客服务器6的系统控制部70的广告内容数据插入处理中的处理例的流程图。图20是示出一个实施方式的博客服务器6的系统控制部70的单页对应提取处理中的处理例的流程图。图21是示出一个实施方式的博客服务器6的系统控制部70的特有内容数据块判定处理中的处理例的流程图。图22是示出一个实施方式的变形例的博客服务器6的系统控制部70的博客更新时处理中的处理例的流程图。用于实施发明的方式[1.第1实施方式]下面,参照附图来详细说明本发明的实施方式。另外,以下说明的实施方式是如下情况下的实施方式在利用网络上的电子交易进行商品买卖的购物系统中,将本发明应用于根据从购物站点的网页中提取出的网页特有的内容数据来生成新内容数据的服务器装置。[1-1.购物系统的结构和功能概要]首先,使用图1对本实施方式的购物系统S的结构和功能概要进行说明。图1是示出本实施方式的购物系统S的概要结构的一例的图。如图1所示,购物系统S构成为包含作为特有内容数据判定装置和内容数据生成装置的一例的内容数据生成服务器1、购物服务器2、管理终端3、多个店铺终端4以及多个用户终端5。并且,内容数据生成服务器1、购物服务器2、各店铺终端4、各用户终端5可经由网络NW,例如使用通信协议中的TCP/IP等相互进行数据的收发。另外,网络NW例如是由互联网、专用通信线路(例如CATV (Community Antenna Television 有线电视)线路)、 移动通信网(包含基站等)以及网关等构建的。此外,内容数据生成服务器1和管理终端 3经由LAN (Local Area Network :局域网)等网络进行连接。另外,内容数据生成服务器1 和购物服务器2同样可以经由LAN等网络进行连接。在这种结构的购物系统S中,购物服务器2是根据来自店铺终端4或用户终端5 的请求,发送构成购物站点的网页的Web服务器。此外,购物服务器2根据来自店铺终端4 的请求,对购物站点上出售的商品进行登记,生成登载有该商品的详细说明等的商品详细页面。并且,购物服务器2具有商品详细页面数据库201,将生成的商品详细页面(商品详细页面的HTML文档(文档数据的一例)、作为商品详细页面的素材的图像数据等)登记到商品详细页面数据库201中。此外,购物服务器2根据来自阅览了商品详细页面的用户的用户终端5的请求,进行商品购买的处理。店铺终端4是在购物站点上出售商品的店铺的工作人员所使用的终端装置。作为店铺终端4,例如可采用个人计算机等。用户终端5是在购物站点上购买商品的用户所使用的终端装置。作为用户终端5, 例如可采用个人计算机、PDA、移动电话机等。内容数据生成服务器1根据来自管理终端3或店铺终端4的请求,生成表示所指定的商品详细页面的特征(进而表示商品的特征)的Flash内容数据(由Adobe Systems 公司进行了标准化的软件)。所生成的Flash内容数据例如是商品的横幅广告图像、介绍商品的幻灯片内容数据、动态图像内容数据等。并且,Flash内容数据例如被登载于店铺所运营的网站上,并被用作构成购物站点的网页的素材。为了生成这种Flash内容数据,内容数据生成服务器1具有素材提取数据库101, 提取构成登记于商品详细页面数据库201中的商品详细页面的作为Web素材的内容数据 (图像数据、HTML文档所描述的文本数据等),并将其提取结果登记到素材提取数据库101 中。并且,内容数据生成服务器1在从指定的商品详细页面中提取出的内容数据中,确定该商品详细页面特有的内容数据,根据所确定的内容数据生成Flash内容数据。管理终端3是购物系统S的系统管理者所使用的终端装置。作为管理终端3,例如可采用个人计算机等。[1-2.内容数据生成服务器的结构和功能]接着,使用图2对内容数据生成服务器1的结构和功能进行说明。图2是示出本实施方式的内容数据生成服务器1的概要结构的一例的框图。此外,图3是示出从指定网页到生成Flash内容数据为止的处理的概要的图。此外,图4是示出网页的结构例的图。并且,图5是示出从HTML文档生成的DOM树的一例的图。进而,图 6是示出登记在素材提取数据库101中的信息内容的一例的图。如图2所示,内容数据生成服务器1具有操作部11、显示部12、通信部13、驱动部 14、作为存储单元的一例的存储部15、输入输出接口部16和系统控制部20。并且,系统控制部20和输入输出接口部16经由系统总线21进行连接。操作部11例如由键盘、鼠标等构成,受理来自系统管理者等的操作指示,并将其指示内容作为指示信号输出到系统控制部20。显示部12例如由CRT (Cathode Ray Tube 阴极射线管)显示器、液晶显示器等构成,显示字符或图像等信息。通信部13连接到网络 NW等,对与购物服务器2、管理终端3、店铺终端4、用户终端5等的通信状态进行控制。驱动部 14 例如从软盘、CD (Compact Disc 压缩盘)、DVD (Digital Versatile Disc 数字多功能盘)等盘式DK读出数据等,另一方面,向该盘式DK记录数据等。存储部15例如由硬盘驱动器等构成,存储各种程序和数据等。此外,在存储部15中构建有素材提取数据库101。 输入输出接口部16进行操作部11 存储部15与系统控制部20之间的接口处理。系统控制部 20 由 CPU (Central Processing Unit 中央处理器)17、ROM (Read Only Memory 只读存储器)18和RAM (Random Access Memory 随机存取存储器)19等构成。系统控制部20通过CPU 17读出并执行存储在ROM 18和存储部15中的各种程序来控制内容数据生成服务器1的各个部分。此外,系统控制部20通过执行内容数据生成软件(特有内容数据判定程序的一例),从而作为提取单元、计算单元、判定单元和生成单元发挥功能。另外,内容数据生成软件等例如可经由网络NW从其他服务器装置等取得,也可以记录到⑶-ROM等盘式DK中并经由驱动部14读入。
内容数据生成软件是用于根据商品详细页面特有的内容数据生成Flash内容数据的程序。如图3所示,内容数据生成软件由管理部、素材提取引擎、SWFGhockWave Flash Object)生成引擎等构成。管理部是用于实现如下目的的软件对素材提取引擎和SWF引擎的执行进行控制,并且向利用内容数据生成软件的用户(店铺工作人员或系统管理者)提供用于生成Flash内容数据的⑶I (Graphical User hterface 图形用户界面)。素材提取引擎是用于实现如下目的的软件从商品详细页面的HTML文档中提取作为Web素材的内容数据,并且判定商品详细页面特有的内容数据。内容数据的提取是以后述的内容数据块 (内容数据组的一例)为单位进行的。SWF引擎是根据所给出的1个或多个内容数据(Web素材)来生成Flash内容数据的软件。另外,在生成Flash内容数据以外的富互联网应用作为新的内容数据的情况下,也可以替代SWF生成引擎,例如应用微软公司的Silverlight (商标)的生成引擎。此外,还可以应用利用Ajax (Asynchronous JavaScript (注册商标)+XML) 等技术来生成实现动态页面的脚本的软件。以下,对Flash内容数据的生成概要进行说明。如图3所示,系统控制部20从购物服务器2取得登记在商品详细页面数据库201中的HTML文档并进行分析,以内容数据块为单位提取作为Web素材的内容数据。并且,针对作为其提取结果提取出的每个内容数据块, 将内容数据块对应信息(内容数据信息的一例)登记到素材提取数据库101中(1)。该处理是在Flash内容数据生成前预先进行的,基本上针对登记在商品详细页面数据库201中的所有HTML文档、即构成购物站点的所有商品详细页面进行提取。之后,由系统管理者或店铺工作人员指定作为Flash内容数据的生成对象的商品详细页面的HTML文档的URL(2)。于是,系统控制部20根据所指定的URL从购物服务器2 取得HTML文档,提取内容数据块。然后,控制部20参照素材提取数据库101,计算提取出的各内容数据块在所有商品详细页面中的出现频度。作为所计算的出现频度,可以是出现次数(回数),也可以是出现次数相对于所有商品详细页面的所有内容数据块的比例(相对回数)。并且,系统控制部20根据出现频度,判定与指定的URL对应的商品详细页面特有的内容数据块。具体而言,系统控制部20将出现频度最小的内容数据块判定为与指定的URL对应的商品详细页面特有的内容数据块(3)。系统控制部20经由购物服务器2从商品详细页面数据库201中取得被判定为特有内容数据块的内容数据块所包含的内容数据。系统控制部20根据所取得的内容数据生成Flash内容数据0)。接着,系统管理者或店铺工作人员下载所生成的Flash内容数据 (5)。另外,也可以在Flash内容数据的下载前,由系统管理者或店铺工作人员对Flash内容数据进行适当修正。接着,对内容数据块的提取方法进行说明。另外,在本实施方式中,提取文本数据和图像数据作为Web素材。例如,商品详细页面的结构(布局)如图4所示。作为Web素材的各内容数据在商品详细页面上,分别按照每个集合(块)进行显示。该各个集合相当于内容数据块。利用HTML文档所描述的DIV标签和TABLE标签(预定的标签的一例)将各内容数据分别分类为内容数据块。即,各内容数据利用DIV标签和TABLE标签而分块化(分组化)。另外, 将DIV标签和TABLE标签称作“分块化标签”。在图4中,显示了内容数据块301 306。内容数据块301例如是页面的标题部分的内容数据块,由文本A和图像a构成。此外,内容数据块302例如是用于移动到与各种类别的商品相关的网页的导航部分的内容数据块,例如由表示接向其他网页的链接的文本B、 文本C和文本D构成。此外,内容数据块303例如是显示与商品相关的信息的内容数据块, 由表示商品名等的目录的文本E、内容数据块304和内容数据块305构成。由此,内容数据块有时也成为嵌套状、即层级结构。此时,设内容数据块303所包含的内容数据仅为文本E, 内容数据块304和内容数据块305与内容数据块303相独立。内容数据块304例如是表示商品的详细情况的内容数据块,由表示详细说明的文本F、作为商品等的图像的图像b和图像c构成。内容数据块305例如是表示商品购买时的一般注意事项等的内容数据块,由文本G和文本H构成。内容数据块306例如是表示版权显示的内容数据块,由文本I构成。这些内容数据块中的内容数据块301、302、305和306在图4所示的商品详细页面以外的商品详细页面上也比较频繁地出现。另一方面,内容数据块303(文本E)和内容数据块304无论是仅用于该商品详细页面、还是用于其他商品详细页面,其频度都比内容数据块301、302、305和306小。因此,例如将内容数据块303或内容数据块304判断为该商品详细页面特有的内容数据块。图5用DOM(Document Object Model 文档对象模型)树、即树形结构来表示图4 所示的商品详细页面的HTML文档。另外,在图5所示的DOM树中,省略了本实施方式的说明中不需要的标签节点的图示。在DOM树中,将表示DIV标签的DIV节点和表示TABLE标签的TABLE节点设为将各内容数据分块为内容数据块的节点(以下称作“分块化节点”)。系统控制部20例如通过深度优先搜索对DOM树进行搜索,确定内容数据块。具体而言,系统控制部20在发现了分块化节点时,将以该节点为顶点的子树的各个节点处规定的内容数据统一起来而作为内容数据块。但是,当分层地规定内容数据块的结果是,发现了某个分块化节点(以下称作 “上层的分块化节点”)后,从该分块化节点的子孙节点中进一步发现了分块化节点(以下称作“下层的分块化节点”)时,对内容数据块进行分割。例如,当设节点与路由节点的距离越近,节点在层级上的层级越高时,将与以上层的分块化节点为顶点的子树(以下称作“上层子树”)相应的内容数据块分为与以下层的分块化节点为顶点的子树(以下称作“下层子树”)相应的内容数据块、以及与上层子树中除下层子树以外的部分相应的内容数据块(例如内容数据块304和内容数据块30 。此时,前者的内容数据块在阶层上比后者的内容数据块低。例如,内容数据块301、302、303和306的层级为1,内容数据块304和305的层级为2。即,层级的值越小,层级越高。如果用HTML文档的标签的描述来说明该情况,当基本上描述分块化标签时,把在分块化标签所夹着的范围内描述了规定的内容数据统一成与该分块化标签对应的内容数据块。但是,在分层地描述了分块化标签的情况下,把在某个分块化标签所夹着的范围内描述了规定的内容数据中的、除了在比该分块化标签更下层描述的分块化标签所夹着的范围内描述了规定的内容数据以外的内容数据统一成与该分块化标签对应的内容数据块。在这样地提取出内容数据块后,系统控制部20将表示提取结果的内容数据块对应信息登记到素材提取数据库101中。如图6所示,针对每个内容数据块登记内容数据块对应信息(标号401)。内容数据块对应信息由提取源的HTML文档的URL设定部分(标号 402)和块构成信息(标号403)构成。在块构成信息中,设定有提取出的各内容数据。此处,关于文本数据,设定DOM树中的文本节点的内容。另一方面,关于图像数据,替代图像数据自身,而设定作为DOM树中表示IMG标签的IMG节点的src属性的图像数据的URL。[1-3.购物系统的动作]接着,使用图7至图12对购物系统S的动作进行说明。[1-3-1从所有商品详细页面提取内容数据块时]图7是示出本实施方式的内容数据生成服务器1的系统控制部20的素材提取处理中的处理例的流程图。素材提取处理例如定期地执行,在根据系统管理者的操作从管理终端3发送来素材提取处理的执行请求时,开始执行素材提取处理。在素材提取处理中,系统控制部20对登记在商品详细页面数据库201中的所有HTML文档进行分析。为此,系统控制部20例如可以预先从购物服务器2取得登记在商品详细页面数据库201中的HTML文档的一览信息, 并根据该一览信息取得HTML文档,也可以从购物站点的首页的HTML文档逐个追寻链接,依次取得商品详细页面的HTML文档。如图7所示,系统控制部20对素材提取数据库101进行初始化(步骤Si)。具体而言,系统控制部20在素材提取数据库101中已登记有内容数据块对应信息的情况下,从素材提取数据库101删除所有的内容数据块对应信息。接着,系统控制部20确定所有商品详细页面中最初应取得的商品详细页面的 HTML文档的URL (步骤S》,将设定了所确定的URL的请求发送到购物服务器2,由此从该购物服务器2取得HTML文档(步骤S; )。接着,系统控制部20指定所取得的HTML文档,执行后述的单页对应提取处理(步骤S4)。在该单页对应提取处理中,从所取得的HTML文档提取内容数据块,登记内容数据块对应信息。接着,系统控制部20判定是否已提取出所有商品详细页面的内容数据块(步骤 S5)。此时,系统控制部20在存在尚未提取内容数据块的商品详细页面的情况下(步骤S5 否),确定下一个商品详细页面的HTML文档的URL (步骤S6),进而转移到步骤S3。并且,系统控制部20在反复执行步骤S3 S6的处理而提取出所有商品详细页面的内容数据块后 (步骤S5 是),结束素材提取处理。另外,系统控制部20也可以不对素材提取数据库101进行初始化,从而不重新登记内容数据块对应信息。例如,系统控制部20可以不对素材提取数据库101进行初始化,而是针对执行上次素材提取处理后新生成的商品详细页面,生成内容数据块对应信息并追加登记到素材提取数据库101中,并且针对执行上次素材提取处理后更新的商品详细页面, 生成内容数据块对应信息并更新登记到素材提取数据库101。图8是示出本实施方式的内容数据生成服务器1的系统控制部20的单页对应提取处理中的处理例的流程图。如图8所示,系统控制部20首先在RAM 19上生成所取得的HTML文档的DOM树 (步骤S21)。接着,系统控制部20将块数NUM设定为0,并且将层级LV设定为0 (步骤S2》。块数NUM是当前时刻已发现的内容数据块的个数。此外,层级LV是在DOM树中当前搜索中的节点所属的内容数据块的层级。NUM和LV均为全局变量,能够从单页对应提取处理和后述的树搜索处理进行访问。
14
接着,系统控制部20指定DOM树的路由节点(步骤S2!3),执行树搜索处理(步骤 S24)。树搜索处理可递归调用,通过该树搜索处理,从网页提取出所有的内容数据块,生成内容数据块对应信息。接着,系统控制部20将通过树搜索处理生成的各内容数据块对应信息登记到素材提取数据库101中(步骤S2Q。系统控制部20在结束该处理后,结束单页对应提取处理。图9是示出本实施方式的内容数据生成服务器1的系统控制部20的树搜索处理中的处理例的流程图。如图9所示,系统控制部20首先判定所指定的节点的种类(步骤S31)。此时,系统控制部20在所指定的节点的种类是DIV节点或TABLE节点(分块化节点)的情况下,即发现了内容数据块的情况下(步骤S31 :DIV或TABLE),转移到步骤S32。在步骤S32中,系统控制部20对块数NUM加1,并且对层级LV加1。接着,系统控制部20将块编号BN[LV]设定为NUM(步骤S33)。块编号BN[LV]是当前搜索中的节点所属的层级LV所表示的内容数据块的块编号。按照内容数据块的发现顺序赋予该块编号。此外,BN[LV]是全局变量。接着,系统控制部20对与块编号为BN[LV]的内容数据块对应的内容数据块对应信息进行初始化(步骤S34)。具体而言,系统控制部20在RAM 19上设定对内容数据块对应信息进行存储的区域,并在该区域中设定所取得的HTML文档的URL。接着,系统控制部20判定在所指定的节点的子节点中,是否存在未搜索的子节点 (步骤S3。。此时,在存在未搜索的子节点的情况下(步骤S35 是),系统控制部20转移到步骤S36。在步骤S36中,系统控制部20指定未搜索的子节点中的一个子节点,执行树搜索处理(步骤S37)。系统控制部20在结束树搜索处理后,转移到步骤S35。并且,系统控制部20在反复执行步骤S35 S37的处理而结束所有子节点的树搜索处理后(步骤S35:否),转移到步骤S38。另外,系统控制部20在所指定的节点的子节点一个都不存在的情况下,也转移到步骤S38。在步骤S38中,系统控制部20将层级LV减去1,结束树搜索处理。在步骤S31中,系统控制部20在所指定的节点的种类为文本节点的情况下(步骤 S31 文本),向与块编号BN[LV]的内容数据块对应的内容数据块对应信息中的块构成信息中追加设定所指定的节点的内容(文本数据)(步骤S39)。系统控制部20在结束该处理后,结束树搜索处理。在步骤S31中,系统控制部20在所指定的节点的种类为IMG节点的情况下(步骤 S31 :IMG),取得作为所指定的节点的src属性而设定的图像数据的URL,向与块编号BN[LV] 的内容数据块对应的内容数据块对应信息中的块构成信息中追加设定所取得的URL(步骤 S40)。系统控制部20在结束该处理后,结束树搜索处理。在步骤S31中,系统控制部20在所指定的节点的种类不是DIV节点、TABLE节点、 文本节点和IMG节点中的任何一个的情况下(步骤S31 其他),判定在所指定的节点的子节点中,是否存在未搜索的子节点(步骤S41)。此时,系统控制部20在存在未搜索的子节点的情况下(步骤S41 是),指定未搜索的子节点中的一个子节点(步骤S4》,执行树搜索处理(步骤S4!3)。系统控制部20在结束树搜索处理后,转移到步骤S41。另一方面,系统控制部20在结束了所指定的节点的所有子节点的树搜索处理的情况下,或者在所指定的节点的子节点一个都不存在的情况下(步骤S41 否),结束树搜索处理。[1-3-2. Flash内容数据生成时]图10是示出本实施方式的内容数据生成服务器1的系统控制部20的内容数据生成处理中的处理例的流程图。在根据系统管理者的操作从管理终端3发送来内容数据生成处理的执行请求时, 或者在根据店铺工作人员的操作从店铺终端4发送来内容数据生成处理的执行请求时,开始内容数据生成处理。并且,当系统管理者或店铺工作人员指定了作为Flash内容数据的生成对象的 HTML文档的URL时,如图10所示,系统控制部20从管理终端3或店铺终端4接收所指定的 URL(步骤阳1)。接着,系统控制部20将设定了接收到的URL的请求发送到购物服务器2, 从该购物服务器2取得HTML文档(步骤S52)。接着,系统控制部20指定所取得的HTML文档,执行后述的特有内容数据块判定处理(步骤S5!3)。在该特有内容数据块判定处理中,从所取得的HTML文档中提取内容数据块,判定该HTML文档所特有的内容数据块。接着,系统控制部20取得构成被判定为特有的内容数据块的各内容数据(步骤 S54)。此时,系统控制部20在取得文本数据的情况下,从与被判定为特有的内容数据块对应的内容数据块对应信息中取得文本数据。另一方面,系统控制部20在取得图像数据的情况下,从与被判定为特有的内容数据块对应的内容数据块对应信息中取得图像数据的URL, 将设定了所取得的URL的请求发送到购物服务器2,由此从购物服务器2取得登记在商品详细页面数据库201中的图像数据。接着,系统控制部20指定所取得的所有内容数据,执行后述的Flash内容数据生成处理(步骤S55)。接着,系统控制部20将Flash内容数据生成处理中生成的Flash内容数据发送到生成请求源的管理终端3或店铺终端4 (步骤S56)。系统控制部20在结束该处理后,结束内容数据生成处理。图11是示出本实施方式的内容数据生成服务器1的系统控制部20的特有内容数据块判定处理中的处理例的流程图。如图11所示,系统控制部20首先与单页对应提取处理同样地,生成所取得的HTML 文档的DOM树(步骤S61),将块数NUM和层级LV设定为0 (步骤S6》,指定DOM树的路由节点(步骤S6!3),执行树搜索处理(步骤S64)。接着,系统控制部20将块编号i设定为1 (步骤S6Q。接着,系统控制部20计算块编号i的内容数据块的出现频度(步骤S66)。具体而言,系统控制部20对树搜索处理中生成的内容数据块对应信息i (与块编号i的内容数据块对应的内容数据块对应信息)的块构成信息、和登记在素材提取数据库 101中的各内容数据块对应信息的块构成信息进行比较。此时,系统控制部20在块构成信息的内容一致的情况下,将出现次数计数为1次。此时,系统控制部20可以忽视块构成信息中的内容数据的规定顺序。此时,系统控制部20也可以在登记于素材提取数据库101中的内容数据块对应信息的块构成信息中规定的一部分内容数据与内容数据块对应信息i的块构成信息中规定的全部内容数据一致的情况下,将出现次数计数为1次。并且,系统控制部20在对内容数据块对应信息的块构成信息中规定的文本数据彼此进行比较时,可以不对文本数据所表示的文章等自身是否一致进行判定,而是对由该文章等表现的实质性内容进行比较。例如,系统控制部20可以进行各个文本数据的词素分析等来从文本数据中提取单词,并对提取出的单词彼此进行比较。并且,系统控制部20可以在所有单词一致的情况下判断为文本数据彼此一致,也可以在单词以预定比例以上一致的情况下判断为文本数据彼此一致。系统控制部20以这种方式对内容数据块对应信息i的块构成信息、和登记在素材提取数据库101中的所有内容数据块对应信息的块构成信息进行比较,计算出现频度。系统控制部20在计算出现频度后,对块编号i加1 (步骤S67),判定块编号i是否大于块数NUM的值(步骤S68)。此时,系统控制部20在块编号i为块数NUM的值以下的情况下(步骤S68:否),转移到步骤S66。并且,系统控制部20在计算出树搜索处理中提取出的所有内容数据块的出现频度后(步骤S68 是),转移到步骤S69。在步骤S69中,系统控制部20对从内容数据块1到块数NUM所表示的块编号为止的所有内容数据块的出现频度彼此进行比较,将出现频度最小的内容数据块判定为特有的内容数据块(步骤S69)。系统控制部20在结束该处理后,结束特有内容数据块判定处理。图12是示出本实施方式的内容数据生成服务器1的系统控制部20的Flash内容数据生成处理中的处理例的流程图。另外,在本实施方式中,作为介绍登载于商品详细页面中的商品的内容数据,以下说明生成Flash内容数据的例子,该Flash内容数据对被判定为特有内容数据块的内容数据块所包含的各内容数据进行幻灯片显示。如图12所示,系统控制部20首先调整所指定的各内容数据的显示尺寸(步骤 S71)。例如,系统控制部20调整图像数据的纵横像素数、并且调整文本数据的字体尺寸等, 以便与Flash内容数据再现时的实际显示尺寸一致。此外,系统控制部20在内容数据的显示尺寸远大于Flash内容数据再现时的实际显示尺寸时,将该内容数据分割为多个。此外, 系统控制部20在内容数据的显示尺寸远小于Flash内容数据再现时的实际显示尺寸时,将多个内容数据结合为1个。接着,系统控制部20决定各内容数据的显示顺序(步骤S7》。各内容数据的显示顺序基本上和树搜索处理中与内容数据块对应信息对应的内容数据的设定顺序相同。艮口, 在HTML文档中,内容数据被规定得越接近该文档的开头,显示顺序越靠前。接着,系统控制部20决定各内容数据的转变方法(步骤S73)。S卩,系统控制部20 在幻灯片显示中,决定对所显示的内容数据进行切换时施加的效果(显示效果)。作为效果,例如有淡入/淡出、滑动、随机块、移除、无效果等。接着,系统控制部20根据步骤S71中进行调整后的各内容数据,并根据步骤S72 和S73中决定的条件来生成Flash内容数据(步骤S74)。系统控制部20在结束该处理后, 结束Flash内容数据生成处理。如以上所说明的那样,根据本实施方式,内容数据生成服务器1的系统控制部20 提取构成与所指定的URL对应的商品详细页面的内容数据,计算构成与所指定的URL对应的商品详细页面的各内容数据的出现频度,将构成与所指定的URL对应的商品详细页面的内容数据中出现频度最小的内容数据判断为该商品详细页面特有的内容数据。因此,内容数据的出现频度越小,内容数据在所指定的商品详细页面以外越不怎么出现,因此,通过判断出现频度最小的内容数据,能够确定所指定的商品详细页面特有的内容数据。因此,能够容易地提取商品详细页面特有的内容数据。此外,内容数据生成服务器1的系统控制部20根据被判断为商品详细页面特有的内容数据的内容数据来生成Flash内容数据。因此,能够生成截取地表现登载于该商品详细页面中的商品内容等或者表现该内容的特征的内容数据。此外,内容数据生成服务器1的系统控制部20计算各内容数据在购物站点所包含的多个商品详细页面上的出现频度。因此,通过计算构成所指定的商品详细页面的各内容数据在购物站点所包含的多个网页上的出现频度,能够判定出购物站点内共同使用的内容数据不是特有的内容数据, 从而能够提高判断精度。此外,内容数据生成服务器1的系统控制部20针对构成购物站点的所有商品详细页面,提取构成商品详细页面的内容数据,将表示提取出的内容数据的内容数据块对应信息预先登记到素材提取数据库101中,并根据登记在素材提取数据库101中的各内容数据块对应信息,计算构成与所指定的URL对应的商品详细页面的各内容数据块的出现频度。因此,根据所有的商品详细页面来计算出现频度,因而能够提高判断特有的内容数据的精度。此外,内容数据生成服务器1的系统控制部20以由1个以上的内容数据构成的内容数据块为单位,提取构成商品详细页面的内容数据,计算构成与所指定的URL对应的商品详细页面的各内容数据块的出现频度,将构成与所指定的URL对应的商品详细页面的内容数据块中出现频度最小的内容数据块判断为该商品详细页面特有的内容数据块。因此,在商品详细页面上,例如像标题部分、导航部分、表示商品的详细情况的部分、表示商品购买时的一般注意事项等的部分、版权显示的部分等那样,在1个以上的内容数据集中地作为内容数据块进行显示的情况下,能够提取出商品详细页面特有的内容数据块。此外,内容数据生成服务器1的系统控制部20根据商品详细页面的HTML文档提取构成该商品详细页面的内容数据,在HTML文档中根据DIV标签或TABLE标签来确定内容数据块。因此,能够根据DIV标签,确定在HTML文档生成时明确地分块后的1个以上的内容数据,并且能够利用TABLE标签来确定用表形式进行分块而表示的1个以上的内容数据, 因此,例如在利用这些标签对商品详细页面特有的内容数据和非特有内容数据进行分块化的情况下,能够提高判断网页特有的内容数据的精度。另外,在上述第1实施方式中,对与构成所指定的商品详细页面的各内容数据块对应的内容数据块对应信息、和登记在素材提取数据库101中的所有内容数据块对应信息进行比较来计算各出现频度。即,在计算构成所指定的商品详细页面的各内容数据块的出现频度时,计算在以购物站点所包含的所有商品详细页面为对象的范围内出现的频度,但是也可以不以所有商品详细页面为对象。例如,可以构成为能够指定作为对象的店铺,计算在以与所指定的店铺对应的所有商品详细页面为对象的范围内出现的频度。此外,例如也可以将预定页面数量的商品详细页面设为对象。此外,可以不从各商品详细页面预先提取内容数据块。例如,只要在Flash内容数据生成时,针对计算出现频度所需的各商品详细页面提取内容数据块即可。此外,在上述第1实施方式中,在由系统管理者或店铺工作人员指定了商品详细页面的HTML文档的URL时,生成了 Flash内容数据,但是,例如也可以在生成了新的商品详细页面时、或更新了商品详细页面时,生成与新生成或更新后的商品详细页面相关的Flash 内容数据。此外,在上述第1实施方式中,仅将出现频度最小的内容数据块作为网页特有的内容数据,但是,例如也可以将从出现频度最小的内容数据块到第N(N为2以上的自然数) 小的内容数据的N个内容数据块作为网页特有的内容数据块。这例如适用于进行期望处理所需的内容数据块的个数被预先设定为2个以上的情况。此外,例如将进行期望处理所需的内容数据(不是内容数据块)的个数预先设定为2个以上的情况下,也可以进行如下处理在仅借助出现频度最小的内容数据块所包含的内容数据不够时,将出现频度第2小的内容数据块追加认定为网页特有的内容数据,在仅借助出现频度最小的内容数据块和第2 小的内容数据块所包含的内容数据不够时,将出现频度第3小的内容数据块追加认定为网页特有的内容数据。此外,在上述第1实施方式中,使用网页特有的内容数据来生成Flash内容数据, 但是,也可以生成Flash内容数据以外的内容数据(例如动态图像数据、静态图像数据、电子文档等)。此外,作为网页特有的内容数据的用途,不限于新的内容数据的生成。例如,也可以判定网页特有的图像数据,将被判定为特有图像数据的图像数据作为代表该网页的图像数据显示到检索结果等中。[2.第2实施方式]下面,参照附图来详细说明本发明的实施方式。另外,以下说明的实施方式是将本发明应用于提供博客服务的博客系统中进行博客页面发送的服务器装置时的实施方式。[2-1.博客系统的结构和功能概要]首先,使用图13对本实施方式的博客系统BS的结构和功能概要进行说明。图13是示出本实施方式的博客系统BS的概要结构的一例的图。在图13中,针对与图1相同的要素标注相同标号。如图13所示,博客系统BS构成为包含作为特有内容数据判定装置和关联内容数据插入装置的一例的博客服务器6、管理终端3和多个用户终端5。并且,博客服务器6和各用户终端5可经由网络NW,例如使用通信协议中的TCP/IP等相互进行数据的收发。此外,博客服务器6和管理终端3经由LAN等网络进行连接。在这种结构的博客系统BS中,博客服务器6是根据来自用户终端5的请求,发送构成博客服务站点的网页的Web服务器。当利用用户终端5的用户进行了博客服务站点的用户登记时,该用户能够在该博客服务站点中对用户自身的博客进行管理。并且,进行用户登记后的用户(博主)能够访问博客服务站点,对自身的博客进行更新(追加博客消息(每 1件博客的记录))。因此,博客服务器6响应于博客的更新,生成或更新登载有1个或多个博客消息的博客页面,作为博客的网页。并且,博客服务器6具有博客页面数据库601,并将博客页面登记到该博客页面数据库601中。此外,博客服务器6对由系统管理者指定的博主的博客页面插入广告内容数据 (关联内容数据的一例)。作为广告内容数据,例如有广告文章的文本数据、横幅广告的图像数据、动态图像数据、由Adobe Flash (商标)或Silverlight (商标)等生成的富互联网应用(RIA)等。插入到各博客页面的广告内容数据是表示与商品或服务相关的广告的内容数据,该商品或服务与对象的博客页面中登载的博客消息相关联。因此,博客服务器6具有登记有多个广告内容数据的广告数据库602。并且,博客服务器6从博客页面中提取博客消息,进一步从博客消息中提取特征词,选择与提取出的特征词相关联的广告内容数据。用户终端5是作为博主的用户、或阅览博客的博主所使用的终端装置。作为用户终端5,例如可采用个人计算机、PDA、移动电话机等。管理终端3是博客系统BS的系统管理者所使用的终端装置。作为管理终端3,例如可采用个人计算机等。[2-2.博客服务器的结构和功能]接着,使用图14对博客服务器6的结构和功能进行说明。图14是示出本实施方式的博客服务器6的概要结构的一例的框图。此外,图15 是示出从指定博主到在博客页面中插入广告内容数据为止的处理的概要的图。此外,图16 是示出网页的结构例的图。并且,图17是示出从HTML文档生成的DOM树的一例的图。此外,图18是示出存储在存储部65中的内容数据块对应信息的内容的一例的图。如图14所示,博客服务器6具有操作部61、显示部62、通信部63、驱动部64、作为存储单元的一例的存储部65、输入输出接口部66和系统控制部70。并且,系统控制部70 和输入输出接口部66经由系统总线71进行连接。操作部61例如由键盘、鼠标等构成,受理来自系统管理者等的操作指示,并将其指示内容作为指示信号输出到系统控制部70。显示部62例如由CRT显示器、液晶显示器等构成,显示字符或图像等信息。通信部63连接到网络NW等,对与管理终端3、用户终端5 等之间的通信状态进行控制。驱动部64例如从软盘、CD、DVD等盘式DK中读出数据等,另一方面,向该盘式DK中记录数据等。存储部65例如由硬盘驱动器等构成,存储各种程序和数据等。此外,在存储部65 中构建有博客页面数据库601和广告数据库602。在博客页面数据库601中,例如与其页面的URL和作为博主识别信息的用户ID对应地登记有构成博客服务站点的各博客页面(博客页面的HTML文档(文档数据的一例)、作为博客页面的素材的图像数据等)。在广告数据库602中,与和该广告内容数据的广告对象的商品或服务相关联的关键词对应地登记有多个广告内容数据。此处,在广告内容数据中包含有文本数据以外的内容数据的情况下,还对应地登记有该内容数据的URL。此外,为了在用户选择了显示在博客页面上的广告内容数据时移动到与广告对象的商品或服务相关的网页,还对应地登记有该网页的URL。输入输出接口部66进行操作部61 存储部65与系统控制部70之间的接口处理。 系统控制部70由CPU 67、ROM 68和RAM 69等构成。系统控制部70通过CPU 67读出并执行存储在ROM 68和存储部65中的各种程序来控制博客服务器6的各个部分。此外,系统控制部70通过执行广告内容数据插入软件(特有内容数据判定程序的一例),从而作为提取单元、计算单元、判定单元和插入单元发挥功能。另外,广告内容数据插入软件等例如可经由网络NW从其他服务器装置等中取得, 也可以记录到⑶-ROM等盘式DK中并经由驱动部64读入。广告内容数据插入软件是用于将广告内容数据插入到博客页面的程序。如图15 所示,广告内容数据插入软件由管理部、素材提取引擎、文章分析引擎和广告选择部等构成。管理部控制素材提取引擎、文章分析引擎和广告选择部的执行。素材提取引擎是用于实现如下目的的软件从博客页面的HTML文档中提取作为Web素材的内容数据,并且判定博客页面特有的内容数据。内容数据的提取是以内容数据块(内容数据组的一例)为单位进行的。在本实施方式中,例如,包含其消息特有的内容的博客消息相当于博客页面特有的内容数据块。文章分析引擎是用于从作为博客页面特有的内容数据而提取出的博客消息中提取该博客页面的特征词的软件。广告选择部是将提取出的特征词作为关键词来选择与博客页面相关联的广告内容数据的软件。以下,对广告内容数据的插入概要进行说明。如图15所示,由系统管理者指定对象的博主的用户ID(I)。于是,系统控制部70从博客页面数据库601中取得与所指定的用户ID对应的所有博客页面的HTML文档并进行分析,以内容数据块为单位提取作为Web素材的内容数据。并且,针对作为其提取结果提取出的每个内容数据块生成内容数据块对应信息(内容数据信息的一例M2)。接着,系统控制部70计算提取出的各内容数据块在与所指定的用户ID对应的所有博客页面中的出现频度。本实施方式中计算的出现频度例如是出现次数(回数)。并且,系统控制部70根据出现频度,判定各博客页面特有的内容数据块。具体而言,系统控制部70将各博客页面中出现频度为预定阈值以下的内容数据块判定为该博客页面特有的内容数据块(3)。系统控制部70对被判定为特有内容数据块的内容数据块、即博客消息进行词素分析等分析,提取每个博客页面的特征词。作为特征词的提取方法,存在各种方法,并且是公知的,因此省略详细说明。作为一例,将出现频度最高的单词设为特征词。接着,系统控制部70参照广告数据库602,选择与提取出的特征词相关联的广告内容数据(5)。接着,系统控制部70在博客页面的HTML文档中插入用于将所选择的广告内容数据插入到博客页面而进行显示的规定(标签或数据自身的描述等)。接着,对内容数据块的提取方法进行说明。另外,在本实施方式中,提取文本数据和图像数据作为Web素材。例如,博客页面的结构(布局)如图16所示。作为Web素材的各内容数据在博客页面上,分别按照每个集合(块)进行显示。该各个集合相当于内容数据块。利用HTML文档所描述的DIV标签和TABLE标签(预定的标签的一例)将各内容数据分别分为内容数据块。即,各内容数据利用DIV标签和TABLE标签而分块化(分组化)。在图16中,显示了内容数据块701 706。内容数据块701例如是页面的标题部分的内容数据块,由文本A和图像a构成。此外,内容数据块702例如是用于移动到其他网页的导航部分的内容数据块,例如由表示接向其他网页的链接的文本B、文本C和文本D构成。此外,内容数据块703例如是与博客的显示区域对应的内容数据块,由表示博客等的目录的文本E、内容数据块704和内容数据块705构成。由此,内容数据块有时成为嵌套状、即
21层级结构。此时,设内容数据块703所包含的内容数据仅为文本E,内容数据块704和内容数据块705与内容数据块703相独立。内容数据块704和705分别是1件博客消息。内容数据块704由表示博客消息的标题和正文的文本F和G构成。内容数据块705由表示博客消息的标题和正文的文本H、I和J、以及与博客消息相关联地由博主登记的图像b和c构成。内容数据块706例如是表示版权显示的内容数据块,由文本I构成。这些内容数据块中的内容数据块701、702、703和706在图16所示的博客页面以外的博客页面上也比较频繁地出现。另一方面,内容数据块704和内容数据块705基本上仅用于该博客页面。因此,将内容数据块704或内容数据块705判断为该博客页面特有的内容数据块。在本实施方式中,需要将与包含该消息特有的内容的博客消息相应的内容数据块判定为特有的内容数据块。这种包含特有内容的博客消息有时在1个页面内包含多个。因此,将出现频度为预定阈值以下的内容数据块全部视为特有的内容数据块。例如,将阈值的值设定为1次。于是,将包含特有内容的博客消息判定为特有的内容数据块,不将仅包含与其他博客消息相同内容的博客消息判定为特有的内容数据块。此外,标题部分、导航部分、 版权显示部分等这样的、各博客页面中公共的内容数据块的出现频度分别为2次以上,因此也不将这些部分判定为特有的内容数据块。另外,将阈值预先存储到存储部65中。图17用DOM树、即树形结构来表示图16所示的博客页面的HTML文档。另外,在图17所示的DOM树中,省略了本实施方式的说明中不需要的标签节点的图示。在与第1实施方式的情况同样地提取出内容数据块后,系统控制部70将表示提取结果的内容数据块对应信息临时保存到存储部65中。如图18所示,针对每个内容数据块保存内容数据块对应信息(标号401)。另外,在本实施方式中,从被判定为博客页面特有的内容数据块的内容数据块、即博客消息中提取特征词,因此,只要提取文本数据即可,可以不提取图像数据。[2-3.博客系统的动作]接着,使用图19至图21对博客系统BS的动作进行说明。图19是示出本实施方式的博客服务器6的系统控制部70的广告内容数据插入处理中的处理例的流程图。例如在根据系统管理者的操作从管理终端3发送来广告内容数据插入处理的执行请求时,开始广告内容数据插入处理。并且,当系统管理者指定了管理作为广告内容数据插入对象的博客的博主的用户 ID时,如图19所示,系统控制部70从管理终端3接收所指定的用户ID (步骤S101)。接着,系统控制部70将块数NUM设定为0 (步骤S102)。块数NUM是当前时刻已发现的内容数据块的个数。此外,NUM是全局变量,可从后述的单页对应提取处理和树搜索处理进行访问。接着,系统控制部70从博客页面数据库601中取得与接收到的用户ID对应的最初的博客页面的HTML文档(步骤S103)。接着,系统控制部70指定所取得的HTML文档,执行后述的单页对应提取处理(步骤S104)。在该单页对应提取处理中,从所取得的HTML文档中提取内容数据块,并保存内容数据块对应信息。接着,系统控制部70判定是否已提取出与接收到的用户ID对应的所有博客页面的内容数据块(步骤S105)。此时,系统控制部70在存在尚未提取内容数据块的博客页面的情况下(步骤S105 否),从博客页面数据库601中取得下一个博客页面的HTML文档(步骤S106),进而转移到步骤S104。并且,系统控制部70在反复执行步骤S104 S106的处理而提取出所有博客页面的内容数据块后(步骤S105 是),转移到步骤S107。在步骤S107中,系统控制部70确定与接收到的用户ID对应的最初的博客页面的 HTML文档。接着,系统控制部70指定所取得的HTML文档,执行后述的特有内容数据块判定处理(步骤S108)。在该特有内容数据块判定处理中,从所确定的HTML文档中提取内容数据块,判定博客页面特有的内容数据块。接着,系统控制部70从构成被判定为特有的内容数据块的各文本数据中提取博客页面的特征词(步骤S109)。接着,系统控制部70根据提取出的特征词,将与博客页面相关联的广告页面插入到该博客页面中(步骤S110)。具体而言,系统控制部70将提取出的特征词作为关键词,参照广告数据库602来选择与该关键词对应的广告内容数据。接着,系统控制部70将所选择的广告内容数据的规定插入到所确定的HTML文档上的预定位置处。 例如,系统控制部70在广告内容数据中包含有文本数据的情况下,将该文本数据的内容追加到HTML文档中。此外,例如,系统控制部70在广告内容数据中包含有图像数据的情况下, 将用于显示该图像数据的IMG标签追加到HTML文档中。此外,例如,系统控制部70将接向与广告对象的商品或服务相关的网页的链接信息追加到HTML文档中。系统控制部70在将广告内容数据的规定插入于所确定的HTML文档后,用该HTML 文档对登记在博客页面数据库601中的HTML文档进行更新(步骤S111)。接着,系统控制部70判定是否已在与接收到的用户ID对应的所有博客页面中插入了广告内容数据(步骤S112)。此时,系统控制部70在存在尚未插入广告内容数据的博客页面的情况下(步骤S112:否),确定下一个博客页面的HTML文档(步骤S113),进而转移到步骤S108。并且,系统控制部70在反复执行步骤S108 S113的处理而在所有博客页面中插入了广告内容数据后(步骤S112 是),从存储部65删除保存在存储部65中的所有内容数据块对应信息(步骤S114)。系统控制部70在结束该处理后,结束广告内容数据插入处理。图20是示出本实施方式的博客服务器6的系统控制部70的单页对应提取处理中的处理例的流程图。如图20所示,系统控制部70首先在RAM 69上生成所取得的HTML文档的DOM树 (步骤 S121)。接着,系统控制部70将层级LV设定为0 (步骤S122)。层级LV是DOM树中当前搜索中的节点所属的内容数据块的层级。LV是全局变量,可从单页对应提取处理和树搜索处理进行访问。接着,系统控制部70指定DOM树的路由节点(步骤S123),执行树搜索处理(步骤 S124)。树搜索处理的处理内容与第1实施方式的情况相同,因此省略详细说明。接着,系统控制部70将通过树搜索处理生成的各内容数据块对应信息保存到存储部65中(步骤S125)。系统控制部70在结束该处理后,结束单页对应提取处理。图21是示出本实施方式的内容数据生成服务器1的系统控制部70的特有内容数据块判定处理中的处理例的流程图。如图21所示,系统控制部70首先与单页对应提取处理同样地,生成所指定的HTML 文档的DOM树(步骤S161),将块数NUM和层级LV设定为0 (步骤S162),指定DOM树的路由节点(步骤S163),执行树搜索处理(步骤S164)。接着,系统控制部70将块编号i设定为1 (步骤S165)。接着,系统控制部70计算块编号i的内容数据块的出现频度(步骤S166)。具体而言,系统控制部70对步骤S164的树搜索处理中生成的内容数据块对应信息i的块构成信息、和保存在存储部65中的各内容数据块对应信息的块构成信息进行比较,计算出现频度。出现频度的计算方法与第1实施方式的情况相同。系统控制部70在计算了出现频度后,判定计算出的出现频度是否为存储部65所存储的阈值以下(步骤S167)。此时,系统控制部70在出现频度为阈值以下的情况下(步骤S167:是),将块编号i的内容数据块判定为特有的内容数据块之一(步骤S168)。艮口, 系统控制部70将块编号i的内容数据块添加到指定的HTML文档所对应的博客页面特有的内容数据块中。系统控制部70在出现频度大于阈值的情况下(步骤S167 否),或者在结束了步骤S168的处理的情况下,对块编号i加1 (步骤S169),判定块编号i是否大于块数NUM的值 (步骤S170)。此时,系统控制部70在块编号i为块数NUM的值以下的情况下(步骤S170: 否),转移到步骤S166。并且,系统控制部70在计算出树搜索处理中提取出的所有内容数据块的出现频度后(步骤S170 是),结束特有内容数据块判定处理。另外,虽然系统控制部70是通过步骤S164的树搜索处理来提取内容数据块,但是,由于在源于广告内容数据插入处理而执行的单页对应提取处理(图19步骤S104)中, 已针对与接收到的博主的用户ID对应的所有博客页面提取了内容数据块,并将作为其结果的内容数据块对应信息存储到存储部65中,因此,不用再次提取内容数据块。此时,可根据所指定的HTML文档的URL,从存储部65中取得构成该HTML文档所对应的博客页面的各内容数据块的内容数据块对应信息。[2-4.变形例 1]接着,使用图22来说明本实施方式的变形例。在之前的说明中,当由系统管理者指定了博主时,将广告内容数据插入到所指定的博主的博客页面中,但是也可以在更新了博客后的时机,插入广告内容数据。图22是示出本实施方式的变形例的博客服务器6的系统控制部70的博客更新时处理中的处理例的流程图。另外,在图22中,对与图19同样的处理标注相同的步骤编号。首先,在博客的更新之前,博主操作用户终端5而访问博客服务站点,并输入自身的用户ID和密码而登录到博客服务站点。响应于该登录,博客服务器6对用户终端5发布会话ID,将会话ID和用户ID对应起来进行管理。由于在从用户终端5向博客服务器6的请求中包含有会话ID,因此博客服务器6能够确定是来自哪个博主的请求。并且,当博主进行了新的博客消息的登记操作时,用户终端5将博客消息的数据 (标题和正文等文本数据、图像数据等)发送到博客服务器6,如图22所示,博客服务器6 的系统控制部70接收博客消息的数据(步骤S171)。接着,系统控制部70从博客页面数据库601中取得与博主的用户ID对应的博客页面中应更新的博客页面的HTML文档(步骤S172)。接着,系统控制部70根据接收到的博客消息的数据来更新所取得的HTML文档(步骤S173)。例如,系统控制部70在所取得的HTML文档中追加博客消息用的TABLE标签或 DIV标签,以被该标签夹着的形式,追加接收到的博客消息的标题和正文的文本数据等。接着,系统控制部70用追加了博客消息的数据后的HTML文档,对登记在博客页面数据库601 中的HTML文档进行更新(步骤S174)。接着,系统控制部70从与博主的用户ID对应的所有博客页面中提取内容数据块 (步骤 S103 S106)。接着,系统控制部70指定在步骤S173中进行更新后的HTML文档,执行特有内容数据块判定处理(步骤S108),从构成被判定为特有的内容数据块的各文本数据中提取博客页面的特征词(步骤S109)。接着,系统控制部70从所指定的HTML文档中删除已有的广告内容数据的规定 (步骤S775),将提取出的特征词作为关键词插入相关联的广告内容数据的规定(步骤 S110)。S卩,系统控制部70对显示在博客页面上的广告内容数据进行变更。接着,系统控制部70用插入了广告内容数据的规定后的HTML文档,对登记在博客页面数据库601中的HTML文档进行更新(步骤S111),从存储部65中删除所有的内容数据块对应信息(步骤Sl 14)。另外,必须与博客的更新相伴地新生成博客页面时的处理也基本与上述处理相同。但是,由于在新生成的博客页面中尚未插入广告内容数据,因此不进行步骤S175中的广告内容数据的规定的删除。[2-5.变形例 2]在之前的说明中,作为用于判定博客页面特有的内容数据的阈值,设定为1次,但是也可以将2次以上的值设定为阈值。例如,在将阈值设定为1次的情况下,提取出现频度为1次的内容数据块(博客消息)作为博客页面特有的内容数据,从提取出的博客消息的文本数据中提取特征词。此时, 如果提取出的各博客消息的文本数据的数据量较少,之后提取的单词的数量减少。并且有时,在不能提取出足够数量的单词时,不能完全判断哪个单词是特征词,或者不能准确地进行判断。因此,通过提高阈值的值,放宽判定为博客页面特有的内容数据的条件,由此增加作为提取特征词的对象的博客消息。由此,能够提取出特征词。具体而言,博客服务器6的系统控制部70最初将阈值设定为1次,并判定博客页面特有的内容数据块,由此提取出现次数为1次的博客消息来提取特征词。此时,系统控制部70在判定为不能提取出特征词的情况下,将阈值变更为2次,进行博客消息的提取和特征词的提取。系统控制部70在判定为即使这样也不能提取出特征词的情况下,将阈值变更为3次,进行博客消息的提取和特征词的提取。系统控制部70持续执行这种处理,直至能够提取出特征词。即,在不能正常地进行基于特有内容数据块的提取结果的处理的情况下, 提高阈值。但是,如果无限制地提高阈值,则也提取出并非博客消息的内容,因此当阈值提高到一定程度时,中断处理。例如,当阈值提高到与所指定的博主对应的博客页面的页数的值时,会提取出各博客页面中共同使用的内容数据块,因此,可以在阈值达到博客页面的页数的值时,中断处理。
并且例如,当设每隔博客页面的预定页数仅出现1次的内容数据块为博客页面特有的内容数据块时,可以在系统管理者侧预先进行设定。此时,可以与指定的博主所对应的博客页面的页数成比例地改变阈值的出现次数。[2-6.变形例 3]在之前的说明中,作为用于判定博客页面特有的内容数据的阈值,使用了出现次数(回数),但是,也可以使用出现次数相对于与指定的博主对应的博客页面的所有内容数据块的比例(相对回数)。例如设为可由其他用户对博主登记的博客消息登记评论,且能够与博客消息一起阅览评论。该评论的文本数据也是构成博客页面的内容数据之一。博客服务器6的系统控制部70在将评论的文本数据追加到博客页面时,在该博客页面的HTML文档中追加了分块化标签的描述后,追加该文本数据,由此使评论的文本数据成为与博客消息及其他评论的文本数据独立的内容数据块。并且,系统控制部70在提取了评论的文本数据作为内容数据块,且提取出的评论的文本数据具有特有内容的情况下,将与该评论相关联的广告内容数据插入到博客页面中。另外,在对某个博客消息登记了多条评论的情况下,多条评论的各个内容例如有时会像多数派意见和少数派意见那样,分为频繁出现的内容和不怎么频繁出现的内容。此时,多数派意见是一般的意见,可认为是不怎么具有特征性的内容。另一方面,少数派意见是特别的意见,可认为是博客页面特有的内容。在这种情况下,希望提取出表示少数派意见的评论作为博客页面特有的内容数据。但是,多数派意见的数量和少数派意见的数量是相对的,随着评论的总数而变化。 在这种情况下,在使用回数作为出现频度时,例如在将阈值设为1次时,有时不能准确地提取出不频繁出现的内容(少数派意见)。因此,使用相对回数作为出现频度,将阈值设定为预定的比例。此时的阈值可任意地进行设定。例如,在将提取出的内容数据块的内容分为 N个模式(N为2以上的整数)的情况下,为了区别少数派意见,对于阈值,可以在小于1+N 的范围内设定阈值。由此,系统控制部70可以根据各个时刻的状况来变更阈值。另外,作为能够对博客等那样的消息登记评论等的系统,例如有其他用户可针对某个用户所登记的微博发表对其进行跟帖的微博的Twitter (商标)、和电子布告牌等。如以上说明的那样,根据本实施方式,博客服务器6的系统控制部70提取构成通过指定HTML文档而依次指定的博客页面的内容数据,计算构成所指定的博客页面的各内容数据的出现频度,将构成所指定的博客页面的内容数据中出现频度为预定阈值以下的内容数据判断为该博客页面特有的内容数据。因此,内容数据的出现频度越小,内容数据在所指定的博客页面以外越不怎么出现,因此,通过判定出现频度是否为阈值以下,由此将满足该条件的所有内容数据确定为所指定的博客页面特有的内容数据。因此,能够容易地提取出博客页面特有的内容数据。此外,博客服务器6的系统控制部70将与所指定的博客页面特有的内容数据相关联的广告内容数据插入到该博客页面中。因此,能够将与博客页面的特征相关联的信息追加到网页中。此外,在构成所指定的博客页面的内容数据中包含有博客消息的文本数据的情况下,博客服务器6的系统控制部70将该文本数据判定为该博客页面特有的内容数据,从博客消息的文本数据中提取该博客页面的特征词,并将该特征词作为关键词,将预先关联的广告内容数据插入到该博客页面中。因此,能够将与博客页面中登载的博客内容相关联的广告追加到该博客页面中。此外,博客服务器6的系统控制部70计算各内容数据在博客服务站点所包含的多个博客页面上的出现频度。因此,通过计算构成所指定的博客页面的各内容数据在博客服务站点所包含的多个网页(例如与所指定的博主的用户ID对应的多个博客页面)上的出现频度,能够判定出博客服务站点内共同使用的内容数据不是特有的内容数据,从而能够提高判断精度。此外,博客服务器6的系统控制部70以由1个以上的内容数据构成的内容数据块为单位,提取构成博客页面的内容数据,计算构成所指定的博客页面的各内容数据块的出现频度,将构成所指定的博客页面的内容数据块中出现频度为阈值以下的内容数据块判断为该博客页面特有的内容数据块。因此,在博客页面上,例如像标题部分、导航部分、显示博客的部分、版权显示的部分等那样,在1个以上的内容数据集中地作为内容数据块进行显示的情况下,能够提取出博客页面特有的内容数据块。此外,博客服务器6的系统控制部70根据博客页面的HTML文档提取构成该博客页面的内容数据,并在HTML文档中根据DIV标签或TABLE标签确定内容数据块。因此,能够根据DIV标签,确定在HTML文档生成时明确地分块后的1个以上的内容数据,并且,能够利用TABLE标签确定用表形式进行分块而显示的1个以上的内容数据, 因此,例如在利用这些标签对博客页面特有的内容数据和非特有内容数据进行分块的情况下,能够提高判断网页特有的内容数据的精度。另外,在上述第2实施方式中,对与构成所指定的博客页面的各内容数据块对应的内容数据块对应信息、和构成与所指定的博主的用户ID对应的所有博客页面的各内容数据块对应信息进行比较,由此计算出各出现频度。即,在计算构成所指定的博客页面的各内容数据块的出现频度时,计算在以与所指定的博主对应的所有博客页面为对象的范围内出现的频度,但是,对象范围不限于此。例如,可以将预定页数的博客页面作为对象,也可以将构成博客服务站点的所有博客页面作为对象。此外,在上述第2实施方式中,作为与网页特有的内容数据相关联的内容数据,将表示与商品或服务相关的广告的广告内容数据插入到该网页中,但是,只要是相关联的内容数据即可,不限于广告内容数据。例如,也可以插入与被判定为特有内容数据的博客消息等内容数据相关联的图像数据(静态图像或动态图像)作为背景图像或插入图像(插图等)。具体而言,例如构建图像数据用的数据库,并在该数据库中对应地登记图像数据和关键词。与图像数据对应的关键词是表示由该图像数据显示的图像的单词或与该图像相关联的单词。并且,从被判定为特有内容数据的内容数据中提取特征词,将提取出的特征词作为关键词,从数据库中选择关联的图像数据。而且,在作为对象的HTML文档的BODY标签中, 插入所选择的图像数据的URL作为背景(kickgroimd)属性,并且在作为对象的HTML文档的预定位置处,插入表示所选择的图像数据的IMG标签。由此,能够在网页中插入与被判定为特有内容数据的博客消息等内容数据的内容相适应的图像。此外,作为网页特有的内容数据的用途,不限于将关联的内容数据插入到网页中。例如,也可以根据网页特有的内容数据生成新内容数据。此外,在上述各实施方式中,作为构成网页的内容数据,提取出文本数据和图像数据,但是,提取对象的内容数据不限于这些数据。例如,也可以是显示在网页上的内容数据、 或者显示网页时再现的内容数据(例如动态图像数据、声音数据、电子文档等)。此外,也可以仅提取预定种类的内容数据。此外,在上述各实施方式中,分组地提取出被DIV标签夹着的内容数据以及被 TABLE标签夹着的内容数据,作为内容数据块,但是,作为对内容数据进行分组的标签,不限于这些标签。此外,在上述各实施方式中,以内容数据块为单位来提取网页特有的内容数据,但是也可以直接逐个地提取各内容数据。此外,在上述各实施方式中,将本发明的特有内容数据判定装置应用于服务器装置,但是,只要能够从存储单元或网络上取得HTML文档即可,也可以将特有内容数据判定装置应用于终端装置等。此外,在上述各实施方式中,将本发明的文档数据应用于HTML文档,但是, 也可以将文档数据应用于用标记语言描述的表示构成网页的内容数据的数据(例如 XHTML (Extensible HyperText Markup Language 可扩展超文本标记语言)文档等)。此外,在上述实施方式中,提取了构成购物站点上的商品详细页面的内容数据、构成博客服务站点上的博客页面的内容数据,但是,作为对象的站点和页面的种类不限于此。标号说明1 内容数据生成服务器;2 购物服务器;3 管理终端;4 店铺终端;5 用户终端;11 操作部;12 显示部;13 通信部;14 驱动部;15 存储部;16 输入输出接口部;17 CPU ;18 =ROM ; 19 =RAM ;20 系统控制部;21 系统总线;101 素材提取数据库;201 商品详细页面数据库;NW 网络;S 购物系统;6 博客服务器;61 操作部;62 显示部;63 通信部;64 驱动部;65 存储部;66 输入输出接口部;67 =CPU ;68 =ROM ;69 =RAM ;60 系统控制部;61 系统总线;601 博客页面数据库;602 广告数据库;BS 博客系统。
权利要求
1.一种特有内容数据判定程序,其特征在于,该特有内容数据判定程序使计算机作为以下单元发挥功能提取单元,其提取构成所指定的网页的内容数据;计算单元,其计算构成所述指定的网页的各内容数据的出现频度;以及判定单元,其根据所述计算的出现频度,判定构成所述指定的网页的内容数据中该网页特有的内容数据。
2.根据权利要求1所述的特有内容数据判定程序,其特征在于,该特有内容数据判定程序使所述计算机发挥如下功能所述判定单元将构成所述指定的网页的内容数据中出现频度最小的内容数据判定为该网页特有的内容数据。
3.根据权利要求1所述的特有内容数据判定程序,其特征在于,该特有内容数据判定程序使所述计算机发挥如下功能所述判定单元将构成所述指定的网页的内容数据中出现频度为预定值以下的内容数据判定为该网页特有的内容数据。
4.根据权利要求1 3中的任意一项所述的特有内容数据判定程序,其特征在于,该特有内容数据判定程序使所述计算机发挥如下功能所述计算单元计算各内容数据在预定站点所包含的多个网页上的出现频度。
5.根据权利要求1 4中的任意一项所述的特有内容数据判定程序,其特征在于,该特有内容数据判定程序使所述计算机发挥如下功能所述提取单元针对所述预定的站点中包含的预定种类的各网页提取构成网页的内容数据,将表示提取出的内容数据的内容数据信息预先存储到存储单元中,所述计算单元根据所述存储的内容数据信息,计算构成所述指定的网页的各内容数据的出现频度。
6.根据权利要求1 5中的任意一项所述的特有内容数据判定程序,其特征在于,该特有内容数据判定程序使所述计算机发挥如下功能所述提取单元以由1个以上的内容数据构成的内容数据组为单位提取构成网页的内容数据,所述计算单元计算构成所述指定的网页的内容数据组的出现频度,所述判定单元判定构成所述指定的网页的内容数据组中该网页特有的内容数据组。
7.根据权利要求6所述的特有内容数据判定程序,其特征在于,该特有内容数据判定程序使所述计算机发挥如下功能所述提取单元根据用预定的标记语言描述的表示构成网页的内容数据的文档数据,提取内容数据组。
8.根据权利要求7所述的特有内容数据判定程序,其特征在于,该特有内容数据判定程序使所述计算机发挥如下功能所述提取单元在表示所述内容数据的文档数据中根据预定的标签来确定内容数据组。
9.根据权利要求1 8中的任意一项所述的特有内容数据判定程序,其特征在于,该特有内容数据判定程序使所述计算机进一步作为生成单元发挥功能,所述生成单元根据被判定为特有内容数据的内容数据,生成新内容数据。
10.根据权利要求9所述的特有内容数据判定程序,其特征在于,该特有内容数据判定程序使所述计算机发挥如下功能所述生成单元将被判定为特有内容数据的内容数据的显示尺寸调整为与预先设定的显示尺寸一致,生成包含调整了显示尺寸后的内容数据的新内容数据。
11.根据权利要求9或10所述的特有内容数据判定程序,其特征在于,该特有内容数据判定程序使所述计算机发挥如下功能所述生成单元生成对被判定为特有内容数据的内容数据施加效果来再现该内容数据的新内容数据。
12.根据权利要求1 8中的任意一项所述的特有内容数据判定程序,其特征在于, 该特有内容数据判定程序使所述计算机进一步作为插入单元发挥功能,所述插入单元将与被判定为特有内容数据的内容数据相关联的关联内容数据插入到所述指定的网页中。
13.根据权利要求12所述的特有内容数据判定程序,其特征在于,该特有内容数据判定程序使所述计算机发挥如下功能在构成所述指定的网页的内容数据包含博客消息的文本数据的情况下,所述判定单元将该文本数据判定为该网页特有的内容数据,所述插入单元从被所述特有内容数据判定装置判定为特有内容数据的博客消息的文本数据中提取所述指定的网页的特征词,将与该特征词相关联的关联内容数据插入到该网页中。
14.一种特有内容数据判定装置,其特征在于,该特有内容数据判定装置具有 提取单元,其提取构成所指定的网页的内容数据;计算单元,其计算构成所述指定的网页的各内容数据的出现频度;以及判定单元,其根据所述计算的出现频度,判定构成所述指定的网页的内容数据中该网页特有的内容数据。
15.根据权利要求14所述的特有内容数据判定装置,其特征在于,所述判定单元将构成所述指定的网页的内容数据中出现频度最小的内容数据判定为该网页特有的内容数据。
16.根据权利要求14所述的特有内容数据判定装置,其特征在于,所述判定单元将构成所述指定的网页的内容数据中出现频度为预定值以下的内容数据判定为该网页特有的内容数据。
17.根据权利要求14 16中的任意一项所述的特有内容数据判定装置,其特征在于, 所述计算单元计算各内容数据在预定站点所包含的多个网页上的出现频度。
18.根据权利要求14 17中的任意一项所述的特有内容数据判定装置,其特征在于, 所述提取单元针对所述预定的站点中包含的预定种类的各网页提取构成网页的内容数据,将表示提取出的内容数据的内容数据信息预先存储到存储单元中,所述计算单元根据所述存储的内容数据信息,计算构成所述指定的网页的各内容数据的出现频度。
19.根据权利要求14 18中的任意一项所述的特有内容数据判定装置,其特征在于, 所述提取单元以由1个以上的内容数据构成的内容数据组为单位提取构成网页的内容数据,所述计算单元计算构成所述指定的网页的内容数据组的出现频度,所述判定单元判定构成所述指定的网页的内容数据组中该网页特有的内容数据组。
20.根据权利要求19所述的特有内容数据判定装置,其特征在于,所述提取单元根据用预定的标记语言描述的表示构成网页的内容数据的文档数据,提取内容数据组。
21.根据权利要求20所述的特有内容数据判定装置,其特征在于,所述提取单元在表示所述内容数据的文档数据中根据预定的标签来确定内容数据组。
22.—种特有内容数据判定方法,其特征在于,该特有内容数据判定方法具有以下步骤提取步骤,提取构成所指定的网页的内容数据; 计算步骤,计算构成所述指定的网页的各内容数据的出现频度;以及判定步骤,根据所述计算的出现频度,判定构成所述指定的网页的内容数据中该网页特有的内容数据。
23.—种记录介质,其特征在于,该记录介质以计算机可读取的方式记录有特有内容数据判定程序,该特有内容数据判定程序使计算机作为如下单元发挥功能提取单元,其提取构成所指定的网页的内容数据; 计算单元,其计算构成所述指定的网页的各内容数据的出现频度;以及判定单元,其根据所述计算的出现频度,判定构成所述指定的网页的内容数据中该网页特有的内容数据。
24.一种内容数据生成装置,其特征在于,该内容数据生成装置具有 权利要求14 21中的任意一项所述的特有内容数据判定装置;以及生成单元,其根据被所述特有内容数据判定装置判定为特有内容数据的内容数据,生成新内容数据。
25.根据权利要求M所述的内容数据生成装置,其特征在于,所述生成单元将被判定为特有内容数据的内容数据的显示尺寸调整为与预先设定的显示尺寸一致,生成包含调整了显示尺寸后的内容数据的新内容数据。
26.根据权利要求M或25所述的内容数据生成装置,其特征在于,所述生成单元生成对被判定为特有内容数据的内容数据施加效果来再现该内容数据的新内容数据。
27.一种关联内容数据插入装置,其特征在于,该关联内容数据插入装置具有 权利要求14 21中的任意一项所述的特有内容数据判定装置;以及插入单元,其将与被所述特有内容数据判定装置判定为特有内容数据的内容数据相关联的关联内容数据插入到所述指定的网页中。
28.根据权利要求27所述的关联内容数据插入装置,其特征在于,在构成所述指定的网页的内容数据包含博客消息的文本数据的情况下,所述特有内容数据判定装置将该文本数据判定为该网页特有的内容数据,所述插入单元从被所述特有内容数据判定装置判定为特有内容数据的博客消息的文本数据中提取所述指定的网页的特征词,将与该特征词相关联的关联内容数据插入到该网页中。
全文摘要
能够容易地从构成网页的内容数据中提取出该网页特有的内容数据。使计算机作为如下单元发挥功能提取单元,其提取构成所指定的网页的内容数据;计算单元,其计算构成所指定的网页的各内容数据的出现频度;以及判定单元,其根据计算出的出现频度,判定构成所指定的网页的内容数据中该网页特有的内容数据。
文档编号G06Q30/00GK102598038SQ20108004892
公开日2012年7月18日 申请日期2010年10月25日 优先权日2009年10月30日
发明者岩渊志学 申请人:乐天株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1