信息处理装置、信息处理方法、信息处理装置用的程序和记录介质的制作方法

文档序号:6359617阅读:157来源:国知局
专利名称:信息处理装置、信息处理方法、信息处理装置用的程序和记录介质的制作方法
技术领域
本发明涉及用于对因特网上的网页进行分析的信息处理装置、信息处理方法、信息处理装置用的程序以及记录介质的技术领域。
背景技术
因特网上的网站中多数具有用于买卖商品等的网页,用户通过阅览该网页而进行商品的购入。在通过阅览而进行购入时,用户通常进行检索。在该检索的技术中,为了从多个网页当中尽快地寻找用户想要的商品,进行谋求检索技术的提高 。例如,在专利文献I中,公开了商场中的检索系统,其将商品的按类别检索限定到依次以大分类、中分类、小分类进行检索的3个层次的按类别检索,设计6位数的整数分类代码表生成方法,通过使用该分类代码表生成方法而生成商品分类代码表和店铺分类代码表,将这些分类代码表设置在因特网购物商场中,商店能够简单地注册商品和店铺信息,用户能够简单地检索商品和店铺。现有技术文献专利文献I JP特开2002-236694号公报。发明所要解决的课题但是,在为葡萄酒这样的商品的情况下与产地、容量之类的商品的属性相关的信息和在为旅行关联服务那样的服务的情况下与费用、访问之类的服务的属性相关的信息被记载在网页之中。如果抽出这样的商品等的属性,存在能够提供各种各样的服务的可能性。但是,在专利文献I那样的现有技术中,抽出商品等的属性变得困难。

发明内容
本发明是鉴于这样的问题提出的,其课题的一个例子的目的在于提供一种从网页中自动地取得商品等的属性的信息处理装置等。为了解决上述课题,方案I记载的发明是一种信息处理装置,其特征在于,包括网页取得机构,其取得对网页中所记载的对象进行分类的类别为相同的多个网页;初始数据取得机构,取得与在所述网页上记载的对象的属性相关联的属性关联语或者在该对象的属性的记述中所使用的属性记述模式作为初始数据;属性抽出机构,其从所述多个网页中抽出适合于所述属性记述模式的所述属性的属性关联语;以及属性记述模式抽出机构,其从所述多个网页中抽出适合于所述属性关联语的所述属性记述模式。方案2记载的发明,其特征在于,在方案I所述的信息处理装置中,其特征在于,还包括重复机构,其将所述属性抽出机构和所述属性记述模式抽出机构交替地重复。方案3记载的发明,其特征在于,在方案I或者2所述的信息处理装置中,所述属性抽出机构抽出所述属性的属性名,作为所述属性关联语。方案4记载的发明,其特征在于,在方案I到3任何一项所述的信息处理装置中,还包括属性列表生成机构,其根据被抽出的所述属性关联语而生成属性列表;模式列表生成机构,其生成被抽出的所述属性记述模式的模式列表。方案5记载的发明,其特征在于,在方案I到4任何一项所述的信息处理装置中,还包括 属性得分机构,其进行所述属性关联语的分数赋予;属性选择机构,其以所述分数的顺序来进行所述属性关联语的等级赋予,选择规定的等级以上的属性关联语。方案6记载的发明,其特征在于,在方案5所述的信息处理装置中,所述属性得分机构基于所述属性关联语的检索的命中(hit)件数,进行所述属性关联语的分数赋予。方案7记载的发明,其特征在于,在方案5所述的信息处理装置中,所述属性得分机构,在具有用于销售所述对象的多个店铺的网站中,基于所述属性关联语出现的网页的所述店铺的数目,进行所述属性关联语的分数赋予。方案8记载的发明,其特征在于,在方案I到7任何一项所述的信息处理装置中,还包括属性过滤机构,其去掉属于与所述类别不同之类别的多个网页中出现的所述属性关联语。方案9记载的发明,其特征在于,在方案I到8任何一项所述的信息处理装置中,还包括属性记述模式得分机构,其进行所述属性记述模式的分数赋予;属性记述模式选择机构,其以所述分数的顺序来进行所述属性记述模式的等级赋予,选择规定的等级以上的属性记述模式。方案10记载的发明,其特征在于,在方案9所述的信息处理装置中,所述属性记述模式得分机构,基于所述属性关联语和所述属性记述模式均出现的同现数,来进行所述属性记述模式的分数赋予。方案11记载的发明,其特征在于,在方案I到10任何一项所述的信息处理装置中,还包括属性名类似判定机构,其判定所述属性名之间是否是类似的;属性名汇总机构,其将由所述属性名类似判定机构判定为类似的属性名进行汇总。方案12记载的发明,其特征在于,在方案11所述的信息处理装置中,所述属性抽出机构,抽出所述属性名和与所述属性名对应的属性值作为所述属性关联语,所述属性名汇总机构基于所述属性值来汇总所述属性名。方案13记载的发明,其特征在于,在方案I到10任何一项所述的信息处理装置中,所述网页取得机构取得所述对象的供给源的网页,还包括属性关联语比较机构,其通过所述初始数据取得机构、所述属性抽出机构和所述属性记述模式抽出机构,从所述对象的供给源的网页中抽出供给源对象属性关联语,将所述供给源对象属性关联语和所述属性关联语进行比较。方案14记载的发明,其特征在于,在方案I到13任何一项所述的信息处理装置中,还包括目录生成机构,其基于被抽出的所述属性关联语,生成记载了所述属性关联语的目录。方案15记载的发明,其特征在于,在方案I到14任何一项所述的信息处理装置中,还包括网页抽出机构,其从所述多个网页中,抽出所述属性关联语的出现次数为规定次数以下的网页。方案16记载的发明,其特征在于,在方案15所述的信息处理装置中,所述网页抽出机构抽出所述属性关联语的出现次数为零的网页。
方案17记载的发明,其特征在于,在方案I到16任何一项所述的信息处理装置中,还包括网页属性分组机构,其基于所述属性关联语,将所述多个网页进行分组。方案18记载的发明是信息处理装置进行信息处理的信息处理方法,其特征在于,具有网页取得步骤,其取得对网页中所记载的对象进行分类的类别为相同的多个网页;属性记述模式取得步骤,其取得所述网页上记载的对象的属性的记述中所使用的属性记述模式;属性抽出步骤,其从所述多个网页中抽出适合于所述属性记述模式的所述属性的属性关联语;以及属性记述模式抽出步骤,其基于被抽出的所述属性关联语,从所述多个网页中,进一步抽出由所述属性抽出步骤使用的所述属性记述模式。方案19记载的发明是信息处理装置进行信息处理的信息处理方法,其特征在于,具有网页取得步骤,其取得对网页中所记载的对象进行分类的类别为相同的多个网页;属性关联语取得步骤,其取得与所述网页上记载的对象的属性相关联的属性关联语;属性记述模式抽出步骤,作为所述属性的记述中所使用的属性记述模式,其从所述多个网页中,抽出适合于所述属性关联语的所述属性记述模式;以及属性关联语抽出步骤,其基于被抽 出的所述属性关联语,从所述多个网页中还抽出由所述属性记述模式抽出步骤使用的属性关联语。方案20记载的发明是一种信息处理装置用的程序,其特征在于,使计算机作为下述机构发挥作用网页取得机构,其取得对网页中所记载的对象进行分类的类别为相同的多个网页;初始数据取得机构,作为初始数据,取得与在所述网页上记载的对象的属性相关联的属性关联语或者在该对象的属性的记述中所使用的属性记述模式;属性抽出机构,其从所述多个网页中抽出适合于所述属性记述模式的所述属性的属性关联语;以及属性记述模式抽出机构,其从所述多个网页中抽出适合于所述属性关联语的所述属性记述模式。方案21记载的发明是一种用于记录信息处理装置用的程序的计算机可读取的记录介质,其特征在于,所述信息处理装置用的程序使计算机作为下述机构发挥作用网页取得机构,其取得对网页中所记载的对象进行分类的类别为相同的多个网页;初始数据取得机构,作为初始数据,取得与在所述网页上记载的对象的属性相关联的属性关联语或者在该对象的属性的记述中所使用的属性记述模式;属性抽出机构,其从所述多个网页中抽出适合于所述属性记述模式的所述属性的属性关联语;以及属性记述模式抽出机构,其从所述多个网页中抽出适合于所述属性关联语的所述属性记述模式。发明效果根据本发明,由于通过取得对网页中所记载的对象进行分类的类别为相同的多个网页,作为初始数据而取得与在网页上记载的对象的属性相关联的属性关联语或者在该对象的属性的记述中所使用的属性记述模式,从多个网页中抽出适合于属性记述模式的属性的属性关联语,从多个网页中抽出适合于属性关联语的属性记述模式,从而从属于相同类别的多个网页中抽出属性关联语,抽出属性记述模式,或者,抽出属性记述模式,抽出属性关联语,因此,能够精度良好地取得相同的类别中所包含的属性。


图I是表示本发明第I实施方式的信息处理系统的概要构成例子的模式图。图2是表示图I的信息处理服务器的概要构成的一个例子的方框图。
图3是表示图I的购物服务器的概要构成的一个例子的方框图。图4是表示在图I的信息处理服务器中用于生成目录的动作例子的流程图。图5是说明图I的购物服务器的网页的一个例子的说明图。图6是表示图5的网页的源代码的一个例子的说明图。图7是表示在图2的属性记述模式数据库中所存储的属性记述模式的一个例子的模式图。图8是表示属性/属性值的抽出的样子的一个例子的模式图。 图9是表示被抽出的属性/属性值的一个例子的模式图。图10是表示所生成的商品等目录的一个例子的模式图。图11是表示图I的信息处理服务器中的属性选定的子程序的一个例子的流程图。图12是表示图4的商品等的目录生成的第I变形例的动作例子的流程图。图13是表示图12的第I变形例的属性/属性值的抽出的样子的一个例子的模式图。图14是表示图4的商品等的目录生成的第2变形例的动作例子的流程图。图15是表示图14的属性/属性值抽出的子程序的一个例子的流程图。图16是表示图14的属性记述模式抽出的子程序的一个例子的流程图。图17是表示在图I的信息处理服务器中对属性/属性值进行判定的动作例子的流程图。图18是表示商品等供给源的网页的一个例子的说明图。图19是表示所生成的商品等目录的一个例子的模式图。图20是表示在第2实施方式的信息处理系统中用于抽出网页的动作例子的流程图。图21是表示图20的网页抽出的第I变形例的动作例子的流程图。
具体实施例方式下面,参考附图,说明本发明的实施方式。(第I实施方式)[I.信息处理系统的构成和功能概要]首先,使用图1,说明本发明第I实施方式的信息处理系统的构成和概要功能。图I是表示本实施方式的信息处理系统I的概要构成例子的模式图。如图I所示,信息处理系统I包括信息处理服务器(信息处理装置的一个例子)10,其根据网页生成商品等的目录,或者抽出在错误的类别上所注册的网页;信息提供服务器20,用于经营购物网站或者用于博客(blog);设店于购物网站上的店铺主的店铺主终端30 ;在购物网站上购入商品等(包括由购物网站提供的服务)或者投稿博客的用户的用户终端35。而且,商品等或者博客是网页上所记载的对象的一个例子。信息处理服务器10和信息提供服务器20通过局域网络等连接,变成相互能够进行数据的接收发送,构成服务器系统5。而且,服务器系统5、店铺主终端30和用户终端35通过网络3连接,例如,通过在通信协议上使用TCP/IP等而变成能够相互进行数据的接收发送。而且,网络3例如由因特网、专用通信线路(例如CATV(共天线电视,CommunityAntenna Television)线路)、移动体通信网(包括基站等)以及网关等构筑。信息处理系统I作为从网页中生成目录的目录生成系统或者作为用于抽出在错误的类别上所注册的网页的网页抽出系统发挥作用。信息处理服务器10根据信息提供服务器20等上所注册的网页而生成商品等的目录,或者使得能够从用户终端35等上阅览该目录。此外,信息处理服务器10从信息提供服务器20等上所注册的网页中抽出在错误的类别上所注册的网页,或者基于抽出结果,进行信息提供服务器20上的网页的整理,或者将抽出结果通知注册了网页的店铺主等的店铺主终端30等。信息提供服务器20作为在购物网站上用于对商品等进行销售的网络服务器或者数据库服务器等发挥作用,进行网页的注册的受理、用户注册、或者商品等的购入手续等各种处理。此外,信息提供服务器20具有商品等的按每个类别所分类的网页。此外,信息提供服务器20受理来自用户的博客的投稿,基于博客的内容等而按每个类别进行分类,并在因特网上进行公开。店铺主使用的店铺主终端30是个人计算机或者便携式无线电话机或者PDA (个人数字助手)等的便携终端。店铺主使用店铺主终端30,将网页注册到信息提供服务器20,或者进行更新。用户使用的用户终端35是个人计算机或者便携式无线电话机或者PDA等便携式终端。用户使用用户终端35,进行商品等的检索或者商品等的购入等。[2.各个服务器的构成和功能](2. I信息处理服务器10的构成和功能) 下面,使用图2,说明信息处理服务器10的构成和功能。图2是表示信息处理服务器10的概要构成的一个例子的方框图。如图2所示,作为计算机发挥作用的信息处理服务器10,包括通信部11 ;存储部12 ;输入输出接口部13 ;以及系统控制部14。而且,系统控制部14和输入输出接口部13经由系统总线15而连接。通信部11,通过连接到网络3而控制与用户终端35等之间的通信状态,或者通过连接到局域网络而与信息提供服务器20等的其他的服务器进行数据的接收发送。存储部12例如由硬盘驱动器等构成,存储操作系统和服务器程序等的各种程序或者数据等。而且,各种程序例如可以经由网络3从其他的服务器装置等中取得,也可以被记录在记录介质上并经由驱动器装置而读入。此外,在存储部12上构筑了属性记述模式数据库(以下称为“属性记述模式DB” ) 12a和属性/属性值数据库(以下称为“属性/属性值DB”)12b等。在属性记述模式DB12a中存储了商品等或者博客的属性的记述所使用的属性记述模式的初始数据或者从网页中抽出的属性记述模式。另外,举出博客的类别作为博客的属性。在属性/属性值DB12b中,作为由信息处理服务器10进行的处理的一个例子,存储了与从网页中抽出的商品等的属性相关的属性名和属性值。这里,作为属性关联语的一个例子,可以举出仅仅属性名、或者包含属性名的语句、或者属性名和属性值的组等。此夕卜,对于属性/属性值之类的记载,在属性和属性值变成对的情况下,还具体地包含属性名和属性值变成组的情况。接着,输入输出接口部13变成进行在通信部11和存储部12与系统控制部14之间的接口处理。系统控制部14由CPU (中央处理单元)14a、R0M(只读存储器)14b,RAM(随机存取存储器)14c等构成。然后,系统控制部14,通过CPU14a读出和执行R0M14b或者存储部12中所存储的各种程序,从多个网页中抽出适合于属性记述模式的属性名或者属性值,或者,根据抽出的属性名或者属性值生成商品等的目录。此外,系统控制部14从多个网页中将属性的属性名的出现次数为规定次数以下的网页抽出作为在错误的类别中所注册的网页。 (2. 2信息提供服务器20的构成和功能)下面,使用图3,说明信息提供服务器20的构成和功能。图3是表示信息提供服务器20的概要构成的一个例子的方框图。如图3所示,信息提供服务器20包括通信部21 ;存储部22 ;输入输出接口部23 ;系统控制部24。系统控制部24和输入输出接口部23经由系统总线25而连接。而且,信息提供服务器20的构成和功能由于与信息处理服务器10的构成和功能几乎是相同的,因此在信息处理服务器10的各个构成和各个功能中以不同的部分为中心进行说明。通信部21通过网络3或者局域网等,变成对与店铺主终端30或者用户终端35或者信息处理服务器10等的通信状态进行控制等。在存储部22中构筑了商品数据库(以下设为“信息DB”)22a、会员数据库(以下设为“会员DB” ) 22b或者商品等目录数据库(以下设为“商品等目录DB”)22c等。在信息DB22a中存储了与网页中所记载的对象的一个例子即商品、服务以及博客等相关的信息。例如,在信息DB22a中,与作为用于识别商品等的标识符的商品ID关联对应,并且存储了商品名(包含服务名)、种类、商品的图像、与服务关联的图像、规格、以及商品等的介绍摘要等的商品信息或者广告信息等。此外,在信息DB22a中,通过把用户投稿的博客的报道按类别分类而存储。此外,在信息DB22a中,存储了由HTML(超文本标记语言,HyperText Markup Language)、XML(可扩展标记语言,Extensible Markup Language)等的标记语言等记述的网页的文件等。此外,在信息DB22a中,存储了制造源信息(包含制造源领域)和销售源信息(包含销售源领域)等的商品供给源的信息,且各个商品的正式信息被记载的商品供给源的网页的URL(统一资源定位器,Uniform Resource Locator)等与各个商品的商品ID关联对应。在会员DB22b中,注册了被会员注册的用户(因特网商店的使用者)的用户ID、名称、住所、电话号码、邮件地址等的用户信息。这样的用户信息通过用户ID变成能够判别每个用户。此外,在会员DB22b中,注册了用户从用户终端35登录到因特网商店的网站上时所必需的用户ID、登录ID以及密码。这里,登录ID和密码是登录处理(用户的认证处理)所使用的登录信息。在商品等目录DB22c中,针对每个商品类别、每个商品,存储了由信息处理服务器10生成的商品等目录。系统控制部24由CPU24a、R0M24b、RAM24c等构成。然后,系统控制部24,通过CPU24a读出和执行R0M24b或者存储部22中所存储的各种程序,从而针对每个用户ID,记录由店铺主进行的网页的注册或更新、由用户引起的商品购入处理、或者商品的购买历史。此外,通过来自用户终端35的请求,发送商品等目录的信息。[3.第I实施方式的商品等的目录生成系统的动作]下面,使用图4 图11,说明本发明一实施方式的信息处理系统I的作为目录生成系统的动作。图4是表示在信息处理服务器10中用于抽出网页的动作例子的流程图。图5是表示信息提供服务器20的网页的一个例子的说明图。图6是表示网页的源代码的一个例子的说明图。图7是表示在属性记述模式DB中所存储的属性记述模式的一个例子的模式图。图8是表示属性/属性值的抽出的样子的一个例子的模式图。图9是表示被抽出的属 性/属性值的一个例子的模式图。图10是表示所生成的商品等目录的一个例子的模式图。图11是表示信息处理服务器10中的属性选定的子程序的一个例子的流程图。(3. I商品等的目录生成的流程)首先,使用图4,说明商品等的目录生成的流程。如图4所示,信息处理服务器10取得多个网页(步骤SI)。具体地,信息处理服务器10的系统控制部14,涉及由信息提供服务器20经营的购物网站的属于相同类别的商品,通过通信部11从信息DB22a中取得该类别的全部网页。更具体地,如图5所示,取得包括文本部51、52、53、54的文本数据的网页50等。此外,如图6所示,网页50的源代码由HTML等的标记语言等记述。这样,信息处理服务器10的系统控制部14和通信部11在对网页所记载的对象进行分类的类别中,作为用于取得属于相同的类别的多个网页的网页取得机构的一个例子发挥作用。接着,信息处理服务器10取得属性记述模式(步骤S2)。具体地,信息处理服务器10的系统控制部14,作为下述步骤S3 S5中的自举(bootstrap)法的初始数据,如图7所示,从属性记述模式DB12a的属性记述模式列表中,取得初始的属性记述模式。这里,如图7所示,属性记述模式被分成前部、中部和后部,例如,在属性记述模式“[:]”的情况下,是前部“[”、中部“”和后部“]”。前部和后部之间的语句是属性名,中部和后部之间的语句是属性值。此外,存在在属性记述模式中包含HTML标签(tag)的要素的情况。这样,信息处理服务器10的系统控制部14,作为取得网页上记载的对象的记述中所使用的属性记述模式来作为初始数据的初始数据取得机构的一个例子发挥作用。接着,信息处理服务器10抽出适合于属性记述模式的属性/属性值(步骤S3)。具体地,如图8所示,信息处理服务器10的系统控制部14从网页50等的多个网页当中,取出适合于属性记述模式61等的语句的部分(例如“[品种000] ”),抽出属性名“品种”或者与属性名“品种”对应的属性值“000”等。然后,抽出的属性名和属性值,作为属性列表被存储到属性/属性值DB12b中。这里,通过使用即使在怎样的模式上都匹配的特殊字符即或者“? ”等的通配符(wild card)和属性记述模式,来抽出属性/属性值。而且,作为属性/属性值的例子,在为旅行关联服务的情况下,举出[住宿费用000],在进行博客即事件介绍的情况下,举出[会场000]等。这样,信息处理服务器10的系统控制部14,作为从多个网页中抽出适合于属性记述模式的属性的属性关联语的属性抽出机构的一个例子发挥作用。此外,信息处理服务器10的系统控制部14,发挥作为属性关联语而抽出属性的属性名的属性抽出机构的一个例子的功能。此外,信息处理服务器10的系统控制部14,作为用于从抽出的属性关联语中生成属性列表的属性列表生成机构发挥作用。接着,信息处理服务器10抽出适合于属性/属性值的属性记述模式(步骤S4)。具体地,如图8所示,信息处理服务器10的系统控制部14,取出适合于属性/属性值62 (例如,属性名“品种”和属性值“000”)的(例如,<td>品种</td>〈td>000〈td>),从网页50等的多个网页当中抽出属性记述模式。然后,如图7所示,抽出的属性记述模式被追加到属性记述模式列表,并且被存储到属性记述模式DB12a中。而且,例如,如“容量*ml”那样,涉及属性值,不是使用被抽出的属性值本身,而是可以使用通配符。这样,信息处理服务器10的系统控制部14,作为从多个网页中抽出适合于属性关联语的属性记述模式的属性记述模式抽出机构的一个例子发挥作用。此外,信息处理服务器10的系统控制部14,作为用于生成被抽出的属性记述模式的模式列表的模式列表生成机构发挥作用。 接着,信息处理服务器10判定规定次数(步骤S5)。具体地,信息处理服务器10的系统控制部14,判定反复执行了步骤S3和步骤S4的次数是否达到了规定次数。而且,在没有达到规定次数的情况下(步骤S5 :否),信息处理服务器10的系统控制部14返回到步骤S3,通过抽出的新的属性记述模式,抽出新的属性/属性值。信息处理服务器10的系统控制部14,在达到规定次数之前,重复步骤S3和步骤S4。这样,信息处理服务器10的系统控制部14,在从步骤S2到步骤S4中,执行属性记述模式取得步骤,其取得商品的属性的记述中所使用的属性记述模式;属性抽出步骤,其从多个网页中,抽出适合于属性记述模式的属性的属性关联语;以及属性记述模式抽出步骤,其基于被抽出的属性关联语,从多个网页中进一步抽出在属性抽出步骤中使用的属性记述模式。信息处理服务器10的系统控制部14,作为用于将属性抽出机构和属性记述模式抽出机构交互地进行重复的重复机构的一个例子发挥作用。在达到了规定次数的情况下(步骤S5 :是),信息处理服务器10进行属性的选定(步骤S6)。具体地,信息处理服务器10的系统控制部14,从在步骤S3抽出的属性名和属性值中,通过属性选定的子程序来选定属性。根据属性选定的子程序,信息处理服务器10的系统控制部14,通过在属性上赋予分数来赋予等级,或者除去噪声的属性,从而汇总同义语的属性(详细后述)。如图9所示,在类别”葡萄酒中,对属性名“品种”、“生产者”等,得到各自的属性值。接着,信息处理服务器10基于属性/属性值而生成商品等目录(步骤S7)。具体地,如图10所示,信息处理服务器10的系统控制部14,对每个商品将属性名排列,使属性名和属性值成组,生成商品等目录。而且,如图10所示,还可以将商品的图像加在商品等目录中。属性名的序号可以基于后述的属性的分数来决定。这样,信息处理服务器10的系统控制部14,作为基于抽出的属性关联语来生成记载了属性关联语的商品等目录的目录生成机构的一个例子来发挥作用。接着,信息处理服务器10的系统控制部14,即使对其他的类别的网页,也适用步骤SI 步骤S7,生成商品等目录。然后,信息处理服务器10的系统控制部14,将生成的商品等目录的信息发送给信息提供服务器20,并被存储到商品等目录DB22c中。(3. 2属性的选定)下面,使用图11,说明属性的选定的子程序。
如图11所示,信息处理服务器10进行对属性的分数赋予(步骤S10)。具体地,在购物网站具有销售商品的多个店铺的情况下,即在构成网上商城(cyber mall)的情况下,信息处理服务器10的系统控制部14,求得具有属性名出现的网页的店铺的数量,设为属性的分数。出现在多种店铺的网页上的属性关联语的一个例子的属性名,基于作为属性是合适的假定。例如,在葡萄酒的网页中,合适的属性即“品种”之类的属性出现在多种店铺的网页上。对此,与任何一个的属性记述模式匹配的不合适的属性只从I个店铺的网页中获得的情况多,存在属性的分数变低的趋势。这样,信息处理服务器10的系统控制部14,作为进行属性关联语的分数赋予的属性得分机构的一个例子来发挥作用。此外,信息处理服务器10的系统控制部14,在具有用于对网页上所记载的对象进行销售的多个店铺的网站中,作为基于属性关联语出现的网页的店铺的数,来进行属性关联语的分数赋予的属性得分机构的一个例子来发挥作用。 接着,信息处理服务器10选择上一级等级的属性(步骤Sll)。具体地,信息处理服务器10的系统控制部14,以属性的分数高的顺序对属性名赋予等级,选择规定的等级以上的属性名。这样,信息处理服务器10的系统控制部14,作为以分数的顺序进行属性关联语的等级附加并且选择规定的等级以上的属性关联语的属性选择机构的一个例子来发挥作用。接着,信息处理服务器10进行属性的过滤(步骤S12)。具体地,信息处理服务器10的系统控制部14,使用各个类别中的属性名的出现概率,进行属性的过滤。即使在其他的类别中也出现的属性名,基于作为属性是不合适的假定,进行属性的过滤。例如,作为属性而不合适的“运费免费”那样的语句,由于出现在多个网页中,因此各个类别中的出现概率变成相似的值。另一方面,尽管称为“品种”的属性名经常出现在葡萄酒的类别的网页中,但是由于不出现在高尔夫球棒或者鞋等的类别中,因此在葡萄酒的类别中的出现概率变成比在葡萄酒以外的类别中的出现概率要高。这样,信息处理服务器10的系统控制部14,作为用于将在属于与类别不同的类别的多个网页中出现的属性关联语去掉的属性过滤机构的一个例子发挥作用。接着,信息处理服务器10汇总同义的属性(步骤S13)。在属性当中具有相同概念的属性存在。例如,在葡萄酒的类别中,“品种”、S々品种”、“7'' K々品种”、“七八--”、“葡萄品种”是同义的属性名。信息处理服务器10的系统控制部14,使用同义语词典,或者算出属性名之间的类似程度,或者使用与属性名对应的属性值,来汇总同义的属性的属性名。而且,也可以不汇总同义的属性的属性名,而汇总类似概念的属性的属性名。具体地,在算出属性名“A”(属性A)和属性名“B”(属性B)之间的类似程度的情况下,将把在属性A的属性值当中与属性B具有的属性值共同的属性值的比例和在属性B的属性值当中与属性A的属性值具有的属性值共同的属性值的比例进行相乘后的值设为类似程度,或者将以这些比例为基础计算熵(entropy)并相乘后值设为类似程度,或者将Jaccard系数设为类似程度,或者将在属性A和属性B的属性值中共同的属性值的种类的数设为类似程度。这样,信息处理服务器10的系统控制部14,作为用于判定属性名之间是否是类似的属性名类似判定机构的一个例子发挥作用。此外,信息处理服务器10的系统控制部14,作为将通过属性名类似判定机构而判定为类似的属性名进行汇总的属性名汇总机构的一个例子来发挥作用。此外,信息处理服务器10的系统控制部14,作为将属性名和与属性名对应的属性值抽出作为属性关联语的属性抽出机构以及基于属性值而汇总属性名的属性名汇总机构的一个例子来发挥作用。根据本实施方式,通过取得对网页上记载的对象进行分类的类别是相同的多个网页,取得与网页上记载的对象的属性相关联的属性关联语、或者该对象的属性的记述中使用的属性记述模式作为初始数据,从多个网页中抽出适合于属性记述模式的属性的属性关联语,从多个网页中抽出适合于属性关联语的属性记述模式,从而从属于相同的所述类别的多个网页中抽出属性关联语,抽出属性记述模式,或者,抽出属性记述模式,抽出属性关联语,因此能够精度良好地取得相同的类别中所包含的属性。例如,当将属性关联语和属性记述模式相互地重复并抽出时,能够精度良好地取得相同的类别中所包含的属性。信息处理服务器10的系统控制部14在交替地重复属性抽出机构和属性记述模式抽出机构的情况下,能够通过自举(bootstrap)将属性列表或者模式列表扩展,抽出作为 初始值而施与的属性以外的属性。此外,通过该抽出的属性,能够判定网页的类似度。此夕卜,用户使用与网页相关的商品等目录,变成容易到达希望的商品,能够获得用户便利性的提闻。此外,信息处理服务器10的系统控制部14,在从抽出的属性关联语中生成属性列表,生成被抽出的属性记述模式的模式列表的情况下,针对每个类别,能够蓄积属性名或者属性值等的属性关联语或者属性记述模式的信息。此外,信息处理服务器10的系统控制部14,在进行属性关联语的分数赋予并选择上一级等级的属性关联语的情况下,在选择的属性关联语中,使表示商品等的属性或者博客的属性的精度变高。此外,信息处理服务器10的系统控制部14,当在具有对对象进行销售的多个店铺的网页中基于属性关联语出现的网页的店铺的数目来进行属性关联语的分数赋予的情况下,在选择属性关联语时,使表示商品等的属性的精度变高。例如,当由店铺买卖的商品等的数目或者网页的数大大地不同时,容易受到买卖多个商品等的店铺的影响,但是通过基于店铺的数目来进行属性关联语的分数赋予,能够消除某个确定的店铺的影响。此外,信息处理服务器10的系统控制部14,在去掉在属于其他的类别的多个网页中出现的属性关联语的情况下,通过集中于对象的类别固有的属性关联语,来使表示商品等的属性或者博客的属性的精度变高。此外,信息处理服务器10的系统控制部14,在抽出属性的属性名作为属性关联语的情况下,能够精度良好地取得相同的类别中包含的属性/属性名。此外,通过属性名,能够抽出在错误的类别中所注册的网页。此外,信息处理服务器10的系统控制部14,判定属性名之间是否是类似的,在汇总被判定为类似的属性名的情况下,去掉重复的属性名,变成容易利用属性名。此外,信息处理服务器10的系统控制部14,在抽出属性名和与属性名对应的属性值作为属性关联语,基于属性值来汇总属性名的情况下,通过与属性名直接关联的属性值,变得容易汇总属性名。此外,信息处理服务器10的系统控制部14,在取得对象供给源的网页,通过初始数据取得机构、属性抽出机构以及属性记述模式抽出机构从对象供给源的网页中抽出供给源对象属性关联语,将供给源对象属性关联语和属性关联语进行比较的情况下,能够更加精度良好地取得相同的类别中包含的属性。此外,通过获取与商品等的对象相关的正式的对象信息并且判定生成的目录的精度,能够使目录的可靠性提高。此外,信息处理服务器10的系统控制部14,在基于抽出的属性关联语而生成记载了属性关联语的目录的情况下,用户使用与网页相关的目录,变成容易到达希望的商品等的对象,从而能够获得用户的便利性的提高。[4.商品等的目录生成系统的动作的第I变形例]下面,基于图12和图13,说明商品等的目录生成系统的动作的第I变形例。而且,在与上述实施方式相同或者对应的部分上,使用相同的符号来说明动作等。也将其他的变形例设为同样。
图12是表示商品等的目录生成的第I变形例的动作例子的流程图。图13是表示第I变形例的属性/属性值的抽出的样子的一个例子的模式图。如图12所示,本变形例不是将自举法中的初始数据设为属性记述模式而是设为属性/属性值之点。从步骤S22到步骤S24是与上述实施方式不同的步骤。而且,在属性/属性值DB12b中存储了属性/属性值的初始数据。首先,信息处理服务器10,与步骤SI同样,取得多个网页(步骤S21)。接着,信息处理服务器10取得属性/属性值(步骤S22)。具体地,信息处理服务器10的系统控制部14,作为下述步骤S23 S25中的自举法的初始数据,从属性/属性值DB12b的属性/属性值列表中,如图13所示,取得初始的属性/属性值66。这样,信息处理服务器10的系统控制部14,作为取得与商品的属性相关联的属性关联语作为初始数据的初始数据取得机构的一个例子发挥作用。接着,信息处理服务器10抽出适合于属性/属性值的属性记述模式(步骤S23)。具体地,如图13所示,信息处理服务器10的系统控制部14从网页50等的多个网页当中取出适合于属性/属性值66等的语句的部分(例如“[品种000] ”),抽出属性记述模式
等。然后,抽出的属性记述模式作为属性记述模式列表被存储到属性记述模式DB12a中。这里,使用通配符和属性/属性值,抽出属性记述模式。接着,信息处理服务器10抽出适合于属性记述模式的属性/属性值(步骤S24)。具体地,信息处理服务器10的系统控制部14,如图13所示,取出适合于属性记述模式67(例如属性记述模式的前部“[”、中部“”、后部“]”)的例如“[酒精度数12. 5% ]”,从网页50等的多个网页当中抽出属性/属性值。然后,抽出的属性/属性值被追加到属性/属性值列表,并且被存储到属性/属性值DB12b。以下的从步骤S25到步骤S28与步骤S5到步骤S8相同。如上述,信息处理服务器10的系统控制部14,在从步骤S22到步骤S24中,执行网页取得步骤,其在对商品进行分类的类别中,取得属于相同之类别的多个网页;属性关联语取得步骤,其取得与商品的属性相关联的属性关联语;属性记述模式抽出步骤,作为属性的记述中所使用的属性记述模式,其从多个网页中,抽出适合于属性关联语的属性记述模式;以及属性关联语抽出步骤,其基于抽出的属性关联语,从多个网页中进一步抽出使用于属性记述模式抽出机构的属性关联语。
根据本变形例,通过在对商品进行分类的类别中,取得属于相同之类别的多个网页,从属性/属性值DB12b中取得与商品的属性相关联的属性关联语,作为属性的记述中所使用的属性记述模式而从多个网页中抽出适合于属性关联语的属性记述模式,基于抽出的属性关联语而从多个网页中进一步抽出使用于属性记述模式的抽出中的属性关联语,基于抽出的属性关联语而生成记载了属性关联语的商品等目录,从而用户使用与网页相关的商品等目录,变成容易到达希望的商品,从而能够谋求用户的便利性的提高。[5.商品等的目录生成系统的动作的第2变形例]下面,基于图14 图16,说明商品等的目录生成系统的动作的第2变形例。根据本变形例,在自举法的步骤中,进行属性的选定,或者进行属性记述模式的选定。图14是表示商品等的目录生成的第2变形例的动作例子的流程图。图15是表示属性/属性值抽出的子程序的一个例子的流程图。图16是表示属性记述模式抽出的子程序的一个例子的流程图。
(5. I网页的抽出的流程)首先,如图14所示,信息处理服务器10,与步骤SI和步骤S2同样地,取得多个网页(步骤S31),取得属性记述模式(步骤S32)。接着,信息处理服务器10基于属性记述模式抽出属性/属性值(步骤S33)。具体地,信息处理服务器10的系统控制部14,通过属性/属性值抽出的子程序来抽出属性/属性值。在属性/属性值抽出的子程序中,信息处理服务器10的系统控制部14,抽出适合于属性记述模式的属性/属性值,或者进行对属性的分数赋予,或者选择上一级等级的属性,或者进行属性的过滤。接着,信息处理服务器10基于属性/属性值,抽出属性记述模式(步骤S34)。具体地,信息处理服务器10的系统控制部14,通过属性记述模式抽出的子程序来抽出属性记述模式。在属性记述模式抽出的子程序中,信息处理服务器10的系统控制部14,抽出适合于属性/属性值的属性记述模式,或者算出属性记述模式和属性/属性值之间的同现概率,或者算出分数,或者选择上一级等级的属性记述模式。接着,信息处理服务器10,与步骤S5同样地,判定规定次数(步骤S35)。接着,信息处理服务器10汇总同义的属性(步骤S36)。具体地,信息处理服务器10的系统控制部14,对步骤S33 步骤S35的由自举法求得的属性名,与步骤S13同样地,进行同义的属性的属性名的汇总。接着,信息处理服务器10,与步骤S7同样地,基于属性/属性值,生成商品等目录(步骤S37)。(5. 2属性/属性值的抽出)下面,使用图15,说明属性/属性值抽出的子程序。如图15所示,信息处理服务器10抽出适合于属性记述模式的属性/属性值(步骤S40)。具体地,信息处理服务器10的系统控制部14,与步骤S3同样地,抽出适合于属性记述模式的属性/属性值。接着,信息处理服务器10,与属性选定的子程序中的步骤SlO 步骤S12同样地,进行对属性的分数赋予(步骤S41),选择上一级等级的属性(步骤S42),进行属性的过滤(步骤S43)。
(5. 3属性记述模式的抽出)下面,使用图16,说明属性记述模式抽出的子程序。如图16所示,信息处理服务器10与步骤S4同样地抽出适合于属性/属性值的属性记述模式(步骤S45)。接着,信息处理服务器10算出属性记述模式和属性/属性值之间的同现概率(co-occurrence probability)(步骤S46)。具体地,信息处理服务器10的系统控制部14,作为属性关联语和属性记述模式均出现的同现数(co-occurrence count)的一个例子,算出属性记述模式t和在变成对象的相同类别的多个网页中属性/属性值的对i之间的同现数f (i,t)。然后,信息处理服务器10的系统控制部14,算出属性记述模式t和属性/属性值的组i进行同现的概率即式(I)的同现概率Pt (i)。
Pt (i) =f(i,t)/Nt (I)这里,Nt是抽出的属性记述模式t的数。接着,信息处理服务器10算出熵(分数)(步骤S47)。基于称为与各种各样的属性/属性值进行同现的属性记述模式是合适的属性记述模式的假定,信息处理服务器10的系统控制部14,通过式(2)算出对属性记述模式的熵H(t)。H(t) = - Σ i G xPt (i) X Iog2Pt (i) ... (2)这里,I是将属性/属性值的组i设为要素的属性/属性值的组的集合,将属性记述模式t设为要素的T是属性记述模式集合。接着,信息处理服务器10选择上一级分数的属性记述模式(步骤S48)。具体地,信息处理服务器10的系统控制部14,作为分数从熵H(t)高的属性记述模式开始进行分数赋予,选择规定等级以上的属性记述模式。这样,信息处理服务器10的系统控制部14,作为进行属性记述模式的赋予分数的属性记述模式得分机构的一个例子发挥作用。此外,信息处理服务器10的系统控制部14,作为以分数的顺序进行属性记述模式的等级赋予,并选择规定等级以上的属性记述模式的属性记述模式选择机构的一个例子发挥作用。此外,信息处理服务器10的系统控制部14,作为基于属性关联语和属性记述模式均出现的同现数来进行属性记述模式的分数赋予的属性记述模式得分机构的一个例子发挥作用。而且,步骤S46 步骤S48对于在步骤S5之前得到的属性记述模式列表,被使用作为属性记述模式的选定的步骤,能够省去无用的属性记述模式。如上述,根据本变形例,特别地,在自举的次数增加的情况下,能够防止被抽出的属性/属性值和属性记述模式增大。此外,信息处理服务器10的系统控制部14,在进行属性记述模式的分数赋予并选择上一级等级的属性记述模式的情况下,用于抽出属性/属性值的属性记述模式的精度变闻。此外,信息处理服务器10的系统控制部14,在基于属性关联语和属性记述模式均出现的同现数来进行属性记述模式的分数赋予的情况下,选择属性记述模式后的分数的精
度变高。而且,在本实施方式和其变形例中,作为属性的分数,可以不是店铺数,而是属性名出现的网页的数。信息处理服务器10的系统控制部14,作为属性得分机构,基于属性关联语的检索的命中件数,进行属性关联语的分数赋予。在该情况下,也能够适用于店铺多汇集的网上商城以外。此外,可以从商品等的对象供给源的网页中求得各个商品等的对象的属性/属性值,通过该属性/属性值,进行商品等目录的属性/属性值的精度的判定。在该情况下,通过取得与商品等相关的正式的商品等 目息并且判定所生成的商品等目录的精度,能够使商品等目录的可罪性提闻。例如,如图17所示,信息处理服务器10通过通信部取得商品等的供给源对象的制造源和输入销售源等的对象供给源的网页(步骤S51)。具体地,信息处理服务器10的系统控制部14,参考信息DB22a中所存储的URL等,取得图18所示那样的与各个商品等的商品ID对应的供给源的网页。而且,商品ID可以是在购物网站中在网页上被预先赋予的商品ID或者是从网页的文本数据中抽出的商品ID。这样,信息处理服务器10的系统控制部14和通信部11,作为用于取得商品等的对象的供给源的网页的网页取得机构的一个例子发挥作用。
接着,信息处理服务器10抽出供给源商品的属性/属性值(步骤S52)。具体地,信息处理服务器10的系统控制部14,如步骤S2 步骤S6、步骤S22 步骤S26和步骤S32 步骤S36那样,从商品供给源的网页中抽出与商品供给源的网页相关的属性/属性值。接着,信息处理服务器10将供给源商品等的供给源对象的属性/属性值和商品等目录的属性/属性值进行比较,判定商品等目录的精度。具体地,信息处理服务器10的系统控制部14,比较在商品等目录的属性名中是否具有供给源商品等的供给源对象的属性名,在具有属性名的情况下,比较其属性值是否一致。然后,在相同的属性名少的情况下或者在属性值不一致的情况下,判断所生成的商品等目录的精度低。此外,在属性值不一致的情况下,能够考虑为在店铺一侧的输入错误。然后,将规定值设为属性名一致的数或者属性值一致的数,并且使得从用户终端35阅览规定值以上的情况下的商品等目录的信息。这样,信息处理服务器10的系统控制部14和通信部11,通过初始数据取得机构、属性抽出机构、以及属性记述模式抽出机构来从商品等的对象的供给源的网页中抽出供给源对象属性关联语,作为将供给源对象属性关联语和属性关联语进行比较的属性关联语比较机构的一个例子发挥作用。下面,使用图19,说明所生成的商品等目录的变形例。图19是表示所生成的商品等目录的一个例子的模式图。如图19所示,对属性名“制造年”,由属性值“1995年”和属性值“1996年”进行分组。信息处理服务器10的系统控制部14,由步骤S6、步骤S26、和步骤S36等,在求得属性关联语之后,收集对属性名“制造年”具有属性值“1995年”的网页,此外,收集对属性名“制造年”具有属性值“1996年”的网页,基于属性关联语来分组多个网页的信息。如图19所示,商品的商品名和其他的属性由对属性名“制造年”的属性值进行分组。信息处理服务器10的系统控制部14,在基于属性关联语将多个网页进行分组的情况下,能够通过共同的属性而集中到被分组的网页上。诸如被反映在用户容易观察的检索结果等中、从而利用价值提高。(第2实施方式)下面,使用附图,说明本发明第2实施方式的信息处理系统I的动作。而且,对于与所述第I实施方式相同或者对应的部分,使用相同的符号而仅仅说明不同的构成和作用。其他的实施方式和变形例也设为同样。[6.第2实施方式的网页抽出系统的动作]下面,使用图20,说明本发明第2实施方式相关的信息处理系统I的作为网页抽出系统的动作。首先,使用图20,说明网页的抽出的流程。图20是表示在第2实施方式相关的信息处理系统中用于抽出网页的动作例子的流程图。如图20所示,信息处理服务器10取得多个网页并求得属性 (步骤S60)。具体地,信息处理服务器10的系统控制部14,与步骤SI 步骤S6同样地取得多个网页,求得选定的属性的属性名和属性值。或者,信息处理服务器10的系统控制部14,与步骤S21 步骤S26同样地取得多个网页,求得选定的属性的属性名和属性值。接着,信息处理服务器10算出各个网页的属性的出现次数(步骤S61)。具体地,信息处理服务器10的系统控制部14,在由步骤S60取得的各个网页中,算出选定的属性的属性名的出现次数。而且,还考虑被汇总的属性名的同义语,并算出出现次数。接着,信息处理服务器10抽出出现次数为规定次数以下的网页(步骤S62)。具体地,信息处理服务器10的系统控制部14,在由步骤S60取得的网页中,抽出选定的属性的属性名的出现次数为零即选定的属性的属性名没有出现的网页。在具有多个属性名的情况下,抽出任何属性名都没有出现的网页。信息处理服务器10的系统控制部14判定为该被抽出的网页是在错误的类别中所注册的网页。这样,信息处理服务器10的系统控制部14,作为用于从多个网页中抽出属性关联语的出现次数为规定次数以下的网页的网页抽出机构的一个例子发挥作用。此外,信息处理服务器10的系统控制部14,作为用于抽出属性关联语的出现次数为零的网页的网页抽出机构的一个例子发挥作用。接着,信息处理服务器10的系统控制部14,即使对其他类别的网页,也适用步骤S60 步骤S62,抽出在错误的类别中所注册的网页。然后,信息处理服务器10的系统控制部14,为了通知店铺主将与抽出的网页相关的信息发送到店铺主终端30,或者使抽出的网页移动到正确的类别。根据本实施方式,通过取得对网页上所记载的对象进行分类的类别是相同的多个网页,作为初始数据而取得与网页上所记载的对象的属性相关联的属性关联语或者该对象的属性的记述中所使用的属性记述模式,从多个网页中抽出适合于属性记述模式的属性的属性关联语,从多个网页中抽出适合于属性关联语的所述属性记述模式,从多个网页中抽出属性关联语的出现次数为预定次数以下的网页,从而能够抽出在错误的类别中所注册的网页。例如,在葡萄酒销售商的商品被注册到葡萄酒的类别中的情况下,在与葡萄酒销售商相关的网页上,葡萄酒之属性的一个“品种”等的属性名出现的概率高。此外,在抽出属性的属性名的情况下,通过属性名,能够抽出在错误的类别中所注册的商品网页。此外,信息处理服务器10的系统控制部14,在抽出属性关联语的出现次数为零的网页的情况下,由于在错误的类别中所注册的网页上属性关联语出现的概率低,因此能够容易地抽出在错误的类别中所注册的网页。[7.网页抽出系统的动作的第I变形例]
下面,使用图21,说明网页抽出系统的动作的第I变形例。根据本变形例,在自举法的步骤中,进行属性的选定,或者进行属性记述模式的选定。图21是表示网页抽出的第I变形例的动作例子的流程图。(5. I网页的抽出的流程)首先,如图21所示,信息处理服务器10与步骤S31 步骤S36同样地,取得多个网页,求得属性,汇总同义的属性(步骤S65)。接着,信息处理服务器10与步骤S61和步骤S62同样地,算出各个网页的属性的属性名的出现次数(步骤S66),抽出出现次数为规定次数以下的网页(步骤S67)。如上述,根据本变形例,特别地,在增加了自举的次数的情况下,能够防止被抽出的属性/属性值以及属性记述模式增大。 此外,信息处理服务器10的系统控制部14,在进行属性记述模式的分数赋予,并选择上一级等级的属性记述模式的情况下,用于抽出属性/属性值的属性记述模式的精度变高。另外,信息处理服务器10的系统控制部14,在基于属性关联语和属性记述模式之间的同现数来进行属性记述模式的分数赋予的情况下,选择属性记述模式时的分数的精度变高。而且,在本实施方式和其变形例中,作为属性的分数,可以不是店铺数,而是属性名出现的网页的数。信息处理服务器10的系统控制部14,作为属性得分机构,基于属性关联语的检索的命中件数,进行属性关联语的分数赋予。在该情况下,也能够适用于店铺聚集多的网上商城以外。此外,信息处理服务器10的系统控制部14,作为网页抽出机构,可以抽出在多个属性关联语中属性关联语的出现次数为零的比例是规定以上的网页。此外,即使属性关联语的出现次数不是零,也可以基于少数出现次数。进而,本发明不局限于上述各个实施方式。上述各个实施方式是例示,任何具有与本发明的权利要求所记载的技术思想本质上相同的构成并且获得同样的作用效果的内容都包含在本发明的技术范围内。符号的说明3:网络5:服务器系统10 :信息处理服务器(信息处理装置)12a:属性记述模式DB12b:属性/属性名DB20 :信息提供服务器22c:商品等目录DB
权利要求
1.ー种信息处理装置,其特征在于,包括 网页取得机构,其取得对网页中所记载的对象进行分类的类别为相同的多个网页; 初始数据取得机构,其取得与在所述网页上记载的对象的属性相关联的属性关联语或者在该对象的属性的记述中所使用的属性记述模式作为初始数据; 属性抽出机构,其从所述多个网页中抽出适合于所述属性记述模式的所述属性的属性关联语;和 属性记述模式抽出机构,其从所述多个网页中抽出适合于所述属性关联语的所述属性记述模式。
2.根据权利要求I所述的信息处理装置,其特征在干, 所述信息处理装置还包括重复机构,其将所述属性抽出机构和所述属性记述模式抽出机构交替地重复。
3.根据权利要求I或者2所述的信息处理装置,其特征在干, 所述属性抽出机构,抽出所述属性的属性名作为所述属性关联语。
4.根据权利要求I到3任何一项所述的信息处理装置,其特征在于,还包括 属性列表生成机构,其根据被抽出的所述属性关联语而生成属性列表;和 模式列表生成机构,其生成被抽出的所述属性记述模式的模式列表。
5.根据权利要求I到4任何一项所述的信息处理装置,其特征在于,还包括 属性得分机构,其进行所述属性关联语的分数赋予;和 属性选择机构,其以所述分数的顺序来进行所述属性关联语的等级赋予,选择规定的等级以上的属性关联语。
6.根据权利要求5所述的信息处理装置,其特征在干, 所述属性得分机构基于所述属性关联语的检索的命中件数,进行所述属性关联语的分数赋予。
7.根据权利要求5所述的信息处理装置,其特征在干, 所述属性得分机构,在具有用于销售所述对象的多个店铺的网站中,基于所述属性关联语出现的网页的所述店铺的数目,进行所述属性关联语的分数赋予。
8.根据权利要求I到7任何一项所述的信息处理装置,其特征在干, 所述信息处理装置还包括属性过滤机构,其去掉属于与所述类别不同之类别的多个网页中出现的所述属性关联语。
9.根据权利要求I到8任何一项所述的信息处理装置,其特征在干, 所述信息处理装置还包括 属性记述模式得分机构,其进行所述属性记述模式的分数赋予;和属性记述模式选择机构,其以所述分数的顺序来进行所述属性记述模式的等级赋予,选择规定的等级以上的属性记述模式。
10.根据权利要求9所述的信息处理装置,其特征在干, 所述属性记述模式得分机构,基于所述属性关联语和所述属性记述模式均出现的同现数,来进行所述属性记述模式的分数赋予。
11.根据权利要求I到10任何一项所述的信息处理装置,其特征在于,所述信息处理装置还包括属性名类似判定机构,其判定所述属性名之间是否是类似的;和 属性名汇总机构,其将由所述属性名类似判定机构判定为类似的属性名进行汇总。
12.根据权利要求11所述的信息处理装置,其特征在干, 所述属性抽出机构,抽出所述属性名和与所述属性名对应的属性值,作为所述属性关联语, 所述属性名汇总机构,基于所述属性值来汇总所述属性名。
13.根据权利要求I到10任何一项所述的信息处理装置,其特征在干, 所述网页取得机构,取得所述对象的供给源的网页, 所述信息处理装置还包括属性关联语比较机构,其通过所述初始数据取得机构、所述属性抽出机构和所述属性记述模式抽出机构,从所述对象的供给源的网页中抽出供给源对象属性关联语,将所述供给源对象属性关联语和所述属性关联语进行比较。
14.根据权利要求I到13任何一项所述的信息处理装置,其特征在干, 所述信息处理装置还包括目录生成机构,其基于被抽出的所述属性关联语,生成记载了所述属性关联语的目录。
15.根据权利要求I到14任何一项所述的信息处理装置,其特征在干, 所述信息处理装置还包括网页抽出机构,其从所述多个网页中,抽出所述属性关联语的出现次数为规定次数以下的网页。
16.根据权利要求15所述的信息处理装置,其特征在干, 所述网页抽出机构抽出所述属性关联语的出现次数为零的网页。
17.根据权利要求I到16任何一项所述的信息处理装置,其特征在干, 所述信息处理装置还包括网页属性分组机构,其基于所述属性关联语,将所述多个网页进行分组。
18.ー种信息处理方法,是信息处理装置进行信息处理的信息处理方法,该信息处理方法的特征在于,具有 网页取得步骤,取得对网页中所记载的对象进行分类的类别为相同的多个网页; 属性记述模式取得步骤,取得所述网页上记载的对象的属性的记述中所使用的属性记述模式; 属性抽出步骤,从所述多个网页中抽出适合于所述属性记述模式的所述属性的属性关联语;和 属性记述模式抽出步骤,基于被抽出的所述属性关联语,从所述多个网页中还抽出由所述属性抽出步骤使用的所述属性记述模式。
19.ー种信息处理方法,是信息处理装置进行信息处理的信息处理方法,该信息处理方法的特征在于,具有 网页取得步骤,取得对网页中所记载的对象进行分类的类别为相同的多个网页; 属性关联语取得步骤,取得与所述网页上记载的对象的属性相关联的属性关联语; 属性记述模式抽出步骤,作为所述属性的记述中所使用的属性记述模式,从所述多个网页中抽出适合于所述属性关联语的所述属性记述模式;和 属性关联语抽出步骤,其基于被抽出的所述属性关联语,从所述多个网页中还抽出由所述属性记述模式抽出步骤使用的属性关联语。
20.ー种信息处理装置用的程序,其特征在干, 使计算机作为下述机构发挥作用 网页取得机构,其取得对网页中所记载的对象进行分类的类别为相同的多个网页; 初始数据取得机构,取得与在所述网页上记载的对象的属性相关联的属性关联语或者在该对象的属性的记述中所使用的属性记述模式作为初始数据; 属性抽出机构,其从所述多个网页中抽出适合于所述属性记述模式的所述属性的属性关联语;和 属性记述模式抽出机构,其从所述多个网页中抽出适合于所述属性关联语的所述属性记述模式。
21.一种用于记录信息处理装置用的程序的计算机可读取的记录介质,其特征在于,所述信息处理装置用的程序使计算机作为下述机构发挥作用 网页取得机构,取得对网页中所记载的对象进行分类的类别为相同的多个网页; 初始数据取得机构,取得与在所述网页上记载的对象的属性相关联的属性关联语或者在该对象的属性的记述中所使用的属性记述模式作为初始数据; 属性抽出机构,从所述多个网页中抽出适合于所述属性记述模式的所述属性的属性关联语;以及 属性记述模式抽出机构,从所述多个网页中抽出适合于所述属性关联语的所述属性记述模式。
全文摘要
本发明提供一种信息处理装置和方法、信息处理装置用的程序以及记录介质,取得对网页中所记载的对象进行分类的类别为相同的多个网页(Sl),作为初始数据,取得与在网页上记载的对象的属性相关联的属性关联语或者在该对象的属性的记述中所使用的属性记述模式(S2),从多个网页中抽出适合于属性记述模式的属性的属性关联语(S3),从多个网页中抽出适合于属性关联语的属性记述模式(S4)。
文档编号G06F17/30GK102859518SQ20118000935
公开日2013年1月2日 申请日期2011年2月28日 优先权日2010年2月26日
发明者关根聪, 竹中孝真 申请人:乐天株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1