关联词登记装置、信息处理装置、关联词登记方法、关联词登记装置用程序以及记录介质的制作方法

文档序号:6362227阅读:167来源:国知局
专利名称:关联词登记装置、信息处理装置、关联词登记方法、关联词登记装置用程序以及记录介质的制作方法
技术领域
本发明涉及登记检索关键字作为关联词的关联词登记装置、信息处理装置、关联词登记方法、关联词登记装置用程序以及记录介质的技术领域。
背景技术
为了补充检索关键字并提高翻译等的精度,在信息检索系统、自然语言处理系统、机械翻译系统等中利用同义词辞典这种单词数据库。研究了用于自动构建该同义词辞典的各种装置。例如,在专利文献I中公开了如下的意思辞典登记装置:利用意思辞典中的已经赋予了意思信息的辞典条目的信息,自动对输入辞典条目赋予意思信息。现有技术文献专利文献专利文献1:日本特开2000-268035号公报

发明内容
发明要解决的课题但是,在专利文献I所记载的技术中,根据输入数据和已登记的全部数据的单纯的单词间意思的距离来判定近义,所以,近义的判定精度低,无法抑制不需要的同义词这样的关联词的登记。因此,难以构建高精度的同义词辞典等的关联词的辞典。本发明是鉴于这种问题而完成的,其课题的一例的目的在于,提供能够登记高精度的关联词的关联词登记装置等。用于解决课题的手段为了解决上述课题,第I方面所记载的发明是一种关联词登记装置,其具有:关联词候选集合生成单元,其根据规定条件从存储了与检索查询有关的记录的检索查询记录中提取关联词的候选,生成关联词候选集合;接收单元,其接收用户输入的检索字的检索查询;部分字符串生成单元,其根据所述检索字的字符串生成部分字符串;候选字符串提取单元,其根据所述生成的部分字符串,从所述关联词候选集合中提取候选字符串;得分计算单元,其根据所述候选字符串与所述检索字之间的相似度、所述候选字符串的使用次数和基于所述候选字符串的检索的检索结果数,计算所述候选字符串的适宜性得分;排序单元,其按照所述得分的顺序对所述候选字符串进行排序;判定基准生成单元,其根据所述候选字符串的适宜性得分和排序,生成针对所述排序的适宜性得分的基准线,作为是否将所述候选字符串登记为关联词的判定基准;登记字符串提取单元,其提取所述适宜性得分与基准线之间的背离为预先设定的阈值以上的候选字符串,作为用于登记为关联词的登记字符串;以及关联词登记单元,其在关联词数据库中登记所述提取出的登记字符串和所述检索字作为关联词。 第2方面所记载的发明的特征在于,在第I方面所记载的关联词登记装置中,所述部分字符串生成单元根据所述检索字的字符数设定部分字符串的长度,生成该设定的长度的部分字符串。第3方面所记载的发明的特征在于,在第I方面所记载的关联词登记装置中,所述部分字符串生成单元根据所述检索字的字符数设定生成部分字符串时的检索字的字符数的移动宽度,以该设定的移动宽度生成部分字符串。第4方面所记载的发明的特征在于,在第I 3方面中的任意一个方面所记载的关联词登记装置中,所述部分字符串生成单元针对使所述检索字进行表音变换后的检索字生成所述部分字符串。第5方面所记载的发明的特征在于,在第I 4方面中的任意一个方面所记载的关联词登记装置中,所述关联词登记装置还具有参数调节单元,该参数调节单元对所述得分计算单元的所述相似度和所述使用次数的信息进行调节。第6方面所记载的发明的特征在于,在第I 5方面中的任意一个方面所记载的关联词登记装置中,所述判定基准生成单元由对所述排序与所述适宜性得分之间的关联进行近似的近似函数或规定范围的所述排序的数据求出所述基准线。第7方面所记载的发明的特征在于,在第I 6方面中的任意一个方面所记载的关联词登记装置中,所述登记字符串提取单元对要提取的所述登记字符串的数量设置上限。第8方面所记载的发明的特征在于,在第I 7方面中的任意一个方面所记载的关联词登记装置中,所述关联词登记装置还具有检索字存储单元,该检索字存储单元存储与内部或外部的EC网站中销售的商品关联的检索字。第9方面所记载的发明的特征在于,在第I 8方面中的任意一个方面所记载的关联词登记装置中,所述得分计算单元根据与所述检索查询有关的记录的数据计算所述适宜性得分。 第10方面所记载的发明的特征在于,在第I 9方面中的任意一个方面所记载的关联词登记装置中,所述关联词登记装置还具有:检索查询存储单元,其按照接收顺序存储所述接收到的检索查询;检索查询提取单元,其根据预先设定的检索查询提取条件,从所述检索查询存储单元中提取接收顺序比所述接收到的检索查询早的先前的检索查询;字符串组存储单元,其存储构成所述提取出的先前的检索查询的先前的检索字和构成所述接收到的检索查询的检索字,作为字符串组;字符串提取单元,其根据预先设定的字符串组提取开始条件,从所述字符串组存储单元中提取所述先前的检索字相同或相似的字符串组;以及关联词确定单元,其根据预先设定的登记条件,从所述提取出的字符串组确定作为关联词的字符串组,所述关联词登记单元在关联词数据库中登记所述确定的字符串组作为关联
ο第11方面所记载的发明的特征在于,在第10方面所记载的关联词登记装置中,所述检索查询存储单元还存储用户识别信息,作为所述检索查询提取条件,所述检索查询提取单元提取输入了所述检索查询的用户的用户识别信息一致的所述先前的检索查询。第12方面所记载的发明的特征在于,在第10或11方面所记载的关联词登记装置中,作为所述检索查询提取条件,所述检索查询提取单元提取从所述检索查询的接收时刻起规定时间内接收到的先前的检索查询。
第13方面所记载的发明的特征在于,在第10 12方面中的任意一个方面所记载的关联词登记装置中,所述检索查询存储单元还存储类别信息,所述检索查询提取单元作为所述检索查询提取条件根据所述类别信息提取所述先前的检索查询。第14方面所记载的发明的特征在于,在第10 13方面中的任意一个方面所记载的关联词登记装置中,作为所述字符串组提取开始条件,在所述检索查询存储单元中的检索查询数或所述字符串组集合的元素数超过规定阈值的情况下,所述字符串提取单元提取所述字符串组。第15方面所记载的发明的特征在于,在第10 13方面中的任意一个方面所记载的关联词登记装置中,在满足所述字符串组提取开始条件后经过了规定时间的情况下,所述字符串提取单兀提取所述字符串组。第16方面所记载的发明的特征在于,在第10 15方面中的任意一个方面所记载的关联词登记装置中,作为所述登记条件,在所述先前的检索字相同或相似的字符串组中,具有相同或相似的检索字的字符串组的数量或具有相同或相似的检索字的字符串组的比例超过规定阈值的情况下,所述关联词确定单元确定该字符串组作为关联词。第17方面所记载的发明是一种信息处理装置,其参照第I 16方面中的任意一个方面所记载的关联词登记装置的关联词数据库进行信息处理,其特征在于,该信息处理装置具有:关联词提取单元,其参照所述关联词数据库,提取与所述接收到的检索查询的检索字对应的关联词;以及关联词输出单元,其输出由所述关联词提取单元提取出的关联词。第18方面所记载的发明是一种关联词登记装置的关联词登记方法,该关联词登记装置登记关联词,该关联词登记方法包括:关联词候选集合生成步骤,根据规定条件从存储了与检索查询有关的记录的检索查询记录中提取关联词的候选,生成关联词候选集合;接收步骤,接收用户输入的检索字的检索查询;部分字符串生成步骤,根据所述检索字的字符串生成部分字符串;候选字符串提取步骤,根据所述生成的部分字符串,从所述关联词候选集合中提取候选字符串;得分计算步骤,根据所述候选字符串与所述检索字之间的相似度、所述候选字符串的使用次数和基于所述候选字符串的检索的检索结果数,计算所述候选字符串的适宜性得分;排序步骤,按照所述得分的顺序对所述候选字符串进行排序;判定基准生成步骤,根据所述候选字符串的适宜性得分和排序,生成针对所述排序的适宜性得分的基准线,作为是否将所述候选字符串登记为关联词的判定基准;登记字符串提取步骤,提取所述适宜性得分与基准线之间的背离为预先设定的阈值以上的候选字符串,作为用于登记为关联词的登记字符串;以及关联词登记步骤,在关联词数据库中登记所述提取出的登记字符串和所述检索字作为关联词。第19方面所记载的发明是一种关联词登记装置用程序,其使计算机作为以下单元进行工作:关联词候选集合生成单元,其根据规定条件从存储了与检索查询有关的记录的检索查询记录中提取关联词的候选,生成关联词候选集合;接收单元,其接收用户输入的检索字的检索查询;部分字符串生成单元,其根据所述检索字的字符串生成部分字符串;候选字符串提取单元,其根据所述生成的部分字符串,从所述关联词候选集合中提取候选字符串;得分计算单元,其根据所述候选字符串与所述检索字之间的相似度、所述候选字符串的使用次数和基于所述候选字符串的检索的检索结果数,计算所述候选字符串的适宜性得分;排序单元,其按照所述得分的顺序对所述候选字符串进行排序;判定基准生成单元,其根据所述候选字符串的适宜性得分和排序,生成针对所述排序的适宜性得分的基准线,作为是否将所述候选字符串登记为关联词的判定基准;登记字符串提取单元,其提取所述适宜性得分与基准线之间的背离为预先设定的阈值以上的候选字符串,作为用于登记为关联词的登记字符串;以及关联词登记单元,其在关联词数据库中登记所述提取出的登记字符串和所述检索字作为关联词。第20方面所记载的发明是一种计算机可读取的记录介质,其记录了使计算机作为以下单元进行工作的关联词登记装置用的程序:关联词候选集合生成单元,其根据规定条件从存储了与检索查询有关的记录的检索查询记录中提取关联词的候选,生成关联词候选集合;接收单元,其接收用户输入的检索字的检索查询;部分字符串生成单元,其根据所述检索字的字符串生成部分字符串;候选字符串提取单元,其根据所述生成的部分字符串,从所述关联词候选集合中提取候选字符串;得分计算单元,其根据所述候选字符串与所述检索字之间的相似度、所述候选字符串的使用次数和基于所述候选字符串的检索的检索结果数,计算所述候选字符串的适宜性得分;排序单元,其按照所述得分的顺序对所述候选字符串进行排序;判定基准生成单元,其根据所述候选字符串的适宜性得分和排序,生成针对所述排序的适宜性得分的基准线,作为是否将所述候选字符串登记为关联词的判定基准;登记字符串提取单元,其提取所述适宜性得分与基准线之间的背离为预先设定的阈值以上的候选字符串,作为用于登记为关联词的登记字符串;以及关联词登记单元,其在关联词数据库中登记所述提取出的登记字符串和所述检索字作为关联词。发明效果根据本发明,生成根据规定条件从存储了与检索查询有关的记录的检索查询记录中提取关联词的候选的关联词候选集合,接收用户输入的检索字的检索查询,根据检索字的字符串生成部分字符串,根据部分字符串从关联词候选集合中提取候选字符串,根据候选字符串与检索字之间的相似度、候选字符串的使用次数和基于候选字符串的检索的检索结果数,计算候选字符串的适宜性得分,按照得分的顺序对候选字符串进行排序,根据候选字符串的适宜性得分和排序,生成针对排序的适宜性得分的基准线,作为是否将候选字符串登记为关联词的判定基准,提取适宜性得分与基准线之间的背离为预先设定的阈值以上的候选字符串,作为用于登记为关联词的登记字符串,在关联词数据库中登记提取出的登记字符串和检索字作为关联词,由此,根据减少了字符数的部分字符串从关联词候选集合中提取候选字符串,所以,能够通过候选字符串的适宜性得分来抑制不需要的关联词的登记,能够提闻关联词的精度。


图1是示出本发明的一个实施方式的关联词登记系统的概要结构例的示意图。图2是示出图1的关联词登记服务器的概要结构的一例的框图。图3是示出图1的信息提供服务器的概要结构的一例的框图。图4是示出图1的终端的概要结构的一例的框图。图5是示出图1的关联词登记系统I的第I实施方式的动作中的、关联词登记服务器的关联词候选集合的生成的动作例的流程图。图6是示出图1的终端中显示的网页的一例的示意图。
图7是示出图1的关联词登记服务器中的第I实施方式的关联词的登记的动作例的流程图。图8是不出部分字符串的提取的一例的不意图。图9 (A)和(B)是示出排序-得分/曲线的一例的示意图。图10是示出图1的关联词登记服务器中的计算适宜性得分的动作例的子进程的流程图。图11 (A) (C)是示出用于计算适宜性得分的可用性的图形的一例的线图。图12是示出图1的关联词登记系统I的第2实施方式的动作中的、终端中显示的网页的一例的示意图。图13是示出图1的关联词登记服务器的检索查询记录/数据库构建的动作例的流程图。图14是示出图1的终端中显示的网页的一例的示意图。图15是示出图1的关联词登记服务器的关联词的登记的动作例的流程图。图16是示出字符串组的一例的示意图。
具体实施例方式下面,参照附图对本发明的实施方式进行说明。另外,以下说明的实施方式是针对关联词登记系统应用本发明的情况下的实施方式。[1.关联词登记系统的结构和功能概要]首先,使用图1对本发明的一个实施方式的关联词登记系统的结构和概要功能进行说明。图1是示出本实施方式的关联词登记系统I的概要结构例的示意图。如图1所示,关联词登记系统I具有:关联词登记服务器10(关联词登记装置的一例),其登记关联词;信息提供服务器20,其为了实现用户利用的作为信息提供网站的一例的购物网站(内部EC (electronic commerce,电子商务)网站的一例)运营而设置,用于对用户提供关联词登记服务器10中登记的信息和商品的信息;以及终端30,其供用户在信息提供服务器20中进行商品等的检索。关联词登记服务器10和信息提供服务器20通过局域网等连接,能够相互收发数据,构成服务器系统5。而且,服务器系统5和终端30通过网络3连接,能够根据通信协议(例如TCP/IP)收发数据。另外,网络3例如通过因特网、专用通信线路(例如CATV(Community Antenna Television)线路)、移动通信网(包含基站等)以及网关等构建。并且,关联词登记服务器10根据终端30等中的用户的检索行动等构建关联词的数据库,支援终端30等中的用户的检索行动。信息提供服务器20从终端30接收包含检索字的检索查询并进行检索,对终端30发送检索结果。并且,为了构建关联词的数据库,信息提供服务器20对关联词登记服务器10发送所接收到的检索查询。并且,信息提供服务器20作为购物网站,进行商品的检索、商品息的提供、广告彳目息的提供和商品的购入手续等。用户的终端30存在多个。[2.各服务器的结构和功能]
(2.1关联词登记服务器10的结构和功能)接着,使用图2对关联词登记服务器10的结构和功能进行说明。图2是示出关联词登记服务器10的概要结构的一例的框图。如图2所示,作为计算机进行工作的关联词登记服务器10具有通信部11、存储部
12、输入输出接口部13、系统控制部14。而且,系统控制部14和输入输出接口部13经由系统总线15而连接。通信部11与网络3连接,对与终端30等的通信状态进行控制,进而,与局域网连接,与局域网上的信息提供服务器20等的其他服务器进行数据收发。存储部12例如由硬盘驱动等构成,存储操作系统和服务器程序等的各种程序、数据等。另外,各种程序例如可以经由网络3从其他服务器装置等取得,也可以记录在记录介质中并经由驱动装置(未图示)读入。并且,在存储部12中构建存储有与从终端30接收到的检索查询有关的记录的检索查询记录/数据库12a (以下设为“检索查询记录DB12a”。)、存储根据检索查询而生成的关联词的候选字符串作为关联词候选集合的关联词候选数据库12b (以下设为“关联词候选DB12b”。)、存储根据检索查询而生成的关联词的关联词数据库12c (以下设为“关联词DB12c”。)、字符串组数据库12d (以下设为“字符串组DB12d”。)等。另外,检索查询记录DB12a、关联词候选DB12b、关联词DB12c和字符串组DB12d可以在服务器系统5内构建在关联词登记服务器10以外的其他服务器中,也可以构建在服务器系统5外部。在检索查询记录DB12a (检索查询存储单元的一例)中存储有与接收到检索查询的接收时刻、用户ID等的用于区分用户的用户识别信息对应的检索查询。另外,作为用户识别信息,举出购物网站等的用户ID、用户终端或访问点的识别编号、IP地址等。进而,在信息提供服务器20中,在用户进行商品检索的情况下,还与商品所属的商品类别、用户打开的Web页所示的商品类别等的类别信息对应地,将检索查询存储在检索查询记录DB12a中。在关联词候选DB12b中存储有根据规定条件从检索查询记录DB12a的检索查询记录中提取出的关联词的候选字符串,作为关联词候选集合。在关联词DB12c中存储有由关联词登记服务器10生成的关联词。在字符串组DB12d (字符串组存储单元的一例)中存储有接收到的检索查询的检索字和从检索查询记录DB12a中提取出的检索查询的检索字的字符串组。接着,输入输出接口部13进行通信部11和存储部12与系统控制部14之间的接口处理。系统控制部14 由 CPU (Central Processing Unit)14a、R0M (Read Only Memory)14b、RAM (Random Access Memory) 14c 等构成。通过由 CPU 14a 读出 ROM 14b 或存储部 12中存储的各种程序并执行,系统控制部14进行关联词的登记处理等。(2.2信息提供服务器20的结构和功能)接着,使用图3对信息提供服务器20的结构和功能进行说明。图3是示出信息提供服务器20的概要结构的一例的框图。如图3所示,信息提供服务器20具有通信部21、存储部22、输入输出接口部23、系统控制部24,系统控制部24和输入输出接口部23经由系统总线25而连接。另外,信息提供服务器20的结构和功能与关联词登记服务器10的结构和功能大致相同,所以,以关联词登记服务器10的各结构和各功能中的不同之处为中心进行说明。通信部21通过网络3或局域网等对与终端30或关联词登记服务器10等的通信状态进行控制等。在存储部22中构建商品数据库(以下设为“商品DB”。)22a和会员数据库(以下设为“会员DB”。)22b等。在商品DB22a中,与用于识别商品的标识符即商品ID相关联地存储有商品名、种类、商品的图像、规格和商品信息、与各商品有关的广告信息等。并且,在商品DB22a中存储有通过 HTML (HyperText Markup Language)>XML (Extensible Markup Language)等的标记语言等记述的商品网页的文件等。进而,在商品DB22a中构建用于检索商品的检索数据库。商品DB22a是存储与服务器系统5内部的EC网站中销售的商品关联的检索字的检索字存储单兀的一例。在会员DB22b中登记有进行了会员登记的用户(购物网站的利用者)的用户ID、名称、住址、电话号码、邮件地址、职业、兴趣、购买历史、用户关心的主题和种类(商品类别)等的用户信息。并且,在会员DB22b中登记有用户从终端30登录购物网站时所需要的用户ID、登录ID和密码。这里,登录ID和密码是登录处理(用户的认证处理)中使用的登录信息。系统控制部24由CPU24a、R0M24b、RAM24c等构成。而且,通过由CPU24a读出R0M24b和存储部22中存储的各种程序并执行,系统控制部24进行商品检索处理、用户的商品购入处理等。(2.3终端30的结构和功能)接着,使用图4对终端30的结构和功能进行说明。图4是示出终端30的概要结构的一例的框图。如图4所示,作为计算机进行工作的终端30例如是个人计算机、包含智能手机的便携型无线电话机、PDA等的便携终端,具有通信部31、存储部32、显示部33、操作部34、输入输出接口部35、系统控制部36。而且,系统控制部36和输入输出接口部35经由系统总线37而连接。通信部31通过网络3对与信息提供服务器20等的通信进行控制。另外,在终端30为便携终端装置的情况下,通信部31具有无线通信功能,以使得与网络3的移动体通信网连接。存储部32例如由硬盘驱动等构成,存储操作系统、网页浏览器的程序、网页浏览器用工具条的程序等。显示部33例如由液晶显示元件或EL (Electro Luminescence)元件等构成。在显示部33中,通过网页浏览器显示检索画面的网页、从信息提供服务器20提供的商品检索的结果的网页。操作部34例如由键盘和鼠标等构成。用户通过操作部34输入应答。另外,在显示部33为触摸面板这种触摸开关方式的显示面板的情况下,操作部34取得用户接触或接近的显示部33的位置信息。输入输出接口部35是通信部31和存储部32与系统控制部36之间的接口。系统控制部36例如具有CPU36a、R0M36b、RAM36c。系统控制部36的CPU36a读出R0M36b、RAM36c、存储部32中存储的各种程序并执行。例如,系统控制部36执行网页浏览器的程序而作为网页浏览器进行工作。[3.关联词登记系统中的第I实施方式的动作]接着,使用图5 图11对本发明的一个实施方式的关联词登记系统I中的第I实施方式的动作进行说明。图5是示出关联词登记服务器10的关联词候选集合的生成的动作例的流程图。图6是示出终端30中显示的网页的一例的示意图。图7是示出关联词登记服务器的关联词的登记的动作例的流程图。图8是示出部分字符串的提取的一例的示意图。图9是示出排序-得分/曲线的一例的示意图。图10是示出关联词登记服务器10中的计算适宜性得分的动作例的子进程的流程图。图11是示出用于计算适宜性得分的可用性的图形的一例的线图。(3.1关联词候选集合的生成)使用图5对关联词候选集合的生成进行说明。首先,信息提供服务器20在从终端30接收到包含用户输入的检索字的检索查询时进行检索,并且对关联词登记服务器10发送该检索查询。进而,信息提供服务器20还对关联词登记服务器10发送针对检索查询的检索结果的件数。然后,关联词登记服务器10从信息提供服务器20接收检索查询和检索结果的件数,将检索查询与检索结果的件数对应地存储在检索查询记录DB12a中。此时,关联词登记服务器10也可以与接收到检索查询的接收时刻、用户ID、IP地址等的用于区分用户的用户识别信息对应地存储检索查询。接着,如图5所示,关联词登记服务器10从检索查询记录中提取检索查询(步骤SI)。具体而言,关联词登记服务器10的系统控制部14从检索查询记录DB12a中提取一个检索查询。接着,关联词登记服务器10判定是否是检索结果的件数为I件以上的检索查询(步骤S2)。具体而言,关联词登记服务器10的系统控制部14从检索查询记录DB12a中读出与提取出的检索查询对应的检索结果的件数,判定检索结果的件数是否为I件以上。另夕卜,关联词登记服务器10的系统控制部14也可以构成为,为了求出符合检索查询的检索结果的件数,对信息提供服务器20发送所提取出的检索查询,从信息提供服务器20接收符合件数。在检索结果的件数为I件以上的情况下(步骤S2:是),关联词登记服务器10在关联词候选集合中登记所提取出的检索查询(步骤S3)。具体而言,在检索结果的件数为I件以上、即检索结果的件数不是零件的检索查询的情况下,关联词登记服务器10的系统控制部14将该检索查询(包含作为关联词的候选字符串的检索字)作为关联词候选集合,登记在关联词候选DB 12b中。在检索结果的件数不是I件以上的情况下(步骤S2:否),关联词登记服务器10不在关联词候选集合中登记所提取出的检索查询。接着,判定是否存在剩余的检索查询(步骤S4)。具体而言,关联词登记服务器10的系统控制部14判定在检索查询记录DB12a中是否存在还未进行检索结果件数判定的检索查询。在存在剩余的检索查询的情况下(步骤S4:是),返回步骤SI,关联词登记服务器10提取下一个检索查询,在不存在剩余的检索查询的情况下(步骤S4:否),结束关联词候选集合的生成的处理。这样,关联词登记服务器10预先生成某种程度的规模的关联词候选集合。关联词登记服务器10作为关联词候选集合生成单元的一例进行工作,其根据规定条件从存储了与检索查询有关的记录的检索查询记录中提取关联词的候选,生成关联词候选
集合。
另外,信息提供服务器20在接收检索查询并进行检索时,在检索结果的件数不是零件的情况下,也可以在检索查询中附加不是零件的信息并发送到关联词登记服务器10。该情况下,关联词登记服务器10在接收到检索结果的件数不是零件的检索查询时,将其存储在关联词候选DB12b中。(3.2关联词的登记)接着,使用图6 图9对关联词的登记的动作进行说明。首先,如图6所示,在终端30的显示部33中,用户对从信息提供服务器20提供的Web页40的检索字输入栏41输入例如“A家的餐桌”这样的检索字。点击检索按钮42进行检索,终端30对信息提供服务器20发送包含该检索字的检索查询。接着,在信息提供服务器20从终端30接收到包含用户输入的检索字的检索查询时,对关联词登记服务器10发送该检索查询。接着,如图7所示,关联词登记服务器10接收包含用户输入的检索字的检索查询(步骤S10)。具体而言,关联词登记服务器10的系统控制部14从信息提供服务器20通过通信部11接收检索查询。另外,如在上述关联词候选集合的生成中说明的那样,关联词登记服务器10将接收到的检索查询存储在检索查询记录DB12a中。并且,关联词登记服务器10也可以在满足步骤S2的条件的情况下,将检索查询登记在关联词候选集合中。接着,关联词登记服务器10取得检索字的字符数(步骤Sll )。具体而言,关联词登记服务器10的系统控制部14在检索查询中包含的检索字为汉字等的情况下,变换为平假名这样的读音,或者进行罗马字变换。例如,关联词登记服务器10的系统控制部14将“A家的餐桌”表音变换为“ λ O L.J: < & < ”,使字符数从5个字符增加到9个字符。进而,关联词登记服务器10的系统控制部14也可以将“ λ IMt Q L.J: < ^ < ”罗马字变换为“eikenoshokutaku”,从而增加到15个字符。然后,关联词登记服务器10的系统控制部14取得进行平假名变换或罗马字变换等的表音变换后的检索字的字符数(例如9个字符或15个字符)。接着,关联词登记服务器10判定检索字的字符数是否为5个字符以上(步骤S12)。具体而言,关联词登记服务器10的系统控制部14判定表音变换后的检索字的字符数是否为5个字符以上。在检索字的字符数为5个字符以上的情况下(步骤S12:是),关联词登记服务器10从检索字中提取4个字符的部分字符串(步骤S13)。具体而言,如图8所示,关联词登记服务器10的系统控制部14针对检索字的字符串“eikenoshokutaku”,设部分字符串的长度(Window Size) L为4,设Window的滑动宽度(Sliding Size) S为2,生成部分字符串pi("eike")、部分字符串p2 (" keno")等的部分字符串并进行提取。另外,根据部分字符串的长度L,步骤S2的阈值(5个字符)被设定为比该部分字符串的长度L大的值。这样,关联词登记服务器10作为根据检索字的字符串生成部分字符串的部分字符串生成单元的一例进行工作。并且,关联词登记服务器10作为部分字符串生成单元的一例进行工作,其根据检索字的字符数设定部分字符串的长度,生成该设定的长度的部分字符串。并且,关联词登记服务器10作为部分字符串生成单元的一例进行工作,其根据检索字的字符数设定生成部分字符串时的检索字的字符数的移动宽度,以该设定的移动宽度生成部分字符串。并且,关联词登记服务器10作为针对使检索字进行表音变换后的检索字生成部分字符串的部分字符串生成单元的一例进行工作。接着,关联词登记服务器10从关联词候选集合中提取与部分字符串部分一致的关联词的候选字符串(步骤S14)。具体而言,关联词登记服务器10的系统控制部14根据图8所不的部分字符串生成检索查询Query=" eike" OR" keno" OR" nosh" OR" shok" 0R" okut" OR" utak",根据该检索查询,从关联词候选DB12b中提取关联词的候选字符串。即,关联词登记服务器10的系统控制部14提取与所提取出的各部分字符串部分一致的候选字符串。这里,部分一致是指,例如在部分字符串"eike"的情况下,是包含"eike"的候选字符串、包含"eike"的一部分"eik"的候选字符串。这样,关联词登记服务器10作为候选字符串提取单元的一例进行工作,其根据所生成的部分字符串,从关联词候选集合中提取候选字符串。并且,在检索字的字符数不是5个字符以上的情况下(步骤S12:否),关联词登记服务器10从关联词候选集合中提取与检索字部分一致的关联词的候选字符串(步骤S15)。具体而言,关联词登记服务器10的系统控制部14不提取部分字符串,而从关联词候选DB 12b中提取与所接收到的检索字本身或表音变换后的检索字部分一致的候选字符串。另外,关联词登记服务器10的系统控制部14也可以根据相似度来提取与部分字符串或检索字相似的候选字符串。另外,作为相似度。举出Jaro-Winkler距离、莱文斯坦距离等的字符串间的距离。接着,关联词登记服务器10计算各关联词的候选字符串的适宜性得分(步骤S16)。具体而言,关联词登记服务器10的系统控制部14通过后述适宜性得分子进程,计算所提取出的各候选字符串的适宜性得分。接着,关联词登记服务器10按照适宜性得分顺序求出排序(步骤S17)。具体而言,关联词登记服务器10的系统控制部14进行按照适宜性得分从高到低的顺序排序各候选字符串的处理。然后,关联词登记服务器10的系统控制部14取出上位一定数例如上位50位的候选字符串,进一步缩小候选字符串。这样,关联词登记服务器10作为按照得分的顺序对候选字符串进行排序的排序单元的一例进行工作。接着,关联词登记服务器10生成适宜性得分的基准线(步骤S18)。具体而言,关联词登记服务器10的系统控制部14根据所取出的上位的关联词的候选字符串中的适宜性得分为上位排序的字,决定并生成基准线。更具体而言,如图9 (A)所示,在图示了针对排序的相对适宜性得分的曲线中,系统控制部14例如将对I位 η位的适宜性得分的点进行近似的近似函数设为基准线LI。这里,关于作为基准线的一例的近似函数,举出对数函数、指数函数、I次函数、2次函数、3次函数等的乘幂函数、双曲线这样的圆锥曲线的函数等。近似函数只要是对排序-得分/曲线的各点进行近似或插值的函数即可。在求解近似函数时,利用最小二乘法等的基准即可。并且,相对适宜性得分例如是用排序I位的适宜性得分的值去除各得分而得到的值。另外,在决定基准线LI时,也可以通过最小二乘法决定下位的适宜性得分、50位 10位的各得分。另外,排序-得分的曲线按照适宜性得分的排序顺序排序,所以,成为广义的递减的曲线。这样,关联词登记服务器10作为判定基准生成单元的一例进行工作,其根据候选字符串的适宜性得分和排序,生成针对排序的适宜性得分的基准线,作为是否将候选字符串登记为关联词的判定基准。并且,关联词登记服务器10作为通过对排序与适宜性得分之间的关联进行近似的近似函数求出基准线的判定基准生成单元的一例进行工作。并且,关联词登记服务器10作为通过规定范围的排序的数据求出基准线的判定基准生成单元的一例进行工作。接着,关联词登记服务器10判定各适宜性得分与基准线之间的背离是否为阈值以上(步骤S19)。具体而言,关联词登记服务器10的系统控制部14判定基准线LI与排序I位的得分之间的差分是否为阈值以上。更具体而言,关联词登记服务器10的系统控制部14从排序I位的适宜性得分中减去在基准线LI的式子中代入排序的值而得到的值,计算差分。然后,如果差分为阈值Θ以上,则提取候选字符串作为关联词的登记字符串。这里,改变对适宜性得分进行调节的参数等,通过仿真,例如如基准线的0.1倍那样,预先求出阈值。该情况下,关联词登记服务器10的系统控制部14提取适宜性得分为基准线的1.1倍以上的候选字符串作为关联词。这样,关联词登记服务器10作为登记字符串提取单元的一例进行工作,其提取适宜性得分与基准线LI之间的背离为预先设定的阈值Θ以上的候选字符串,作为用于登记为关联词的登记字符串。在各适宜性得分与基准线之间的背离为阈值以上的情况下(步骤S19:是),关联词登记服务器10登记与基准线之间的背离为阈值以上的关联词的候选字符串作为关联词(步骤S20)。具体而言,关联词 登记服务器10的系统控制部14在各适宜性得分与基准线之间的背离为阈值以上的情况下,在关联词DB12c中登记排序I位的候选字符串,作为接收到的检索字的关联词的登记字符串。另外,在存在多个(例如3个)各适宜性得分与基准线之间的背离为阈值以上的候选字符串的情况下,关联词登记服务器10的系统控制部14不限于排序I位的候选字符串,也可以如排序I位 3位的候选字符串、I位和3位的候选字符串那样存储规定数的候选字符串,还可以如排序2位那样存储规定顺位的候选字符串。这样,关联词登记服务器10作为在关联词数据库中登记所提取出的登记字符串和检索字作为关联词的关联词登记单元的一例进行工作。在差分不是阈值以上的情况下(步骤S19:否),关联词登记服务器10结束处理。接着,对所构建的关联词数据库的利用进行说明。信息提供服务器20在根据从用户的终端30接收到的检索查询进行检索时,作为关联词提取单元的一例,参照关联词登记服务器10的关联词DB12C,提取与检索查询的检索字对应的关联词。例如,信息提供服务器20对关联词登记服务器10发送所接收到的检索查询。关联词登记服务器10从信息提供服务器20接收检索查询,从关联词DB12c中提取与检索查询的检索字对应的登记字符串。然后,关联词登记服务器10作为关联词输出单元的一例,对信息提供服务器20发送所提取出的登记字符串作为关联词。信息提供服务器20对终端30发送所接收到的关联词。然后,如图6所示,终端30如“也许是‘〇〇▲’?”那样在关联词显示栏43中显示所接收到的关联词。另外,也可以如“排序I的关联词”、“排序2的关联词”那样显示多个关联词。并且,不限于检索结果的件数为零件或较少的情况,也可以显示关联词。(3.3适宜性得分的计算的子进程)接着,使用图10和图11对适宜性得分的计算的子进程进行说明。在步骤S14或步骤S15中提取出关联词的候选字符串后,如图10所示,关联词登记服务器10计算所提取出的关联词的候选字符串与检索字的距离(步骤S30)。具体而言,关联词登记服务器10的系统控制部14例如根据式(I ),计算检索字u与候选字符串w之间的距离 Distance (w,u)。[数I]Distance (w, u) = α.Dist (w, u) + β.DistYomi (w, u)...(I)这里,Distance (w,u)是检索字u与候选字符串w之间的距离,是表示它们以何种程度相似的指标(相似度的一例)。另外,Dist (w,u)是候选字符串w与检索字u之间的Jaro-Winkler距离,Dist.Yomi (w, u)是候选字符串w的读音与检索字u的读音之间的Jaro-Winkler距离。系数α和系数β存在α+β=1的关系,在希望看重读音时,增大系数β的比例(例如α〈β、α=0.3、β=0.7)。另外,Distance (w,u)作为距离,优选为能够由O I表现的Jaro-Winkler距离,但是,不限于Jaro-Winkler距离,也可以是莱文斯坦距离、表示检索字u与候选字符串w之间的相似度的指标。接着,关联词登记服务器10取得各关联词的候选字符串的出现频度(步骤S31)。具体而言,关联词登记服务器10的系统控制部14计算检索查询记录中的各关联词的候选字符串的出现频度。更具体而言,关联词登记服务器10的系统控制部14根据式(2),根据检索查询记录DB 12a的数据,针对各候选字符串w计算P (W)。[数2]P (w) =1g10 (Occ.Count (w))…(2)这里,P (w)涉及候选字符串w在检索查询记录DB12a的检索记录数据中被检索到几次的出现频度。另外,Occ.Count (w)是检索查询记录中的候选字符串w的出现次数(候选字符串的使用次数)。在使用检索查询记录DB12a的检索查询记录数据的情况下,P (w)较高的字是各种用户在检索中经常输入的一般单词。这样,关联词登记服务器10的系统控制部14作为适宜性得分计算单元的一例,根据检索查询存储单元(检索查询记录DB12a)的数据计算适宜性得分。接着,关联词登记服务器10根据各关联词的候选字符串的商品DB22a中的检索件数计算检索可能性(可用性)(步骤S32)。具体而言,首先,关联词登记服务器10的系统控制部14对信息提供服务器20发送各关联词的候选字符串W,信息提供服务器20的系统控制部24求出商品DB22a中的检索件数(检索结果数),对关联词登记服务器10发送各候选字符串w的检索件数。然后, 关联词登记服务器10的系统控制部14根据式(3),根据检索件数计算各候选字符串w的检索可能性的值。[数3]
权利要求
1.一种关联词登记装置,其具有: 关联词候选集合生成单元,其根据规定条件从存储了与检索查询有关的记录的检索查询记录中提取关联词的候选,生成关联词候选集合; 接收单元,其接收用户输入的检索字的检索查询; 部分字符串生成单元,其根据所述检索字的字符串生成部分字符串; 候选字符串提取单元,其根据所述生成的部分字符串,从所述关联词候选集合中提取候选字符串; 得分计算单元,其根据所述候选字符串与所述检索字之间的相似度、所述候选字符串的使用次数和基于所述候选字符串的检索的检索结果数,计算所述候选字符串的适宜性得分; 排序单元,其按照所述得分的顺序对所述候选字符串进行排序; 判定基准生成单元,其根据所述·候选字符串的适宜性得分和排序,生成针对所述排序的适宜性得分的基准线,作为是否将所述候选字符串登记为关联词的判定基准; 登记字符串提取单元,其提取所述适宜性得分与基准线之间的背离为预先设定的阈值以上的候选字符串,作为用于登记为关联词的登记字符串;以及 关联词登记单元,其在关联词数据库中登记所述提取出的登记字符串和所述检索字作为关联词。
2.根据权利要求1所述的关联词登记装置,其特征在于, 所述部分字符串生成单元根据所述检索字的字符数设定部分字符串的长度,生成该设定的长度的部分字符串。
3.根据权利要求1所述的关联词登记装置,其特征在于, 所述部分字符串生成单元根据所述检索字的字符数设定生成部分字符串时的检索字的字符数的移动宽度,以该设定的移动宽度生成部分字符串。
4.根据权利要求1 3中的任意一项所述的关联词登记装置,其特征在于, 所述部分字符串生成单元针对使所述检索字进行表音变换后的检索字生成所述部分字符串。
5.根据权利要求1 4中的任意一项所述的关联词登记装置,其特征在于还具有参数调节单元,该参数调节单元对所述得分计算单元的所述相似度和所述使用次数的信息进行调节。
6.根据权利要求1 5中的任意一项所述的关联词登记装置,其特征在于, 所述判定基准生成单元通过对所述排序与所述适宜性得分之间的关联进行近似的近似函数或规定范围的所述排序的数据求出所述基准线。
7.根据权利要求1 6中的任意一项所述的关联词登记装置,其特征在于, 所述登记字符串提取单元对要提取的所述登记字符串的数量设置上限。
8.根据权利要求1 7中的任意一项所述的关联词登记装置,其特征在于还具有检索字存储单元,该检索字存储单元存储与内部或外部的EC网站中销售的商品关联的检索字。
9.根据权利要求1 8中的任意一项所述的关联词登记装置,其特征在于, 所述得分计算单元根据与所述检索查询有关的记录的数据计算所述适宜性得分。
10.根据权利要求1 9中的任意一项所述的关联词登记装置,其特征在于还具有:检索查询存储单元,其按照接收顺序存储所述接收到的检索查询; 检索查询提取单元,其根据预先设定的检索查询提取条件,从所述检索查询存储单元中提取接收顺序比所述接收到的检索查询早的先前的检索查询; 字符串组存储单元,其存储构成所述提取出的先前的检索查询的先前的检索字和构成所述接收到的检索查询的检索字,作为字符串组; 字符串提取单元,其根据预先设定的字符串组提取开始条件,从所述字符串组存储单元中提取所述先前的检索字相同或相似的字符串组;以及 关联词确定单元,其根据预先设定的登记条件,从所述提取出的字符串组确定作为关联词的字符串组, 所述关联词登记单元在关联词数据库中登记所述确定的字符串组作为关联词。
11.根据权利要求10所述的关联词登记装置,其特征在于, 所述检索查询存储单元还存储用户识别信息, 作为所述检索查询提取条件,所述检索查询提取单元提取输入了所述检索查询的用户的用户识别信息一致的所述先前的检索查询。
12.根据权利要求10或11所述的关联词登记装置,其特征在于, 作为所述检索查询提取条件,所述检索查询提取单元提取从所述检索查询的接收时刻起规定时间内接收到的先前的检索查询。
13.根据权利要求10 12中的任意一项所述的关联词登记装置,其特征在于, 所述检索查询存储单元还存储类别信息, 作为所述检索查询提取条件,所述检索查询提取单元根据所述类别信息提取所述先前的检索查询。
14.根据权利要求10 13中的任意一项所述的关联词登记装置,其特征在于, 作为所述字符串组提取开始条件,在所述检索查询存储单元中的检索查询数或所述字符串组集合的元素数超过规定阈值的情况下,所述字符串提取单元提取所述字符串组。
15.根据权利要求10 13中的任意一项所述的关联词登记装置,其特征在于, 在满足所述字符串组提取开始条件后经过了规定时间的情况下,所述字符串提取单元提取所述字符串组。
16.根据权利要求10 15中的任意一项所述的关联词登记装置,其特征在于, 作为所述登记条件,在所述先前的检索字相同或相似的字符串组中,具有相同或相似的检索字的字符串组的数量或具有相同或相似的检索字的字符串组的比例超过规定阈值的情况下,所述关联词确定单元确定该字符串组作为关联词。
17.一种信息处理装置,其参照权利要求1 16中的任意一项所述的关联词登记装置的关联词数据库进行信息处理,该信息处理装置的特征在于具有: 关联词提取单元,其参照所述关联词数据库,提取与所述接收到的检索查询的检索字对应的关联词;以及 关联词输出单元,其输出由所述关联词提取单元提取出的关联词。
18.一种关联词登记装置的关联词登记方法,该关联词登记装置登记关联词,该关联词登记方法包括: 关联词候选集合生成步骤,根据规定条件从存储了与检索查询有关的记录的检索查询记录中提取关联词的候选,生成关联词候选集合; 接收步骤,接收用户输入的检索字的检索查询; 部分字符串生成步骤,根据所述检索字的字符串生成部分字符串; 候选字符串提取步骤,根据所述生成的部分字符串,从所述关联词候选集合中提取候选字符串; 得分计算步骤,根据所述候选字符串与所述检索字之间的相似度、所述候选字符串的使用次数和基于所述候选字符串的检索的检索结果数,计算所述候选字符串的适宜性得分; 排序步骤,按照所述得分的顺序对所述候选字符串进行排序; 判定基准生成步骤,根据所述候选字符串的适宜性得分和排序,生成针对所述排序的适宜性得分的基准线,作为是否将所述候选字符串登记为关联词的判定基准; 登记字符串提取步骤,提取所述适宜性得分与基准线之间的背离为预先设定的阈值以上的候选字符串,作为用于登记为关·联词的登记字符串;以及 关联词登记步骤,在关联词数据库中登记所述提取出的登记字符串和所述检索字作为关联词。
19.一种关联词登记装置用程序,其使计算机作为以下单元进行工作: 关联词候选集合生成单元,其根据规定条件从存储了与检索查询有关的记录的检索查询记录中提取关联词的候选,生成关联词候选集合; 接收单元,其接收用户输入的检索字的检索查询; 部分字符串生成单元,其根据所述检索字的字符串生成部分字符串; 候选字符串提取单元,其根据所述生成的部分字符串,从所述关联词候选集合中提取候选字符串; 得分计算单元,其根据所述候选字符串与所述检索字之间的相似度、所述候选字符串的使用次数和基于所述候选字符串的检索的检索结果数,计算所述候选字符串的适宜性得分; 排序单元,其按照所述得分的顺序对所述候选字符串进行排序; 判定基准生成单元,其根据所述候选字符串的适宜性得分和排序,生成针对所述排序的适宜性得分的基准线,作为是否将所述候选字符串登记为关联词的判定基准; 登记字符串提取单元,其提取所述适宜性得分与基准线之间的背离为预先设定的阈值以上的候选字符串,作为用于登记为关联词的登记字符串;以及 关联词登记单元,其在关联词数据库中登记所述提取出的登记字符串和所述检索字作为关联词。
20.一种计算机可读取的记录介质,其记录了使计算机作为以下单元进行工作的关联词登记装置用的程序: 关联词候选集合生成单元,其根据规定条件从存储了与检索查询有关的记录的检索查询记录中提取关联词的候选,生成关联词候选集合; 接收单元,其接收用户输入的检索字的检索查询; 部分字符串生成单元,其根据所述检索字的字符串生成部分字符串; 候选字符串提取单元,其根据所述生成的部分字符串,从所述关联词候选集合中提取候选字符串; 得分计算单元,其根据所述候选字符串与所述检索字之间的相似度、所述候选字符串的使用次数和基于所述候选字符串的检索的检索结果数,计算所述候选字符串的适宜性得分; 排序单元,其按照所述得分的顺序对所述候选字符串进行排序; 判定基准生成单元,其根据所述候选字符串的适宜性得分和排序,生成针对所述排序的适宜性得分的基准线,作为是否将所述候选字符串登记为关联词的判定基准; 登记字符串提取单元,其提取所述适宜性得分与基准线之间的背离为预先设定的阈值以上的候选字符串,作为用于登记为关联词的登记字符串;以及 关联词登记单元,其在关联词数据库中登记所述提取出的登记字符串和所述检索字作为关联 词。
全文摘要
生成根据规定条件从检索查询记录(12a)中提取出关联词的候选的关联词候选集合(12b)(S1~S4),接收用户输入的检索字的检索查询(S10),根据检索字的字符串生成部分字符串(S13),根据部分字符串从关联词候选集合中提取候选字符串(S14),计算候选字符串的适宜性得分(S16),按照得分的顺序对候选字符串进行排序(S17),根据适宜性得分和排序生成针对排序的适宜性得分的基准线L1(S18),提取适宜性得分与基准线之间的背离为预先设定的阈值以上的候选字符串作为用于登记为关联词的登记字符串(S19),在关联词DB(12c)中登记所提取出的登记字符串和检索字作为关联词(S20)。
文档编号G06F17/30GK103201737SQ20118005372
公开日2013年7月10日 申请日期2011年11月7日 优先权日2010年11月10日
发明者平手勇宇 申请人:乐天株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1