数据结合系统和数据结合方法

文档序号:6349198阅读:234来源:国知局
专利名称:数据结合系统和数据结合方法
技术领域
本发明涉及数据结合系统和数据结合方法。
背景技术
一般地,在对多个数据彼此进行结合的处理中,着眼于各数据所包含的规定项目, 在该项目的值一致的情况下,进行对这些数据进行结合的处理。例如,公知有如下的数据处理装置在各个数据所包含的属性值和项目值一致的情况下,对第1表所包含的内容数据与第2表所包含的记录数据进行结合(例如参照专利文献1)。现有技术文献专利文献专利文献1 日本特开2005-49943号公报

发明内容
发明要解决的课题在针对某个数据组所包含的数据(以下设为“结合源数据”)、从其他数据组中提取规定项目的值一致的数据(以下设为“结合目标数据”)并对结合源数据与提取出的结合目标数据进行结合的数据结合处理中,有时在结合目标数据组中存在多个规定项目的值一致的结合目标数据。并且,有时结合目标数据组本身存在多个。在这种情况下,当仅将规定项目的值的一致作为结合基准时,无法决定与结合源数据进行结合的结合目标数据。并且, 为了决定结合目标数据,有时还考虑关于值能够伴有范围概念的与上述规定项目不同的其他项目。一般地,在数据结合处理中,需要提高结合的成功率,但是,当为了提高结合的成功率而对上述其他项目的值在结合源数据与结合目标数据之间大幅不同的数据进行结合时, 结合后的结合源数据与结合目标数据的结合精度降低,是不理想的。因此,本发明是鉴于该问题点而完成的,其目的在于提供如下的数据结合系统和数据结合方法在数据结合处理中,能够提高结合的数据的结合精度,同时能够提高数据结合的成功率。用于解决课题的手段为了解决上述课题,本发明的数据结合系统对结合源数据和选择结合目标数据进行结合,该结合源数据包含标识项目和关键项目,该选择结合目标数据是从具有多个包含标识项目和关键项目的结合目标数据的结合目标数据组中选择出的一个结合目标数据,该数据结合系统的特征在于,具有结合源数据存储单元,其存储结合源数据;结合目标数据存储单元,其存储结合目标数据组;数据判定单元,其在存储于结合源数据存储单元的一个结合源数据所包含的标识项目的值与存储于结合目标数据存储单元的结合目标数据所包含的标识项目的值一致、或者属于根据该结合目标数据所包含的标识项目的值而设定的规定标识范围、且该结合源数据所包含的关键项目的值属于根据该结合目标数据所包含的关键项目的值而设定的第1规定范围的情况下,选择该结合目标数据作为选择结合目标数据;数据结合单元,其将由数据判定单元选择出的选择结合目标数据与结合源数据进行结合,生成合成数据;合成数据存储单元,其存储合成数据;以及数据写出单元,其将由数据结合单元生成的合成数据存储在合成数据存储单元中,规定标识范围是包含结合目标数据所包含的标识项目的值的有限范围,第1规定范围是包含结合目标数据所包含的关键项目的值的有限范围。 并且,为了解决上述课题,本发明的数据结合方法对结合源数据和选择结合目标数据进行结合,该结合源数据包含标识项目和关键项目,该选择结合目标数据是从具有多个包含标识项目和关键项目的结合目标数据的结合目标数据组中选择出的一个结合目标数据,该数据结合方法的特征在于,该数据结合方法具有以下步骤数据判定步骤,在一个结合源数据所包含的标识项目的值与结合目标数据所包含的标识项目的值一致、或者属于根据该结合目标数据所包含的标识项目的值而设定的规定标识范围、且该结合源数据所包含的关键项目的值属于根据该结合目标数据所包含的关键项目的值而设定的第1规定范围的情况下,选择该结合目标数据作为选择结合目标数据;数据结合步骤,将在数据判定步骤中选择出的选择结合目标数据与结合源数据进行结合,生成合成数据;以及数据写出步骤,将由数据结合单元生成的合成数据存储在用于存储合成数据的合成数据存储单元中, 规定标识范围是包含结合目标数据所包含的标识项目的值的有限范围,第1规定范围是包含结合目标数据的关键项目的值的有限范围。在本发明的数据结合系统和数据结合方法中,在使结合目标数据与结合源数据进行结合时,在标识项目的值一致、或者属于根据该结合目标数据所包含的标识项目的值而设定的规定标识范围的基础上,在结合源数据的关键项目的值属于根据结合目标数据的关键项目的值而设定的第1规定范围的情况下,将该结合目标数据作为选择结合目标数据与结合源数据进行结合,所以,能够提高数据结合的精度。另外,在标识项目是存储了不具有范围概念的值的项目的情况下,标识项目例如是存储用户的标识符作为值的项目。并且,在标识项目是存储了具有范围概念的值的项目的情况下,标识项目例如是存储基于IP地址的标识符的网络前缀作为值的项目。并且,关键项目是能够取连续或离散的值的项目,关于该值能够伴有范围概念。并且,在本发明的数据结合系统中,其特征在于,数据判定单元从存储于结合目标数据存储单元的多个结合目标数据中,提取结合目标数据所包含的标识项目的值与结合源数据所包含的标识项目的值一致、或者结合源数据所包含的标识项目的值属于根据该结合目标数据所包含的标识项目的值而设定的规定标识范围的结合目标数据,作为提取结合目标数据,在结合源数据所包含的关键项目的值属于根据提取结合目标数据所包含的关键项目的值而设定的第1规定范围的情况下,选择该提取结合目标数据作为选择结合目标数据。该情况下,在根据标识项目的值提取与结合源数据进行结合的结合目标数据的候选作为提取结合目标数据后,在结合源数据所包含的关键项目的值属于根据提取结合目标数据的关键项目的值而设定的第1规定范围的情况下,使该提取结合目标数据与结合源数据进行结合,所以,能够进一步提高数据结合的精度,并且,能够减轻基于关键项目的值实现的选择结合目标数据的选择的处理负担。并且,在本发明的数据结合系统中,其特征在于,结合源数据和结合目标数据包含多个关键项目,在结合源数据所包含的多个关键项目各自的值属于根据提取结合目标数据所包含的多个关键项目的值而设定的各个第1规定范围的情况下,数据判定单元选择该提取结合目标数据作为选择结合目标数据。在该结构中,即使在结合源和结合目标数据是具有多个关键项目的数据的情况下,在结合源数据的各个关键项目属于关于结合目标数据中的各个关键项目而设定的第1 规定范围的情况下,选择该结合目标数据作为与结合源数据进行结合的选择结合数据,所以,能够提高结合的选择结合目标数据与结合源数据的结合精度,同时能够提高数据结合的成功率。并且,在本发明的数据结合系统中,其特征在于,在结合源数据所包含的关键项目的值不属于根据提取结合目标数据所包含的关键项目的值而设定的第1规定范围的情况下,在结合源数据所包含的关键项目的值属于与第1规定范围邻接设定的第2规定范围的情况下,数据判定单元选择该提取结合目标数据作为选择结合目标数据。在该结构中,即使在结合源数据的关键项目的值不属于与任意的提取结合目标数据的关键项目的值有关的第1规定范围的情况下,如果属于关于任意的提取结合目标数据的关键项目与第1规定范围邻接设定的第2规定范围,则选择该提取结合目标数据作为与结合源数据进行结合的选择结合目标数据,所以,能够提高数据结合的成功率。即,在这些结构中,在结合源数据的关键项目的值属于与结合目标数据的关键项目的值有关的第1规定范围的情况下,或者不存在关键项目的值属于第1规定范围的提取结合目标数据的情况下关键项目的值属于第2规定范围时,选择该结合目标数据作为与结合源数据进行结合的选择结合目标数据,所以,能够防止无法选择作为结合对象的结合目标数据而使与该结合源数据有关的结合处理失败的情况。并且,在本发明的数据结合系统中,其特征在于,结合源数据和结合目标数据包含多个关键项目,在结合源数据所包含的多个关键项目各自的值属于根据提取结合目标数据所包含的多个关键项目的值而设定的各个第1规定范围、或者与该第1规定范围邻接设定的各个第2规定范围的情况下,数据判定单元选择该提取结合目标数据作为选择结合目标数据。在该结构中,即使在结合源和结合目标数据是具有多个关键项目的数据的情况下,在结合源数据的各个关键项目属于关于结合目标数据中的各个关键项目而设定的第1 规定范围、或者与第1规定范围邻接设定的第2规定范围的情况下,选择该结合目标数据作为与结合源数据进行结合的选择结合数据,所以,能够确保结合的选择结合目标数据与结合源数据的结合精度,同时能够提高数据结合的成功率。并且,在本发明的数据结合系统中,其特征在于,数据判定单元从存储于结合目标数据存储单元的多个结合目标数据中,提取结合源数据所包含的关键项目的值属于第1规定范围的结合目标数据,作为提取结合目标数据,在提取结合目标数据所包含的标识项目的值与结合源数据所包含的标识项目的值一致、或者结合源数据所包含的标识项目的值属于根据该提取结合目标数据所包含的标识项目的值而设定的规定标识范围的情况下,选择该提取结合目标数据作为选择结合目标数据。该情况下,在根据关键项目的值提取与结合源数据进行结合的结合目标数据的候选作为提取结合目标数据后,使提取结合目标数据中的标识项目的值一致的结合目标数据、或者结合源数据所包含的标识项目的值属于根据该提取结合目标数据所包含的标识项目的值而设定的规定标识范围的结合目标数据与结合源数据进行结合,所以,能够进一步提高数据结合的精度。并且,在本发明的数据结合系统中,其特征在于,在提取结合目标数据所包含的标识项目的值与结合源数据所包含的标识项目的值不一致、且结合源数据所包含的标识项目的值不属于根据该提取结合目标数据所包含的标识项目的值而设定的规定标识范围的情况下,数据判定单元从结合目标数据存储单元中再次提取具有用于设定与第1规定范围邻接的第2规定范围的值作为该关键项目的其他结合目标数据,作为提取结合目标数据,从再次提取出的提取结合目标数据中选择标识项目的值与结合源数据所包含的标识项目的值一致、或者属于根据该提取结合目标数据所包含的标识项目的值而设定的规定标识范围的该提取结合目标数据,作为选择结合目标数据。在该结构中,即使在结合源数据的标识项目的值与在关键项目中根据第1规定范围提取出的任意的提取结合目标数据的标识项目的值一致、或者不属于根据该提取结合目标数据所包含的标识项目的值而设定的规定标识范围的情况下,如果在根据与第1规定范围邻接的第2规定范围在关键项目中再次提取出的提取结合目标数据中存在标识项目的值与结合源数据一致、或者属于根据该提取结合目标数据所包含的标识项目的值而设定的规定标识范围的提取结合目标数据,则选择该提取结合目标数据作为与结合源数据进行结合的选择结合目标数据,所以,能够进一步提高数据结合的成功率。即,在该结构中,在结合源数据的标识项目的值一致或者属于根据该提取结合目标数据所包含的标识项目的值而设定的规定标识范围的结合目标数据存在于在关键项目中根据第1规定范围提取出的提取结合目标数据中的情况下、或者不存在于根据第1规定范围提取出的提取结合目标数据中而存在于根据第2规定范围提取出的提取结合目标数据中的情况下,选择该提取结合目标数据作为与结合源数据进行结合的选择结合目标数据,所以,能够防止无法选择作为结合对象的结合目标数据而使与该结合源数据有关的结合处理失败的情况。并且,在本发明的数据结合系统中,其特征在于,关键项目是与日期时间有关的项目,第1规定范围是包含关键项目的值的日期时间的规定期间。根据该结构,能够使对应于规定期间的结合目标数据与对应于日期时间的结合源数据进行结合。发明效果根据本发明的数据结合系统和数据结合方法,在使结合目标数据与结合源数据进行结合时,在标识项目一致、或者属于根据该结合目标数据所包含的标识项目的值而设定的规定标识范围的基础上,在结合源数据的关键项目的值属于根据结合目标数据的关键项目的值而设定的第1规定范围的情况下,将该结合目标数据作为选择结合目标数据与结合源数据进行结合,所以,能够提高数据结合的成功率。并且,第1规定范围是根据结合目标数据的关键项目的值而设定的范围,所以,能够提高结合精度。因此,在数据结合处理中,能够提高结合的数据的结合精度,同时能够提高数据结合的成功率。


图1是数据结合系统的实施方式的服务器的功能框图。图2是服务器的硬件框图。
图3是示出存储在表存储部中的表A、表Bl和表B2的结构的一例的图。图4是示出存储在表存储部中的表C的结构的一例的图。图5是示出在服务器中实施的数据结合方法的处理内容的流程图。图6是示出在服务器中实施的另一实施方式的数据结合方法的处理内容的流程图。标号说明1 服务器;10 用户请求取得部;11 表判定部;12 数据读取部;13 数据结合部; 14 数据写出部;15 用户结果输出部;16 表存储部。
具体实施例方式参照

本发明的实施方式的数据结合系统。另外,在可能的情况下,对同一部分标注同一标号并省略重复的说明。(第1实施方式)图1是示出数据结合系统的一个实施方式的服务器1的功能结构的框图。服务器 1是对结合源数据和选择结合目标数据进行结合的装置,该结合源数据包含多个关键项目, 该选择结合目标数据是从具有多个包含多个关键项目的结合目标数据的结合目标数据组中选择出的,在功能上,服务器1具有用户请求取得部10、表判定部11 (数据判定单元)、数据读取部12、数据结合部13(数据结合单元)、数据写出部14(数据写出单元)、用户结果输出部15以及表存储部16(结合源数据存储单元、结合目标数据存储单元、合成数据存储单元)°并且,图2是服务器1的硬件结构图。在物理上,如图2所示,服务器1构成为计算机系统,其包含CPU 101、作为主存储装置的RAM 102和ROM 103、硬盘和闪存等辅助存储装置105、作为输入设备的键盘和鼠标等输入装置106、显示器等输出装置107、网卡等作为数据收发设备的通信模块104等。通过在图2所示的CPU 101、RAM 102等硬件上读入规定的计算机软件,在CPU 101的控制下使通信模块104、输入装置106、输出装置107进行动作,并进行RAM 102或辅助存储装置105中的数据的读出和写入,由此实现图1所示的各功能。另外,在本实施方式中,上述各功能部10 16为服务器1所有,但是,也可以分散于能够经由网络相互通信的多个服务器,本发明的数据结合系统可以由多个服务器构成。首先,在各功能部10 15的说明之前,对存储在表存储部16中的表进行说明。 在图1所示的例子中,表存储部16存储表A、表Bi、表B2和表C。并且,表Bl和表B2构成表B组。另外,存储在表存储部16中的表A构成本发明的结合源数据存储单元,表A所包含的记录a构成本发明的结合源数据。并且,存储在表存储部16中的表B1、B2构成本发明的结合目标数据存储单元,存储在表B组中的多个记录b构成本发明的结合目标数据组,表 Bl和表B2所包含的记录b构成本发明的结合目标数据。存储在表存储部16中的表C构成本发明的存储合成数据作为记录的合成数据存储单元。图3(a)示出表A的结构的一例。表A是存储由收容移动终端的基站和交换机取得的移动终端的位置信息的表,作为项目,具有“用户ID”、“日期时间”和“位置”。项目“用户ID”是移动终端的用户的标识符,项目“日期时间”是取得该记录的日期,项目“位置”是与移动终端的所在位置有关的信息。而且,在图3(a)所示的例子中,表A存储有记录al、 3-2、3-3 ο图3(b)示出表Bl的结构的一例。表Bl是移动终端的通信服务提供商中存储“7 月”末这一时点的移动终端签约者的属性信息的表。作为项目,表Bl具有“用户ID”、“性别”和“出生年月日”。项目“用户ID”是移动终端的用户的标识符,项目“性别”是用户的性别,项目“出生年月日”是用户的出生年月日。并且,表Bl具有与属性信息取得时有关的项目“日期时间”,可以理解为所有记录bll、bl2中的项目“日期时间”的值为“7月”。图3(c)示出表B2的结构的一例。表B2是移动终端的通信服务提供商中存储“8 月”末这一时点的移动终端签约者的属性信息的表。表B2具有与表Bl相同的项目。并且, 表B2具有与属性信息取得时有关的项目“日期时间”,可以理解为所有记录l321、b22中的项目“日期时间”的值为“8月”。图4示出表C的结构的一例。表C是存储使存储于表Bi、B2的任意的记录b与表A的记录a进行结合而生成的记录c的表。作为项目,表C具有“用户ID”、“日期时间”、 “位置”、“性别”、“出生年月日”和“结合后的表”。项目“结合后的表”表示结合后的记录b 的取得源的表,具有“b7 (表Bi) ”、"b8 (表B》,,这样的值。下面,使用图1详细说明服务器1的各功能部。用户请求取得部10是取得来自用户的数据结合的处理请求的部分。处理请求包含与数据结合有关的各种指定事项,例如,包含“对表A和表B组进行结合并输出到表C”、 “针对表A的记录,从表B组中选择用户ID的项目一致且根据与日期时间有关的项目通过规定算法提取出的记录并进行结合”、“规定算法的种类”以及“仅将结合成功的记录输出到表C”这样的信息。表判定部11是从表B组中选择与存储于表A的记录a进行结合的记录b的部分。 在后面详细叙述表判定部11实施的处理。并且,表判定部11将从表A取得的记录a和从表B组中选择出的记录b送出到数据结合部13。数据读取部12是参照存储于表存储部16的表A、表Bl和表B2取得记录的部分。 数据读取部12将取得的记录送出到表判定部。数据结合部13是如下部分从表判定部11取得记录a和记录b,将记录b与记录 a进行结合从而生成记录C。数据结合部13将记录c送出到数据写出部14。数据写出部14是从数据结合部13取得记录c并在表C中写出所取得的记录c的部分。并且,在所有记录写出结束的情况下,数据写出部14将该意思的通知送出到用户结果输出部15。用户结果输出部15是从数据写出部14取得记录写出结束的意思的通知并显示该意思的部分。接着,使用图5说明本实施方式的数据结合方法中的服务器1的动作。图5是示出在服务器1中进行的数据结合的处理内容的流程图。首先,用户请求取得部10取得来自用户的数据结合的处理请求(Si)。假设在该处理请求中例如包含‘针对表A的记录a,从表B组中选择“用户ID”的项目一致且根据与 “日期时间”有关的项目通过规定算法提取出的记录b并进行结合’这样的信息。另外,在本实施方式中,项目“用户ID”构成本发明的标识项目,项目“日期时间”构成本发明的关键项目。另外,存在标识项目是存储了不具有范围概念的值的项目的情况、以及标识项目是存储了具有范围概念的值的项目的情况。作为前者的一例,举出标识项目是存储用户的标识符即用户ID作为值的项目的情况。并且,作为后者的一例,举出标识项目是存储基于 IP地址的标识符的网络前缀作为值的项目的情况。在本实施方式中,设标识项目是存储了不具有范围概念的值的项目,进行以下说明。并且,关键项目是能够取连续或离散的值的项目,关于该值能够伴有范围概念。接着,数据读取部12从表存储部16中取得表A(S》。然后,表判定部11从所取得的表A中取得记录a (S3)。这里,假设首先取得了记录al。接着,表判定部11将记录a的项目“日期时间”的值作为关键字,使用规定算法从表B组中选择任意的表B (S4)。这里,说明规定算法。在本实施方式中,存在以下2种算法。第1算法针对所取得的“日期时间”为η月1日 31日的位置信息(记录a),结合η月末属性信息(bn)(记录b)。第2算法针对所取得的“日期时间”为η月16日 (η+1)月15日的位置信息 (记录a),结合η月末属性信息(bn)(记录b)。S卩,在第1算法中,根据记录b所包含的项目“日期时间”的值(η月)来设定η月 1日 31日的范围,在该范围中包含记录a的“日期时间”的值的情况下,对该记录a和该记录b进行结合。并且,在第2算法中,根据记录b所包含的项目“日期时间”的值(η月) 来设定η月16日 (η+1)月15日的范围,在该范围中包含记录a的“日期时间”的值的情况下,对该记录a和该记录b进行结合。另外,第1算法中的与日期时间有关的期间“η月 1日 31日”以及第2算法中的与日期时间有关的期间“η月16日 (η+1)月15日”构成本发明的第1规定范围。这里,当使用第1算法时,在步骤S3中选择记录al,记录al的项目“日期时间”的值为“2008/8/17”,所以,选择8月末属性信息(b8)的表B2 (S4)。接着,表判定部11根据记录a的项目“用户ID”的值“111”,尝试从表B2中取得项目“用户ID”的值为“111”的记录b(S5)。然后,表判定部11判定是否取得了记录b(S6)。 在能够取得记录b的情况下,处理顺序进入步骤S10,在无法取得记录b的情况下,处理顺序进入步骤S7。这里,在记录B2中不存在“用户ID”的值为“111”的记录b(参照图3(c)), 所以,处理顺序进入步骤S7。另外,在本实施方式中,构成本发明的标识项目的“用户ID”是不具有范围概念的项目,所以,在记录a的项目“用户ID”的值与记录b的项目“用户ID”的值一致的情况下, 表判定部11取得该记录b。与此相对,在使用与“用户ID”不同的例如“IP地址”所例示的具有范围概念的项目作为本发明的标识项目的情况下,在记录a和记录b的“IP地址”的一部分(例如上位部分)一致的情况下,表判定部11能够取得该记录b。即,根据记录b的 "IP地址”的上位部分一致的IP地址组来设定IP地址的值的范围,在记录a的IP地址属于该范围的情况下,表判定部11取得该记录b。这样,在使用具有范围概念的项目作为本发明的标识项目的情况下,能够根据记录b的该项目的值来设定规定范围。这里设定的规定范围构成本发明的“规定标识范围”。接着,在本实施方式中,表判定部11使用不具有范围概念的项目即“用户ID”进行用于取得记录b的判定处理,但是,如上所述,也可以使用具有范围概念的项目进行判定处理。在步骤S7中,表判定部11根据记录a的项目“日期时间”的值,经由数据读取部 12选择(n-1)月末属性信息(b(n-l))的表B或(n+1)月末属性信息(b(n+l))的表B(S7)。 这里,根据(n-1)月末属性信息(b(n-l))设定的期间“ (n-1)月1日 31日”、或根据(n+1) 月末属性信息(b(n+l))设定的期间“(n+1)月1日 31日”被设定为本发明的第2规定范围。具体而言,在使用第1算法的情况下,表判定部11选择(n-1)月末属性信息 (b (n-l))0这是指如下情况的事项用户ID “111”的用户在η月末的时点已经解约了移动终端,所以,在η月末属性信息(bn)中不存在用户ID“111”的记录b。另外,与(n_l)月末属性信息(b(n-l))对应的期间“(n-1)月1日 31日”构成本发明的与第1规定范围“η 月1日 31日”邻接设定的第2规定范围。另一方面,在使用第2算法的情况下,在记录a的项目“日期时间”的值为“η月16 日 η月31日”的情况下,表判定部11选择(n-1)月末属性信息(b (n_l)),在记录a的项目“日期时间”的值为“(n+1)月1日 (n+1)月15日”的情况下,表判定部11选择(n+1) 月末属性信息(b(n+l))。另外,与(n-1)月末属性信息(b(n-l))对应的期间“(n_l)月16 日 η月15日”以及与(n+1)月末属性信息(b(n+l))对应的期间“ (n+1)月16日 (n+2) 月15日”构成本发明的与第1规定范围“η月16日 (n+1)月15日”邻接设定的第2规定范围。在记录a的项目“日期时间”的值为“η月16日 η月31日”的情况下,不存在 “用户ID”的值为“111”的记录b的情况是用户ID “111”的用户在η月末的时点已经解约了移动终端的情况。并且,在记录a的项目“日期时间”的值为“(n+1)月1日 (n+1)月 15日”的情况下,不存在“用户ID”的值为“111”的记录b的情况是用户ID “111”的用户在η月末后且(n+1)月15日前的时点进行了移动终端的加入手续的情况。这里使用第1算法,所以,表判定部11经由数据读取部12选择7月末属性信息 (b7)的表 B1(S7)。接着,表判定部11尝试从在步骤S7中选择出的表B中取得项目“用户ID”的值为“111”的记录b(S8)。然后,表判定部11判定是否取得了记录b(S9)。在能够取得记录b 的情况下,处理顺序进入步骤S10,在无法取得记录b的情况下,处理顺序进入步骤S11。这里,在记录Bl中存在“用户ID”的值为“111”的记录bll(参照图3(b)),所以,处理顺序进入步骤S10。在步骤SlO中,表判定部11将记录a和在步骤S5或步骤S8中取得的记录b送出到数据结合部13。然后,数据结合部13对从表判定部取得的记录a和记录b进行结合,生成记录C。另一方面,在处理顺序进入步骤Sll的情况下,数据结合部13仅取得记录a,不实施结合处理(Sll)。在本实施方式中,处理顺序进入步骤S10,数据结合部13取得记录al 和记录bll,对这些记录进行结合。接着,数据结合部13将所生成的记录c送出到数据写出部14,数据写出部14取得所送出的记录c,将记录c写出到表C(S12)。在本实施方式中,数据写出部14将记录cl写出到表C(参照图4)。另外,也可以在表C中仅写出进行了结合处理后的记录,还可以针对没有进行结合处理的记录,写出未结合的记录。
在接下来的步骤S13中,判定是否已经取得了表A的所有记录a,在判定为已经取得的情况下,处理顺序结束,在没有判定为已经取得的情况下,处理顺序返回步骤S3(S13)。例如,简单说明在步骤S3中取得记录a2(参照图3(a))并在步骤S4中使用第1 算法时的处理内容。记录a2的项目“日期时间”的值为“2008/8/12”,所以,在步骤S4中选择“8月末属性信息(b8)”的表B2。记录a2的项目“用户ID”的值为“222”,在表B2中存在项目“用户ID”为“222”的记录1^21,所以,在步骤SlO中对记录a2和记录b21进行结合,将记录c2写出到表C (参照图4)。例如,简单说明在步骤S3中取得记录a3(参照图3(a))并在步骤S4中使用第2 算法时的处理内容。记录a3的项目“日期时间”的值为“2008/8/10”,所以,在步骤S4中选择“7月末属性信息(b7),,的表Bl作为第1规定范围。记录a3的项目“用户ID”的值为 “333”,在表Bl中不存在项目“用户ID”为“333”的记录b,所以,在步骤S7中选择“8月末属性信息(b8)”的表B2作为第2规定范围。然后,在表B2中存在项目“用户ID”为“333” 的记录1^22,所以,在步骤SlO中对记录a3和记录b22进行结合,将记录c3写出到表C(参照图4)。(第2实施方式)接着,使用图6说明第2实施方式的服务器1的动作。图6是示出在服务器1中进行的数据结合方法的处理内容的流程图。步骤S21 S23中的处理内容与图5中的步骤Sl S3的处理相同。接着,表判定部11尝试经由数据读取部12从属于表B组的所有表(这里为表Bi、 B2)中取得具有与所取得的记录a的用户ID的值相同的值的记录b组(SM)。例如,在步骤S23中取得了记录al的情况下,取得“用户ID”的值为“111”的记录bll。接着,表判定部11判定是否在步骤S24中取得了记录b组(S2Q。在能够取得记录b组的情况下,处理顺序进入步骤S27,在一个记录b组也无法取得的情况下,处理顺序进入步骤S26。在处理顺序进入步骤S26的情况下,不实施针对所取得的记录a的结合处理。 例如,在步骤S24中取得了记录bll的情况下,处理顺序进入步骤S27。接着,表判定部11将记录a的“日期时间”的值作为关键字,使用规定算法从记录 b组中选择属于第1规定范围的记录b(S27)。例如,在步骤SM中取得了记录bll且使用第 1算法的情况下,记录a所包含的项目“日期时间”的值“2008/8/17”不属于根据记录bll 的项目“日期时间”的值“7月”而设定的第1规定范围“7月1日 31日”,所以,不选择记录bll。另外,在该实施方式中,项目“日期时间”构成本发明的关键项目,项目“用户ID”构成本发明的“标识项目”。在接下来的步骤S28中,表判定部11判定是否在步骤S27中选择了记录b。在选择了记录b的情况下,处理顺序进入步骤S31,在没有选择记录b的情况下,处理顺序进入步骤S29。例如,在步骤S27中没有选择记录bll的情况下,处理顺序进入步骤S29。在步骤S29中,表判定部11根据记录a的项目“日期时间”的值,设定与通过规定算法设定的第1规定范围邻接的第2规定范围,作为提取对象的范围。具体而言,在使用第1算法的情况下,在第1规定范围为“η月1日 31日”的情况下,将第2规定范围设定为“(η+1)月1日 31日”。这样设定的情况是指如下情况用户ID “111”的用户在η月末的时点已经解约了移动终端,所以,在η月末属性信息(bn)中不存在用户ID “111”的记录b。另一方面,在使用第2算法的情况下,第1规定范围为“η月16日 (η+1)月15 日”,在记录a的项目“日期时间”的值为“(η+1)月16日 (η+1)月31日”的情况下,将第 2规定范围设定为“ (η+1)月16日 (η+2)月15日”。这样设定的情况是指如下情况用户 ID“111”的用户在η月末的时点签约了移动终端,在(η+1)月末的时点之前解约。并且,在记录a的项目“日期时间”的值为“η月1日 η月15日”的情况下,将第2规定范围设定为“(η-1)月16日 η月15日”。这样设定的情况是指如下情况用户ID “111”的用户在 (η-1)月末的时点未签约移动终端,在η月末的时点之前签约。这里,表判定部11根据第1规定范围“7月1日 31日”,将第2规定范围设定为 “8月1日 31日,,。接着,表判定部11根据第2规定范围,从在步骤S24中取得的记录b组中选择符合规定算法的记录b (S30)。在本实施方式中,记录a的项目“日期时间”的值“2008/8/17” 属于第2规定范围“8月1日 31日”,所以,表判定部11选择记录bll作为结合对象的记录。接着,在步骤S31中,表判定部11将记录a和在步骤S27或步骤S30中选择出的记录b送出到数据结合部13。然后,数据结合部13对从表判定部取得的记录a和记录b进行结合,生成记录c (S31)。另一方面,在处理顺序进入步骤幻6的情况下,数据结合部13仅取得记录a,不实施结合处理(S^)。例如,在步骤S30中选择了记录bll的情况下,数据结合部13取得记录al和记录bll,对这些记录进行结合。接着,数据结合部13将所生成的记录c送出到数据写出部14,数据写出部14取得所送出的记录c,将记录c写出到表C(S32)。这里,数据写出部14将记录cl写出到表C(参照图4)。在步骤S33中实施的处理内容与图5中的步骤S13相同。另外,关于在步骤S23 S33中实施的处理,可以如图6所示那样反复实施,也可以针对存储于表A的所有记录a并行进行。在并行进行的情况下,可以将各个处理分配给能够经由网络通信的多个服务器装置进行实施。(第3实施方式)另外,在使用图6说明的例子中,使用项目“日期时间”的值作为关键项目来选择记录b,但是,也可以使用记录a和记录b所包含的其他多个项目作为关键项目,对每个项目实施步骤S27 S30的处理,从而选择记录b。具体而言,在记录a和记录b具有多个(η个)项目的情况下,针对各项目反复η次来实施步骤S27 S30的处理。在记录a所包含的多个项目各自的值属于根据在步骤SM 中取得的记录b组所包含的多个项目的值而设定的各个第1规定范围的情况下,选择该记录b作为与记录a进行结合的记录。关于各个项目,即使在记录a所包含的项目各自的值不属于根据记录b所包含的多个项目的值而设定的各个第1规定范围的情况下,在属于与第1规定范围邻接设定的各个第2规定范围的情况下,选择该记录b作为与记录a进行结合的记录。换言之,在记录a所包含的多个项目各自的值属于根据记录b所包含的多个项目的值而设定的各个第1规定范围、或者与该第1规定范围邻接设定的各个第2规定范围的情况下,选择该记录b作为与记录a进行结合的记录。另外,该情况下,项目“日期时间”和上述多个项目构成本发明的多个关键项目。该情况下,即使在记录a和记录b具有多个项目的情况下,在记录a的各个项目属于关于记录b中的各个项目而设定的规定范围的情况下,选择该记录b作为与记录a进行结合的记录,所以,能够确保结合的记录a和记录b的结合精度,同时能够提高数据结合的成功率。接着,对以上说明的数据结合系统和数据结合方法的作用效果进行说明。在本实施方式的数据结合系统和数据结合方法中,在使记录b与记录a进行结合时,在用户ID — 致的基础上,在表判定部11判定为记录a的项目“日期时间”的值属于根据记录b的项目 “日期时间”的值而设定的第1规定范围的情况下,通过数据结合部13对记录b与记录a进行结合,所以,能够提高数据结合的成功率。并且,通过表判定部11,根据记录b所包含的项目“日期时间”的值来设定第1规定范围,所以,能够提高结合精度。并且,即使在记录a的“日期时间”的项目值不属于与记录b的“日期时间”的项目值有关的第1规定范围的情况下,如果属于与第1规定范围邻接的第2规定范围,则通过表判定部11选择记录b作为与记录a进行结合的记录,所以,能够提高数据结合的成功率。进而,即使在记录a和记录b是具有多个项目的数据的情况下,在记录a的各个项目属于关于记录b中的各个项目而设定的第1或第2规定范围的情况下,表判定部11选择记录b作为与记录a进行结合的数据,所以,能够提高结合的记录b和记录a的结合精度, 同时能够提高数据结合的成功率。产业上的可利用性本发明在数据结合处理中,能够提高结合的数据的结合精度,同时能够提高数据结合的成功率。
权利要求
1.一种数据结合系统,该数据结合系统对结合源数据和选择结合目标数据进行结合, 该结合源数据包含标识项目和关键项目,该选择结合目标数据是从具有多个包含标识项目和关键项目的结合目标数据的结合目标数据组中选择出的一个所述结合目标数据,该数据结合系统的特征在于,该数据结合系统具有结合源数据存储单元,其存储所述结合源数据; 结合目标数据存储单元,其存储所述结合目标数据组;数据判定单元,其在存储于所述结合源数据存储单元的一个结合源数据所包含的标识项目的值与存储于所述结合目标数据存储单元的结合目标数据所包含的标识项目的值一致、或者属于根据该结合目标数据所包含的标识项目的值而设定的规定标识范围、且该结合源数据所包含的关键项目的值属于根据该结合目标数据所包含的关键项目的值而设定的第1规定范围的情况下,选择该结合目标数据作为所述选择结合目标数据;数据结合单元,其将由所述数据判定单元选择出的所述选择结合目标数据与所述结合源数据进行结合,生成合成数据;合成数据存储单元,其存储所述合成数据;以及数据写出单元,其将由所述数据结合单元生成的所述合成数据存储在所述合成数据存储单元中,所述规定标识范围是包含所述结合目标数据所包含的标识项目的值的有限范围, 所述第1规定范围是包含所述结合目标数据所包含的关键项目的值的有限范围。
2.根据权利要求1所述的数据结合系统,其特征在于,所述数据判定单元从存储于所述结合目标数据存储单元的多个所述结合目标数据中, 提取所述结合目标数据所包含的标识项目的值与所述结合源数据所包含的标识项目的值一致、或者所述结合源数据所包含的标识项目的值属于根据该结合目标数据所包含的标识项目的值而设定的规定标识范围的结合目标数据,作为提取结合目标数据,在所述结合源数据所包含的关键项目的值属于根据所述提取结合目标数据所包含的关键项目的值而设定的所述第1规定范围的情况下,选择该提取结合目标数据作为所述选择结合目标数据。
3.根据权利要求2所述的数据结合系统,其特征在于, 所述结合源数据和结合目标数据包含多个关键项目,在所述结合源数据所包含的多个关键项目各自的值属于根据所述提取结合目标数据所包含的多个关键项目的值而设定的各个所述第1规定范围、或者与该第1规定范围邻接设定的各个第2规定范围的情况下,所述数据判定单元选择该提取结合目标数据作为所述选择结合目标数据。
4.根据权利要求2所述的数据结合系统,其特征在于,在所述结合源数据所包含的关键项目的值不属于根据所述提取结合目标数据所包含的关键项目的值而设定的所述第1规定范围的情况下,在所述结合源数据所包含的关键项目的值属于与所述第1规定范围邻接设定的第2规定范围的情况下,所述数据判定单元选择该提取结合目标数据作为所述选择结合目标数据。
5.根据权利要求4所述的数据结合系统,其特征在于, 所述结合源数据和结合目标数据包含多个关键项目,在所述结合源数据所包含的多个关键项目各自的值属于根据所述提取结合目标数据所包含的多个关键项目的值而设定的各个所述第1规定范围、或者与该第1规定范围邻接设定的各个第2规定范围的情况下,所述数据判定单元选择该提取结合目标数据作为所述选择结合目标数据。
6.根据权利要求1所述的数据结合系统,其特征在于,所述数据判定单元从存储于所述结合目标数据存储单元的多个所述结合目标数据中, 提取所述结合源数据所包含的关键项目的值属于所述第1规定范围的结合目标数据,作为提取结合目标数据,在所述提取结合目标数据所包含的标识项目的值与所述结合源数据所包含的标识项目的值一致、或者所述结合源数据所包含的标识项目的值属于根据该提取结合目标数据所包含的标识项目的值而设定的规定标识范围的情况下,选择该提取结合目标数据作为所述选择结合目标数据。
7.根据权利要求6所述的数据结合系统,其特征在于,在所述提取结合目标数据所包含的标识项目的值与所述结合源数据所包含的标识项目的值不一致、且所述结合源数据所包含的标识项目的值不属于根据该提取结合目标数据所包含的标识项目的值而设定的规定标识范围的情况下,所述数据判定单元从所述结合目标数据存储单元中再次提取具有用于设定与所述第1规定范围邻接的第2规定范围的值作为该关键项目的其他结合目标数据,作为所述提取结合目标数据,从再次提取出的提取结合目标数据中选择标识项目的值与所述结合源数据所包含的标识项目的值一致、或者属于根据该提取结合目标数据所包含的标识项目的值而设定的规定标识范围的该提取结合目标数据,作为选择结合目标数据。
8.根据权利要求1 7中的任意一项所述的数据结合系统,其特征在于,所述关键项目是与日期时间有关的项目,所述第1规定范围是包含所述关键项目的值的日期时间的规定期间。
9.一种数据结合方法,该数据结合方法对结合源数据和选择结合目标数据进行结合, 该结合源数据包含标识项目和关键项目,该选择结合目标数据是从具有多个包含标识项目和关键项目的结合目标数据的结合目标数据组中选择出的一个所述结合目标数据,该数据结合方法的特征在于,该数据结合方法具有以下步骤数据判定步骤,在一个结合源数据所包含的标识项目的值与所述结合目标数据所包含的标识项目的值一致、或者属于根据该结合目标数据所包含的标识项目的值而设定的规定标识范围、且该结合源数据所包含的关键项目的值属于根据该结合目标数据所包含的关键项目的值而设定的第1规定范围的情况下,选择该结合目标数据作为所述选择结合目标数据;数据结合步骤,将在所述数据判定步骤中选择出的所述选择结合目标数据与所述结合源数据进行结合,生成合成数据;以及数据写出步骤,将由所述数据结合单元生成的所述合成数据存储在用于存储所述合成数据的合成数据存储单元中,所述规定标识范围是包含所述结合目标数据所包含的标识项目的值的有限范围,所述第1规定范围是包含所述结合目标数据所包含的关键项目的值的有限范围。
全文摘要
本发明的数据结合系统具有表判定部(11),其在由数据读取部从表A中取得的记录a所包含的关键项目的值属于根据存储于表B的记录b所包含的关键项目的值而设定的第1规定范围的情况下,选择该记录b作为结合对象;数据结合部,其将选择出的记录b与记录a进行结合,生成记录c;以及数据写出部,其在表C中存储记录c。由此,能够提高结合的记录b和记录a的结合精度,同时能够提高数据结合的成功率。
文档编号G06F17/30GK102422285SQ20108002065
公开日2012年4月18日 申请日期2010年5月10日 优先权日2009年5月19日
发明者冈岛一郎, 大薮勇辉, 小林基成, 川上博, 永田智大, 赵晚熙, 越智大介, 铃木俊博 申请人:株式会社Ntt都科摩
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1