数据分析支援装置及数据分析支援方法与流程

文档序号:11541831阅读:234来源:国知局
数据分析支援装置及数据分析支援方法本申请以日本专利申请的特愿2012-065768(申请日为2012年3月22日)为基础,根据该申请而享有优先权益。本申请通过参照该申请而包含同申请的全部内容。
技术领域
本发明的实施方式涉及支援与不同的组织分别相关的数据的分析的数据分析支援装置及数据分析支援方法。
背景技术
:目前,将与不同组织分别相关的合计数据即事务失误(mistake)数据分别统和进行分析,由此将具有同趋势的事务失误数据的组织之间进行聚类(clustering)。不同组织例如是指多种金融机构。在不同组织的合计数据中特定组织的合计数据与其它组织的合计数据之间存在不一致的属性的情况下,与该其它组织中事务失误相关的原因信息成为将多个组织的合计数据统和进行分析时的缺损信息。在特定组织的合计数据和其它组织的合计数据之间有不一致的属性是指例如上述的特定组织将事务失误的原因信息合计、而其它组织不将该原因信息合计。作为现有的对缺损信息的应对有如下方法。首先,具有对缺损信息的应对功能的处理装置从蓄积于数据库的合计数据群中检测缺损数据。缺损数据是一部分特征缺损的数据。然后,处理装置将合计数据群分割为缺损数据和正常数据。正常数据是无缺损的数据。其次,处理装置使用预定的类似尺度求出与缺损数据类似的正常数据。然后,处理装置将该求出的正常数据中与缺损数据的缺损特征相对应的特征数据作为补充数据代入缺损数据的缺损特征。如上述,使用预定的类似尺度求取与缺损数据类似的正常数据的手法中,处理装置在某组织的合计数据中有缺损的情况下,使用其它组织的合计数据补充该组织的缺损数据。当像这样使用其它组织的合计数据补充缺损数据时,不能说补充后的合计数据的可靠性非常充分,从而分析精度不足。技术实现要素:本发明要解决的课题在于,提供一种数据分析支援装置及数据分析支援方法,即使在不同组织各自的数据中产生由于数据属性在组织间不同而导致的缺损,也能够提高将这些数据统和时的分析精度。根据实施方式,数据分析支援装置具有:组织类别数据表存储部,其存储与作为分析对象的多个组织各自有关的组织类别数据表(datatable),该组织类别数据表用于按组织类别管理记录(record),该记录是具有至少一种属性的数据。该数据分析支援装置具有:距离计算部,其对于预定的记录组,基于在构成所述记录组的各记录间共通的属性的种类数、及该共通的属性的值,计算表示构成所述记录组的各记录间的类似度的距离。预定的记录组是由组织类别数据表表示的、在多个组织间具有至少一种共通的属性的多个组织各自的记录组。该数据分析支援装置具有:分析处理部,其基于由所述距离计算部计算出的距离,进行用于对所述多个组织分别进行分类的分析。根据所述结构的数据分析支援装置,即使在不同的组织各自的数据中产生由于数据属性在组织间不同导致的缺损,也能够提高将这些数据统和时的分析精度。附图说明图1是表示实施方式的数据分析支援装置的功能构成例的框图;图2是以表形式表示多个银行的分行的事务失误数据之一例的图;图3是以表形式表示基于多个银行的分行的事务失误数据的、按分行类别合计的事务失误件数的数据之一例的图;图4是表示实施方式的数据分析支援装置的处理数据的流程之一例的图;图5是表示实施方式的数据分析支援装置的处理动作的顺序之一例的流程图;图6是表示本实施方式的数据分析支援装置的数据表结合部41进行的用于同一属性提取用的处理动作之一例的流程图;图7是以表形式表示由本实施方式的数据分析支援装置的数据表结合部生成的结合完成数据表之一例的图;图8是表示本实施方式的数据分析支援装置的记录间距离计算部进行的处理动作之一例的流程图;图9是表示本实施方式的数据分析支援装置的分析处理部进行的处理动作之一例的流程图;图10是表示分组中心分行的初始集合的设定例的图;图11是表示使各分行与分组中心分行相对应的例子的图;图12是以表形式表示由结合完成数据表定义的预定的分组中包含的各组织的属性及属性值之一例的图;图13是以表形式表示由结合完成数据表定义的预定的分组中包含的各组织的各属性的重心的计算结果之一例的图;图14是表示各分组的重心之一例的图;图15是以表形式表示由结合完成数据表定义的分组的分组中心分行的再计算结果之一例的图;图16是以表形式表示用于分组的精度的评价的实验数据的图;图17是以表形式表示用于分组的精度的评价的、各银行的事务失误收集状况的图;图18是以表形式表示用于分组的精度的评价的、包含缺损项目的实验数据的图;图19是以表形式表示实际正确地分类为各分组的分行数的准确率的图。具体实施方式下面,参照附图说明实施方式。本实施方式的数据分析支援装置存储组织类别数据表。该组织类别数据表是有关作为分析对象的多个组织各自的、用于按组织类别管理记录的数据表,该记录是具有至少一种属性的合计数据。该数据分析支援装置获得由组织类别数据表所示的多个组织间具有至少一种共通的属性的有关多个组织各自的记录组共通的属性的值。数据分析支援装置基于该值获得在该记录间共通的属性的种类数及该共通的属性的值。数据分析支援装置基于该值计算构成记录组的各记录之间的距离。该数据分析支援装置基于该算出的距离进行以与各记录相对应的组织为分组(cluster)要素的分组。图1是表示实施方式的数据分析支援装置的功能构成例的框图。如图1所示,实施方式的数据分析支援装置10具有控制部11、存储装置12、数据表结合部41、记录间距离计算部42、分析处理部43。分析处理部作为分组实施部起作用。控制部11担当装置整体的处理动作。数据表结合部41、记录间距离计算部42、分析处理部43是通过微处理器(microprocessor)上的软件(software)执行的处理部。另外,如图1所示,数据表结合部41、记录间距离计算部42、分析处理部43可以经由存储装置12在各部间进行信息的收受。另外,存储装置12是非易失性存储器(nonvolatilememory}等存储介质。存储装置12具有组织类别数据表存储部31、结合完成数据表存储部32、记录间距离存储部33及分组结果存储部34。本实施方式中,叙述用于分组的分析对象的各组织的事务失误数据的例子。本实施方式中,分析对象的各组织为银行的各分行。数据分析支援装置10将在各银行的各分行合计的合计数据结合。数据分析支援装置10进行该统和的结果是,使用产生了缺损值的数据基于事务失误发生的特征将多个银行的各分行分组。在各行的银行蓄积事务失误数据。事务失误数据是指对于每天的业务中发生的失误表示何时、哪种业务、是谁发生哪种失误的信息。失误例如是指手续费的错误、账户号码指定的错误等。上述的表示谁发生失误的信息是表示发生失误的银行职员的职务或头衔为何的信息。另外,上述的表示发生哪种失误的信息是失误的原因为何,损失金额有多少等的信息。关于事务失误收集的信息的属性在各行的银行间大致相同。但是,有时在特定银行存在固有的属性。另外,不限于特定属性的信息必须在所有的银行收集。图2是以表形式表示多个银行的分行的事务失误数据之一例的图。该图2中,表示在三个银行的各分行发生的事务失误数据。在本实施方式中,三个银行是指A银行、B银行、及C银行。这些A银行、B银行、C银行中,均收集事务失误的发生日、发生分行、失误发生业务的信息。该情况下,各行的事务失误数据作为同一属性具有发生日、发生分行、失误发生业务。在A银行、C银行收集事务失误的发生者的职务的信息。但是,在B银行不收集事务失误的发生者的职务的信息。该情况下,B银行的事务失误数据不具有属性“发生者的职务”。该属性的值成为B银行的事务失误数据的缺损值。另外,A银行、B银行收集事务失误的发生原因信息。但是,C银行不收集事务失误的发生原因信息。该情况下,C银行的事务失误数据中没有属性“失误发生原因”。该属性的值成为C银行的事务失误数据的缺损值。图2中,为便于说明,将缺损属性的缺损值作为“空”(NULL)明示。但实际上,在每个银行的事务失误数据中不存在未收集的数据的属性其自身。图3是以表形式表示基于多个银行的分行的事务失误数据按分行类别合计的事务失误件数的数据之一例的图。关于图2所示的事务失误数据,对各行的银行的分行类别的失误件数的合计进行说明。再次,为了简化说明,仅处理图2所示的事务失误数据中的属性“失误发生业务”、“发生者的职务”、“失误发生原因”。如图3所示,例如在A银行的事务失误数据中,将属性“分行编号”、属性“业务:存款”、属性“业务:贷款”、属性“职务:一般银行职员”、属性“职务:兼职”(part-timejob)、属性“原因:能力不足”、属性“原因:失误”的值对各分行分别进行合计。图3所示的属性“分行编号”是表示A银行的各分行的分行编号的属性。属性“业务1存款”是表示事务失误的发生业务为存款的属性。属性“业务1贷款”是表示事务失误的发生业务为贷款的属性。属性“职务:一般银行职员”是表示事务失误的发生者的职务为一般银行职员的属性。属性“职务;兼职”是表示事务失误的发生者的职务为兼职的属性。属性“原因:能力不足”是表示事务失误的发生原因为能力不足的属性。属性“原因:失误”是表示事务失误的发生原因为人为失误的属性。例如,对以图3所示的组织类别数据表的分行编号“A001”的行定义的属性“业务1存款”的列的栏的值“31”进行说明。该值表示在A银行的分行编号为“A001”的分行发生的事务失误内、业务为存款的事务失误的件数为31件。另外,假如以图3所示的组织类别数据表分行编号“B001”的行定义属性“职务:一般银行职员”的列,则该列的单元(cel1)的值成为缺损值“空”。如上述,实际上在每个银行的事务失误数据中,关于未收集的数据不存在属性其自身,因此,在各银行未收集的属性的值也未在事务失误件数的合计结果中体现。图3中,将各银行的各分行的组织类别数据表的不存在的属性名表记于虚线包围的列,将与该属性名对应的件数设为“空”。但是,实际上这种属性的列自身不存在。在本实施方式中,按分行类别合计的各属性的失误件数的数据作为组织类别数据表被存储于图1所示的存储装置12的组织类别数据表存储部31。图3所示的例中,同银行的各分行的合计数据的各属性相同。另外,图3所示的例中,将有关这些各分行的数据表设为包的组织类别数据表。该数据表按银行类别区分。图4是表示实施方式的数据分析支援装置进行的处理数据的流程之一例的图。数据表结合部41将各银行的各分行的组织类别数据表作为输入数据取入。该组织类别数据表被存储于存储装置12的组织类别数据表存储部31。另外,数据表结合部41从组织类别数据表中的属性在组织间、即分行间确定同一属性。数据表结合部41基于该确定的属性结合各组织的数据表,由此生成单一的结合完成数据表。数据表结合部41将该结合完成数据表存储于存储装置12的结合完成数据表存储部32。在本实施方式中,将结合完成数据表中的一个分行的各属性的失误件数的数据的集合设为一个记录。记录间距离计算部42对结合完成数据表中的任意的两个记录计算表示记录间的类似程度的高低的距离。该两个记录是不管银行的类别的两个分行的各属性的失误件数的数据。记录间距离计算部42将该计算结果存储于存储装置12的记录间距离存储部33。分析处理部43使用存储于记录间距离存储部33的构成记录组的各记录间的距离的信息,将结合完成数据表中的记录分组。分析处理部43将分组结果存储于存储装置12的分组结果存储部34。进而,分析处理部43将分组结果向显示装置20输出。显示装置20例如是液晶显示装置等。图5是表示实施方式的数据分析支援装置的处理动作的顺序之一例的流程图。在此说明的顺序是处理动作的概要,各处理的详情后述。首先,数据分析支援装置10的数据表结合部41提取存储于存储装置12的组织类别数据表存储部31的各组织的组织类别数据表的各属性(步骤S1)。数据表结合部41从各组织的组织类别数据表提取同一属性(步骤S2)。同一属性在组织间是同一属性。作为确定提取对象的同一属性的方法之一例,例举图3所示的在各银行的组织类别数据表间检测属性名的完全一致的方法。数据表结合部41利用在步骤S2提取的同一属性将存储于存储装置12的组织类别数据表存储部31的组织类别数据表结合,生成单一的结合完成数据表。数据表结合部41将该结合完成数据表存储于存储装置12的结合完成数据表存储部32(步骤S3)。就数据表结合部41而言,如果有仅存在于一部分组织的组织类别数据表的属性,则将该属性追加到不具有该属性的组织类别数据表。数据表结合部41将该追加的属性的属性值作为缺损值(空)。记录间距离计算部42从存储于存储装置12的结合完成数据表存储部32的结合完成数据表的各记录的中选择任意两个记录。记录间距离计算部42计算该选择的记录间的距离(步骤S4)。本实施方式中,记录间距离计算部42以该选择的两记录的属性的内的由至少任一记录将值为缺损值的属性设为记录间的距离的计算对象外的属性。记录间距离计算部42仅以两记录均具有值的属性作为对象,计算记录间的距离。记录间距离计算部42将该算出的距离的信息存储于存储装置12的记录间距离存储部33。记录间距离计算部42对结合完成数据表的两记录的所有的组合进行计算记录间的距离并存储于记录间距离存储部33的处理。分析处理部43使用存储于存储装置12的记录间距离存储部33的记录间的距离的信息将结合完成数据表中的记录分组,由此进行各分行的分组(步骤S5)。而且,分析处理部43将分组结果存储于存储装置12的分组结果存储部34。分析处理部43将分组结果向显示装置20输出(步骤S6)。其次,说明数据表结合部41的动作的详情。如上述,数据表结合部41从存储于存储装置12的组织类别数据表存储部31的组织类别数据表提取属性。数据表结合部41使用属性的提取结果确定组织间的同一属性,将各组织的数据表结合。图6是表示用于通过本实施方式的数据分析支援装置的数据表结合部41提取同一属性的处理动作之一例的流程图。图6所示的处理动作是详细说明图5所示的处理动作的步骤S2的动作,是用于提取组织间的同一属性的处理动作。以图3所示的组织类别数据表为例。该例中,如果存在不同银行的各分行的组织类别数据表分别具有同一属性名的属性,则数据表结合部41将其作为同一属性提取。数据表结合部41从存储装置12的组织类别数据表存储部31读取银行类别的数据表,生成由所有银行的所有属性构成的属性集合T(步骤S11)。具体而言,在该步骤S11中,数据表结合部41从图3所示的组织类别数据表得到的属性集合T的要素为以下14种属性。“业务:存款(A银行)”、“业务:存款(B银行)”、“业务;存款(C银行)”“业务:贷款(A银行)”、“业务:贷款(B银行)”、“业务;贷款(C银行)”“职务:一般银行职员(A银行):、“职务:一般银行职员(C银行)”“职务:兼职(A银行)”、“职务:兼职(C银行)”“原因:能力不足(A银行)”、“原因1能力不足(B银行)”“原因:失误(A银行)”、“原因:失误(B银行)”在有多个具有同一属性名的属性的情况下,如果属性值的合计元的银行不同,则这些属性作为属性集合T中个别的要素进行计数(count)。例如,上述的“业务:存款(A银行)”、“业务:存款(B银行)”、“业务:存款(C银行)”的属性名是除银行名以外的“业务:存款”。这些“业务:存款(A银行)”、“业务:存款(B银行)”、“业务:存款(C银行)”成为属性集合T中个别的要素。数据表结合部41从在步骤S11生成的属性集合T中提取任意一个属性(步骤S12)。将该提取的属性称作属性a。如果有属性集合T中的属性内具有与在步骤S12提取的属性a相同的属性名的属性,则数据表结合部41与属性值的合计元的银行的类别无关地提取该属性(步骤S13)。将该提取的属性称作属性b、属性c、…。具体而言,数据表结合部41在步骤S12中将“业务:存款(A银行)”作为属性a提取的情况下,在步骤S13中将“业务:存款(B银行)”、“业务:存款(C银行)”作为属性b、属性c提取。这些属性b、属性c是具有与属性a相同的属性名“业务:存款”的属性。数据表结合部41将在步骤S12及步骤S13提取的属性a、b、c、…的信息作为同一属性存储于存储装置12(步骤S14)。在此,在具有与从属性集合T中提取的属性a相同的属性名的属性不存在于属性集合T中的情况下,数据表结合部41仅将该属性a作为上述的同一属性存储于存储装置12。具有与从属性集合T中提取的属性a相同的属性名的属性不存在于属性集合T中是指属性a仅在单一组织的组织类别数据表存在,该属性a不存在于其它组织的组织类别数据表。在步骤S11中生成的属性集合T中有步骤S12或步骤S13中尚未提取的属性的情况下(步骤S15的是),数据表结合部41返回步骤S12。而且,数据表结合部41将从属性集合T中未提取的属性的某一个从属性集合T中作为新的属性a提取。另外,如果没有属性集合T中的属性内、具有与在步骤S12提取的属性a相同的属性名的属性,则数据表结合部41返回步骤S12。然后,数据表结合部41将从属性集合T中未提取的属性的某一个从属性集合T中作为新的属性a提取。在步骤S11中生成的属性集合T中有在步骤S12或步骤S13中尚未提取的属性是指,属性集合T中的属性内,在步骤S12中不作为属性a提取,且在步骤S13中不作为属性b、c、…提取的属性。数据表结合部41对在该返回的步骤S12提取的新的属性a再次进行步骤S13、S14的处理。另外,数据表结合部41在全部提取了在步骤S11生成的属性集合T中的属性的情况下(步骤S15的否),结束用于同一属性提取的处理。全部提取在步骤S11生成的属性集合T中的属性是指将属性集合T中的所有属性在步骤S12中作为属性a提取结束、或者在步骤S13中作为属性b、c、…提取结束。在数据表结合部41结束同一属性提取的处理的情况下,该数据表结合部41从图3所示的组织类别数据表作为同一属性得到的属性组为以下的(ア)、(イ)、(ウ)、(エ)、(オ)、(カ)这6组。(ア):“业务1存款(A银行)”、“业务:存款(B银行)”、“业务:存款(C银行)”(イ):“业务:贷款(A银行)”、“业务:贷款(B银行)”、“业务:贷款(C银行)”(ウ):“职务:一般银行职员(A银行)”、“职务:一般银行职员(C银行)”(エ):“职务:兼职(A银行)”、“职务;兼职(C银行)”(オ):“原因:能力不足(A银行)”、“原因:能力不足(B银行)”(カ):“原因:失误(A银行)”、“原因1失误(B银行)”其次,下面表示利用数据表结合部41,使用在步骤S14存储于存储装置12的同一属性用于将组织类别数据表结合的处理动作。数据表结合部41在从所有组织的组织类别数据表提取出同一属性的情况下,将该属性编入结合完成数据表。数据表结合部41将该属性设为结合完成数据表的一属性。具体而言,在图3所示的从组织类别数据表提取的同一属性的组(ア)中,在A、B、C银行的各分行的组织类别数据表中作为同一属性存在“业务:存款”的属性。另外,如图3所示,在各银行的组织类别数据表中存在该“业务:存款”的属性。数据表结合部41将该属性编入结合完成数据表。数据表结合部41将该属性作为该结合完成数据表的属性“业务:存款”。同样,在从图3所示的组织类别数据表提取出的上述的同一属性的组(イ)中,在A、B、C银行的各分行的组织类别数据表中作为同一属性存在“业务:贷款”的属性。另外,如图3所示,在各银行的组织类别数据表中存在该“业务:贷款”的属性。数据表结合部41将该属性编入结合完成数据表。数据表结合部41将该属性作为该结合完成数据表的属性“业务:贷款”。另外,在与从一部分银行的各分行的组织类别数据表提取出的属性相同的属性未从其它银行的各分行的组织类别数据表提取出的情况下,数据表结合部41将该属性追加到该其它银行的属性。数据表结合部41将该属性设为结合完成数据表的一属性。该情况下,数据表结合部41将结合完成数据表中与上述其它银行对应的上述的追加的属性的属性值全部作为缺损值。具体而言,在图3所示的从组织类别数据表提取的同一属性的组(ウ)中,在A、C银行的各分行的组织类别数据表中作为同一属性存在“职务:一般银行职员”的属性。但是,在B银行的各分行的组织类别数据表中不存在该“职务:一般银行职员”的属性。因此,数据表结合部41生成在B银行的各分行的组织类别数据表中追加了“职务:一般银行职员”的表。数据表结合部41将该表编入结合完成数据表。数据表结合部41将该结合完成数据表的B银行的各分行的行的“职务:一般银行职员”的列的单元的值即属性值全部作为缺损值。另外,在图3所示的从组织类别数据表提取的同一属性的组(エ)中,在A、C银行的各分行的组织类别数据表中作为同一属性存在“职务:兼职”的属性。但是,在B银行的各分行的组织类别数据表中不存在该“职务:兼职”的属性。因此,数据表结合部41生成在B银行的各分行的组织类别数据表中追加了“职务:兼职”的表。而且,数据表结合部41将该表编入结合完成数据表。数据表结合部41将该结合完成数据表中B银行的各分行的行的“职务:兼职”的列的单元的值即属性值全部作为缺损值。另外,在从图3所示的组织类别数据表提取出的同一属性的组(オ)中,在A、B银行的各分行的组织类别数据表中作为同一属性存在“原因:能力不足”的属性。但是,在C银行的各分行的组织类别数据表中不存在该“原因:能力不足”的属性。因此,数据表结合部41生成在C银行的各分行的组织类别数据表中追加了“原因:能力不足”的表。而且,数据表结合部41将该表编入结合完成数据表。数据表结合部41将该结合完成数据表的C银行的各分行的行的“原因:能力不足”的列的单元的值即属性值全部作为缺损值。另外,在图3所示的从组织类别数据表提取出的同一属性的组(カ)中,在A、B银行的各分行的组织类别数据表中作为同一属性存在“原因:失误”的属性。但是,在C银行的各分行的组织类别数据表中不存在该“原因:失误”的属性。因此,数据表结合部41生成在C银行的各分行的组织类别数据表中追加了“原因:失误”的表。而且,数据表结合部41将该表编入结合完成数据表。数据表结合部41将该结合完成数据表的C银行的各分行的行的“原因:失误”的列的单元的值即属性值全部作为缺损值。这样,数据表结合部41通过将图3所示的各银行的各分行的组织类别数据表结合,生成单一的结合完成数据表。数据表结合部41将该结合完成数据表存储于存储装置12的结合完成数据表存储部32。图7是以表形式表示通过本实施方式的数据分析支援装置的数据表结合部生成的结合完成数据表之一例的图。该结合完成数据表的各行与各银行的各分行的一记录对应。结合完成数据表的各列与各行的分行编号、及结合元的组织类别数据表中的各属性对应。各属性是指“业务:存款”、“业务:贷款”、“职务:一般银行职员”、“职务:兼职”、“原因:能力不足”、“原因:失误”。例如,图3所示的由A银行的各分行的组织类别数据表的分行编号“A001”的行定义的属性“业务:存款”的列的单元的值为“31”。该情况下,由结合完成数据表的分行编号“A001”的行定义的属性“业务:存款”的列的单元的值也为“31”。另外,图3所示的由B银行的各分行的组织类别数据表的分行编号“B001”的行定义的属性“职务:一般银行职员”及“职务:兼职”的列的单元的值不存在。该情况下,由结合完成数据表的分行编号“B001”的行定义的属性“职务:一般银行职员”及“职务:兼职”的列的单元的值为“空”。另外,图3所示的由C银行的各分行的组织类别数据表的分行编号“C001”的行定义的属性“原因:能力不足”及“原因:失误”的列的单元的值不存在。该情况下,由结合完成数据表的分行编号“C001”的行定义的属性“原因:能力不足”及“原因:失误”的列的单元的值为“空”。其次,说明记录间距离计算部42的动作的详情。图8是表示本实施方式的数据分析支援装置的记录间距离计算部进行的处理动作之一例的流程图。图8所示的处理动作是详细说明图5所示的处理动作的步骤S4的动作。该处理动作是用于计算结合完成数据表的任意的两个记录间的距离的处理动作。结合完成数据表中,将该表的沿着行方向的单元的集合作为一个记录。任意的两个记录间的距离表示这两个记录的类似度的高低。记录间距离计算部42任意指定结合完成数据表中的记录对(pair)(步骤S21)。记录对是结合完成数据表的两个记录的组。在此,将记录i和记录j的组作为记录对。记录间距离计算部42确定共通属性(步骤S22)。该共通属性是指构成记录对的各记录分别均具有值的属性。其次,记录间距离计算部42考虑在步骤S22确定的共通属性,根据以下的式(1)计算记录i和记录j之间的距离di,j。记录间距离计算部42将该算出的距离的信息与记录对的各记录的识别名的信息一同存储于存储装置12的记录间距离存储部33(步骤S23)。式(1)的n是记录i和记录j之间的共通属性的种类数。式(1)的c是记录i和记录j之间的共通属性的集合。式(1)的a是属性。式(1)的ak是记录k的属性a的属性值。该k为变量,是i或j。即,记录i和记录j之间的距离基于由记录i中的在记录i和记录j之间共通的属性的值减去记录j中的在记录i和记录j之间共通的属性的值所得的值和该共通的属性的种类数的倒数计算。说明具体例。首先,作为第一例,例举选择与图7所示的分行编号“A001”的行对应的记录和与分行编号“A002”的行对应的记录对的例子。该情况下,与“A001”的行对应的记录的具有不是缺损值的值的属性为6个。这6个属性是“业务:存款”、“业务:贷款”、“职务:一般银行职员”、“职务:兼职”、“原因:能力不足”、“原因:失误”。另外,和与“A001”的行对应的记录相同,与“A002”的行对应的记录中具有不是缺损值的值的属性为6个。这6个属性是“业务:存款”、“业务:贷款”、“职务:一般银行职员”、“职务:兼职”、“原因;能力不足”、“原因:失误”。即,两记录彼此具有6个属性。这些属性全部为共通属性。该情况下,在步骤S21确定的共通属性为6个。这6个属性是“业务:存款”、“业务:贷款”、“职务:一般银行职员”、“职务:兼职”、“原因:能力不足”、“原因:失误”。该情况下,记录间距离计算部42使用作为共通属性的6个属性计算欧几里得距离。对根据式(1),通过记录间距离计算部42用共通属性数6除该距离所得的值进行说明。该值是与分行编号“A001”的行对应的记录和与分行编号“A002”的行对应的记录之间的距离。下面表示该距离的值。另外,作为第二例,例举选择图7所示的与分行编号“A001”的行对应的记录和与分行编号“B001”的行对应的记录对的例子。该例中,与“A001”的行对应的记录的具有不是缺损值的值的属性为6个。这6个属性是“业务:存款”、“业务:贷款”、“职务:一般银行职员”、“职务:兼职”、“原因:能力不足”、“原因:失误”。另一方面,如图7所示,与“B001”的行对应的记录的属性中具有不是缺损值的值的属性为4个。这4个属性是“业务:存款”、“业务:贷款”、“原因;能力不足”、“原因;失误”。即,就两记录而言,作为“业务:存款”、“业务:贷款”、“原因:能力不足”、“原因:失误”的4个属性均具有不是缺损值的值。这些属性成为在步骤S21确定的共通属性。另一方面,如图7所示,与“B001”的行对应的记录的属性中“职务:一般银行职员”、“职务:兼职”这2属性具有缺损值。该属性为与“A001”的行对应的记录具有不是缺损值的值的属性。这些属性不是在步骤S21确定的共通属性。该情况下,记录间距离计算部42使用作为共通属性的4属性计算欧几里得距离。根据式(1)用共通属性数4除该距离所得的值为与分行编号“A001”的行对应的记录和与分行编号“B001”的行对应的记录之间的距离。下面表示该距离的值。另外,作为第三例,例举选择图7所示的与分行编号“B001”的行对应的记录和与分行编号“C001”的行对应的记录对的例子。该例中,与“B001”的行对应的记录的具有不是缺损值的值的属性是“业务:存款”、“业务:贷款”、“原因:能力不足”、“原因:失误”这4个。另一方面,在与“C001”的行对应的记录中,具有不是缺损值的值的属性是“业务存款”、“业务:贷款”、“职务:一般银行职员”、“职务:兼职”这4个。即,两记录中的“业务:存款”、“业务:贷款”这2属性均具有不是缺损值的值。这些属性成为在步骤S21确定的共通属性。另一方面,与“C001”的行对应的记录的“职务:一般银行职员”、“职务:兼职”这2属性具有不是缺损值的值。另一方面,与“B001”的行对应的记录的“职务:一般银行职员”、“职务:兼职”这2属性具有缺损值。这些属性不是在步骤S21确定的共通属性。另外,与“B001”的行对应的记录的“职务:一般银行职员”、“职务:兼职”这2属性具有不是缺损值的值。另一方面,与“C001”的行对应的记录的“职务:一般银行职员”、“职务;兼职”这2属性具有缺损值。这些属性也不是在步骤S21确定的共通属性。该情况下,记录间距离计算部42使用作为共通属性的2属性计算欧几里得距离。根据式(1)由共通属性数2除该距离所得的值为与分行编号“B001”的行对应的记录和与分行编号“C001”的行对应的记录之间的距离。下面表示该距离的值。即,在本实施方式的与各分行对应的记录间的距离的计算中,防止因现有技术那样共通的属性越多,相加的项越增加,导致这些和即距离的值不适合地增大。进而,在本实施方式中,如式(1)所示,每一属性的属性值的差越大,算出的距离的值越大。另外,如式(1)所示,共通的属性的种类数越多,算出的距离的值越小。据此,在本实施方式中,相比现有技术,可提高距离计算的精度。相对于某记录对的步骤S23的处理后,结合完成数据表上的所有记录对各自的构成该记录对的记录间的距离的计算未结束的情况下(步骤S24的否),记录间距离计算部42返回步骤S21。该情况下,记录间距离计算部42任意指定结合完成数据表的两个记录的新的对。然后,记录间距离计算部42再次进行步骤S22、S23的处理。另外,在结合完成数据表上的所有记录对的各自的构成该记录对的记录间的距离的计算结束的情况下(步骤S24的是),记录间距离计算部42结束用于记录间的距离的计算的处理。这样,记录间距离计算部42计算结合完成数据表上的所有记录对的记录间的距离。其次,说明分析处理部43的动作的详情。图9是表示本实施方式的数据分析支援装置的分析处理部进行的处理动作之一例的流程图。图9所示的处理动作中详细说明图5所示的处理动作的步骤S5。该处理动作是读出存储于存储装置12的结合完成数据表存储部32的结合完成数据表,用于进行以该表的分行编号的列表示的所有的分行的分组的处理动作。下面,以二维图表示将各银行的各分行分组的过程。在本实施方式中,分析处理部43为对各分行分组而设定分组中心分行。分析处理部43使与该分组中心分行的距离近的分行与该分组中心分行相对应地设定分组。分析处理部43求该设定的分组的重心,将距离该重心最近的分行设定为新的分组中心分行。如果求重心的前后的分组中心分行相同,则视为分析处理部43进行正确的分组,输出分组结果。图10是表示分组中心分行的初始集合的设定例的图。图10所示的二维图中,用圆表示结合完成数据表中的各行的由分行编号表示的各分行。而且,该二维图中,分行间的距离表示存储于存储装置12的记录间距离存储部33的距离。分析处理部43随机地选择与预先指定的分组数同数的分行,将这些选择的各分行设定为分组中心分行(步骤S31)。例如在指定分组数为3的情况下,分析处理部43以图10为例,将该图10所示的黑圈的三个分行分别设定为分组中心分行。其次,分析处理部43任意选择在步骤S31设定的分组中心分行以外的各分行的一个(步骤S32)。分析处理部43将该选择的分行和各分组中心分行之间的距离分别从存储装置12的记录间距离存储部33读出并进行参照(步骤S33)。分析处理部43将在步骤S32选择的分行与在各分组中心分行中距离最近的分组中心分行对应起来,由此任意生成分组(步骤S34)。该生成的分组的要素分别是分组中心分行、及与该分组中心分行对应的其它分行。图11是表示使各分行与分组中心分行对应的例的图。图11所示的例中,表示第一分组、第二分组、第三分组这三个分组。第一分组是作为3分行的分组。这3分行的分组将在图10所示的各分组中心分行中距离第一分组中心分行51最近的两个分行与第一分组中心分行51对应起来。第二分组是由双重线L1包围的作为4分行的分组。这4分行的分组将在图10所示的各分组中心分行中距离第二分组中心分行52最近的3分行与第二分组中心分行52对应起来。第三分组是作为6分行的分组。这6分行的分组将在图10所示的各分组中心分行中距离第三分组中心分行53最近的5分行与第三分组中心分行53对应起来。接着,如果在步骤S32选择完分组中心分行以外的所有分行、即用于生成分组的分行(步骤S35的是),则分析处理部43计算在步骤S34生成的各分组的重心(步骤S36)。在此,使交点命中由图11的双重线L1包围的作为4分行的第二分组来进行说明。图12是以表形式表示由结合完成数据表定义的预定的分组中包含的各组织的属性及属性值之一例的图。该图中,表示图7所示的结合完成数据表中的包含于上述的第二分组的4个分行的记录的属性及该属性的属性值。包含于第二分组的4个分行是与图7所示的结合完成数据表的分行编号“A003”、分行编号“A004”、分行编号“B003”、及分行编号“C003”分别对应的分行。具体而言,在步骤S36中,分析处理部43对于与第二分组中包含的4个分行分别对应的记录的各属性计算各记录的同属性的属性值的平均值。分析处理部43将该平均值作为重心的属性值。但是,在算出的重心的各记录中存在属性值为缺损值的记录的情况下,分析处理部43不将该记录的属性值作为用于计算平均值的值使用。分析处理部43仅以具有属性值的记录为对象计算平均值。在此,说明图12所示的各记录的“业务:存款”的属性值的平均值、即“业务存款”的重心的属性值。该属性值是与图12所示的记录的“业务:存款”的列的各分行对应的行的值的总和除以记录数“4”所得的值。该记录数“4”是在各记录中“业务:存款”的属性值作为不是缺损值的值存在的记录的数。图12所示的与各记录的“业务:存款”的列的各分行对应的行的值的总和是分行编号“A003”的行的值“5”、分行编号“A004”的行的值“2”、分行编号“B003”的行的值“3”、分行编号“C003”的行的值“3”的总和。图12所示的各记录的“业务:存款”的重心的属性值由下式表示。(5+2+3+3}/4=3.25另外,说明图12所示的各记录的“业务:贷款”的属性值的平均值、即“业务:贷款”的重心的属性值。该属性值是图12所示的与记录的“业务:贷款”的列的各分行对应的行的值的总和除以记录数“4”所得的值。该记录数“4”是在各记录中“业务:贷款”的属性值作为不是缺损值的值存在的记录的数。图12所示的与各记录的“业务;贷款”的列的各分行对应的行的值的总和为分行编号“A003”的行的值“3”、分行编号“A004”的行的值“5”、分行编号“B003”的行的值“4”、分行编号“C003”的行的值“3”的总和。图12所示的各记录的“业务:贷款”的重心的属性值由下式表示。(3+5+4+3)/4=3.75另外,说明图12所示的各记录的“职务:一般银行职员”的属性值的平均值、即“职务;一般银行职员”的重心的属性值。该属性值是图12所示的与记录的“职务:一般银行职员”的列的各分行对应的行的值的总和除以记录数“3”所得的值。该记录数“3”是在各记录中“职务:一般”的属性值作为不是缺损值的值存在的记录的数。图12所示的各记录的“职务:一般银行职员”的列的各分行的行的值的总和是分行编号“A003”的行的值“2”、分行编号“A004”的行的值“4”、分行编号“C003”的行的值“4”的总和。图12所示的各记录的“职务:一般银行职员”的重心的属性值如下式表示。(2+4+4)/3≈3.33另外,图12所示的各记录的“职务:兼职”的属性值的平均值、即“职务兼职”的重心的属性值是图12所示的记录的“职务:兼职”的列的各分行的行的值的总和除以记录数“3”所得的值。该记录数“3”是在各记录中“职务:兼职”的属性值作为不是缺损值的值存在的记录的数。图12所示的记录的“职务:兼职”的列的各分行的行的值的总和是分行编号“A003”的行的值“6”、分行编号“A004”的行的值“3”、分行编号“C003”的行的值“2”的总和。图12所示的各记录的“职务:兼职”的重心的属性值由下式表示。(6+3+2)/3≈3.67另外,图12所示的各记录的“原因:能力不足”的属性值的平均值、即“原因:能力不足”的重心的属性值是图12所示的记录的“原因:能力不足”的列的各分行的行的值的总和除以记录数“3”所得的值。该记录数“3”是在各记录中“原因:能力不足”的属性值作为不是缺损值的值存在的记录的数。图12所示的记录的“原因:能力不足”的列的各分行的行的值的总和是分行编号“A003”的行的值“3”、分行编号“A004”的行的值“3”、分行编号“B003”的行的值“2”的总和。图12所示的各记录的“原因:能力不足”的重心的属性值由下式表示。(3+3+2)/3≈2.67另外,图12所示的各记录的“原因:失误”的属性值的平均值、即“原因:失误”的重心的属性值是图12所示的记录的“原因:失误”的列的各分行的行的值的总和除以记录数“3”所得的值。该记录数“3”是在各记录中“原因:能力不足”的属性值作为不是缺损值的值存在的记录的数。图12所示的记录的“原因:失误”的列的各分行的行的值的总和是分行编号“A003”的行的值“5”、分行编号“A004”的行的值“4”、分行编号“B003”的行的值“5”的总和。图12所示的各记录的“原因:失误”的重心的属性值由下式表示。(5+4+5)/3≈4.67图13是以表形式表示由结合完成数据表定义的预定的分组中包含的各组织(分行)的各属性的重心的计算结果之一例的图。图14是表示各分组的重心之一例的图。图14中,由x标记表示二维图上的各第一分组的重心、第二分组的重心、及第三分组的重心。最后,分析处理部43再计算各分组的分组中心分行(步骤S37)。具体而言,分析处理部43在包含步骤S31中设定的分组中心分行的所有分行中计算新的分组中心分行。该新的分组中心分行是对于由结合完成数据表定义的预定的分组与在步骤S36算出的重心之间的距离最小的分行。分析处理部43将该分行设定为新的分组中心分行。分析处理部43对于在步骤S31设定的各分组中心分行进行新的分组中心分行的设定,由此重新设定分组中心的集合。分析处理部43为计算各分行和分组的重心的距离而与分行之间的距离的计算同样地使用上述的式(1)。图15是以表形式表示以结合完成数据表定义的分组的分组中心分行的再计算结果之一例的图。如果在步骤S37再计算的分组中心分行的集合从在步骤S31设定的本来的分组中心分行的集合发生变化(步骤S38的是),则视为分析处理部43没有进行适当的分组,返回步骤S32。而且,分析处理部43任意选择在步骤S37再计算的分组中心分行以外的各分行之一。分析处理部43再次进行以该分组中心分行为基准的步骤S33之后的处理。图15所示的例中,由于分组中心分行的集合从图10所示的状态发生状态变化,所以返回步骤S32。具体而言,如图15所示,第一分组的分组中心分行从当初的分组中心分行51变化为分组中心分行61。另外,第二分组的分组中心分行从当初的分组中心分行52变化为分组中心分行62。另外,第三分组的分组中心分行从当初的分组中心分行53变化为分组中心分行63。另外,如果在步骤S37再计算的分组中心分行的集合从在步骤S31设定的本来的分组中心分行的集合不发生变化(步骤S38的否),则视为分析处理部43进行适当的分组,结束用于分组的处理。然后,分析处理部43将分组结果存储于存储装置12的分组结果存储部34。分析处理部43将分组结果向例如液晶显示器装置等显示装置20输出。其次,下面叙述将本实施方式适用于实数据的情况下的用于评价分组的精度的实际的结果。本实验中,对以下的3手法的精度进行比较。(ア)本实施方式的手法(イ)已有的手法(有缺损项目)(ウ)已有的手法(无缺损项目)作为已有的手法(イ)、(ウ),使用通常使用的以下的手法。“不将至少一个记录为缺损值的属性用于分析。”其中,关于手法(ウ),以无缺损项目的数据作为输入数据。这相当于能灵活运用全部输入数据的情况,表示分组手法的精度的上限。接着,对用于实验的数据进行说明。图16是以表形式表示用于分组的精度的评价的实验数据的图。该实验数据是将作为A银行、B银行、C银行的三个银行的、合计30分行的事务失误合计的数据。该实验数据具有银行的类别的列、分行编号的列、分行类别的列。另外,该实验数据具有失误的属性值的列的。该失误的属性值的列是用于分组的列。其中,用于分组的属性值不是失误件数的合计值,而是失误件数的比。例如图16所示的与数据的A银行的分行编号“A01”对应的记录的“业务a”的属性值0.291表示相对于在分行A01发生的所有的失误的件数的、在分行A01发生的业务a的失误的件数的比例。即,将作为某记录的业务a~业务e的所有的属性值合计的值为1。图16所示的数据为用于上述的手法(ウ)的输入数据。另一方面,用于手法(ア)、(イ)的输入数据通过使图16所示的数据模拟发生缺损而生成。图17是以表形式表示利用于分组的精度评价的各银行的事务失误收集状况的图。该图17所示的例中,有关“担当者”的项目的信息、及有关“状况”的项目的信息在各银行收集。但是,B银行假定为不收集有关“业务”的项目的信息。另外,C银行假定为不收集与“原因”的项目有关的信息。另外,将图16的假定为如上未收集的部分为缺损值。图18是以表形式表示利用于分组的精度评价的包含缺损项目的实验数据的图。分组结果的评价使用图16及图18所示的“分行类别”的列的值。该“分行类别”是在三个银行间共通使用的分行的类别。这些类别由“大型”、"小型”、"特殊”三种属性值构成。在此,将以通过分组数为3实施的各手法生成的分组分别看作“大型”、“小型”、“特殊”的集合。而且,对三个分组和三个分行类别所有的组合计算实际上正确分类的分行数相对于所有分行数的比例。将以该计算结果表示的最高的值作为手法的准确率(accuracyrate)。例如,考虑将应分类为第一分组的分行类别设为“大型”,将应分类为第二分组的分行类别设为“小型”,将应分类为第三分组的分行类别设为“特殊”的情况。该情况下中,相对于第一分组,将作为“大型”的分行、“大型”的分行、“小型”的分行、“特殊”的分行、及“特殊”的分行的五个分行假定为通过某手法实际分类。另外,相对于第二分组,将作为“小型”的分行、“小型”的分行的两个分行假定为以相同手法实际分类。另外,相对于第三分组,将作为“大型”的分行、“特殊”的分行、“特殊”的分行、及“特殊”的分行的四个分行假定为以相同手法实际分类。被分类为这些第一分组、第二分组、第三分组的分行的类别如下。第一分组:大型、大型、小型、特殊、特殊第二分组:小型、小型第三分组:大型、特殊、特殊、特殊分类为该第一分组的“大型”的分行数为2。另外,被分类为第二分组的“小型”的分行数为2。另外,被分类为第三分组的“特殊”的分行数为3。这样,正确地分类为第一分组的分行数为2。另外,正确地分类为第二分组的分行数为2。另外,正确地分类为第三分组的分行数为3。另外,所有分行数为11。该情况下,实际上正确地分类为各分组的分行数相对于所有分行数的比例即准确率为{2+2+3)/11=7/11。而且,将通过同手法对三个分组和三个分行类别的所有的组合求出的准确率的中最高的准确率设为该手法的分组结果的准确率。其次,图19表示实际上正确地分类为各分组的分行数相对于所有分行数的准确率。该准确率表示通过手法(ア)、手法(イ)、手法(ウ)的各手法的精度的好坏。如该例所示,“(ア)本实施方式的手法”的精度高于“(イ)已有的手法(有缺损项目)”的精度。因此,相比已有的手法,本实施方式的手法相对于包含缺损项目的数据可靠。如上,本实施方式中,数据分析支援装置存储与桌位分析对象的多个阻止分别有关的组织类别数据表,该组织类别数据表用于按组织类别管理记录,该记录是包含至少一种属性的合计数据。另外,数据分析支援装置基于在预定的记录组的记录间共通的属性的种类数、及该共通的属性的值,来计算记录间的距离。预定的记录组是指由组织类别数据表表示的、在多个组织间具有至少一种共通的属性的多个组织各自的记录组。另外,数据分析支援装置基于该计算出的距离进行以与各记录对应的组织作为分组要素的分组。因此,由于收集的属性按组织不同,所以即使在合计数据在全部组织间不一致的状况下,也能够灵活运用组织间共通的属性的信息,由此,能够有效灵活运用所收集的数据,能够进行将多个组织的数据统和时的精度高的分析。根据这些各实施方式,能够提供即使不同组织各自的数据的内、数据的属性在组织间不同而导致的缺损发生,也可以提高将这些数据统和时的分析精度的数据分析支援装置。在如上说明的实施方式中,说明了组织类别数据表为关于作为分析对象的多个组织各自的、用于按组织类别管理具有至少一种属性的合计数据即记录的数据表。但是,由该组织类别数据表管理的数据也可以为定量的数据,还可以为定性的数据。另外,在本实施方式中,说明了分析处理部43基于构成多个组织各自的记录组的各记录间的距离进行将与各记录对应的组织作为分组要素的分组处理。但该多个组织具有由组织类别数据表所示的至少一种共通的属性。但是,不限于此,只要能进行使用构成记录组的各记录之间的距离的分析处理,则也可以通过分析处理部43,例如使用构成记录组的各记录间的距离进行通过自组织化图的分析处理及通过多维尺度构成法的分析处理。此外,上述实施方式中记载的手法作为计算机可执行的程序也可以存储于磁盘(软盘(注册商标)(floppydisk)、硬盘(harddisk)等)、光盘(CD-ROM、DVD等)、光磁盘(MO)、半导体存储器等存储介质并发布。另外,作为该存储介质,只要可存储程序,且为计算机可读取的存储介质,则其存储形式可以是任意形式。另外,基于从存储介质安装(install)于计算机上的程序的指示在计算机上工作的OS(操作系统(operatingsystem))、数据库管理软件、网络(network)软件等MW(中间件(middleware))等也可以执行用于实现上述实施方式的各处理的一部分。另外,本发明的存储介质不限于与计算机独立的介质,也可以包含下载(download)通过LAN或因特网(Internet)等传送的程序并存储或暂时存储的存储介质。另外,存储介质不限于一个,本发明的存储介质还包括从多个介质执行上述实施方式的处理的情况,媒体结构可以是任意的结构。此外,本发明中的计算机基于存储于存储介质的程序执行上述实施方式的各处理,也可以为由个人计算机(personalcomputer)等一个构成的装置、将多个装置网络连结的系统等任意的构成。另外,本发明的计算机不限于个人计算机,还包括在信息处理设备中包含的运算处理装置、微型计算机(microcomputer)等,是可通过程序实现本发明的功能的设备、装置的总称。说明了发明的几个实施方式,而这些实施方式作为例子进行展示,没有限定发明范围的意图。这些新的实施方式可以以其它各种方式实施,在不脱离发明宗旨的范围内可以进行各种省略、置换、变更。这些实施方式及其变形包含于发明的范围及宗旨,并且还包含于权利要求书记载的发明和与其均等的范围内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1