数据分析支援装置的制造方法

文档序号:8367465阅读:332来源:国知局
数据分析支援装置的制造方法
【技术领域】
[0001]本发明的实施方式涉及一种数据分析支援装置。
【背景技术】
[0002]在从收集的数据提取知识的过程中,为了高效地获得较高精度的分析结果,使用对输入到分析算法的输入数据集(分析数据集)的生成进行支援的数据分析支援装置。
[0003]关于这种数据分析支援装置,已知有固定地使用预先准备的合成单元(变换式)来合成分析对象的数据中的说明变量中的一个以上的说明变量而生成新的说明变量的方式。在该方式中,重复选择已生成的说明变量集中的、分析的精度较高的说明变量,来提高分析精度。而且,在该方式中,尝试多个已设定的全部合成单元而选择最佳的说明变量的组合,提高分析精度。
[0004]现有技术文献
[0005]专利文献
[0006]专利文献1:日本特开2000 - 20504号公报
[0007]专利文献2:日本特开平11 - 328255号公报

【发明内容】

[0008]发明要解决的问题
[0009]然而,以上那种方式由于固定地使用合成单元(变换式),所以对任何变量(组)中都应用相同的合成单元。因此,在该方式中,存在不能动态确定适合各变量的合成单元的不良情况。
[0010]本发明要解决的问题在于提供一种能够与变量相应地应用不同的变换式来生成变量的数据分析支援装置。
[0011]用于解决问题的手段
[0012]实施方式的数据分析支援装置从具有目标变量与作为针对所述目标变量的说明变量的候选的各变量在内的分析对象数据生成所述各变量的变动(variat1n),从而支援所述分析对象数据的分析。
[0013]所述数据分析支援装置具备变量类型判断单元、变量变动生成单元以及变量贡献率判断单元。
[0014]所述变量类型判断单元针对所述各变量判断表示变量的类型的变量类型。
[0015]所述变量变动生成单元基于判断出的所述变量类型、以及预先按照不同变量类型规定了变量的变动的生成方法的变量变动规则,来生成所述各变量的变动。
[0016]所述变量贡献率判断单元计算出所生成的所述变动对所述目标变量(objectivevariable)的贡献率,并基于该贡献率判断是采用该变动还是删除该变动。
【附图说明】
[0017]图1是表示一实施方式的数据分析支援装置的结构的示意图。
[0018]图2是表示该实施方式中的事务量数据的一个例子的示意图。
[0019]图3是表示该实施方式中的汇兑数据的一个例子的示意图。
[0020]图4是表示该实施方式中的气象数据的一个例子的示意图。
[0021]图5是用于说明该实施方式中的地域码的示意图。
[0022]图6是表示该实施方式中的店铺数据的一个例子的示意图。
[0023]图7是表示该实施方式中的结合完成数据的一个例子的示意图。
[0024]图8是表示该实施方式中的针对时间类型的变量的变量变动规则的一个例子的示意图。
[0025]图9是表示该实施方式中的针对空间类型的变量的变量变动规则的一个例子的示意图。
[0026]图10是用于说明该实施方式中的动作的流程图。
[0027]图11是用于说明该实施方式中的步骤S2的详细情况的流程图。
[0028]图12是用于说明该实施方式中的步骤S4的详细情况的流程图。
[0029]图13是用于说明该实施方式中的步骤S6的详细情况的流程图。
[0030]图14是用于说明该实施方式中的步骤S7的详细情况的流程图。
[0031]图15是表示该实施方式中的生成中途的变动的一个例子的示意图。
[0032]图16是表示该实施方式中的生成中途的变动的一个例子的示意图。
[0033]图17是表示该实施方式中的生成中途的变动的一个例子的示意图。
[0034]图18是表示该实施方式中的生成中途的变动的一个例子的示意图。
[0035]图19是表示该实施方式中的生成中途的变动的一个例子的示意图。
[0036]图20是表示该实施方式中的生成中途的变动的一个例子的示意图。
[0037]图21是表示该实施方式中的生成中途的变动的一个例子的示意图。
[0038]图22是表示该实施方式中的生成中途的变动的一个例子的示意图。
[0039]图23是表示该实施方式中的时间类型的变动的值的计算方法的示意图。
[0040]图24是表示该实施方式中的空间类型的变动的值的计算方法的示意图。
【具体实施方式】
[0041]以下,使用【附图说明】一实施方式。此外,以下的数据分析支援装置能够通过硬件结构、或者硬件资源与软件的组合结构中的任意一者来实施。作为组合结构的软件,使用预先从网络或者非暂时性的计算机可读取存储介质(non-transitory computer-readablestorage medium,非暂时性计算机可读存储介质)安装到计算机中且由该计算机的处理器执行、从而用来使该计算机实现数据分析支援装置的功能的程序。
[0042]图1是表示一实施方式的数据分析支援装置的结构的示意图。数据分析支援装置根据具有目标变量与作为针对该目标变量(objective variable)的说明变量的候选的各变量在内的分析对象数据,生成该各变量的变动(variat1n),从而支援分析对象数据的分析。
[0043]具体而言,数据分析支援装置具备变量类型判断部11、预处理部12、规则变更部13、变量变动生成部14、分析执行部15、分析结束判断部16以及变量贡献率判断部17、收集数据保管部21、变量变动规则保管部22,分析数据集保管部23以及分析结果保管部24。
[0044]这里,变量类型判断部11将预先收集以及保管在收集数据保管部21内的分析对象数据作为输入而取入,判断分析对象数据中的各变量的变量类型。补充来说,变量类型判断部11针对该各个变量,判断表示该变量的类型(种类)的变量类型。例如,变量类型判断部11针对该各变量,判断属于与时间相应地变化的时间类型以及与空间上的位置相应地变化的空间类型中的哪种变量类型。另外,针对不能判断的变量,变量类型判断部11通过消息的输出等催促用户进行变量的判断。
[0045]预处理部12基于由变量类型判断部11判断的变量类型,对于各变量执行通常的预处理,并将进行预处理后的分析对象数据送出至变量变动生成部14。作为预处理,例如能够适当使用缺失值处理、噪声处理以及标准化处理(单位变换、表述不一致的统一等)。其中,预处理部12是任意的附加事项,也可以省略。
[0046]规则变更部13是为了增加变量的变动而变更按照每个变量的类型定义的变量变动规则的界面。补充来说,规则变更部13根据输入的规则变更指示,变更变量变动规则保管部22内的变量变动规则。
[0047]变量变动生成部14将变量变动规则应用于各变量,增加(或者减少)变量的变动。补充来说,变量变动生成部14基于由变量类型判断部11判断的变量类型、以及预先按照不同变量类型规定了变量的变动的生成方法的变量变动规则,生成各变量的变动。利用变量变动生成部14将生成的变动以及分析对象数据写入分析数据集保管部23中。另外,变量变动生成部14若从变量贡献率判断部17接收表示采用该变动还是删除该变动的判断结果,则基于该判断结果生成各变量的变动。
[0048]关于分析数据集保管部23内的变动以及分析对象数据,分析执行部15使用分析模型/算法执行分析,并将分析结果写入分析结果保管部24中。此外,也将变动与分析对象数据的组称作分析数据。
[0049]在分析执行部15重复进行分析的过程中,分析结束判断部16通过比较分析结果保管部24内的上次的分析结果与当次的分析结果,来判断是否继续分析,只要当次的分析结果的精度优于上次的情况下,就获得继续分析的判断结果。在除此以外的情况下(精度无变动的情况下或者当次的精度差于上次的情况下),分析结束判断部16获得结束分析的判断结果。此外,作为分析结果的精度,例如使用通常作为分析模型/算法的精度而计算出的值。另外,分析结束判断部16在获得继续分析的判断结果情况下将变量贡献率判断部17起动。分析结束判断部16在获得结束分析的判断结果的情况下结束处理。
[0050]关于分析数据集保管部23内的变动以及分析对象数据,变量贡献率判断部17计算各说明变量对于目标变量的贡献率,针对贡献率较高的变量进行增加变动的判断,针对贡献率较低的变量进行减少变动的判断。补充来说,变量贡献率判断部17计算出由变量变动生成部14生成的变动对目标变量的贡献率,并基于该贡献率判断采用该变动还是删除该变动。另外,变量贡献率判断部17将该判断结果送出至变量变动生成部14。此外,作为变量贡献率,例如能够适当使用通常使用的变量的贡献率、或说明变量相对于目标变量的相关性等。另外,也可以将采用该变动的判断替换称作使该变动增加的判断,将删除该变动的判断替换称作减少该变动的判断或者不增加该变动的判断。另外,也可以同时对多个变量执行处理。例如,也可以同时执行增加变量A的变动的判断和减少变量B的变动的判断。
[0051]接下来,针对保管于各保管部21?24的数据,列举对银行分店的事务量的多少进行分析的情况为例进行说明。具体而言,以根据将银行的事务量数据与作为外部数据的汇兑数据及气象数据相关联而成的分析对象数据、提取对事务量的多少带来影响的主要因素的情况为例进行叙述。
[0052]将银行中的与各业务相关的事务作业的作业量称作事务量。由于事务量的多少取决于来到银行分店的来店客户数量等,因此除了支付工资日、月末等与银行业务直接相关的事项之外,还受到天气、汇兑的变动等各种外部主要因素的影响。因此,需要将银行的事务量数据与各种外部数据相关联的分析。
[0053]比起当日的股票价格,来店客户数量可能更较大受到前一日的股票价格的影响。或者,相比于当日的气温,来店客户数量可能更较大受到与前一日相比的气温差、或最近一周内的平均气温的影响。因此,要求对主要因素的变动进行各种改变后的分析。此时,由于主要因素的变动无限存在,因此要求高效率的分析手段。
[0054]首先,对保管于收集数据保管部21的各种数据进行说明。
[0055]收集数据保管部21是能够由变量类型判断部11进行读取的存储设备,用于保管(存储)事务量数据、汇兑数据、气象数据、店铺数据以及结合完成数据。此外,收集数据保管部21只要是能够由变量类型判断部11读取的存储设备即可,因此并非必须在数据分析支援装置中具备,也可以配置于数据分析支援装置的外部。另外,也可以将事务量数据、汇兑数据以及气象数据称作收集数据。也可以将店铺数据称作或不称作收集数据。也可以将结合完成数据称作分析对象数据。
[0056]如图2所示,事务量数据是将日期作为值的日期项目、将分店编号作为值的分店编号项目、将业务名作为值的业务项目、将事务量作为值的事务量项目、以及将事务量的多少作为值的事务量多少项目相关联而成的表形式的数据。此外,在本说明书中,也将表形式的数据称作数据表,也将数据表内的
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1