数据分析支援装置的制造方法_2

文档序号:8367465阅读:来源:国知局
各项目称作“变量名”或者“变量”,也将各项目的值称作“变量的值”或者“变量”。变量名的下划线表示其变量名是数据表的主关键字。主关键字是一个以上变量的集合,能够利用变量的值唯一地识别该数据表的各行。例如,如果是事务量数据,则能够以“日期”、“分店编号”、“业务”的组合识别各行,这三个变量的组合是事务量数据的主关键字。
[0057]这里,按照每个日期、每个分店编号、以及每个业务地记录事务量。图2的第一行的数据表示“2012年3月I日的BOOl分店中的存款业务的事务量是150”。通常,事务量的绝对量因每个分店的规模、业务的特性而大为不同。因此,为了去除这种不变的要素,仅分析流动的外部主要因素的影响,赋予“事务量的多少”这一属性,该“事务量的多少”表示在与该店铺的该业务中的平均的事务量相比较的情况下的、相应的日期的事务量的多少。该“事务量的多少”例如能够通过接下来的⑴?⑶所示的方法来赋予。
[0058](I)按照每个分店编号及每个业务来分割事务量数据。获得针对特定的分店编号、特定的业务的、每日的事务量数据。
[0059](2)将分割后的各事务量数据按事务量的降序进行排序。
[0060](3)将事务量的值进入上位1/3的数据作为“事务量的多少”中的“多”,将下位1/3的数据作为“少”,将剩余的1/3的数据作为“平均”。
[0061]其中,“事务量的多少”并不局限于该方法,例如也可以以如下方法赋予“事务量的多少”:不考虑分店或业务的不同,而是在按照事务量的绝对量的降序排列的基础上,将上位1/3作为“多”,将下位1/3作为“少”,将剩余的1/3的数据作为“平均”。
[0062]如图3所示,汇兑数据是将日期作为值的日期项目、将美元相对于日元的兑换率作为值的美元兑换率(日元)项目、以及将欧元相对于日元的兑换率作为值的欧元兑换率(日元)项目相关联而成的表形式的数据。
[0063]如图4所示,气象数据按照每个地域及每个日期记录有气温、降水量、天气。即,气象数据是将表示地域的位置的地域码作为值的地域项目、将日期作为值的日期项目、将气温作为值的气温(°c )项目、将降水量作为值的降水量(_)项目、以及将天气作为值的天气项目相关联而成的表形式的数据。如图5所示,地域码是预先划分成格子状的、表示四边形区域的位置的码,利用表示沿东西方向的位置的数字和表示沿南北方向的位置的数字的组,确定该四边形区域的位置。
[0064]店铺数据是用于将事务量数据和气象数据建立对应的数据,如图6所示,是将分店编号作为值的分店编号项目与将地域码作为值的地域项目相关联而成的表形式的数据。
[0065]结合完成数据是将汇兑数据及气象数据与事务量数据相结合而得的数据,如图7所示,是将日期作为值的日期项目、将分店编号作为值的分店编号项目、将业务名作为值的业务项目、将事务量作为值的事务量项目、将事务量的多少作为值的事务量的多少项目、将气温作为值的气温(V )项目、将降水量作为值的降水量(_)项目、将美元相对于日元的兑换率作为值的美元兑换率(日元)项目、以及将欧元相对于日元的兑换率作为值的欧元兑换率(日元)项目相关联而成的表形式的数据。
[0066]结合完成数据既可以通过利用主关键字机械式地结合收集数据保管部21内的各个数据而得,也可以通过在事先靠人工结合的基础上写入收集数据保管部21而得。
[0067]接着,对保管于变量变动规则保管部22的变量变动规则进行说明。变量变动规则按照时间类型、空间类型等变量的类型定义了变量的变动的增加方法。
[0068]这里,如以下那样,“类型”是指,“是因何种原因而值变化的变量”这样的变量的类型。变量(例如气温)的类型表示单独地包括确定该变量(例如气温)的主关键字的各变量(例如日期、地域码)的各种类(例如时间、空间)。主关键字的变量和主关键字的各变量的各种类(类型)例如像“日期项目”与“时间”类型、或者“地域码的值的列表”与“空间”类型那样地相关联地预先定义给变量类型判断部11。此外,“类型”也可以像“类别”或者“性质”那样被适当地改称作其他的名称。同样,“种类”也可以像“包括概念”或者“上位概念”那样被适当地改称作其他的名称。
[0069]时间类型:将值根据时间而变化的变量称作时间类型的变量。例如,“美元兑换率”这一变量相对于“某日的美元兑换率的收盘价”,存在“一日前的美元兑换率的收盘价”、“两日前的美元兑换率的收盘价”这样的不同的值。另外,“气温”这一变量相对于“某个地点的、某个时刻的气温”,存在“相同地点的、一小时前的气温”这样的不同的值。
[0070]空间类型:将值因空间上的位置而不同的变量称作空间类型的变量。例如,相对于“某个地点的、某个时刻的气温”,存在“相邻地点、相同时刻的气温”这样的不同的值。
[0071]在该情况下,“气温”这一变量是时间类型以及空间类型。这样,也存在某个变量具有多个类型的情况。
[0072]此外,变量类型并不局限于时间类型以及空间类型,只要是某些数量的种类或者某些类别的种类即可。
[0073]对于各类型,存在“规则形式”、“初始值”、“更新规则”作为变量变动规则。例如,如图8所示,在时间类型的变量中定义有变量变动规则。
[0074]S卩,针对时间类型的变量的变量变动规则被定义为将自然数作为值的规则编号项目、将“与η日前相比之差”或者“与η年前相比之差”作为值的规则形式项目、将η = I作为值的初始值项目、以及将η’ = η+1作为值的更新规则项目相关联而成的表形式的数据。此外,规则编号项目是任意的附加事项,也可以被省略。另外,变动具有变量的种类(例如仅有日、日与月、日与月与年、…)和某种的变量的变化(例如I日、2日、3日、…)这两种意思。这里,相同的规则编号的规则形式对应于通过改变变动生成值η来改变某种变量的变动。另外,不同的规则编号的规则形式对应于改变变量的种类的变动。另外,作为时间类型变量的例子,并不局限于差(例如前日差/月差/年差、两日前差/两月前差/两年前差、…),也能够适当地使用比例(例如前日比/前月同日比、两日前比/两月前同日比、…)、平均、最大最小差等。另外,更新规则项目在该例子中作为η’ = η+1单向地增加,但并不局限于此,也可以作为η’ = η — I单向地减少。在减少更新规则项目的值η’的情况下,例如像31 (日)、12(月)或者2012(年)等那样将初始值η设定为变量的最大值即可。
[0075]另一方面,如图9所示,针对空间类型的变量的变量变动规则被定义为将自然数作为值的规则编号项目、将“与(X — n,y)的地点相比之差”或者“与(x,y — η)的地点相比之差”作为值的规则形式项目、将η = I作为值的初始值项目、以及将η’ = η+1作为值的更新规则项目相关联而成的表形式的数据。此外,规则编号项目是任意的附加事项,也可以被省略。另外,空间类型变量并不局限于所述地域码,也能够适当地使用住址表示、GPS表示或者移动距离等。住址表示例如可以像01:北海道,02:青森,…,15:东京都,…,15001:中央区,15002:港区,…等那样使用定义了空间的主副关系的值。在该情况下,变动的增加方法例如可以像“仅有县(日本行政区划)”一“县与市镇村”一“县与市镇村与门牌”那样向从主朝向副的方向增加。作为GPS表示(玮度经度),例如能够适当地使用东经:60度,北玮:22度,海拔:0m,…等。变动的增加方法例如可以是在预先定义了换算成距某一起点的距离的算式的情况下改变(增加)起点或者改变(增加)距起点的距离那样地进行增加。作为改变距起点的距离的例子,如起点A的半径300m以内(或者以外)、500m以内(或者以夕卜)、…、起点B的半径300m以内(或者以外)、500m以内(或者以外)、…等那样即可。另外,作为移动距离,例如与GPS表示相同地定义即可。
[0076]接下来,对保管于分析数据集保管部23的分析数据进行说明。分析数据包含利用变量变动生成部生成的变动和分析对象数据。即,分析数据是变动以及分析对象数据,但也可以称作变动与分析对象数据的组,因此也被称作分析数据集。
[0077]最后,对保管于分析结果保管部24保的分析结果进行说明。分析结果保管部24的分析结果是按照分析执行部15的每个分析而写入的,利用分析结束判断部16读取上次的分析结果与当次的分析结果。
[0078]接下来,对如以上那样构成的数据分析支援装置的动作进行说明。首先,使用图10的流程图叙述整体的处理顺序。
[0079]规则变更部13按照通过使用者的操作而输入的规则变更指示,变更变量变动规则保管部22内的变量变动规则(步骤SI)。此外,变量变动的变更并非必须,也可以被省略。
[0080]变量类型判断部11针对收集数据保管部21内的分析对象数据中的各变量判断表示变量的类型的变量类型(步骤S2)。
[0081]预处理部12基于在步骤S2中判断的变量类型,对各变量执行缺失值处理等通常的分析所需的预处理(步骤S3)。
[0082]针对在步骤S3中执行了预处理的分析对象数据中的各变量,变量变动生成部14从变量变动规则保管部22中选择适合变量的类型的变量变动规则,并应用该变量变动规贝1J。即,变量变动生成部14基于变量类型与变量变动规则而生成各变量的变动。另外,变量变动生成部14将因生成而增加的变动以及分析对象数据(以下也称作分析数据)写入分析数据集保管部23 (步骤S4)。
[0083]分析执行部15针对分析数据集保管部23内的分析数据,使用分析模型/算法来执行分析,并将分析结果写入分析结果保管部24 (步骤S5)。
[0084]分析结束判断部16将分析结果保管部24内的当次的分析结果的精度与上次的分析结果的精度进行比较,如果精度未被改善,则判断为分析结束,并结束处理。若精度已被改善,则分析结束判断部16判断为分析继续,进入步骤S7 (步骤S6)。
[0085]变量贡献率判断部17计算出生成的变动对目标变量的贡献率,并基于该贡献率判断是采用该变动还是删除该变动。例如,变量贡献率判断部17对于贡献率较高的变量判断为采用变动,并增加变动。另一方面,变量贡献率判断部17对于贡献率较低的变量,判断为删除变动,并且不增加变动或者减少变动,再次执行步骤S4之后的步骤(步骤S7)。
[0086]根据以上,完成整体动作。
[0087]接下来,使用图11说明步骤S2的变量类型判断动作的详细情况。变量类型判断部11针对收集数据保管部21内的分析对象数据中的各变量,判断表示变量的类型的变量类型。在本实施方式中,作为变量类型具有时间类型以及空间类型。在步骤S2中,通过机械式或人工来判断变量类型。
[0088]变量类型判断部11选择一个变量类型未被判断的变量(步骤S2 — I)。将选择的变量设为变量a。
[0089]变量类型判断部11从变量a的主关键字中选择一个变量(步骤S2 — 2)。将选择的变量设为变量k。
[0090]变量类型判断部11根据变量k的变量名尝试判断变量k的类型(步骤S2 — 3)。如果能够判断,则变量类型判断部11进入步骤S2 - 7。如果不能判断,则变量类型判断部11进入步骤S2 — 4。
[0091 ] 变量类型判断部
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1