一种折线偏离方差累积对比分析相似程度的方法

文档序号:6522627阅读:458来源:国知局
一种折线偏离方差累积对比分析相似程度的方法
【专利摘要】本发明涉及行为关联分析业务领域,旨在提供一种折线偏离方差累积对比分析相似程度的方法。该种根据行为关联分析业务中的数据信息自动生成的折线图表,首先,根据行为关联分析业务的要求和不同行为的数据分布特性,从行为关联分析业务数据库中提取数据信息,并基于这些数据信息自动生成折线图表;然后,通过对两条折线的耦合度、偏离度进行分析,能够得到量化的耦合度、偏离度指标的相似程度。本发明能够应用在行为关联分析业务中,可根据不同行为的数据分布特性,对于经过数据汇总得到的折线图表,进行进一步的比较分析,进而得到可量化的相似程度、偏离程度的评估指标;当然,还可以在更多的领域上,用于更广泛的分析用途。
【专利说明】一种折线偏离方差累积对比分析相似程度的方法
【技术领域】
[0001]本发明是关于行为关联分析业务领域,特别涉及一种折线偏离方差累积对比分析相似程度的方法。
【背景技术】
[0002]在行为关联分析业务中,分析企业的某种商品的销售业绩(销售行为的销售额数据),分析每天销售高峰时间段的变化,分析企业的某几种商品的客户来源(销售行为的来源数据)的相似程度,进而对客户的关联消费习惯进行分析,为后续的营销方针提供指导,可见这种相似程度分析工作具有非常重要的作用。一般在行为关联分析业务中,会根据不同行为的数据分布特性,将数据经过汇总得到折线图表。
[0003]折线:X轴具有单位,每个单位上具有一个采样点,每个采样点在Y轴上有取值。一般常见的应用场景为:(l)x轴为时间,单位为秒;(2)Y轴为数量,单位为次;(3) —个采样点(X,y)表示在时间X秒时间段内,即大于等于X秒时间点,小于χ+1秒时间点,发生某种事件共计I次;
[0004]先发折线、后发折线:先发折线表示该折线对应的事件,应该发生在前。后发折线表示该折线对应的事件,应该发生在后。
[0005]匹配:为先发折线的某次事件,从后发折线的所有事件中,按照允许分布偏离窗口规则,找到一个事件进行配对;先发折线的某次特定事件,最多只能与后发折线中的一个事件进行配对;后发折线中的一个事件,最多只能被先发折线中的一个事件配对。
[0006]允许分布偏离窗口:假定分布偏离窗口大小为N,在两条折线LineA、LineB之间,在进行稱合度分析时,允许先发折线的某个采样点(Ax, Ay)对应的Ay次事件,与LineB中的(Ν+1)个采样点进行耦合关联,LineB中对应的时间段范围为χ,χ+1, χ+2,…,χ+Ν。
[0007]耦合度:在两条折线LineA、LineB之间,如果两条折线完全重合,即采样点的取值相同,此种情况的耦合度必然为全耦合;如果LineA中的每个采样点对应的每次事件,都能够在允许分布偏离窗口对应的LineB的时间段范围内的采样点对应的若干次事件,获得唯一匹配对应事件,并且最终LineB中的每个采样点钟的每次事件,都已经被匹配对应,那么两条折线间的耦合度为全耦合;全耦合时,耦合度指标应当达到最高。
[0008]偏离度:偏离度说明的是未能够获得配对的严重程度,全耦合时,偏离度指标应当为0,不能匹配的越多,偏离度指标应当越高。
[0009]直接偏离:对应汇总折线的同一时间段,两个采样点的Y轴取值的差额的绝对值。
[0010]方差偏离:对应汇总折线的同一时间段,其直接偏离的乘方。
[0011]目前在IT行业内,用于解决上述分析系统的相似关联分析的方法技术相当缺乏,提出能实现分析行为关联 的相似程度的方法,并通过经过技术实践完成正式技术产品,具有广阔的应用前景。

【发明内容】
[0012]本发明的主要目的在于克服现有技术中的不足,提供一种根据行为关联分析业务中的数据信息自动生成的折线图表,通过对两条折线的耦合度、偏离度进行分析,能够得到量化的耦合度、偏离度指标的折线偏离方差累积对比分析相似程度的方法。为解决上述技术问题,本发明的解决方案是:
[0013]提供一种折线偏离方差累积对比分析相似程度的方法,首先,根据行为关联分析业务的要求和不同行为的数据分布特性从行为关联分析业务数据库中提取数据信息,并基于这些数据信息自动生成折线图表;
[0014]然后,假定图表中的两条折线分别为LineA和LineB,其中LineA为先发折线,LineB为后发折线,折线上的采样点(x,y),X轴为时间,单位为指定的时间周期(比如:1秒、15分钟等等),Y轴为数量,单位为次,表示在χ时间周期内,事件发生次数为y次,LineA的采样点的X轴区间为[AXmin, AXmax], LineB的采样点的X轴区间为[BXmin, BXmax];
[0015]折线偏离方差累积对比分析相似程度的方法,获得LineA和LineB间的相似度的量化指标,具体包括以下步骤:
[0016]步骤I):将折线LineA、LineB的每个采样点使用TypeNode类型变量保存,并将折线采用TypeNode类型变量的数组方式进行保存,即LineA的采样点数据保存在数组ArrNodesListA中,LineB的采样点数据保存在数组ArrNodesListB中,数组成员变量记为(xCur, yCur);所述TypeNode类型变量是指:成员变量为(x, y),且(x, y)中的x、y分别对应采样点的χ坐标值和y坐标值,χ、y是不小于O的整数;
[0017]步骤2):结合分析LineA、LineB的X轴区间,将LineA、LineB的两个X轴区间进行合并,获得X轴合并区间[Xmin, Xmax],其中Xmin为LineA的最小χ坐标值AXmiruLineB的最小χ坐标值BXmin中的最小值,Xmax为LineA的最大χ坐标值AXmax、LineB的最大χ坐标值BXmax中的最大值;
[0018]步骤3):仓Ij建新的采样点数据数组NewArrNodesListA、NewArrNodesListB,将数组长度调整为Xmax-Xmin+1,并设定两个数组中的所有数组成员变量为TypeNode类型变量的NodeCur,即(xCur, yCur),对NodeCur进行初始化,设定NodeCur的χ成员变量为该数组成员变量对应的数组下标,设定NodeCur的y成员变量为O ;
[0019]步骤4):遍历ArrNodesListA,将数组成员变量(xCur, yCur)对应的y成员变量的值,拷贝给NewArrNodesListA数组对应下标为(xCur_Xmin)的数组成员变量的y成员变量;遍历ArrNodesListB,将数组成员变量(xCur, yCur)对应的y成员变量的值,拷贝给NewArrNodesListB数组对应下标为(xCur_Xmin)的数组成员变量的y成员变量;
[0020]步骤5):创建两个用于保存偏离度的变量AmpAcc和SqrAcc, AmpAcc用于保存直接偏离累计值,SqrAcc用于保存方差偏离累计值,并将AmpAcc和SqrAcc初始化为O ;创建两个用于保存偏离基数的变量AmpAccBase和SqrAccBase, AmpAccBase用于保存直接偏离累计值基准,SqrAccBase用于保存方差偏离累计值基准,并将AmpAccBase和SqrAccBase初始化为O ;
[0021]步骤6):对于步骤2得到中的X轴合并区间,设定分段长度为SegLen, SegLen的长度是不小于I,同时不超过Xmax-Xmin+Ι ;
[0022]步骤7):将步骤 4 中得到的 NewArrNodesListA、NewArrNodesListB 的所有米样点,按照步骤6中确定的分段长度SegLen进行汇总分段,设定第η个分段为Seg_n, Seg_n对应X轴合并区间的X轴时间段为[SegLen*n, SegLen*n+SegLen_l]区间,对于每个分段Seg_n,形成一个新的采样点,即TypeNode类型的NodeSegC, NodeSegC的χ成员变量为当前分段的序号n, NodeSegC的y成员变量分别对应为NewArrNodesListA、NewArrNodesListB在分段S e g_n中,对应X轴时间段区间中的所有采样点的y成员变量的累加值,依此类推,最终得到数组成员变量为NodeSegC的新的采样点数组ArrSegNodesListA和ArrSegNodesListB,即得到采样点数组为ArrSegNodesListA的汇总折线LineSA和采样点数组为ArrSegNodesListB的汇总折线LineSB ;其中η是不小于O的整数,且从O开始;
[0023]步骤8):对ArrSegNodesListA、ArrSegNodesListB,按照数组下标进行遍历,进行以下操作:
[0024]a)假定当前分段为 SegC,将 ArrSegNodesListA 与 ArrSegNodesListB 在 SegC 分段的两个采样点的I成员变量,进行相减然后取绝对值获得直接偏离AmpC,对AmpC进行乘方获得方差偏尚AmpS ;
[0025]b)将AmpC加到AmpAcc上,实现AmpAcc对于所有分段的直接偏离的累计;
[0026]c)将AmpS加到SqrAcc上,实现SqrAcc对于所有分段的方差偏离的累计;
[0027]d)提取ArrSegNodesListA的当前采样点的y成员变量的取值的绝对值,并赋值给变量AbsValC,将AbsValC累加到AmpAccBase上,将AbsValC的乘方累加到SqrAccBase上,获得两个偏离指标基准AmpAccBase和SqrAccBase ;
[0028]步骤9):通过步骤 8 中得到的 AmpAcc、AmpAccBase> SqrAcc 和 SqrAccBase,利用以下公式即可获得两条折线间的相似度的量化指标:
[0029]AmpPer=AmpAcc/AmpAccBase*100% ;
[0030]SqrPer=SqrAcc/SqrAccBase*100% ;
[0031]AmpFitPer=100%-AmpPer ;
[0032]SqrFitPer=100%-SqrPer ;
[0033]其中AmpPer是直接偏离百分比,SqrPer是方差偏离百分比,AmpFitPer是直接率禹合百分比,SqrFitPer是方差稱合百分比。
[0034]在本发明中,所述数组的下标是不小于O的整数,且从O开始。
[0035]与现有技术相比,本发明的有益效果是:
[0036]本发明通过折线之间的对比分析,获得量化的折线间的耦合度、偏离度指标;本发明能够应用在行为关联分析业务中,可根据不同行为的数据分布特性,对于经过数据汇总得到的折线图表,进行进一步的比较分析,进而得到可量化的相似程度、偏离程度的评估指标;当然,还可以在更多的领域上,用于更广泛的分析用途。
【专利附图】

【附图说明】
[0037]图1 为 NewArrNodesListA、NewArrNodesListB 的区间合并不例图。
[0038]图2为LineA、LineB通过分段汇总得到LineSA、LineSB的示例图。
[0039]图3为对LineSA、LineSB按照分段统计直接偏尚、方差偏尚的不例图。
【具体实施方式】
[0040]下面结合附图与【具体实施方式】对本发明作进一步详细描述:[0041]一种折线偏离方差累积对比分析相似程度的方法,首先根据行为关联分析业务的要求和不同行为的数据分布特性,从行为关联分析业务数据库中提取数据信息,比如分析企业的某种商品的销售业绩,那就可以提取不同种商品的同时段销售额数据;分析每天销售高峰时间段的变化,那就可以提取同种商品的一段时间内的一天销售额数据。然后将提取的数据信息,利用一些软件自动生成折线图表,此类软件选择范围很多,比如excel、eviews 等。
[0042]然后,假定图表中的两条折线分别为LineA和LineB,其中LineA为先发折线,LineB为后发折线,折线上的采样点(x,y),X轴为时间,单位为秒,Y轴为数量,单位为指定的时间周期,比如:1秒、15分钟等,表示在χ时间周期内,事件发生次数为y次,LineA的采样点的X轴区间为[AXmin, AXmax] ,LineB的采样点的X轴区间为[BXmin, BXmax]。另外下面出现的所有数组下标是不小于O的整数,且从O开始。获得LineA和LineB间的相似度的量化指标,具体包括以下步骤:
[0043]步骤I):将折线LineA、LineB的每个采样点使用TypeNode类型变量保存,并将折线采用TypeNode类型变量的数组方式进行保存,即LineA的采样点数据保存在数组ArrNodesListA中,LineB的采样点数据保存在数组ArrNodesListB中,数组成员变量记为(xCur, yCur)。可参考下表 I 的数组 ArrNodesListA、ArrNodesListB 不例图。
[0044]表1 数组 ArrNodesListA、ArrNodesListB 不例
【权利要求】
1.一种折线偏离方差累积对比分析相似程度的方法,其特征在于, 首先,根据行为关联分析业务的要求和不同行为的数据分布特性,从行为关联分析业务数据库中提取数据信息,并基于这些数据信息自动生成折线图表; 然后,假定图表中的两条折线分别为LineA和LineB,其中LineA为先发折线,LineB为后发折线,折线上的采样点U,y),X轴为时间,单位为指定的时间周期,Y轴为数量,单位为次,表示在χ时间周期内,事件发生次数为y次,LineA的采样点的X轴区间为[AXmin,AXmax], LineB的采样点的X轴区间为[BXmin, BXmax]; 折线偏离方差累积对比分析相似程度的方法,获得LineA和LineB间的相似度的量化指标,具体包括以下步骤: 步骤I):将折线LineA、LineB的每个采样点使用TypeNode类型变量保存,并将折线采用TypeNode类型变量的数组方式进行保存,即LineA的采样点数据保存在数组ArrNodesListA中,LineB的采样点数据保存在数组ArrNodesListB中,数组成员变量记为(xCur, yCur);所述TypeNode类型变量是指:成员变量为(x, y),且(x, y)中的x、y分别对应采样点的χ坐标值和y坐标值,χ、y是不小于O的整数; 步骤2):结合分析LineA、LineB的X轴区间,将LineA、LineB的两个X轴区间进行合并,获得X轴合并区间[Xmin, Xmax],其中Xmin为LineA的最小χ坐标值AXmin、LineB的最小χ坐标值BXmin中的最小值,Xmax为LineA的最大χ坐标值AXmax、LineB的最大χ坐标值BXmax中的最大值; 步骤3):创建新的采样点数 据数组NewArrNodesListA、NewArrNodesListB,将数组长度调整为Xmax-Xmin+1,并设定两个数组中的所有数组成员变量为TypeNode类型变量的NodeCur,即(xCur, yCur),对NodeCur进行初始化,设定NodeCur的χ成员变量为该数组成员变量对应的数组下标,设定NodeCur的y成员变量为O ; 步骤4):遍历ArrNodesListA,将数组成员变量(xCur, yCur)对应的y成员变量的值,拷贝给NewArrNodesListA数组对应下标为(xCur-Xmin)的数组成员变量的y成员变量;遍历ArrNodesListB,将数组成员变量(xCur, yCur)对应的y成员变量的值,拷贝给NewArrNodesListB数组对应下标为(xCur-Xmin)的数组成员变量的y成员变量; 步骤5):创建两个用于保存偏离度的变量AmpAcc和SqrAcc,AmpAcc用于保存直接偏离累计值,SqrAcc用于保存方差偏离累计值,并将AmpAcc和SqrAcc初始化为O ;创建两个用于保存偏离基数的变量AmpAccBase和SqrAccBase, AmpAccBase用于保存直接偏离累计值基准,SqrAccBase用于保存方差偏离累计值基准,并将AmpAccBase和SqrAccBase初始化为O ; 步骤6):对于步骤2得到中的X轴合并区间,设定分段长度为SegLen,SegLen的长度是不小于I,同时不超过Xmax-Xmin+Ι ; 步骤7):将步骤4中得到的NewArrNodesListA、NewArrNodesListB的所有米样点,按照步骤6中确定的分段长度SegLen进行汇总分段,设定第η个分段为Seg_n, Seg_n对应X轴合并区间的X轴时间段为[SegLen*n, SegLen*n+SegLen_l]区间,对于每个分段Seg_n,形成一个新的采样点,即TypeNode类型的NodeSegC, NodeSegC的χ成员变量为当前分段的序号n, NodeSegC 的 y 成员变量分别对应为 NewArrNodesListA、NewArrNodesListB 在分段 Seg_η中,对应X轴时间段区间中的所有采样点的y成员变量的累加值,依此类推,最终得到数组成员变量为NodeSegC的新的釆样点数组ArrSegNodesListA和ArrSegNodesListB,即得到釆样点数组为ArrSegNodesListA的汇总折线LineSA和釆样点数组为ArrSegNodesListB的汇总折线LineSB ;其中η是不小于O的整数,且从O开始; 步骤8):对ArrSegNodesListA、ArrSegNodesListB,按照数组下标进行遍历,进行以下操作: a)假定当前分段为SegC,将 ArrSegNodesListA 与 ArrSegNodesListB 在 SegC 分段的两个釆样点的I成员变量,进行相减然后取绝对值获得直接偏离AmpC,对AmpC进行乘方获得方差偏尚AmpS ; b)将AmpC加到AmpAcc上,实现AmpAcc对于所有分段的直接偏离的累计; c)将AmpS加到SqrAcc上,实现SqrAcc对于所有分段的方差偏离的累计; d)提取AirSegNodesListA的当前釆样点的y成员变量的取值的绝对值,并赋值给变量AbsValC,将AbsValC累加到AmpAccBase上,将AbsValC的乘方累加到SqrAccBase上,获得两个偏离指标基准AmpAccBase和SqrAccBase ; 步骤9):通过步骤8中得到的AmpAcc、AmpAccBaseΛ SqrAcc和SqrAccBase,利用以下公式即可获得两条折线间的相似度的量化指标:
AmpPer=AmpAcc/AmpAccBase*100% ;
SqrPer=SqrAcc/SqrAccBase*100% ;`
AmpFitPer=100%-AmpPer ;
SqrFitPer=100%-SqrPer ; 其中AmpPer是直接偏离百分比,SqrPer是方差偏离百分比,AmpFitPer是直接稱合百分比,SqrFitPer是方差I禹合百分比。
2.根据权利要求1所述的一种根据时间片分布线条进行数据关联分析的方法,其特征在于,所述数组的下标是不小于O的整数,且从O开始。
【文档编号】G06F19/00GK103729546SQ201310656486
【公开日】2014年4月16日 申请日期:2013年12月6日 优先权日:2013年12月6日
【发明者】王锦龙, 范渊, 杨永清 申请人:杭州安恒信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1