一种折线对比分析相似度的方法

文档序号:6511622阅读:1269来源:国知局
一种折线对比分析相似度的方法
【专利摘要】本发明涉及一种折线对比分析相似程度的方法,通过量化指标指出偏离、耦合程度,多组折线的相似程度可以通过上述指标比较。本发明的核心思想为:通过对折线X轴进行分段汇总得到的汇总折线,进行直接偏离、方差偏离的累计,并通过与直接偏离、方差偏离的基准值的比较,获得百分比制的量化指标,从而为折线之间的相似程度提供量化指标说明。
【专利说明】一种折线对比分析相似度的方法
[0001]
【技术领域】
[0002]本发明涉及一种计算机软件,尤其是涉及一种计算机软件中关于两条折线的相似程度的对比方法。
[0003]
【背景技术】
[0004]一些对数据的挖掘、分析的过程中,需要将一些离散的数据构成的平面坐标点进行分析,从而得出这些平面坐标点之间的相互关系。若存在先后关系的两组数据构成的平面坐标点构成两条有先后关系的两条折线,若要通过计算机分析这两条折线的相似度,也是破解这两组数据的关联度的重要且有效的步骤。但是现有的软件中,对两条折线的相似度的判断非常粗略,其可靠性不高。

【发明内容】

[0005]本发明主要是解决现有技术所存在的判断两条折线的相似度非常粗略,可靠性不高的技术问题,提供一种能够数据化,且精确、可靠的判断两条折线的精确度的折线对比分析相似度的方法。
[0006]1.本发明的上述技术问题主要是通过下述技术方案得以解决的:一种折线对比分析相似度的方法,它包括初始A坐标存储模块、初始B坐标存储模块、合并坐标模块、计算模块,其特征在于,它包括如下步骤:
1、在初始A坐标存储模块储存有折线LineA坐标,在初始B坐标存储模块储存有折线LineB的坐标,AXmin> BXmin分别为LineA的X轴区间与LineB的X轴区间的最小值,AXmax,BXma x分别为LineA的X轴区间与LineB的X轴区间的最大值,将LineA的X轴区间与LineB的X轴区间均输入合并坐标模块,获得X轴合并区间[Xmin,Xmax],其中Xmin为AXmin, BXmin中的最小值,其中Xmax为AXmax, BXmax中的最大值;
2、将LineA在合并区间上没有采样点的时间段上,为LineA生成新的采样点,将LineB在合并区间上没有采样点的时间段(X轴单位)上,为LineB生成新的采样点;
3、在计算模块内设有两个区位用于保存偏离度,分别为直接偏离累计值区位AmpAcc、方差偏离累计值区位SqrAcc、并将AmpAcc和SqrAcc初始化为O,计算模块内还设有两个区位用于保存偏离基数,分别为直接偏离累计值基准区位AmpAccBase、方差偏离累计值基准区位 SqrAccBase,将 AmpAccBase 和 SqrAccBase 也初始化为 O ;
4、对合并区间[Xmin,Xmax]设于分段长度SegLen, SegLen的长度为I个X轴时间段的倍数,将LineA,LineB的所有采样点,按照SegLen进行汇总分段,若N为自然数,则第N个分段SegN对应X轴合并缺件的X轴时间段为[N,N+SegLen]区间,包含从时间段编号I到N+SegLen的所有时间段,SegN的Y轴取值为相应时间段的采样点的Y轴取值的累加和,最终得到两条新的汇总折线LineSA, LineSB ;5、按照分段,从第一个分段Segl到最后一个分段,进行遍历:
(1)对于当前分段SegC,将LineSA与LineSB在当前分段的Y轴取值进行相减然后取绝对值获得直接偏离AmpC,对AmpC进行乘方获得方差偏离AmpS ;
(2)将AmpC加到AmpAcc上,实现AmpAcc对于所有分段的直接偏离的累计;
(3)将AmpS加到SqrAcc上,实现AmpSqr对于所有分段的方差偏离的累计;
(4)将LineSA的当前取值的绝对值累加到AmpAccBase上,将LineSA的当前取值的绝对值的乘方累加到SqrAccBase上,获得两个偏离指标基准;
遍历结束后得到的AmpAcc代表了所有分段的直接偏离量的累计,而SqrAcc代表了所有分段的偏离乘方的累计;
6、获得两个偏离度指标:
直接偏离百分比(AmpPer):AmpPer = AmpAcc / AmpAccBase * 100% ;
方差偏离百分比(SqrPer):SqrPer = SqrAcc / SqrAccBase * 100% ;
7、获得两个耦合度指标:
直接I禹合百分比(AmpFitPer):AmpFitPer = 100% - AmpPer ;
方差稱合百分比(SqrFitPer):SqrFitPer = 100% - SqrPer0
[0007]本发明是一种对折线中每个采样点的X轴、Y轴的取值,结合设定的X轴的允许分布偏离窗口,得到量化的耦合度、偏离度指标,进而可为指定的折线,从指定的折线集合中,寻找到匹配耦合度最高、偏离度最小的折线,从而得到最佳匹配折线对的数据分析系统。
[0008]假设:存在两条已经明确先发、后发关系的折线LineA、LineB,其中LineA为先发折线,LineB为后发折线,LineA的采样点的X轴区间为[AXmin, AXmax], LineB的采样点的X 轴区间为[BXmin, BXmax]。
[0009]折线:X轴具有单位,每个单位上具有一个采样点,每个采样点在Y轴上有取值。一般常见的应用场景为:(l)x轴为时间,单位为秒;(2)Y轴为数量,单位为次;(3)—个采样点(X,y)表示在时间X秒时间段(大于等于X秒时间点,小于χ+1秒时间点)内,发生某种事件共计1次;
先发折线、后发折线:先发折线,表示该折线对应的事件,应该发生在前。后发折线,表示该折线对应的时间,应该发生在后。
[0010]匹配:为先发折线的某次事件,从后发折线的所有事件中,按照允许分布偏离窗口规则,找到一个事件进行配对;先发折线的某次特定事件,最多只能与后发折线中的一个事件进行配对;后发折线中的一个事件,最多只能被先发折线中的一个事件配对。
[0011]允许分布偏离窗口:假定分布偏离窗口大小为N,在两条折线LineA、LineB之间,在进行稱合度分析时,允许先发折线的某个采样点(Ax, Ay)对应的Ay次事件,与LineB中的(Ν+1)个采样点进行耦合关联,LineB中对应的时间段范围为X,χ+1, χ+2,…,χ+Ν。
[0012]耦合度:在两条折线LineA、LineB之间,如果两条折线完全重合(采样点的取值相同),此种情况的耦合度必然为全耦合;如果LineA中的每个采样点对应的每次事件,都能够在允许分布偏离窗口对应的LineB的时间段范围内的采样点对应的若干次事件,获得唯一匹配对应事件,并且最终LineB中的每个采样点钟的每次事件,都已经被匹配对应,那么两条折线间的耦合度为全耦合;全耦合时,耦合度指标应当达到最高。
[0013]偏离度:偏离度说明的是未能够获得配对的严重程度,全耦合时,偏离度指标应当为O,不能匹配的越多,偏离度指标应当越高。
[0014]直接偏离:对应汇总折线的同一时间段,两个采样点的Y轴取值的差额的绝对值。
[0015]方差偏离:对应汇总折线的同一时间段,其直接偏离的乘方。
[0016]本方法旨在通过折线之间的对比分析,获得量化的折线间的耦合度、偏离度指标,从而为不同折线对之间的相似性比较提供比较方法,进而为指定的折线从若干个折线中,寻找到最佳匹配的折线。偏离度指标的值越大,说明折线之间的相似度越差;稱合度指标的值(可能为负数)越小,说明折线这件的相似度越差;当两个偏离度指标都为0%,两个耦合度指标都为100%,说明折线之间的相似度为100%。
[0017]作为优选,所述的SegLen的长度可在I个X轴时间段到20%的X轴合并区间[Xmin, Xmax]的长度范围内进行选择。该方案可以保证SegLen有适当的长度,又可以保证有适当多的采样点。
[0018]本发明的带来的有益效果是,解决了现有技术所存在的判断两条折线的相似度非常粗略,可靠性不高的技术问题,实现了一种能够数据化,且精确、可靠的判断两条折线的精确度的折线对比分析相似度的方法。
[0019]【专利附图】

【附图说明】
[0020]附图1是本发明的LineA、LineB的示意图;
附图2是本发明的LineSA、LineSB的示意图;
附图3是对LineSA、LineSB按照分段统计直接偏离、方差偏离的示意图。
[0021]
【具体实施方式】
[0022]下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
[0023]实施例:
如图1、图2、图3所示,本发明是一种一种折线对比分析相似度的方法,它包括初始A坐标存储模块、初始B坐标存储模块、合并坐标模块、计算模块,它包括如下步骤:
1、在初始A坐标存储模块储存有折线LineA坐标,在初始B坐标存储模块储存有折线LineB的坐标,AXmin> BXmin分别为LineA的X轴区间与LineB的X轴区间的最小值,AXmax、BXma x分别为LineA的X轴区间与LineB的X轴区间的最大值,将LineA的X轴区间与LineB的X轴区间均输入合并坐标模块,获得X轴合并区间[Xmin,Xmax],其中Xmin为AXmin, BXmin中的最小值,其中Xmax为AXmax, BXmax中的最大值;
2、将LineA在合并区间上没有采样点的时间段上,为LineA生成新的采样点,将LineB在合并区间上没有采样点的时间段(X轴单位)上,为LineB生成新的采样点;
3、在计算模块内设有两个区位用于保存偏离度,分别为直接偏离累计值区位AmpAcc、方差偏离累计值区位SqrAcc、并将AmpAcc和SqrAcc初始化为O,计算模块内还设有两个区位用于保存偏离基数,分别为直接偏离累计值基准区位AmpAccBase、方差偏离累计值基准区位 SqrAccBase,将 AmpAccBase 和 SqrAccBase 也初始化为 O ;
4、对合并区间[Xmin,Xmax]设于分段长度SegLen, SegLen的长度可在I个X轴时间段到20%的X轴合并区间[Xmin, Xmax]的长度范围内进行选择,将LineA,LineB的所有采样点,按照SegLen进行汇总分段,若N为自然数,则第N个分段SegN对应X轴合并缺件的X轴时间段为[N,N+SegLen]区间,包含从时间段编号I到N+SegLen的所有时间段,SegN的Y轴取值为相应时间段的采样点的Y轴取值的累加和,最终得到两条新的汇总折线LineSA,LineSB ;
5、按照分段,从第一个分段Segl到最后一个分段,进行遍历:
(1)对于当前分段SegCJfLineSA与LineSB在当前分段的Y轴取值进行相减然后取绝对值获得直接偏离AmpC,对AmpC进行乘方获得方差偏离AmpS ;
(2)将AmpC加到AmpAcc上,实现AmpAcc对于所有分段的直接偏离的累计;
(3)将AmpS加到SqrAcc上,实现AmpSqr对于所有分段的方差偏离的累计;
(4)将LineSA的当前取值的绝对值累加到AmpAccBase上,将LineSA的当前取值的绝对值的乘方累加到SqrAccBase上,获得两个偏离指标基准;
遍历结束后得到的AmpAcc代表了所有分段的直接偏离量的累计,而SqrAcc代表了所有分段的偏离乘方的累计;
6、获得两个偏离度指标:
直接偏离百分比(AmpPer):AmpPer = AmpAcc / AmpAccBase * 100% ;
方差偏离百分比(SqrPer):SqrPer = SqrAcc / SqrAccBase * 100% ;
7、获得两个耦合度指标:
直接I禹合百分比(AmpFitPer):AmpFitPer = 100% - AmpPer ;
方差稱合百分比(SqrFitPer):SqrFitPer = 100% - SqrPer0
【权利要求】
1.一种折线对比分析相似度的方法,它包括初始A坐标存储模块、初始B坐标存储模块、合并坐标模块、计算模块,其特征在于,它包括如下步骤: 1)、在初始A坐标存储模块储存有折线LineA坐标,在初始B坐标存储模块储存有折线LineB的坐标,AXmin> BXmin分别为LineA的X轴区间与LineB的X轴区间的最小值,AXmax、BXma x分别为LineA的X轴区间与LineB的X轴区间的最大值,将LineA的X轴区间与LineB的X轴区间均输入合并坐标模块,获得X轴合并区间[Xmin,Xmax],其中Xmin为AXmin, BXmin中的最小值,其中Xmax为AXmax, BXmax中的最大值; 2)、将LineA在合并区间上没有采样点的时间段上,为LineA生成新的采样点,将LineB在合并区间上没有采样点的时间段(X轴单位)上,为LineB生成新的采样点; 3)、在计算模块内设有两个区位用于保存偏离度,分别为直接偏离累计值区位AmpAcc、方差偏离累计值区位SqrAcc、并将AmpAcc和SqrAcc初始化为O,计算模块内还设有两个区位用于保存偏离基数,分别为直接偏离累计值基准区位AmpAccBase、方差偏离累计值基准区位 SqrAccBase,将 AmpAccBase 和 SqrAccBase 也初始化为 O ; 4)、对合并区间[Xmin,Xmax]设于分段长度SegLen, SegLen的长度为I个X轴时间段的倍数,将LineA,LineB的所有采样点,按照SegLen进行汇总分段,若N为自然数,则第N个分段SegN对应X轴合并缺件的X轴时间段为[N,N+SegLen]区间,包含从时间段编号I到N+SegLen的所有时间段,SegN的Y轴取值为相应时间段的采样点的Y轴取值的累加和,最终得到两条新的汇总折线LineSA, LineSB ; 5)、按照分段,从第一个分段Segl到最后一个分段,进行遍历: (1)对于当前分段SegC,将LineSA与LineSB在当前分段的Y轴取值进行相减然后取绝对值获得直接偏离AmpC,对AmpC进行乘方获得方差偏离AmpS ; (2)将AmpC加到AmpAcc上,实现AmpAcc对于所有分段的直接偏离的累计; (3)将AmpS加到SqrAcc上,实现AmpSqr对于所有分段的方差偏离的累计; (4)将LineSA的当前取值的绝对值累加到AmpAccBase上,将LineSA的当前取值的绝对值的乘方累加到SqrAccBase上,获得两个偏离指标基准; 遍历结束后得到的AmpAcc代表了所有分段的直接偏离量的累计,而SqrAcc代表了所有分段的偏离乘方的累计; 6)、获得两个偏离度指标: 直接偏离百分比(AmpPer):AmpPer = AmpAcc / AmpAccBase * 100% ; 方差偏离百分比(SqrPer):SqrPer = SqrAcc / SqrAccBase * 100% ; 7)、获得两个耦合度指标: 直接I禹合百分比(AmpFitPer):AmpFitPer = 100% - AmpPer ; 方差稱合百分比(SqrFitPer):SqrFitPer = 100% - SqrPer0
2.根据权利要求1所述的一种折线对比分析相似度的方法,其特征在于所述的SegLen的长度可在I个X轴时间段到20%的X轴合并区间[Xmin,Xmax]的长度范围内进行选择。
【文档编号】G06F19/00GK103473458SQ201310420053
【公开日】2013年12月25日 申请日期:2013年9月13日 优先权日:2013年9月13日
【发明者】王锦龙, 范渊, 杨永清 申请人:杭州安恒信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1